本發(fā)明涉及海上多智能體強化學(xué)習(xí)算法效能可解釋研究領(lǐng)域,具體涉及一種基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法及系統(tǒng)。
背景技術(shù):
1、隨著經(jīng)濟和無人控制技術(shù)的快速發(fā)展,民用領(lǐng)域?qū)o人艇的需求不斷增大。水面無人艇作為一種新型的水面載具,能夠以較低的費效比實現(xiàn)在廣闊海域的作業(yè)任務(wù)。隨著無人艇在海洋探索中的優(yōu)勢愈發(fā)凸顯,無人艇集群作業(yè)將會成為未來海洋探索的重要發(fā)展趨勢之一。同時多智能體強化學(xué)習(xí)技術(shù)在無人艇應(yīng)用領(lǐng)域的需求不斷增大,應(yīng)用于無人艇協(xié)同作業(yè)的多智能體強化學(xué)習(xí)算法獲得快速發(fā)展,多艘無人艇之間通過信息交互、協(xié)同作業(yè),能夠提高整體海上作業(yè)效率、降低作業(yè)成本。
2、目前多智能體強化學(xué)習(xí)領(lǐng)域的研究熱點大都趨向于多智能體強化學(xué)習(xí)算法的設(shè)計和優(yōu)化改進上,往往輕視或者忽略了算法行為的可解釋性,對于如何得到應(yīng)用到實際場景中多智能體強化學(xué)習(xí)算法的可解釋研究較少,尚未有一套成熟、完整的算法可解釋評估流程體系。
3、為了幫助人們進一步理解多智能體強化學(xué)習(xí)算法的行為,理解算法行為對于算法的持續(xù)改進和優(yōu)化至關(guān)重要。針對實際應(yīng)用場景中多智能體強化學(xué)習(xí)算法的可解釋性,主要面臨以下幾個難點:首先,在構(gòu)建算法評估指標(biāo)體系時,很少量化目標(biāo)船只的動態(tài)和行為,未層次化構(gòu)建評估指標(biāo)體系,導(dǎo)致指標(biāo)體系不完整,結(jié)構(gòu)不清晰;其次,傳統(tǒng)的算法效能的可解釋方法都是基于圖像的方法,通過可視化圖像中的像素解釋任務(wù),應(yīng)用到多智能體強化學(xué)習(xí)算法中,處理不夠靈活;最后,傳統(tǒng)的shapley解釋方法假設(shè)特征間的獨立性,但在實際情況中,特征之間往往存在依賴性,互相影響,因此傳統(tǒng)的shapley不適用于解釋實際應(yīng)用場景中多智能體強化學(xué)習(xí)算法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法及系統(tǒng)。
2、實現(xiàn)本發(fā)明目的的技術(shù)方案為:一種基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,包括如下步驟:
3、步驟1,建立海上多智能體強化學(xué)習(xí)算法仿真環(huán)境,建立適配多智能體強化學(xué)習(xí)算法應(yīng)用場景的評估指標(biāo)體系;
4、步驟2,基于步驟1建立的海上多智能體強化學(xué)習(xí)算法仿真環(huán)境和評估指標(biāo)體系,在海上仿真環(huán)境中對不同條件下的海上多智能體強化學(xué)習(xí)算法仿真環(huán)境算法進行仿真,采集評估指標(biāo)原始數(shù)據(jù),利用指標(biāo)原始數(shù)據(jù)依托專家知識得到算法評估值,將采集到的指標(biāo)原始數(shù)據(jù)和算法評估值構(gòu)成評估樣本;
5、步驟3,構(gòu)建基于多層感知機的評估預(yù)測模型,模仿專家知識用于預(yù)測算法效能評估值;基于步驟2得到的評估樣本訓(xùn)練評估預(yù)測模型,同時改進評估預(yù)測模型學(xué)習(xí)訓(xùn)練的損失函數(shù)的設(shè)計,獲得更好的學(xué)習(xí)訓(xùn)練模型,實現(xiàn)預(yù)測待評估樣本的算法效能評估值;
6、步驟4,基于步驟2得到的評估樣本,選取數(shù)據(jù)構(gòu)成背景數(shù)據(jù)集;基于經(jīng)驗條件分布建模特征間的依賴性,在背景數(shù)據(jù)集中形成滿足特征獨立性的條件分布;
7、步驟5,基于步驟4得到的經(jīng)驗條件分布,在deep-shap方法中引入經(jīng)驗條件分布和模型梯度,得到基于經(jīng)驗條件分布改進的deep-shap可解釋方法,從而計算評估指標(biāo)體系中所有指標(biāo)對算法效能評估預(yù)測值的shapley值;
8、步驟6,基于步驟5得到的shapley值,可視化特征重要性排序。
9、一種基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估系統(tǒng),用于實現(xiàn)上述的評估方法,系統(tǒng)包括:
10、第一模塊,用于建立適配多智能體強化學(xué)習(xí)算法應(yīng)用場景的海上算法仿真環(huán)境與評估指標(biāo)體系;
11、第二模塊,基于第一模塊建立的算法仿真環(huán)境和評估指標(biāo)體系,在海上算法仿真環(huán)境中對不同實際場景下的多智能體強化學(xué)習(xí)算法進行仿真,采集評估指標(biāo)原始數(shù)據(jù),利用指標(biāo)原始數(shù)據(jù)依托專家知識得到算法評估值,將采集到的指標(biāo)原始數(shù)據(jù)和算法評估值構(gòu)成評估樣本;
12、第三模塊,構(gòu)建基于多層感知機的評估預(yù)測模型,模仿專家知識用于預(yù)測算法效能評估值;基于第二模塊得到的評估樣本訓(xùn)練評估預(yù)測模型,同時改進評估預(yù)測模型學(xué)習(xí)訓(xùn)練的損失函數(shù)的設(shè)計,獲得更好的學(xué)習(xí)訓(xùn)練模型,實現(xiàn)預(yù)測待評估樣本的算法效能評估值;
13、第四模塊,基于第二模塊得到的評估樣本,選取數(shù)據(jù)構(gòu)成背景數(shù)據(jù)集,基于經(jīng)驗條件分布建模特征間的依賴性,在背景數(shù)據(jù)集中形成滿足特征獨立性的條件分布;
14、第五模塊,基于第四模塊得到的背景數(shù)據(jù)集與改進的deep-shap方法,計算評估指標(biāo)體系中所有指標(biāo)對待評估樣本的算法效能評估預(yù)測值的shapley值;
15、第六模塊,基于第五模塊得到的shapley值,可視化特征重要性排序。
16、一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法。
17、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法。
18、與現(xiàn)有技術(shù)相比,本發(fā)明由于采用以上技術(shù)方案,能夠取得如下的技術(shù)效果:(1)本發(fā)明綜合考慮了完整性、層次性和準(zhǔn)確性等原則,對多智能體強化學(xué)習(xí)算法在不同的實際應(yīng)用場景中,構(gòu)造一套科學(xué)完整的多智能體強化學(xué)習(xí)算法效能評估指標(biāo)體系;(2)提出的基于多層感知機的算法效能評估預(yù)測模型,充分利用了實際仿真環(huán)境中的真實樣本數(shù)據(jù),同時改進訓(xùn)練過程中損失函數(shù)的設(shè)計,有效提升了預(yù)測精度;(3)提出的基于經(jīng)驗條件分布改進的deep-shap方法,解決了傳統(tǒng)shapley方法假設(shè)實際場景中特征獨立的問題,用經(jīng)驗條件分布建模實際情況中特征間的依賴性,進而計算出更加精確的shapley值。
1.一種基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,步驟1包括:
3.根據(jù)權(quán)利要求2所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,步驟2包括:
4.根據(jù)權(quán)利要求3所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,步驟3包括:
5.根據(jù)權(quán)利要求4所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,步驟4包括:
6.根據(jù)權(quán)利要求5所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,步驟5包括:
7.根據(jù)權(quán)利要求6所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法,其特征在于,步驟5中,基于得到的單個樣本與背景數(shù)據(jù)集的shapley值,可視化特征重要性排序。
8.一種基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估系統(tǒng),其特征在于,用于實現(xiàn)權(quán)利要求1-7任一所述的方法,系統(tǒng)包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-7中任一所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一所述的基于shapley加性解釋的多智能體強化學(xué)習(xí)算法效能可解釋評估方法。