本發(fā)明公開了一種協(xié)作多智能體強(qiáng)化學(xué)習(xí)方法,步驟如下:獲取每個智能體的觀測信息和系統(tǒng)的全局狀態(tài);將獲取的每個智能體的觀測信息傳入深度神經(jīng)網(wǎng)絡(luò)計算得到智能體所有動作的狀態(tài)動作值;利用貪心規(guī)則進(jìn)行動作選擇;將采取的動作對應(yīng)的狀態(tài)動作值和全局觀測信息傳入獎勵高速路網(wǎng)絡(luò)中;獎勵高速路網(wǎng)絡(luò)進(jìn)行信息融合并輸入聯(lián)合的狀態(tài)動作值;利用環(huán)境給出的獎勵信號進(jìn)行梯度的反向傳播并更新神經(jīng)網(wǎng)絡(luò)的參數(shù)從而得到每個智能體的策略模型。本發(fā)明能夠降低多智能體系統(tǒng)訓(xùn)練過程中所需的數(shù)據(jù)量,并適合推廣到大規(guī)模的多智能體系統(tǒng)中。
聲明:
“協(xié)作多智能體強(qiáng)化學(xué)習(xí)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)