本發(fā)明公開了一種智能體最優(yōu)策略獲取方法及裝置,該方法包括:將智能體在與環(huán)境交互過程中接收的全局獎勵(lì)建模為單一智能體真實(shí)的局部獎勵(lì)和不可觀測環(huán)境狀態(tài)引起的隨機(jī)噪聲信號之和,構(gòu)建系統(tǒng)模型;利用卡爾曼濾波算法,從觀測到的多智能體系統(tǒng)中智能體在與環(huán)境交互過程中接收的全局獎勵(lì)中獲得當(dāng)前智能體對應(yīng)的局部獎勵(lì);根據(jù)各智能體對應(yīng)的局部獎勵(lì),通過預(yù)設(shè)的強(qiáng)化學(xué)習(xí)算法,對多智能系統(tǒng)中的各智能體進(jìn)行訓(xùn)練,使得每一智能體分別學(xué)習(xí)到當(dāng)前環(huán)境下的最優(yōu)策略。本發(fā)明解決了不平穩(wěn)環(huán)境下的多智能體系統(tǒng)信用分配問題,能提高多智能體系統(tǒng)在完成協(xié)作任務(wù)過程中計(jì)算的高效性和魯棒性。
聲明:
“智能體最優(yōu)策略獲取方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)