本發(fā)明提供了一種基于對手模型和迭代推理的策略識別與重用方法,包括離線學習階段和在線重用階段,離線學習階段通過強化學習算法得到對手當前策略的應對策略并用于構建策略庫,獲取對手當前行為數據構建對手模型,依托對手模型構建基于效用值的性能模型;在線重用階段獲取效用值和對手行為信息,通過迭代推理估計對手策略,調用策略庫中的應對策略進行重用。本發(fā)明引入了回合內信念用于實時修正貝葉斯迭代推理的結果,結合對手模型可以在回合內識別對手策略是否改變,并及時采用最優(yōu)應對策略;回合內信念的更新僅需要觀測對手行為而不依賴效用值函數;本發(fā)明可以識別回合內切換策略、回合間隨機切換策略且具有推理能力的對手,并重用最優(yōu)應對策略。
聲明:
“基于對手模型和迭代推理的策略識別與重用方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)