本發(fā)明公開了一種基于生成對抗機(jī)制的強(qiáng)化學(xué)習(xí)探索方法及裝置,其中,該方法包括:構(gòu)建第一動作價值網(wǎng)絡(luò)、第二動作價值網(wǎng)絡(luò)、狀態(tài)價值網(wǎng)絡(luò)、目標(biāo)狀態(tài)價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)、密度模型網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò);基于生成對抗機(jī)制和離線強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)過程,對第一動作價值網(wǎng)絡(luò)、第二動作價值網(wǎng)絡(luò)、狀態(tài)價值網(wǎng)絡(luò)、目標(biāo)狀態(tài)價值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)、密度模型網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò)進(jìn)行更新;根據(jù)更新的多個網(wǎng)絡(luò)生成更新后的策略模型,對策略模型進(jìn)行測試。該方法設(shè)計(jì)出一種利用探索過程中的正確決策加速和穩(wěn)定強(qiáng)化學(xué)習(xí)訓(xùn)練過程的探索算法。
聲明:
“基于生成對抗機(jī)制的強(qiáng)化學(xué)習(xí)探索方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)