本發(fā)明提出的用于智能無人系統(tǒng)的基于評論家和雙經(jīng)驗池的深度確定性策略梯度強化學習方法及設備,屬于人工智能應用技術領域,主要包括:確定所述智能無人系統(tǒng)的智能體的觀測空間和動作空間大小,構建行動者actor模塊與評論家critic模塊;創(chuàng)建所述critic模塊中的多個評論家子模塊;創(chuàng)建雙經(jīng)驗池的環(huán)形數(shù)組數(shù)據(jù)結(jié)構;進行所述actor模塊與critic模塊的參數(shù)梯度更新與訓練過程,在達到了最大的迭代次數(shù)或者滿足終止條件后訓練過程結(jié)束。本發(fā)明能夠提供一種更高穩(wěn)定性和更高性能的強化學習方法,使得智能體的性能表現(xiàn)得到有效提升。
聲明:
“基于評論家和雙經(jīng)驗池的深度確定性策略梯度學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)