本發(fā)明公開了一種基于等效子空間的強化學習狀態(tài)分層方法:通過智能體單個時間步對環(huán)境的觀測數(shù)據(jù)生成狀態(tài)語義特征向量,將其與通過環(huán)境交互產(chǎn)生的相關信息組成狀態(tài)表示向量,并收集預設回合內(nèi)的狀態(tài)表示向量組成狀態(tài)表示集,通過聚類分析生成若干等效子空間,得到等效狀態(tài)劃分;基于等效狀態(tài)劃分,在學習訓練過程中對智能體觀測的狀態(tài)進行分類計算,得到包含類別信息的one?hot子狀態(tài)向量;學習訓練過程中基于one?hot子狀態(tài)向量進行后續(xù)策略計算,并以預設時間分辨率通過上述步驟重新更新狀態(tài)等效劃分。本發(fā)明將狀態(tài)空間劃分為不同抽象層次的等效狀態(tài)子空間,以解決智能體強化學習狀態(tài)空間過大的問題,提升環(huán)境搜索效率,為強化學習算法提供可解釋基礎。
聲明:
“基于等效子空間的強化學習狀態(tài)分層方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)