本發(fā)明具體涉及一種基于深度安全強化學習的機器人無地圖導航方法,具體包括:初始化訓練環(huán)境,設計移動機器人獎勵函數和安全風險代價函數;利用傳感器檢測的圖像信息和激光雷達信息,結合移動機器人的目標信息和運動信息,將各狀態(tài)信息進行處理后經Actor網絡輸出決策動作到機器人,機器人執(zhí)行Actor網絡輸出的動作,從環(huán)境中得到下一時刻新的狀態(tài)觀測及獎勵信息,將機器人與環(huán)境交互得到的經驗存入經驗池,定期更新網絡參數;判斷是否訓練結束,將訓練好的模型應用于真實移動機器人進行導航。本發(fā)明基于演員?評論家?安全(ACS)框架的深度安全強化學習,通過引入約束性策略優(yōu)化(CPO)算法,提升了強化學習用于無地圖導航任務的安全性。
聲明:
“基于深度安全強化學習的機器人無地圖導航方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)