本發(fā)明公開了一種基于視覺信息的深度強化學(xué)習(xí)DDPG算法的機器臂抓取控制方法,旨在解決現(xiàn)有技術(shù)中機械臂工作場景靈活性差,場景變動后,人工示教調(diào)試慢,效率低等技術(shù)問題。該方法首先采用卷積神經(jīng)網(wǎng)絡(luò)并融合卡爾曼濾波,對待抓取的物體進行實時檢測與跟蹤,并提取待抓取物體的平面3D位姿信息。設(shè)計一種基于末端執(zhí)行器速度平滑約束的示教機制,解決經(jīng)典DDPG網(wǎng)絡(luò)在初始化訓(xùn)練初由于動作隨機導(dǎo)致的有效數(shù)據(jù)少,算法效率低的問題;并設(shè)計基于能量約束歸一化非線性獎勵函數(shù),把輸入到深度強化學(xué)習(xí)網(wǎng)絡(luò)的數(shù)據(jù)解算至相同的區(qū)間,并且對變量進行非線性的函數(shù)映射,使得網(wǎng)絡(luò)梯度下降的時候速率更快,提高訓(xùn)練效率和機械臂在靠近目標物體附近時產(chǎn)生的抖動問題;基于仿真環(huán)境對強化學(xué)習(xí)網(wǎng)絡(luò)進行預(yù)訓(xùn)練,并對待抓取物體位姿進行顯示表達,使得該算法在新對象和環(huán)境中具有更強的泛化能力,將快速遷移到真實世界的機械臂上面。
聲明:
“基于視覺信息的深度強化學(xué)習(xí)DDPG算法的機械臂抓取控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)