本發(fā)明公開一種基于模仿學習和強化學習算法的無人機飛行控制方法:創(chuàng)建無人機飛行仿真環(huán)境模擬器;定義飛行的基本動作集合;根據(jù)飛行基本動作將軌跡數(shù)據(jù)進行分類;對于每個飛行動作,利用模仿學習學出從飛行基本動作到原始動作的映射網(wǎng)絡(luò)參數(shù);統(tǒng)計每個基本動作的最小連續(xù)行動數(shù)量;構(gòu)建上層的強化學習網(wǎng)絡(luò),并將最小連續(xù)行動數(shù)量作為飛機動作不一致性的懲罰p加入;在模擬器中,獲取當前的觀測信息和獎勵,使用pDQN算法,選取對應飛行基本動作;將飛機自身的狀態(tài)信息輸入到飛行基本行動對應的模仿學習神經(jīng)網(wǎng)絡(luò)中,輸出模擬器的原始行動;將得到的原始行動輸入到模擬器中獲取下個時刻的觀測和獎勵;使用pDQN算法進行訓練,直到上層的策略網(wǎng)絡(luò)收斂。
聲明:
“基于模仿學習和強化學習算法的無人機飛行控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)