本發(fā)明涉及一種基于深度強(qiáng)化學(xué)習(xí)的飛行器探測傳感器資源調(diào)度方法,屬于計算機(jī)應(yīng)用技術(shù)領(lǐng)域,該方法為調(diào)度模型構(gòu)建、調(diào)度策略的離線訓(xùn)練和飛行器探測資源調(diào)度的在線決策三個步驟。飛行器探測資源調(diào)度模型的構(gòu)建是在考慮各類調(diào)度影響因素的前提下,將飛行器探測資源調(diào)度過程抽象為馬爾可夫決策過程,明確調(diào)度問題中的要素在馬爾可夫決策模型中的具體表示;調(diào)度策略的離線訓(xùn)練是在深度強(qiáng)化學(xué)習(xí)理論的基礎(chǔ)上建立Critic與Actor網(wǎng)絡(luò),將飛行器探測調(diào)度環(huán)境與其馬爾可夫決策模型交互過程中獲取的數(shù)據(jù)作為網(wǎng)絡(luò)輸入進(jìn)行網(wǎng)絡(luò)參數(shù)的更新與策略的訓(xùn)練。本發(fā)明有效提高了探測資源調(diào)度的自主決策能力,并解決飛行器探測過程中資源分配不合理的問題。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的飛行器探測傳感器資源調(diào)度方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)