本發(fā)明公開了一種基于強化學(xué)習(xí)的解決氣體勘測問題的方法,包括如下步驟:S1:定義解決氣體含量勘測問題需要的動作空間和狀態(tài)空間,為actor?演員角色和critic?評論家角色分別建立神經(jīng)網(wǎng)絡(luò)來處理動作的生成和評價的反饋;S2:將初始動作傳遞給問題環(huán)境,得到對應(yīng)的狀態(tài)和動作結(jié)果的獎懲值,以及l(fā)oss值,將loss值和獎懲值反饋給神經(jīng)網(wǎng)絡(luò)進行梯度下降處理得到下一步的動作;S3:將得到的狀態(tài)(氣體含量)進行氣體勘測,平衡多種約束條件再次利用強化學(xué)習(xí)概率選擇的能力去尋求最優(yōu)解。本發(fā)明利用算法強大的學(xué)習(xí)能力和神經(jīng)網(wǎng)絡(luò)高運算速率的優(yōu)勢去解決氣體勘測問題中尋找最優(yōu)解問題,解決了傳統(tǒng)遺傳算法時間長,復(fù)雜度高問題。
聲明:
“基于強化學(xué)習(xí)的解決氣體含量勘測問題的方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)