一種動態(tài)強(qiáng)化學(xué)習(xí)決策訓(xùn)練系統(tǒng),包括強(qiáng)化學(xué)習(xí)模型、訓(xùn)練環(huán)境模塊、強(qiáng)化學(xué)習(xí)模型與訓(xùn)練環(huán)境模塊之間的數(shù)據(jù)接口;訓(xùn)練環(huán)境模塊由環(huán)境執(zhí)行引擎模塊、觀測構(gòu)建模塊、回報(bào)計(jì)算模塊三個(gè)功能模塊構(gòu)成;環(huán)境執(zhí)行引擎模塊,用于維護(hù)一個(gè)底層狀態(tài)數(shù)據(jù)結(jié)構(gòu),輸出包含所有狀態(tài)信息的底層狀態(tài)數(shù)據(jù);觀測構(gòu)建模塊,用于負(fù)責(zé)將底層狀態(tài)數(shù)據(jù)轉(zhuǎn)換為適應(yīng)不同算法需求的狀態(tài)信息形式,在訓(xùn)練過程中訓(xùn)練環(huán)境模塊通過回調(diào)或動態(tài)加載機(jī)制調(diào)用對應(yīng)觀測構(gòu)建模塊將底層狀態(tài)數(shù)據(jù)重構(gòu)生成狀態(tài)信息;回報(bào)計(jì)算模塊,用于針對多種回報(bào)生成條件設(shè)置回報(bào)檢查點(diǎn),訓(xùn)練環(huán)境模塊執(zhí)行步長中計(jì)算檢查點(diǎn)回報(bào)值并輸出;強(qiáng)化學(xué)習(xí)模型與訓(xùn)練環(huán)境模塊之間的數(shù)據(jù)接口包括:狀態(tài)信息發(fā)送接口、動作接收接口、回報(bào)發(fā)送接口;極大增強(qiáng)算法普適性,降低接口設(shè)計(jì)難度,同時(shí)減小環(huán)境對算法形態(tài)的限制。
聲明:
“動態(tài)強(qiáng)化學(xué)習(xí)決策訓(xùn)練系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)