本發(fā)明公開了一種可遷移的基于示教和策略解耦的行為決策和狀態(tài)規(guī)劃學(xué)習(xí)算法,涉及強(qiáng)化學(xué)習(xí)領(lǐng)域,包括決策模塊,規(guī)劃模塊和決策規(guī)劃判別模塊,所述規(guī)劃模塊基于環(huán)境的狀態(tài)預(yù)測目標(biāo)狀態(tài),并交由所述決策模塊執(zhí)行,利用監(jiān)督學(xué)習(xí);所述決策模塊又稱為逆環(huán)境模塊,基于環(huán)境的狀態(tài)和所述規(guī)劃模塊預(yù)測的目標(biāo)狀態(tài)輸出決策信號(hào),即動(dòng)作;所述決策規(guī)劃判別模塊基于環(huán)境中采樣的狀態(tài)數(shù)據(jù)與專家示教數(shù)據(jù)進(jìn)行對(duì)抗學(xué)習(xí),給出用于所述規(guī)劃模塊學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)。本發(fā)明提高了泛化性。
聲明:
“可遷移的基于示教和策略解耦的行為決策和狀態(tài)規(guī)劃學(xué)習(xí)算法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)