本發(fā)明提供一種在車輛的控制中能夠在車輛的生命周期中持續(xù)地兼顧強化學習中的探索和利用的控制裝置。其使用強化學習對規(guī)定系統(tǒng)進行規(guī)定的控制,控制裝置具有:檢測單元,其對規(guī)定系統(tǒng)的生命周期中的事件進行檢測;設定單元,其根據(jù)檢測到事件這一情況,將根據(jù)檢測到的事件而確定的探索參數(shù)設定為對強化學習中的探索的比例進行調整的值;以及處理單元,其按照所設定的探索參數(shù)來執(zhí)行使用了強化學習的規(guī)定的控制,在檢測到第一事件的情況下,設定單元以如下方式設定探索參數(shù):使在作為第一事件之后的第一期間設定的探索的比例小于在檢測到第一事件之前的第二期間設定的探索的比例。
聲明:
“控制裝置、控制裝置的控制方法、記錄介質、信息處理服務器、信息處理方法以及控制系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)