本發(fā)明涉及圖像理解領(lǐng)域,其公開了一種基于推敲注意力機制的圖像描述生成系統(tǒng)及方法,解決現(xiàn)有圖像描述方案存在的缺少潤色過程、訓(xùn)練和測試過程不一致、生成描述辨識度不高的問題。該方法包括:a.數(shù)據(jù)集的處理:提取圖像的全局特征和局部特征,構(gòu)建數(shù)據(jù)集,對數(shù)據(jù)集中的單詞進行標(biāo)記,生成對應(yīng)的詞嵌入向量;b.訓(xùn)練圖像描述生成模型:采用第一層基于殘差注意力機制的解碼器生成粗略的圖像描述,采用第二層基于殘差注意力機制的解碼器對已生成的圖像描述進行潤色;c.結(jié)合強化學(xué)習(xí)進一步訓(xùn)練模型:在訓(xùn)練過程中模擬模型的測試過程,并且以生成描述的CIDEr分?jǐn)?shù)來引導(dǎo)模型的訓(xùn)練,結(jié)合強化學(xué)習(xí)對模型進行調(diào)整。
聲明:
“基于推敲注意力機制的圖像描述生成系統(tǒng)及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)