本發(fā)明公開了一種人工智能系統(tǒng)中流水行并行的GPU配置方法及系統(tǒng),其針對共享GPU集群,并應用于神經(jīng)網(wǎng)絡分布式訓練。為了解決共享GPU集群下流水行并行中GPU分配方案固定不變而導致無法動態(tài)調節(jié)GPU配置的問題,所述方法在下一次的訓練之前,根據(jù)靜態(tài)指標、動態(tài)指標得到若干新工作分區(qū),在動態(tài)指標中加入GPU的可用帶寬,使得新工作分區(qū)能反應GPU的動態(tài)可用資源;再引入了元網(wǎng)絡預測每個工作分區(qū)的訓練速度來篩選工作分區(qū),及引入強化學習來判斷是否更新當前的工作分區(qū),通過上述GPU配置方法得到的工作分區(qū)能適應于GPU的動態(tài)可用資源,更合理的進行分布式訓練,有效提高GPU資源利用率以及保證后續(xù)神經(jīng)網(wǎng)絡的訓練效率。
聲明:
“人工智能系統(tǒng)中流水行并行的GPU配置方法及系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)