報告題目:帶約束深度強化學習求解在線裝箱問題
報 告 人:徐凱教授 國防科技大學
報告時間:2020/10/15 9:40-10:20
報告地點:騰訊會議ID:129 960 052 密碼:1230
或點擊鍊接入會:
https://meeting.tencent.com/s/5lCKST0qZSKW
校内聯系人:伍鐵如wutr@jlu.edu.cn
報告摘要:
本次報告介紹基于帶約束深度強化學習實現在線裝箱(碼垛)問題的求解。裝箱問題是一個經典的NP難題。我們聚焦該問題的一個更難的變種——在線裝箱問題,即智能體僅能看到即将擺放的有限個箱子,而無法觀察到完整的箱子序列,因而很難實現全局優化。同時,一個箱子到來時,智能體必須馬上将其擺放好,不允許臨時暫存或反複調整。此外,箱子的擺放還必須考慮到箱子間的碰撞和垛體的穩定性。我們将該問題形式化為一個帶約束的馬爾可夫決策過程。為求解該問題,提出了一種簡單且有效的帶約束強化學習方法:基于actor-critic框架,提出了“預測-投影”的帶約束策略學習方法。該方法訓練一個網絡來預測可擺放區域作為輔助任務,并用預測的可擺放區域來調制強化學習的動作輸出。大量實驗表明,該方法在空間利用率、擺放數量和決策時間等方面都遠優于已有的、基于啟發式規則的方法。此外,我們的方法還可以很容易地擴展到前瞻k個箱子,多垛體同時擺放,以及允許箱子方向調整等諸多情形。
報告人簡介:
徐凱,國防科技大學教授。2011年于國防科大計算機學院獲得博士學位。西蒙弗雷澤大學、普林斯頓大學訪問學者。研究方向為數據驅動的幾何處理與建模、三維視覺及其機器人應用等。發表ACM SIGGRAPH/Transactions on Graphics論文20餘篇。共發表CCF A類論文40餘篇。擔任ACM Transactions on Graphics、Computer Graphics Forum、Computers and Graphics和The Visual Computer等期刊的編委。擔任CAD/Graphics 2017、ISVC 2018等國際會議的論文共同主席,以及SIGGRAPH、Eurographics等國際會議的程序委員。現任中國圖象圖形學會三維視覺專委會副主任,中國工業與應用數學學會幾何設計與計算專委會秘書長。曾獲湖南省自然科學一等獎、軍隊科技進步二等獎、全軍優秀博士論文獎、幾何設計與計算青年學者獎、湖湘青年英才獎、陸增镛CAD&CG高科技獎二等獎。獲國家優秀青年基金和湖南省傑出青年基金。