研討會總結
2021年1月23日,第五屆深度強化學習理論與應用研討會順利舉行。上午在中科院自動化所分組討論交流了深度強化學習(DRL)與游戲,DRL與駕駛,DRL與機器人和自動機器學習。下午,邀請了幾位報告人在Zoom會議室/Bilibili在線直播,分別從深度強化學習及相關的模仿學習、小樣本學習、經驗回放機制、智能駕駛應用,統計前向規劃、聯邦學習等不同角度進行了深入淺出的精彩分享。線上直播最高峰有1.2萬人同時觀看。報告過程中大家討論積極,交流深入,收獲良多。在征求報告人同意之后,我們將為大家帶來精彩報告的回放視頻,請關注后續消息。
研討會詳情:https://mp.weixin.qq.com/s/8xwsTojX7dfOnAP5pS9r_A
會議時間:2021年1月23日
會議形式:ZOOM會議&Bilibili在線直播
主辦單位:
中科院自動化所復雜系統管理與控制國家重點實驗室
中國自動化學會
承辦單位:
中科院自動化所-深度強化學習團隊
中國自動化學會認知計算與系統專業委員會
研討會報告
第一場報告:
13:30-14:10:從數學與信息處理的視角看模仿學習
報告人:孫富春,清華大學長聘教授
報告首先回顧了從控制論到人工智能的發展歷史,特別強調了基于感知-動作模式的人工智能行為主義范式。進而,從數學的視角討論了行為模仿問題,給出了智能體二階情形下行為模仿的理論結果。接著,從控制工程和人工智能的視角討論行為模仿,給出了智能體行為模仿和技能的理論方法。最后了從優化函數和可解釋性等方面討論了數學方法、控制工程方法以及人工智能方法的異同,給出了三種方法強強聯合的理論框架。
第二場報告:
14:10-14:50:面向智能制造的認知計算與深度學習
報告人:文成林,廣東石油化工學院教授
介紹了課題組在深度學習、強化學習、多級聯邦學習等模型訓練與收斂性分析等方面的研究與進展。介紹在面向智能制造的認知計算理論與方法方面的新思想:非結構復雜問題的統一形式化描述與度量、一體化認知分析模型與認知計算方法、多智能形態統一測試平臺與評測體系等。
第三場報告:
14:50-15:30:Experience Replay in Deep Reinforcement Learning
報告人:陳春林,南京大學教授
報告介紹了在深度強化學習中廣泛應用的經驗回放機制設計。該機制使得在線強化學習算法可充分利用過去的經驗。詳細介紹了一系列用于提高采樣效率,更好地平衡探索和利用的經驗回放方法,包括優先經驗回放(PER)、使用自節奏優先課程學習的深度課程強化學習(DCRL)和量子啟發經驗回放(QER)。
第四場報告:
15:30-16:10:ApplyReinforcement Learning in Autonomous Vehicle Design
報告人:李升波,清華大學長聘教授
報告總結和回顧了主流的強化學習算法,以及在高級自動駕駛汽車應用中的工程挑戰,包括稀疏獎勵環境下的低收斂速度、安全約束和不可行性、不確定環境下的魯棒性增強等問題。最后,將介紹兩種最近開發的強化學習算法,即分布式Soft Actor-Critic(DSAC)和混合Actor-Critic(MAC),以及它們在自動駕駛汽車決策和運動控制中的應用。
第五場報告:
16:20-17:00: General Game AI with Statistical Forward Planning Algorithms
報告人:Simon Lucas,QUML Professor
報告介紹了統計前向規劃方法,是游戲人工智能常用的一種簡單快速的求解方法,包括蒙特卡羅樹搜索和滾動域演化算法。解釋了為什么這些算法如此有效,即使模型是不完整的,甚至可能是不正確的,只要求預測結果與真實結果具有等級相關性即可。描述了一些關于分層統計前向規劃的最近工作,改進了蒙特卡羅圖搜索算法,使其具有更好的樣本效率和長期學習的潛力。
第六場報告:
17:00-17:40:Communication-efficient and privacy-preserving federated learning
報告人:Yaochu Jin (金耀初),University of Surrey Professor
報告介紹了關于高效通信聯邦學習的兩種最新方法,一種是基于結合時間加權平均的異步模型更新,另一種是使用訓練過的三元量化。此外,提出了一種分布式附加加密方法,在不依賴可信第三方的情況下對局部模型參數進行加密,進一步增強了隱私保護。最后,簡要討論了聯邦學習中仍存在的挑戰和未來的工作。
來源:深度強化學習CASIA