2018年5月31日-6月1日,由中國自動化學會主辦的第五期智能自動化學科前沿講習班在北京成功舉辦,此次講習班由中國自動化學會副理事長、澳門大學講座教授陳俊龍和清華大學教授宋士吉共同擔任學術主任,此次講習班自發布通知日起,受到了相關領域全國各高校、企業的極大關注和踴躍報名,會議前兩天報名人數已達上限,達到講習班報名人數最高記錄,共200余位來自全國各高校、研究院所及企事業單位的參會代表參加了此次會議。
講習班開始由陳俊龍教授進行致辭,陳俊龍教授首先對學會的歷史沿革和發展現狀進行了簡要的介紹,并介紹了深度與寬度強化學習發展及應用,在致辭最后陳俊龍教授表示衷心希望參加此次講習班的學員可以有所得、有所獲。
陳俊龍教授首先為大家帶來題為“從深度強化學習到寬度強化學習:結構,算法,機遇及挑戰”的報告,陳俊龍教授的報告主要討論強化學習的結構及理論,包括馬爾科夫決策過程、強化學習的數學表達式、策略的構建、估計及預測未來的回報,同時也在報告中討論如何用深度神經網絡學習來穩定學習過程及特征提取、如何利用寬度學習結構跟強化學習結合。報告的最后陳教授指出了深度、寬度強化學習帶來的機遇與挑戰。
隨后為大家帶來報告的是清華大學宋士吉教授,宋教授的報告題目為“基于強化學習的深海機器人智能搜索與運動控制方法”,報告闡述了強化學習在深海機器人智能搜索與運動控制領域的算法研究及其應用,從熱液羽狀流智能搜索與深海機器人運動控制兩個方面開展工作。在熱液羽狀流智能搜索方面,研究基于強化學習和遞歸網絡的羽狀流追蹤算法。利用傳感器采集到的流場與熱液信號信息,將機器人搜索熱液噴口的過程建模為狀態行為域連續的馬爾科夫決策過程,通過強化學習算法得到機器人艏向的最優控制策略。在深海機器人運動控制方面,研究基于強化學習的軌跡跟蹤與最優深度控制算法。在機器人系統模型未知的情況下,將控制問題建模成連續狀態動作空間的馬爾可夫決策過程,并構建評價網絡與策略網絡,通過確定性策略和神經網絡學習得到最優控制策略。
第一天下午第一個為大家帶來報告的是北京交通大學侯忠生教授,侯教授為大家帶來的報告題目為“數據驅動的自適應學習控制”。報告主要分為四部分內容,侯教授首先介紹了迭代軸上的學習控制和時間軸上的學習控制(即無模型自適應控制),之后主要介紹了學習控制的統一框架及主要結論。
隨后由清華大學季向陽教授帶來題為“強化學習及智能控制與決策”的報告,季教授的報告主要介紹科研工作中與強化學習相關的工作,包括面向多智能體控制等的智能控制方法與決策等。
第一天的最后一個報告為西安交通大學陳霸東教授帶來的“核自適應濾波與寬度學習”。核自適應濾波器(Kernel Adaptive Filters)是近年來興起的在可再生核希爾伯特空間(RKHS)中實現的一類非線性自適應濾波器,其拓撲結構為線性增長的單隱層神經元網絡。其基本思想是:首先,將輸入信號映射到高維核空間;然后,在核空間中推導線性濾波算法;最后,利用核技巧(Kernel Trick)得到原信號空間中非線性濾波算法。與傳統非線性濾波器比較,核自適應濾波器具有以下優點:(a)如果選取嚴格正定的Mercer核函數,具有萬能逼近能力;(b)性能曲面在高維核空間中具有凸性,因此理論上不具局部極值;(c)隱節點由數據驅動生成,減少了人工參與;(d)具有自正則性(Self-regularization),可有效防止過擬合。因此,核自適應濾波概念提出以后引起了國內外研究者廣泛興趣,越來越多的相關算法被提出,并被應用到諸多領域。核自適應濾波與最近興起的寬度學習(Broad Learning)關系密切,可以認為是一類基于核方法的寬度學習算法。陳教授的報告深入系統地闡述了核自適應濾波的基本思想、主要算法、性能分析、典型應用,以及如何將其與寬度學習納入統一框架。
第二天首先為大家帶來報告的是中車株洲電力機車有限公司楊穎工程師,楊穎工程師的報告題目為“軌道交通車輛預測與健康管理(PHM)技術應用”。報告首先對智慧列車進行了簡要介紹,其次介紹了智慧列車總體方案及智慧列車PHM方案,報告的最后一部分楊穎工程師結合應用實例介紹了基于PHM 的運維方案。
中國科學院自動化研究所趙冬斌研究員為大家帶來題為“深度強化學習算法及應用”的報告。將具有“決策”能力的強化學習和具有“感知”能力的深度學習相結合,形成深度強化學習方法,成為人工智能的主要方法之一。2013年,谷歌DeepMind團隊提出了一類DRL方法,在視頻游戲上的效果接近或超過人類游戲玩家,成果發表在2015年的《Nature》上。2016年,相繼發表了所開發的基于DRL的圍棋算法AlphaGo,以4:1戰勝了世界圍棋冠軍和超一流圍棋選手李世石,使圍棋AI水平達到了一個前所未有的高度。2017年初,AlphaGo的升級程序Master,與60名人類頂級圍棋選手比賽獲得不敗的戰績。2017年10月,DeepMind團隊提出了AlphaGo Zero,完全不用人類圍棋棋譜而完勝最高水平的AlphaGo,再次刷新了人們的認識。并進一步形成通用的Alpha Zero算法,超過最頂級的國際象棋和日本將棋AI。DRL在視頻游戲、棋類博弈、自動駕駛、醫療等領域的應用日益增多。趙冬斌研究員的報告介紹了強化學習、深度學習和深度強化學習算法,以及在各個領域的典型應用。
下午第一個為大家帶來報告的是浙江大學劉勇教授,劉勇教授的報告題目為“正則化深度學習及其在機器人環境感知中的應用”。近年來,隨著人工智能技術的飛速發展,深度神經網絡技術在圖像分析、語音識別、自然語言理解等難點問題中都取得了十分顯著的應用成果。然而該技術在機器人感知領域的應用相對而言仍然不夠成熟,主要源于深度學習往往需要大量的訓練樣本來避免過擬合、提升泛化能力,從而降低其在測試樣本上的泛化誤差,而機器人環境感知中涉及的任務與環境具有多樣化特性,且嚴重依賴于機器人硬件平臺,因而難以針對機器人各感知任務提供大量標注樣本;其次,對于解不唯一的病態問題,即使提供大量的訓練數據,深度學習方法也難以在測試數據上提供理想的估計,而機器人感知任務中所涉及的距離估計、模型重構等問題就是典型的病態問題,其輸入中沒有包含對應到唯一輸出的足夠信息。針對上述問題,劉勇教授的報告以提升深度學習泛化能力為目標、以嵌入先驗知識的正則化方法為手段、以機器人環境感知為應用背景進行了詳細介紹。
下午第二個為大家帶來報告的是清華大學副教授游科友,報告題目為“分布式優化算法與學習”。隨著訓練參數與樣本規模的急激增長,深度學習在實際應用系統中顯示出巨大的應用前景。分布式與并行優化是指通過多求解器來協作求解的一類優化問題,其在大規模數值計算、機器學習、資源分配、傳感器網絡等有重要的研究意義和應用價值,并成為了大規模優化與學習中最具挑戰性的問題之一。報告首先討論了分布式優化的幾個典型難點問題,其次以魯棒凸優化為例,提出了分布式原-對偶求解算法與分布式Polyak算法,并嚴格證明了算法的有效性。
學會秘書處 供稿