【導讀】2024年6月2日,由中國自動化學會、北京市科學技術協會主辦的2024國家新質生產力與智能產業發展會議在北京友誼賓館舉辦。本次會議以“追新逐質,智創未來”為主題,邀請了10位院士及百余位長江杰青、高校和科研院所的校長、院長等學術精英與會,500余名來自學術界和產業界的本領域專家、學者、學生等參會。
本次大會特別設立八大平行會議,在“具身智能平行會議”上,邀請同濟大學史淼晶教授作題為“大模型驅動的文本引導式視覺場景感知”的專題報告,報告介紹了大模型的興起和他所在的課題組在大模型驅動的文本引導式視覺場景感知方面的探索,包括文本指引的物體檢測、場景分割、場景圖檢測等。
一、大模型的興起
在深度學習領域,Attention機制自2017年提出以來已經成為大家熟知的重要技術,其代表性論文是《Attention is All You Need》,這一研究不僅重塑了傳統基于卷積神經網絡的架構,還直接推動了大語言模型的發展。
大語言模型的發展大致可以分為兩個階段。第一個階段以BERT為代表。BERT采用了“掩碼語言模型”(Masked Language Model,MLM)的優化方式。具體而言,給定一段文本,將其中某個詞去掉,然后通過基于Attention機制的語言模型預測該詞。這種方式類似于完形填空,即模型既能看到前面的詞,也能看到后面的詞,從而預測中間的詞。
第二個階段是從GPT的誕生開始。GPT采用了一種不同的優化方式,稱為“下一個詞預測”(Next Token Prediction)。在這種方式下,模型在預測下一個詞時只能看到前面的話,而看不到后續的詞。BERT的Attention機制是雙向交互的,即前后的詞都能看到;而GPT的Attention機制只能看到歷史信息,無法看到未來的詞,這種改進使得GPT的性能得到了顯著提升。
GPT除了訓練機制的變化外,還引入了“人類反饋”(Human Feedback),這一點尤為重要。在傳統的監督學習之后,通過獎勵模型對比GPT生成的語言對話,并由人工標注實際的“真值”(Ground Truths)來評估生成內容的質量并進行排序。排序后的數據用于強化學習,使模型在與人的互動中不斷更新能力。然而,在實際使用過程中,GPT并不會在每次與用戶的互動中更新模型,它會在一個會話內增長知識,但會話結束后這些知識一般不會保留。
近年來,涌現了許多的多模態大模型。多模態大模型將圖像和文本結合,代表性方法包括Flamingo、BLIP、LAVA和InstructBLIP。這些工作關注的關鍵點在于如何讓語言信息與視覺信息進行交互。早期的交互通過對齊(Alignment)實現,即將視覺和相應的語言描述在空間距離上盡可能接近。后來,BLIP等方法引入了生成式概念,即通過圖像輔助生成語言信息。
基于大語言模型的多模態模型還催生了許多文本引導式的方法,其中包括上下文學習(In-Context Learning)、思維鏈(Chain-of-Thought)以及檢索增強(Retrieval-Augmented)。上下文學習類似于元學習(Meta Learning),即在訓練后提供一些樣例,讓模型快速進行推理;思維鏈設計通過引導模型逐步解決復雜問題,先給出解題思路,再得出答案;而檢索增強則是通過生成相關問題來提高模型能力。文本引導式的方法促進了具身智能的感知和視覺感知,成為了當前研究的重要方向。
二、大模型驅動的文本引導式感知:手術器械分割
在腔鏡手術中,手術器械分割是一項至關重要的任務。腔鏡環境下的視覺感知極其受限,無論是光照還是視野范圍都存在諸多挑戰。手術器械之間的分辨率較低,容易混淆,而且器械之間經常會有遮擋現象。這些問題使得器械分割變得更加困難。傳統方法通常基于視覺模型,例如U-Net來進行分割。為了提升分割效果,我們引入了文本信息,即通過文本信息的輔助來改善分割結果。
手術器械分割方法的整體框架分為三個部分:文本特征提取、圖像特征提取及其交互處理,最終輸出分割結果。我們使用編碼器對文本和圖像進行特征提取。完成特征提取后,使用基于Attention的交互和基于卷積的特征交互方法。其中,Attention機制適用于全局交互,即一個特征與所有特征之間的交互。而卷積機制適用于局部交互,通過生成卷積核W和B,在圖像特征上滑動,實現局部特征交互。全局與局部交互的結合,能夠更好地處理手術器械分割任務。
研究初期,借鑒了CLIP模型的思想,我們嘗試引入文本信息,通過醫生對手術器械的描述輸入網絡,效果得到了顯著提升。隨后,利用GPT生成手術器械的類別描述,將手工描述、模板描述和GPT生成的描述結合,通過門控網絡加權求和,得到了優化的分割結果。
為解決手術器械遮擋問題,我們引入了重建輔助分支。在預測分割掩碼的同時,提取難以預測的區域,通過重建提高分割的魯棒性。這些過程共享同一個主干網絡,從而增強特征學習的魯棒性。
實驗結果表明,在醫學領域首次引入文本信息,可以顯著提升分割效果,與SAM模型相比也有明顯優勢。通過交叉驗證實驗,在A數據集訓練、B數據集測試的情況下,即使類別不完全一致,加入文本信息后,結果依然大幅提高,甚至超過了單純視覺方法的全監督效果。
我們的研究工作表明,文本信息在手術器械分割中具有重要作用,通過多種方法的結合,可以顯著提升分割性能。
三、大模型驅動的文本引導式感知:特定物體分割
在一張圖像中分割出特定物體,或在視頻中跟蹤特定顏色的物體,采用基于文本指代的分割方法如何實現上述構想是課題主要研究內容。在研究這一問題時,我們首先考察現有的方法,發現這些方法仍舊存在一些問題。特定物體的指代式分割往往傾向于文本指代的后半部分信息。例如,在一個描述為“一個穿白色衣服的人在行走”的文本指代中,模型可能更關注“行走”這一動作,而忽略了具體的描述對象。這導致模型錯誤地將穿西裝的人分割出來,而不是穿白色衣服的人。
基于這一觀察,我們提出了新的方法。除了給出原始的指代文本外,我們還提取出描述對象及其形容詞的信息,并行進行分割,然后讓它們進行交互,提取出分割需要的信息。具體是從指代文本中提取出主語及其形容詞描述信息,然后將這些信息一起輸入模型進行預測。實驗發現,較短的描述應該包含較長描述的分割結果。例如,描述為“穿藍色衣服的跑步運動員”時,預測結果應包含“領跑的藍衣運動員”的分割結果。我們將這種包含關系作為約束,加入到模型優化中,以提升預測精度。此外,還引入了光流信息。在視頻中,當物體運動時,通過前向光流和反向光流,可以將預測的物體在不同幀之間映射到某一幀上,確保這些幀的預測結果與標注物體重疊。
最終結果表明,這種方法與其他方法相比分割效果大幅提升,并且可以嵌入任何現有方法中。
四、大模型驅動的文本引導式感知:全景場景圖檢測
對于全景場景圖檢測,我們同樣采用文本指代的方法。全景場景圖生成或檢測是一項復合任務,包括全景分割和關系檢測。給定一張圖像,首先對其進行全景分割,將圖像中的所有物體和背景進行分割,然后預測和檢測任意兩個物體之間的關系。最終結果是一個圖形結構,表示物體節點及其之間的關系,這對于場景理解非常重要。
傳統方法主要基于視覺模型,存在長尾問題。長尾問題指的是某些關系的出現頻率非常高(如“跑步”、“工作”),而另一些關系(如“接吻”、“蕩秋千”)則較為罕見,這使得模型更傾向于高頻關系,忽略低頻關系。
為解決這一問題,我們引入了語言信息來輔助視覺預測。通過提取與視覺場景相關的語言描述信息,可以幫助模型更準確地預測關系。例如,描述“人清潔大象”的語言信息包括“人可以使用水管或水桶清潔大象,位置通常在大象旁邊或背上”。這些信息可以顯著幫助視覺預測。
全景場景圖檢測方法的框架包括三個步驟:文本提取、視覺提取和交互。首先,使用全景分割器進行視覺提取,生成任意兩個物體之間的相對關系特征。然后,通過大模型的思維鏈設計,進行文本特征提取。最后,讓大模型扮演兩種角色:關系提議提示和關系判斷提示。
關系提議提示是告訴大模型兩種物體(如人和自行車)之間可能存在的關系,大模型會返回可能的關系(如“騎自行車”、“走在旁邊”)。關系判斷提示是給定一種關系(如“人站在自行車旁邊”),大模型會判斷其是否存在,并提供解釋。
有了這些信息后,便可以將文本信息與視覺信息進行交互。在完成視覺分割后,將分割結果輸入大模型,讓其生成關系提議,并提取這些關系的文本特征。這些文本特征與視覺特征進行相似度計算,如果兩者相似度高,則說明文本描述的信息與當前視覺場景中物體之間的關系一致。
全景場景圖檢測方法模型交互過程不僅計算了相似度,還設計了兩種解碼器和匈牙利算法進行結果優化。最終,該方法在場景圖檢測任務中性能取得了顯著提升,這也是首次將大模型應用于此任務的工作。
五、總結與展望
我們從大語言模型中提取了有意義的文本信息,并將其應用于多項研究工作中。這些研究有的完全不依賴特定領域微調,而是可以直接進行推理。在算力有限的情況下,使用預訓練的大模型仍能有效解決許多下游任務,包括單模態的視覺任務和多模態任務。未來,在大模型的賦能下,具身智能的感知能力將會得到顯著提升。
(本文根據作者所作報告速記整理而成)