首個通用雙向Adapter多模態目標追蹤方法BAT,入選AAAI 2024

目標追蹤是電腦視覺的基礎視覺任務,由於電腦視覺的快速發展,單模態(RGB) 目標追蹤近年來取得了重大進展。考慮到單一成像感測器的局限性,我們需要引入多模態影像(RGB、紅外線等) 來彌補這一缺陷,以實現複雜環境下全天候目標追蹤。

然而,現有的多模態追蹤任務也面臨兩個主要問題:

  1. 由於多模態目標追蹤的資料標註成本高,大多數現有資料集規模有限,不足以支援建構有效的多模態追蹤器;
  2. 因為不同的成像方式在變化的環境中對物體的敏感度不同,開放世界中主導模態是動態變化的,多模態資料之間的主導相關性並不固定。

在RGB 序列上進行預訓練,然後以完全微調的方式轉移到多模態場景的許多多模態追蹤工作存在時間昂貴和效率低下的問題,同時表現出有限的性能。

除了完全微調方法之外,受自然語言處理(NLP) 領域參數高效微調方法成功的啟發,一些最近的方法透過凍結骨幹網路參數並附加一組額外可學習的參數,將參數高效prompt 微調引入到多模態追蹤中。

這些方法通常以一種模態(通常是RGB) 為主導模態,另一種模態作為輔助模態。然而,這些方法忽略了多模態資料的動態主導相關性,難以在如圖1 所示的複雜場景中充分利用互補的多模態訊息,從而限制了追蹤效能。

圖片

圖 1:複雜場景下不同的主導模態。

為了解決上述問題,來自天津大學的研究人員設計出了一種雙向adapter 用於多模態追蹤(BAT)。與在主導模態中添加輔助模態資訊作為提示以增強基礎模型在下游任務中的表示能力的方法(通常使用RGB 作為主要模態) 不同,該方法沒有預設固定的主導模態- 輔助模態,而是在輔助模態向主導模態變化的過程中動態提取有效資訊。

BAT 由兩個共享參數的特定於模態分支的基礎模型編碼器和一個通用的雙向adapter 組成。在訓練過程中,BAT 沒有對基礎模型進行完全的微調,每個特定的模態分支由具有固定參數的基礎模型初始化,僅訓練新增的雙向adapter。每個模態分支從其他模態中學習提示訊息,與當前模態的特徵資訊結合,增強表徵能力。兩個特定模態的分支透過通用雙向adapter 執行交互,在多模態非固定關聯範式中動態地相互融合主導輔助資訊。

通用雙向adapter 具有輕量級沙漏結構,它可以嵌入到基礎模型的每一層transformer 編碼器中,而不需要引入大量的可學習參數。透過添加少量的訓練參數(0.32M),BAT 與全微調方法和基於提示學習的方法相比具有更低的訓練成本,獲得了更好的追蹤性能。

論文《Bi-directional Adapter for Multi-modal Tracking》:

論文連結:https://arxiv.org/abs/2312.10611

程式碼連結:https://github.com/SparkTempest/BAT

主要貢獻

  • 我們首先提出了一個基於adapter 的多模態追蹤視覺提示框架。我們的模型能夠感知開放場景中主導模態的動態變化,以自適應的方式有效融合多模態資訊。
  • 據我們所知,我們首次為基礎模型提出了一個通用的雙向adapter。它結構簡單、高效,能有效實現多模態交叉提示追蹤。透過僅添加0.32M 可學習參數,我們的模型可以穩健應對開放場景下的多模態追蹤。
  • 我們深入分析了我們的通用adapter 在不同層深的影響。我們也在實驗中探索了更有效率的adapter 架構,並驗證了我們在多個RGBT 追蹤相關資料集上的優勢。

核心方法

如圖2 所示,我們提出了一個基於雙向Adapter 的多模態追蹤視覺提示框架(BAT),框架具有RGB 模態和熱紅外線模態的雙流編碼器結構,每個流使用相同的基礎模型參數。雙向Adapter 與雙流編碼器層並行設置,從兩個模態相互交叉提示多模態資料。

方法沒有對基礎模型進行完全的微調,僅通過學習輕量級雙向Adapter,將預先訓練好的RGB 追踪器高效地轉移到多模態場景中,實現了出色的多模態互補性和卓越的追踪精度。

圖片

圖2:BAT 的總體架構。

首先將每種模態的圖片模板幀(第一幀中目標物體的初始框圖片)和圖片搜尋幀(後續追蹤影像)轉換為 圖片,將它們拼接在一起分別傳遞給N 層雙流transformer 編碼器。

圖片

雙向adapter 與雙流編碼器層並行設置,可以學習從一種模態到另一種模態的特徵提示。為此,將兩個分支的輸出特徵相加並輸入到預測頭H 中,得到最終的追蹤結果框B。

圖片

雙向adapter 採用模組化設計,分別嵌入多頭自註意力階段和MLP 階段,如圖1 右側所示雙向adapter 的詳細結構,其設計用於將特徵提示從一種模態轉移到另一種模態。它由三個線性投影層組成,tn 表示每個模態的token 個數,輸入token 首先通過下投影被降維為de 並通過一個線性投影層,然後向上投影到原始維度dt 並作為特徵提示反饋到其他模態的transformer 編碼器層。

透過這種簡單的結構,雙向adapter 可以有效地在 圖片 模態之間進行特徵提示,實現多模態追蹤。

由於凍結了transformer 編碼器和預測頭,因此只需要最佳化新增adapter 的參數。值得注意的是,與大多數傳統adapter 不同,我們的雙向adapter 是作為動態變化的主導模態的跨模態特徵提示而發揮作用的,確保了開放世界中良好的跟踪性能。

實驗效果

如表1 所示,在RGBT234 和LasHeR 兩個資料集上的比較顯示我們在的方法在準確率和成功率上均優於最先進的方法。如圖3 所示,在LasHeR 資料集的不同場景屬性下,與最先進方法的效能比較也證明了所提出方法的優越性。

這些實驗充分證明了我們的雙流追蹤框架與雙向Adapter 成功地追蹤了大多數複雜環境中的目標,並自適應地從動態變化的主導- 輔助模態中提取有效信息,達到了最先進的性能。

圖片

表1 RGBT234 和LasHeR 資料集上的整體表現。

圖片

圖3 LasHeR 資料集中不同屬性下BAT 與競爭方法的比較。

實驗證明我們在複雜場景中從不斷變化的主導- 輔助模式中動態提示有效資訊的有效性。如圖4 所示,與固定主導模態的相關方法相比,我們的方法即使在RGB 完全不可用的情況下也能有效地追踪目標,當RGB 和TIR 在後續場景中都能提供有效的信息時,追蹤效果要好得多。我們的雙向Adapter 從RGB 和IR 模態中動態提取目標的有效特徵,捕捉更準確的目標響應位置,並消除RGB 模態的干擾。

圖片

圖4 追蹤結果的可視化。

我們同樣在RGBE 追蹤資料集上評估了我們的方法。如圖5 所示,在VisEvent 測試集上與其他方法相比,我們的方法在不同複雜場景下的追蹤結果最為準確,證明了我們的BAT 模型的有效性和泛化性。

圖片

圖5 VisEvent 資料集下追蹤結果。

圖片

圖6 attention 權重視覺化。

我們在圖6 中可視化了不同層追蹤目標的注意力權重。與baseline-dual (基礎模型參數初始化的雙流框架) 方法相比,我們的BAT 有效地驅動輔助模態向主導模態學習更多的互補信息,同時隨著網絡深度的增加保持主導模態的有效性,從而提高了整體追蹤性能。

實驗表明,BAT 成功地捕獲了多模態互補訊息,實現了樣本自適應動態追蹤。