線上高精地圖如何重塑自動駕駛產業?清華團隊的深度思考~

寫在前面&筆者的理解:

現在各大廠商都在佈局輕地圖(輕高精地圖)或無圖(無高精地圖)方案,而其中之一就是local map(局部地圖),並且輔助以SD地圖(標準地圖),所以對這個領域的整體把握非常具有實際意義。局部地圖不僅提供了複雜的道路網路細節,還作為車輛定位、導航和決策等關鍵任務的基礎輸入。由於標準定義地圖(SD Map)具有低成本、易獲取和高通用性的特點,因此結合SD地圖作為先驗資訊的感知方法在局部地圖感知領域展現出顯著潛力。

今天自動駕駛之心和大家分享的是對SD地圖作為先驗資訊整合到局部地圖感知方法中的最新進展的全面概述和總結。首先介紹了將SD地圖作為先驗資訊融入局部地圖感知方法的任務定義和整體流程,以及相關的公共資料集。隨後,重點討論了多源資訊的表示與編碼方法,以及多源資訊融合的方法。為因應這一快速發展的趨勢,本文對該領域的多元研究工作進行了全面而細緻的綜述。最後,文章探討了相關問題和未來挑戰,以期幫助研究人員理解該領域當前的趨勢和方法。

介紹

局部地圖感知是智慧駕駛領域中的關鍵且具挑戰性的任務。它涉及對車輛周圍環境的詳細理解和即時建模,作為自動駕駛系統中決策和導航的基礎。局部地圖不僅提供關於道路和車道的信息,還涵蓋對障礙物、交通標誌、行人及其他動態或靜態物體的檢測與識別。這些資訊對於確保車輛安全運行和高效路徑規劃至關重要。沒有精確的局部地圖感知,自動駕駛車輛可能偏離路線、引發交通事故,甚至威脅乘客安全。因此,局部地圖感知在自動駕駛生態系統中扮演著不可或缺的角色。

與典型的目標偵測不同,局部地圖感知需要在處理複雜和動態環境資訊的同時,在各種光照條件和天氣情況下保持高精度。例如,路上的陰影、光線反射、動態障礙物以及交通標誌的遮蔽都會幹擾局部地圖感知。此外,感測器雜訊和資料延遲進一步加劇了感知任務的複雜性。因此,開發穩健的局部地圖感知技術對於實現安全可靠的自動駕駛至關重要。

為了應對這些問題,許多研究人員提出了各種方法。 Chen 和Lei提出了一種利用地面紋理進行視覺定位和地圖建構的方法,透過全局和局部最佳化提高了定位精度和地圖更新的精確度。還有研究人員[2]透過利用SD地圖並透過Transformer編碼器整合SD地圖訊息,增強了線上地圖預測和車道拓撲理解,從而緩解了車道線遮擋或能見度差的問題,顯著提升了車道偵測和拓撲預測的性能。研究人員[3]提出了一種創新的視訊車道偵測演算法,該演算法透過使用遮蔽感知的基於記憶的細化(OMR)模組,利用障礙物遮罩和記憶資訊來提高遮蔽下的偵測精度和魯棒性。 RVLD透過遞歸傳播目前幀的狀態到下一幀,利用前幾幀的資訊提高了車道偵測的可靠性。此外,還有Laneaf、LaneATT、Streammapnet等方法來緩解這些問題。

在先前的自動駕駛研究中,高精地圖(HDMap)一直是至關重要的。 HDMap 具有絕對和相對精度在1米以內的特點,提供了高精度、新鮮度和豐富的電子地圖信息,包括廣泛的道路和環境信息。這些地圖為安全且有效率的自動駕駛提供了精確的導航和定位服務。然而,HDMap 面臨重大挑戰,主要是在即時更新和成本控制方面。城市道路環境經常變化,任何微小的改變都可能影響自動駕駛車輛的行駛安全。傳統的HDMap 製作方法需要大量的時間和資源,難以實現即時更新,研究[8] 和[9] 都指出了類似的問題。此外,HDMap 的製作和維護成本極高,使用傳統方法的成本可達每公里數千美元。

在這種背景下,「重感知,輕地圖」這種方法在業界獲得了廣泛認可。這種方法強調使用車載感測器進行自動駕駛感知任務,並輔以輕量級地圖資訊。這種策略減少了對即時地圖更新的依賴,降低了維護成本,同時輕量級地圖資訊可以有效彌補車載感測器的某些局限性,增強模型的穩健性。作為交通導航和地理資訊服務中廣泛使用的電子地圖,標準定義地圖(SD Map)具有低製作和維護成本、易於獲取和數據量小的特點,適合作為輕量級地圖來輔助車載感測器構建自動駕駛的局部地圖。

儘管基於SD Map 建構局部地圖的前景廣闊,但面臨許多挑戰,且在這一領域缺乏全面的研究綜述。為了解決這一空白,本綜述旨在提供利用SD Map 的局部地圖建構方法的最新進展的全面概述。具體而言,重點在於SD Map 資訊表示方法和多模態資料融合技術在局部地圖知覺任務中的應用。本研究深入探討了該領域的主要發展、挑戰和研究方向。對現有基於SD Map 作為先驗資訊的局部地圖建構文獻進行了回顧。分析了這些方法的優缺點,為其在即時自動駕駛應用中的有效性和適用性提供了見解。重點介紹了各種感測器資訊的表示和編碼方法,以及多源感測器資料的融合技術,這對於即時局部地圖生成至關重要。討論了這些方法的基本原理、架構和性能,揭示了它們在該領域的可行性和實用性。此外,本文也識別了使用SD Map 作為先驗資訊進行局部地圖建構的關鍵挑戰和開放研究問題。

背景知識

此節將明確基於SD地圖的局部地圖建構的定義,並總結此類任務的一般流程。介紹SD地圖的組成和應用場景。最後,列舉在局部地圖知覺任務中常用的公共資料集和評估指標。

基於SD地圖的局部地圖建構任務定義

局部地圖感知任務涉及創建一個準確的地圖,表示車輛周圍的環境,以支援自動駕駛的決策和規劃。這項任務通常依賴來自各種感測器的數據,包括相機、光達、雷達和GPS。此外,結合SD地圖中的先驗資訊可以增強模型的穩健性,減少車載感測器的不確定性對模型的影響,進而提高整體模型性能。局部地圖感知任務的核心在於即時感知和理解車輛周圍的環境。

用於局部地圖建構的神經網路的一般過程可以總結為幾個關鍵組件,如圖1所示。在輸入環視圖像和雷射雷達點雲後,局部地圖建構網路的整體架構可以分為不同部分:用於影像特徵擷取的骨幹網路(backbone)、用於視角轉換的PV2BEV(透視視角到鳥瞰視角)模組、用於多模態特徵融合的模組,以及用於車道偵測的特定任務頭(task-specific heads)。這些組件構成了局部地圖感知網絡的基本框架。環視相機和雷射雷達捕獲的影像和點雲資料首先透過骨幹網路處理,以獲得(多尺度的)影像特徵。這些特徵隨後透過PV2BEV模組轉換為鳥瞰視角,並透過模態融合模組與SD地圖資料融合,最終透過不同的特定任務頭輸出。

標準定義地圖

SD地圖(Standard Definition Map的縮寫)是一種提供基本地理資訊和道路網路結構的數位地圖技術。它廣泛應用於日常導航和地理資訊服務,為用戶提供便利。 SD地圖主要提供道路的中心線骨架,但不包含詳細的車道資訊、道路標誌或其他高精度環境特徵。

對於局部地圖建構任務,SD地圖提供了三大主要優勢。首先,SD地圖資料易於取得。通常可以從開放的地理資料來源(如OpenStreetMap)免費取得,適用於大規模應用程式。其次,與HD地圖相比,SD地圖的生產和維護成本顯著降低。最後,SD地圖具有高度的通用性,涵蓋了大多數類型的道路,可以為局部地圖建構任務提供相關的道路資訊。 OSM和百度地圖等平台可以作為SD地圖的資料來源。例如,OpenStreetMap(OSM)是一個由全球志工創建和維護的協作項目,提供免費的、可編輯的、開放內容的地圖。 OSM資料包括廣泛的地理訊息,如道路、建築、公園和河流,使用者可以自由存取、編輯和使用。

數據集

在鳥瞰視角(BEV)局部地圖建構領域,常用的資料集包括KITTI、nuScenes、ApolloScape、Argoverse、Openlane和Waymo開放資料集。

由卡爾斯魯厄理工學院和豐田創建的KITTI數據集提供了雙眼相機、雷射雷達和GPS/IMU數據,涵蓋了城市、農村和高速公路場景,適用於目標檢測、追蹤和道路檢測等任務。 Motional發布的nuScenes 資料集包括來自六個相機、五個Radar、一個雷射雷達、IMU和GPS的數據,適用於各種天氣和光照條件下的城市交通場景。由百度發布的ApolloScape 資料集提供了覆蓋各種城市道路場景的高精度3D標註數據,適用於車道偵測和語義分割等任務。

由Argo AI發布的Argoverse 資料集包括雙眼相機、光達、GPS和IMU數據,提供詳細的3D標註和車道標記,主要用於3D目標偵測和車道偵測。 Waymo發布的Waymo 開放資料集涵蓋了多種天氣和交通條件,提供了來自雷射雷達和相機的高品質數據,適用於3D目標偵測、追蹤和車道偵測等任務。

OpenLane-V2(又稱OpenLane-Huawei或Road Genome)是一個由上海人工智慧實驗室和華為諾亞方舟實驗室聯合開源的下一代自動駕駛場景道路結構感知的基準資料集。它是首個包含交通場景中道路結構拓樸關係的資料集。

ONCE-3DLanes 資料集是一個具有3D空間車道佈局標註的真實世界自動駕駛資料集,是為了促進單目3D車道偵測方法的發展而建構的新的基準資料集。該資料集在中國的多個地理位置收集,包括高速公路、橋樑、隧道、郊區和市區,涵蓋不同的天氣條件(晴天/雨天)和光照條件(白天/夜間)。整個資料集包含211K張影像及其對應的相機座標系下的3D車道標註。

CurveLanes是一個新的基準車道偵測資料集,包含15萬張用於交通車道偵測中曲線和多車道等困難情境的車道影像。該資料集在中國多個城市的真實城市和高速公路場景中收集。所有圖像都經過精心挑選,其中大多數圖像至少包含一條曲線車道。此資料集中還可以找到更具挑戰性的場景,如S形曲線、Y形車道、夜間和多車道等。

常用評估指標

車道擷取的評估指標

mAP是評估目標偵測模型效能的常用指標。 mAP透過匹配預測的邊界框與真實框來計算正檢(TP)、誤檢(FP)和漏檢(FN),以測量模型在不同閾值水平下的精確度。首先,根據指定的交並比(IoU,Intersection over Union)閾值,將預測框與真實框進行配對。然後,計算每個類別的精確度(TP / (TP + FP))和召回率(TP / (TP + FN)),並繪製精確度-召回曲線。透過內插法計算曲線下的面積,得到單一類別的平均精確度(AP)。最後,所有類別的AP值的平均值即為mAP,反映了模型的整體偵測效能,數值越高表示效能越好。

平均交並比(mIoU)是評估語意分割模型表現的常用指標。 mIoU衡量模型對各種物件的像素級分類準確性。計算過程涉及幾個步驟。對於每個類別,透過將預測區域與真實區域之間的相交像素數(Intersection)除以這些區域的並集像素數(Union)來計算IoU。此計算對每個類別進行,然後所有類別的IoU平均值即為mIoU,提供了模型分割準確性的平均效能評估,數值越高表示分割效能越好。

傳統的目標偵測指標,如mAP,可能無法全面捕捉偵測任務中的所有重要方面,例如目標速度和屬性的估計,以及位置、大小和方向的準確性。因此,提出了nuScenes 檢測評分(NDS),以綜合考慮這些因素。 NDS整合了多個關鍵指標,克服了現有指標的局限性,提供了更全面的效能評估。

NDS的計算公式如下:

在該公式中,mAP代表平均精度(mean Average Precision),用於衡量檢測精度。 TP集合包含五個真正例指標的平均值:ATE(平均平移誤差)、ASE(平均尺度誤差)、AOE(平均方向誤差)、AVE(平均速度誤差)和AAE(平均屬性誤差)。

拓樸推理的評估指標

OpenLane-V2 將任務分為三個子任務:3D車道偵測、交通元素辨識和拓樸推理。整體任務表現透過OpenLane-V2評分(OLS)來描述,該評分是每個子任務指標的平均值。 3D車道偵測的指標,DETl,可以表示為不同閾值的平均AP [公式],其中AP使用Fréchet距離計算。交通元素偵測與目標偵測類似,使用AP進行評估,IoU閾值設為0.75。交通元素具有多種屬性,例如交通燈的顏色,這些屬性與車道的通行性密切相關,因此也必須考慮屬性。假設A是所有屬性的集合,評估包括屬性分類準確率。

OpenLane-V2使用TOP評分來評估拓樸推理的質量,類似於mAP指標,但經過調整以適應圖的結構。基本上,這是將拓撲預測問題轉換為連結預測問題,並透過計算所有頂點的平均AP來評估演算法效能。第一步是確定一種匹配方法,以配對真實的和預測的頂點(即中心線和交通元素)。對於中心線,使用Fréchet距離;對於交通元素,使用IoU。當兩個頂點之間的邊的置信度超過0.5時,認為它們是連接的。透過對頂點的所有預測邊進行排序並計算累積精度的平均值,獲得頂點AP。

多模態表示

影像資料

在鳥瞰圖(BEV)的感知任務中,全景相機的影像資訊是最重要的輸入數據,全景影像的常見特徵提取方法遵循自動駕駛感知任務BEVformer 或LSS 的範式。神經網路的骨幹模組透過ResNet-50 或101,Mobilenets,EfficientNet,V2-99 等經典且輕量的捲積網絡,從各種相機角度提取2D影像特徵。其中,ResNet系列因其在訓練過程中透過引入殘差塊解決了深度神經網路中的梯度消失問題而被廣泛使用。 ResNet等變體透過增加網路的深度和寬度來增強特徵提取能力。由於在影像辨識和特徵提取方面的出色表現,這些網路被廣泛應用於BEV局部地圖感知任務中。通常,骨幹模組後會附加一個特徵金字塔網路(FPN)模組。 FPN整合了不同尺度的特徵圖,產生更強大的多尺度特徵表示。這似乎是預設的基本配置,融合層的數量可以根據網路類型選擇。這種多尺度特徵融合有助於提高對不同大小物體的檢測和識別,從而增強整體性能。

除了這些輕量級且簡單的骨幹網路外,未來更大規模的骨幹網路將成為主流趨勢。隨著Transformer在電腦視覺領域的成功,基於Transformer的特徵提取方法也被應用於BEV局部地圖感知任務,如Swin。參考Nuscece排行榜上的方法,最先進的方法都使用預先訓練的VIT-L作為骨幹網絡,或它的變體EVA-02。儘管大型模型的參數數量多且計算複雜度高,可能嚴重影響推理速度,但這些大型預訓練骨幹網路是提高模型效能的關鍵。儘管如此,其性能直接推動了檢測精度的提升。這些大模型的訓練需要大量資料支持,但資料標註成本高且有限,自監督訓練方法將成為主流。隨著BERT 預訓練模型在自然語言處理中的各種自監督任務中廣泛應用,並展示了強大的語言表示學習能力,在計算機視覺任務中的自監督學習中,MAE 隨機遮蓋圖像上的補丁並實現了遮蓋影像的自監督學習。基於MIM 的預訓練演算法的成就正在電腦視覺領域蓬勃發展。此類自監督預訓練模型不僅可以解決高成本標籤的問題,還可以更好地學習影像的表示關係。

無論是基於CNN還是Transformer方法,其最終目標都是獲得高品質的全景影像特徵表示。對於BEV局部地圖感知任務,特徵表示至關重要,因為它直接影響感知系統的準確性和穩健性。 FPN模組或Transformer的全局特徵提取機制可顯著提高網路的整體效能,使其在複雜駕駛環境中的感知和決策更加有效。

光達點雲數據

在BEV的局部地圖感知任務中,除了使用純視覺環繞相機作為單一資料輸入外,多模態方法還融合了雷射雷達點雲和相機資料等多模態資訊以執行深度感知的BEV變換。與單一視覺方法和多模態(RGB+LiDAR)方法相比,儘管增加了額外的計算複雜度,多模態融合方法在準確性方面表現優異。光達點雲資料的處理是多模態感知任務中的關鍵步驟。 P-mapnet中的雷射雷達點雲資料特徵提取首先需要將點雲體素化,然後使用多層感知器(MLP)提取每個點的局部特徵。最大池化選擇多個局部特徵中的最大特徵值來形成全局特徵表示,增強模型對點雲資料的全局感知能力。

給定光達點雲P和全景影像I,公式如下:

其中,代表特徵提取器,提取多模態輸入以獲得BEV特徵,代表解碼器,輸出檢測結果。

MapLite 2.0方法進一步將雷射雷達點雲資料與其他感測器資料集成,並與從SD地圖(如OpenStreetMap)獲得的粗略道路地圖集成,使用SD地圖中的粗略路線資訊來優化道路的幾何形狀和拓撲結構。這不僅提高了地圖的準確性,也增強了對複雜道​​路環境的理解。它還用於透過鳥瞰圖投影雷射雷達強度數據在線生成高清地圖。透過整合多模態數據,不僅提供了詳細的空間信息,還實現了駕駛環境的精確語義分割。

SD地圖數據

在增強局部地圖感知任務的背景下,整合SD地圖資訊作為先驗知識可以顯著提高視覺和光達感測器的性能,特別是在遠距離和遮蔽場景中。為了有效地將SD地圖整合到網路結構中,同時保留其獨特的道路訊息,已經探索了各種表示形式。 SD地圖通常可以分為兩種形式:柵格和向量。

圖2展示了一個SD地圖的範例,說明如何利用不同形式的SD地圖表示來補充局部地圖建構過程,從而增強感知系統的整體表現。

特徵提取器可以包含多種模態資料。這裡S是以道路中心線骨架形式的SD地圖先驗知識。其中,表示特徵提取器,提取多模態輸入以獲得BEV特徵,表示解碼器,輸出檢測結果。

柵格表示

MapLite2.0首次將SD地圖引入局部地圖感知任務。 PriorLane將地圖建模為二值影像,其中1代表可駕駛區域,0代表不可駕駛區域。同樣,MapVision也採用了one-hot編碼方法,然後將位置編碼資訊串聯並透過編碼器提取SD地圖特徵。 SD地圖透過文章中提出的KEA模組與自車資料對齊,然後與感測器資料融合以獲得混合表達。 P-MapNet和MapLite2.0都使用柵格化表示SD地圖,但區別在於P-MapNet在柵格化SD地圖後,使用CNN網路從中提取信息,作為BEV特徵優化的額外信息源(即key和val );MapLite2.0將SD地圖作為高清地圖的初始估計,將其轉換為BEV視角,並與感測器輸入的圖像結合。透過卷積神經網路進行訓練,預測其語義標籤。最後,這些語義分割結果被轉化為特定標籤的距離變換,並使用結構化估計器來維持局部地圖估計並整合SD地圖先驗知識。

向量表示

SMERF首次提出了一種基於Transformer的編碼器模型,用於推斷道路拓撲。 MapEX和SMERF對地圖元素有相似的表示,引入了多段線序列表示和Transformer編碼器,以獲取場景的最終地圖表示。具體而言,SD地圖中的道路首先以多段線的形式抽象表示。對於多段線數據,透過均勻取樣獲得N個數據點。然後,經過正弦餘弦編碼後,得到N維的線條描述。考慮一條曲率較小的垂直線,它的所有點的x或y軸值都非常相似。直接將這些點的座標輸入模型可能導致對曲率的區分不足。

因此,使用正弦嵌入會使這種差異更加明顯,從而提高模型對這些特徵的解釋能力。在實際操作中,每條線的座標將相對於BEV範圍歸一化到(0,2π)的範圍內,然後將每條線的座標進行嵌入。這些編碼資料將經過幾層Transformer網絡,以獲得地圖特徵表示。

其他資訊的編碼

SMERF:除了對SD地圖的多段線座標進行編碼外,SMERF還使用獨熱編碼將道路類型編碼為維度為K(道路類型的數量)的向量。對於感知範圍內的地面元素,將獲得M * (N * d + K)編碼數據,這些數據將經過幾層轉換以獲得地圖特徵表示。消融實驗表明,增加更多的道路類型資訊可以提高車道偵測和道路拓撲推論的有效性。

多模態融合方法

在以影像作為輸入的方法中,例如基於編碼器-解碼器架構的MapTR,建立了局部地圖建構的經典範式,為後續方法鋪平了道路。 Streammapnet透過整合全面的時間訊息,進一步增強了在遮蔽區域的表現。 3D LaneNet採用了端到端的學習框架,將影像編碼、視圖間的空間轉換和3D曲線擷取等任務整合到一個網路中。 Gen LaneNet提出了一個兩階段框架,解耦了圖像分割子網路和幾何編碼子網路的學習。此外,一些單目3D車道偵測方法僅關注視覺影像作為輸入。許多模型也僅依賴視覺圖像。另一方面,HDMapNet作為代表性多模態方法,透過對雷射雷達點雲進行編碼並預測鳥瞰視角下的向量化地圖元素,實現了多感測器資料的有效融合。此外,其他模型也將光達點雲資料作為額外的輸入。圖3展示了近年來局部地圖建構的發展趨勢。考慮到建構高精地圖的成本,Maplite 2.0率先將SD地圖引入局部地圖感知任務。 MapEX透過將現有地圖元素轉換為不可學習的查詢並與可學習的查詢結合進行訓練和預測,解決了現有地圖資訊不完整或不準確的情況。 SMERF和P-MapNet結合了SD地圖的特徵表示與相機輸入特徵,使用多頭交叉注意力機制,使車道拓撲推斷更加有效。

為了實現視覺BEV特徵與SD地圖語意訊息的有效融合,BLOS-BEV探討了各種特徵融合方法。此外,諸如PriorLane、FlexMap、Bayesian、TopoLogic、LGMap、MapVision、RoadPainter和EORN等方法將SD地圖先驗整合到局部地圖建構中,這一趨勢正在逐漸獲得關注。在融合之前,需要進行視角轉換。本節的重點是將從2D相機感測器影像(通常稱為透視視圖(PV))中提取的特徵資訊轉換為BEV特徵。局部地圖感知任務通常將地面視為一個平面,在鳥瞰視角中建立地圖,因為一方面,BEV有助於多感測器資訊的融合,而現有的先進BEV目標檢測工作可以提供良好的基礎。從PV到BEV的轉換方法包括基於幾何的方法和基於網路的方法。基於幾何的方法可以分為同構變換和深度估計兩種類型。基於網路的方法可以分為基於MLP的方法和基於Transformer的方法。基於Transformer的PV到BEV轉換通常可以直接透過BEV感知模型實現。圖4中的MapTR提出了一個基於BEVFormer中的View Transformer模組的最佳化GTK模組。

對齊

由於GPS訊號的固有誤差和車輛運動的影響,向量化和柵格化的SD地圖先驗與目前的BEV空間不可避免地存在空間錯位,難以完全對齊。因此,在融合之前,有必要將SD地圖先驗與目前的BEV操作空間進行空間對齊。 FlexMap使用SLAM軌跡和修正後的RTK軌跡來計算偏移量並實現空間對齊。為了解決這個問題,PriorMap設定了一個KEA(知識嵌入對齊)模組,將SD地圖先驗知識嵌入並與影像特徵在空間上對齊。具體來說,首先使用特徵提取網路從影像中提取特徵點,並從SD地圖先驗知識中提取特徵點。

隨後,使用基於注意力機制的對齊演算法對這些特徵點進行空間匹配。最後,透過融合Transformer網路進一步處理對齊的特徵點,增強了局部地圖感知演算法的準確性和穩健性。類似地,P-MapNet首先對柵格化的SD地圖先驗進行下採樣,然後引入多頭交叉注意力模組,使網絡能夠使用交叉注意力來確定最合適的對齊位置,從而使用SD地圖先驗有效增強BEV特徵。如圖5所示,P-MapNet的消融實驗表明,即使在與BEV空間對齊較弱的情況下,直接連接SD地圖先驗資訊仍能提高模型性能。在此基礎上,增加CNN模組和多頭交叉注意力模組可以進一步提高模型效能。這證明了SD地圖先驗資訊在局部地圖感知任務中的重要作用,即使沒有嚴格對齊,簡單地增加柵格化的SD地圖先驗也可以提高模型性能。

融合

在獲得多感測器資料特徵表示之後,需要進行融合處理,以獲得更強的特徵表示。

為了對齊不同感測器的特徵,有必要在BEV等級的特徵上實現融合。影像BEV特徵透過視角轉換模組從周圍影像中獲得。在SMERF中,SD地圖特徵透過交叉注意力機制與BEV特徵進行交互作用。首先,BEV特徵被編碼為查詢向量,並透過自註意力機制進行初始化。給定場景的SD地圖,LGMap如圖6所示沿著每條多段線均勻採樣固定數量的點。在正弦嵌入的情況下,BEVFormer在每個編碼器圖層上將SD地圖特徵表示與來自視覺輸入的特徵應用交叉注意力。 SD地圖特徵被編碼為key和value向量,然後透過交叉注意力計算,獲得最終融合的相機和SD地圖的BEV特徵。

除了常見的注意力機制融合方法外,BLOS-BEV如圖7所示,探索了不同的融合方案,將視覺BEV特徵與SD地圖語義結合,以實現最佳表示和性能,探索了三種SD地圖融合技術:加法、串聯和交叉注意力。儘管所有融合方法的性能都優於不使用SD地圖的方法,但在nuScenes和Argorse數據集上,SD地圖的交叉注意力融合表現最佳,表現出出色的泛化性能和在長距離(150- 200公尺)上的出色表現。

在P-mapnet中,已添加點雲信息,並對雷射雷達點雲進行了體素化和MLP處理,以獲得每個點的特徵表示,從而得到Lidar BEV。影像BEV與Lidar BEV的融合用於獲得進一步融合的BEV特徵。對融合後的BEV特徵進一步卷積下採樣可以緩解影像BEV特徵與LiDAR BEV特徵之間的對齊問題。

透過交叉注意力機制,SD地圖的良好特徵與融合後的BEV特徵進行交互,最終融合了相機和雷射雷達點雲的BEV特徵。類似地,MapVision和MapEX如圖8和圖9所示,將SD地圖特徵用作鍵和值,而從多視角影像形成的特徵圖則用作查詢,以執行交叉注意力。

為了解決遮蔽和有限感知範圍等問題可能導致的不準確性,RoadPainter提出了一種新穎的SD地圖互動模組,圖10顯示了該模組透過結合視覺範圍之外的信息有效增強BEV特徵。 EORN如圖11所示,將SD地圖柵格化並產生BEV中的SD地圖。基於ResNet-18的SD編碼器擷取SD地圖特徵。然後,將SD地圖特徵內插並與來自影像BEV的BEV特徵沿著通道維度連接。融合方法使用了一個簡單的兩層卷積神經網路ConvFuser,它融合了連接的特徵並輸出融合後的BEV特徵。另一種方法涉及圖形編碼器,將SD地圖圖形與BEV特徵融合,並結合使用多頭注意力機制的中心線可變形解碼器的輸出。隨後的解碼器可以透過從包含豐富資訊的BEV特徵中查詢,計算並輸出不同任務的相應結果。

結論與討論

挑戰與未來展望

  1. SD地圖編碼和處理方法的改進適當的編碼和處理方法對於在局部地圖感知任務中利用SD地圖先驗資訊至關重要。目前的研究採用了相對簡單的編碼和處理方法,無論是使用柵格還是向量表示。未來的研究可以探索更有效率的編碼和特徵提取方法。
  2. SD地圖先驗資訊與BEV空間對齊的改進由於GPS感測器的精確度限制,將SD地圖先驗資訊與目前BEV操作空間完美對齊具有挑戰性。這種空間錯位可能會在一定程度上影響模型的偵測精度。改進空間對齊方法可以進一步提高模型效能。未來的研究可以考慮整合時間信息,以提高SD地圖先驗資訊與BEV空間之間的對齊精度。
  3. 道路拓樸關係的推論局部地圖中的拓樸關係可以分為兩個分支:道路之間的拓樸關係(主要表示道路連通性)和道路與交通標誌之間的拓樸關係(包括交通管制號誌和其他方向標誌)。增強對道路環境的場景理解對於進階自動駕駛任務至關重要。 OpenLane-v2資料集是首個提供道路之間以及道路與交通標誌之間拓撲關係的公共資料集。目前在這一領域的研究仍然有限。未來的工作可以使用圖神經網路模型對道路網路的拓撲結構和交通標誌的場景理解任務進行建模。
  4. 整合更多SD地圖先驗資訊現有研究已證明,整合更多的道路類型資訊可以增強模型效能。然而,除了基本的道路網絡位置和道路類型,SD地圖還可以提供更豐富的先驗資訊。例如,OpenStreetMap提供了諸如車道數量、車道方向和道路拓撲關係等額外資訊。未來的研究可以嘗試將這些多樣的資訊整合為SD地圖先驗,以進一步增強局部地圖感知模型的穩健性和準確性。

結論

本文回顧了使用SD地圖進行局部地圖建構的文獻,突顯了SD地圖在這項任務中的關鍵作用。介紹了使用SD地圖進行局部地圖建構的定義和核心方面,展示了其在開發準確和可靠地圖中的重要性。列舉了常用的公共資料集及其對應的評估指標。

總結了領先技術方法的主要流程,重點關注了來自不同感測器(如光達、相機和雷達)資料的表示和編碼方法。探索了多源感測器資料整合的先進融合技術及其各自的優缺點。

討論了局部地圖建構模型的評估前景和設計趨勢,包括解決新興挑戰,例如改進SD地圖與BEV視角的對齊和增強編碼及處理方法。考慮了整合詳細SD地圖先驗資訊以建模道路拓撲關係的潛力,旨在提高場景理解能力並支援進階自動駕駛任務。