论文解读--Multi-class Road User Detection with 3+1D Radar in the View-of-Delft Dataset
摘要
? ? ? ? ?下一代汽車雷達除了提供距離、方位角和多普勒速度外,還提供仰角數據。在這項實驗研究中,我們將以前用于LiDAR 3D數據的最先進的物體探測器(pointpillars)應用于這樣的3+1D雷達數據(其中1D指的是多普勒)。在消融研究中,我們首先探討了在多類道路使用者檢測的背景下,額外的高程信息,以及多普勒、雷達橫截面和時間積累的好處。隨后,我們比較了雷達和LiDAR點云上的目標檢測性能,對象類別和距離的函數。為了便于我們的實驗研究,我們提出了新的View-of-Delft (VoD)汽車數據集。它包含8693幀同步和校準的64線激光雷達,(立體)攝像頭,以及在復雜的城市交通中獲取的3+1D雷達數據。它由123106個移動和靜態對象的3D包圍框注釋組成,其中包括26587個行人標簽,10800個自行車標簽和26949個汽車標簽。我們的研究結果表明,64線激光雷達數據上的目標檢測仍然優于3+1D雷達數據,但加入高程信息和連續雷達掃描的集成有助于縮小差距。VoD數據集可免費用于科學基準測試。
? ? ? ? 索引術語-目標檢測、分割與分類;機器人視覺數據集;汽車雷達
1介紹
? ? ? ? 雷達通常用于智能車輛,因為它們對天氣和光照條件相對穩健,具有出色的距離靈敏度,并且可以以合理的成本直接測量物體的徑向速度。傳統的汽車雷達(2+1D雷達)輸出一個稀疏的反射點云,稱為雷達目標。每個點都有兩個空間維度,距離r和方位角α,第三個維度稱為多普勒,這是目標相對于自車[1]的徑向速度vrel。近年來,雷達技術和算法的發展使這些雷達能夠用于道路使用者檢測[2][3][4][5][6]。盡管有了這些改進,傳統汽車雷達提供的點云稀疏性仍然是目標檢測研究的瓶頸。由于二維鳥瞰(BEV)邊界框的點數量較少,很難回歸準確的邊界框,特別是對于行人等較小的物體。此外,缺乏仰角信息(即點的高度)使得幾乎不可能推斷物體的高度和垂直偏移。
? ? ? ? 與基于激光雷達的探測器不同,大多數基于2+1D雷達的目標檢測方法不會在2D(BEV)或3D中回歸邊界框,而是對2+1D雷達點云[3][5][7][8][9][10]進行語義或實例分割。稀疏雷達點云上的邊界盒回歸仍然具有挑戰性,因為物體上通常只有幾個點,無法提供關于真正邊界盒的確切位置和范圍的空間信息。汽車雷達技術的最新改進,3+1D雷達可能有助于克服這些限制。與傳統的汽車雷達不同,3+1D雷達具有三個空間維度:距離、方位角和仰角,同時仍然提供多普勒作為第四個維度。它們也傾向于提供一個密度更大的點云[11]。有了額外的高程信息和增加的密度,3+1D雷達點云有點像激光雷達點云。因此,這些雷達可能更適合于多類三維包圍盒回歸,并且將為LiDAR數據開發的目標檢測網絡應用于這些雷達中是很直觀的。盡管如此,3+1D雷達只用于單一類別的汽車檢測任務[12][13],而不是用于行人、騎車人或多類別的檢測任務。我們看到了兩個可能的原因。首先,經常用于激光雷達輸入的目標檢測網絡在設計時沒有考慮多普勒維度,目前尚不清楚如何最好地納入這些額外的信息。此外,測得的多普勒值取決于目標所在的方向,因此許多用于激光雷達點云的數據增強技術并不適用于雷達點云。其次,許多數據集包含數千個激光雷達數據[14][15][16]上的多個類別的3D包圍框注釋,而唯一公開的3+1D雷達數據檢測數據[11]只有~ 500幀,對行人或騎自行車的注釋不到40個,因此,它不適合多類別的目標檢測。
? ? ? ? 在這項實驗研究中,我們將最先進的目標探測器(PointPillars[17])應用于這種3+1D雷達數據,通常用于LiDAR 3D數據。我們結合了多普勒信息,并探討了它是如何影響檢測性能的。此外,我們還研究了高程信息和過去雷達掃描的使用(即時間信息)如何提高道路用戶檢測性能。討論了適用于3+1D雷達數據的數據增強方法。最后,我們將基于雷達的最佳目標檢測方法與使用激光雷達數據的PointPillars網絡進行了比較,并檢查了兩種傳感器的性能和能力作為類和距離的函數。
? ? ? ? 為了便于我們的實驗研究,我們引入了View-of-Delft (VoD)數據集,這是一個用于多類3D對象檢測的多傳感器汽車數據集,見圖1。
? ? ? ? 圖1:來自View-of-Delft (VoD)數據集的示例場景。我們的記錄包含相機圖像、LiDAR點云(這里顯示為小點線)和3+1D雷達數據(顯示為大點),以及準確的定位信息和3D包圍框注釋(騎車人/行人類別標簽為紅色/綠色)。
2相關工作
A.基于2+1D雷達的多類目標探測
? ? ? ? 傳統的汽車雷達已經以各種方式用于多類別道路用戶檢測,例如使用聚類算法[2][7]、卷積神經網絡[3][4][22]或點云處理神經網絡[5][6]。2+1D雷達提供的點云稀疏性是雷達感知領域的最大瓶頸之一。此外,高度信息的缺乏使得物體高度的推斷幾乎不可能。研究人員試圖克服這些挑戰,并通過各種方式獲得更多信息,例如:通過合并多個幀[5][22][23],使用多個雷達[24],使用低水平雷達數據[3][4][23],或融合雷達與其他傳感器模式[25][26][27][28]。然而,目前還沒有基于2+1D雷達的多類三維包圍盒回歸方法。相反,大多數現有方法執行雷達點云的語義或實例分割,即它們為每個雷達目標分別分配一個類標簽(可能是一個對象id)[3][5][7][8][9][10]。
B.基于3+1D的多類目標檢測
? ? ? ? 只有少數工作使用3+1D雷達進行目標探測。在[29]中,作者將該傳感器應用于高速公路和停車場場景的靜態三維占用圖,過濾掉動態目標。然后,地圖被圖像分割網絡從語義上分割成街道、路邊石、柵欄、障礙物或停放的汽車類別。目前,唯一公開的包含3+1D雷達數據的汽車檢測數據集是Astyx數據集[11]。盡管數據集的大小很小(約500幀),作者已經成功地使用它通過融合雷達和攝像機與AVOD融合網絡[12]來執行3D汽車檢測。此外,他們還將這種雷達-攝像機融合與激光雷達-攝像機融合進行了比較,盡管激光雷達傳感器只有16線。最后,[13]使用兩個空間分離的低分辨率3+1D雷達的組合,通過一個名為RP-net的新型神經網絡來檢測車輛,該神經網絡包含幾個Pointnet層。據我們所知,3+1D雷達以前既沒有用于多類別道路用戶檢測,也沒有與高端激光雷達傳感器進行比較。
C.多普勒的使用
? ? ? ? 多普勒曾被很多地方使用。它最簡單的用途是在自車運動補償后區分靜態和動態物體。例如,一些研究只保留靜態雷達目標[29][30][31],另一些研究使用多普勒信息只保留移動反射來檢測動態目標[3][23][32]。首先對雷達點云進行聚類生成目標,然后利用速度譜的基本統計特性(均值、偏差等)進行分類[2][7]。[5]在一項消融研究中提出,在pointnet++網絡中添加多普勒作為輸入通道可以顯著改善語義分割。[3]表明(相對)速度分布包含有價值的類別信息,可以用于多類別道路用戶檢測。對于來自同一物體的多個雷達目標,也可以使用目標測量的徑向速度作為不同方位角的樣本,回歸物體的2D速度矢量(以及方向),如[33]為汽車,[34]為自行車。因此,多普勒維度可以在兩種方式中有利于三維物體檢測:1)分類,因為類可能有不同的速度模式[3][5];2)方向估計,因為物體的一般速度(移動方向)與它的方向[33][34]高度相關。盡管多普勒具有優勢,但在少數使用3+1D雷達傳感器的工作中,多普勒要么被忽略[12],要么被用于過濾靜態雷達目標[29],要么被用作沒有自車運動補償的點云處理網絡[13]的額外輸入通道。雖然多普勒已被證明有利于使用傳統的2+1D汽車雷達進行多類別道路用戶檢測,但3+1D雷達僅在文獻[13]中用于單類別車輛檢測。
D.雷達數據集
? ? ? ? 最近,一些包含雷達數據的汽車數據集被發布用于各種任務,如定位[35][36],物體分類[37],或使用固定雷達傳感器[38]的場景理解。在本節中,我們將重點討論包含從運動車輛真實記錄的檢測數據集。為了適用于雷達的多類別道路用戶檢測任務(無論是純雷達還是傳感器融合),我們認為汽車數據集應該滿足以下要求:1)使用下一代3+1D雷達提供仰角和多普勒信息,2)還配備來自其他模態的高端傳感器,即高清攝像機和64線激光雷達,3)為物體提供標注,包括其范圍和方向(2D或3D包圍框),4)應該為最重要的城市道路用戶:行人、汽車和騎自行車的人提供合理數量的標注。
? ? ? ? 表1根據這些要求概述了目前可用的雷達探測數據集。可以看到,RadarScenes[18]和CRUW[19]數據集都包含2+1D雷達和相機數據,并且對這三個主要類都有大量的注釋。不幸的是,它們不提供LiDAR數據或邊界框注釋。此外,在RadarScenes中,只有移動的對象被注釋。RADIATE數據集[20]包含雷達、相機和激光雷達數據以及所有三個類別的2D BEV包圍框注釋。它是使用機械旋轉的2D雷達收集的,該雷達提供360°環境的密集圖像,但不輸出多普勒或俯仰信息。Zendar數據集[21]使用2+1D雷達提供合成孔徑雷達(SAR)數據。不幸的是,它只有car類的注釋。nuScenes數據集[15]包含來自所有三種傳感器模態的數據,它們提供了大量的3D包圍框注釋。然而,在研究團體[1][18]中,一些人認為裝備的2+1D雷達傳感器的輸出對于雷達探測方法來說過于稀疏,并且使用的激光雷達傳感器只有32線。Astyx數據集[11]是唯一一個使用3+1D雷達的數據集,它還包含來自相機和16線激光雷達的數據。不幸的是,它有限的大小(約500幀)和高度不平衡的類(例如,只有39/11行人/騎自行車的注釋)使得它不適合多類對象檢測研究。總之,現有的公開數據集無法滿足所有要求。
?? ? ? ? 表1:公開可用的雷達檢測數據集與所使用的傳感器、注釋類型和車輛數量(汽車、卡車和公共汽車的總和)、行人和騎自行車的注釋(單個注釋/唯一實例,其中唯一的對象id可用)的比較。頂部/底部部分是雷達提供2D/3D空間坐標的數據集。
E.貢獻
? ? ? ? 我們的主要貢獻如下:
? ? ? ? 1)我們使用PointPillars[17]檢測3+1D雷達的道路使用者,PointPillars[17]是一種最先進的多類別3D物體探測器,通常用于激光雷達。我們研究了雷達點云的不同特征在消融研究中的重要性,包括多普勒、RCS和傳統2+1D汽車雷達無法提供的高程信息。
? ? ? ? 2)在相同的交通場景下,通過訓練和測試,將基于雷達的檢測與基于激光雷達的檢測進行比較。我們表明,目前基于點云的密集激光雷達檢測仍然優于雷達檢測。然而,我們也發現,當雷達數據包含高程信息時,當多個雷達掃描在時間上集成時,性能差距可以縮小。此外,探測得益于雷達特有的多普勒測量。
? ? ? ? 3)我們發布了View-of-Delft (VoD)數據集,這是一種新型的多傳感器汽車數據集,用于多類別3D物體檢測,由校準和同步的激光雷達、攝像機和雷達數據組成,記錄在真實世界的交通情況下,并為靜態和移動的道路用戶提供注釋。View-of-Delft數據集是包含3+1D雷達記錄的最大數據集,其注釋幀數是Astyx數據集[11]的約20倍,它是唯一同時包含相機,(任何類型)雷達和64線激光雷達數據的公共數據集。雖然這項工作側重于只有雷達的方法,但由于這種傳感器安排,該數據集也適用于傳感器融合、只有相機或只有激光雷達的方法,并對對雜亂的城市交通感興趣的研究人員有用。
? ? ? ? 圖2:記錄平臺。我們的豐田普銳斯2013平臺配備了立體相機設置,旋轉3D激光雷達傳感器,ZF FRGen 21 3+1D雷達,以及GPS/IMU組合慣性導航系統。
?3數據集
? ? ? ? 在本節中,我們將展示View-of-Delft數據集,包括使用的傳感器設置和提供的標注2。數據集是在駕駛我們的演示車[39]穿過代爾夫特市(荷蘭)的校園、郊區和老城區時記錄的。記錄的選擇傾向于包含弱勢道路使用者(VRU-s)的場景,即行人和騎自行車的人。
A.測量設置和提供的數據
? ? ? ? 我們記錄了以下傳感器的輸出:安裝在前保險桿后面的ZF FRGen21 3+1D雷達(規格見表2,約13 Hz),安裝在擋風玻璃上的立體攝像機(1936 × 1216px,約30 Hz),安裝在車頂的Velodyne hl -64 S3激光雷達(約10 Hz)掃描儀,以及自車的里程計(RTK GPS、IMU和車輪里程計的過濾組合,約100 Hz)。所有傳感器按照[40]進行聯合校準。有關傳感器設置的總體概述,請參見圖2。
? ? ? ? 我們提供了類似于[14]的同步“幀”數據集,包括一個LiDAR點云、一個校正的單攝像機圖像、一個雷達點云和一個描述里程的轉換(矩陣)。我們選擇LiDAR傳感器的時間戳作為先導,并選擇可用的最近的相機、雷達和里程信息(最大容忍時間差設置為0.05秒)。幀在時間上以10Hz(同步后)連續,它們被組織成平均長度為40秒的切片。激光雷達和雷達點云都是自車運動補償的,既用于激光雷達/雷達和相機數據捕獲之間的自車運動,也用于掃描期間的自車運動(即激光雷達傳感器的一次完整旋轉)。我們的數據集在定義的坐標系統(參見圖2)和文件結構中都遵循流行的KITTI數據集[14]。這種選擇的主要優勢是幾個開源工具包和檢測方法直接適用于我們的數據集。除了數據集的同步版本外,我們還提供了“原始”異步記錄數據,包括所有13Hz的雷達掃描數據,以及來自左右相機的30Hz的校正圖像。這可以使研究人員為檢測、跟蹤、預測或其他任務尋找更豐富的時間數據。
? ? ? ? 表2:雷達傳感器配置的四個維度的原生精度和分辨率。車載信號處理提供了進一步的分辨率增益。
B.標注
? ? ? ? 激光雷達傳感器50米范圍內的任何感興趣的物體(靜態或移動),以及相機視野范圍內的部分或全部(水平視場:±32°,垂直視場:±22°)都用六自由度(6 DoF) 3D包圍框標注3。13個對象類被注釋,其對象計數見表3。對于每個對象,我們還為兩種類型的遮擋(“空間”和“照明”)和活動屬性(“停止”、“移動”、“停放”、“推送”、“坐著”)注釋了遮擋級別。此外,相同的物理對象在幀上被分配唯一的對象id,使數據集適合跟蹤和預測任務。帶有類和屬性詳細描述的標注說明將與數據集一起共享。
?? ? ? ? 表3:數據集統計數據:每個類的帶標注對象的數量(上),唯一對象的數量(中)和移動對象的百分比(下)。與整個數據集相比的比率在括號中給出。“其他”列結合了乘坐其他類、車輛其他類、卡車類和乘坐不確定類。
4方法
? ? ? ? 這項工作使用PointPillars[17]作為最先進的基線多類對象檢測器。PointPillars通常在激光雷達數據上進行訓練,而我們則在3+1D雷達點云上進行訓練。在本節中,我們將詳細介紹雷達輸入的可用特征,并描述如何對多普勒進行編碼。我們還討論了數據增強技術,并描述了多個雷達掃描的時間合并。
A. 3+1D雷達點云和多普勒編碼
? ? ? ? 3+1D雷達每次掃描輸出一個具有空間、多普勒和反射率通道的點云,為每個點提供五個特征:r距離、α方位角、θ仰角、vrel相對徑向速度和RCS反射率。由于大多數基于點云的目標探測器使用笛卡爾坐標,我們也轉換雷達點云:p = [x, y, z, vrel, RCS],其中p表示一個點,x, y, z是三個空間坐標,x和y軸分別指向車輛前方和左側,見圖2。補償徑向速度是一個有符號的標量值,用vr表示,描述點的自車運動補償(即絕對)徑向速度。為了得到它,我們通過消除來自自車平移和旋轉運動的傳感器運動來對vrel進行自車運動補償。用于多類目標檢測的多普勒編碼的例子包括[3]和[5]。Vr被用作雷達點的附加裝飾,并對特征進行歸一化,使其具有零均值和單位標準差。
B.雷達點云的積累
? ? ? ? 我們嘗試在目標探測器中合并多個雷達掃描,類似于[15]對激光雷達所做的工作,[5]對2+1D雷達數據所做的工作。除了豐富點云的優勢外,合并還提供了時間信息,這不僅可以幫助目標探測器定位,還可以幫助分類。累加是通過將以前掃描的點云轉換為最后一次掃描的坐標系統來實現的,并將一個標量時間id(用t表示)附加到每個點,以指示它起源于哪個掃描。例如,當前掃描的一個點的t = 0,而最近第三次掃描的一個點的t =?2。編碼器包括這個時間id作為雷達點的額外裝飾。請注意,“掃描”與第3節中定義的“幀”不同。雖然幀中的雷達點云與激光雷達傳感器同步,但在這里我們合并了獨立于其他傳感器從雷達接收到的最后一次掃描。
C.數據增強
? ? ? ? 激光雷達研究中使用的所有數據增強方法并非都直接適用于雷達點云,因為雷達測量的vr應與觀測物體的角度保持相關。同一物體具有相同的運動學(速度和方向),在不同的方位角或仰角,即在增強過程中平移后,將用不同的速度測量來檢測。類似地,不可能局部地旋轉地面真值邊界框和其中的點(圍繞它們的垂直軸),因為這會以未知的方式改變物體速度的徑向分量。最后,圍繞傳感器旋轉雷達點云(例如,圍繞其垂直軸)不會影響測量的相對徑向速度。然而,對于自運動補償的徑向速度來說,這是不正確的,因為補償使用了雷達運動矢量和物體方向之間的角度。因此,常用的增強方法,如點云的平移和旋轉或地面真值盒的旋轉,在雷達點云的情況下甚至是有害的。但是,由于雷達點的(絕對)觀測角度不發生變化,可以將點云鏡像到縱軸上并進行縮放。請注意,只有當原點是雷達傳感器本身時,縮放增強才有效。
5實驗
? ? ? ? 我們考慮對三種對象類別的物體檢測性能:汽車、行人和騎自行車的人。這些類的空間分布如圖3所示。與[3][5][18][23]不同,我們在實驗中同時考慮了靜態和移動物體。我們以59%/15%/26%的比例將數據集分成訓練集、驗證集和測試集,這樣來自同一剪輯的幀只會出現在一次分割中。剪輯被分配給分割,這樣三個主要類別(汽車、行人和騎自行車的人)的注釋數量(靜態的和移動的)按比例分布在分割中。
? ? ? ? 我們使用了KITTI基準[14]之后的兩個性能度量:平均精度(AP)和平均方向相似度(AOS)。對于AP,我們在3D中計算預測值和地面真值邊界框的交并比(IoU),并要求汽車重疊50%,行人和自行車類別重疊25%,如[14]。平均AP (mAP)和平均AOS (mAOS)通過平均類別結果計算。我們報告了兩個區域的結果:1)整個標注區域(攝像機視場高達50米)和2)一個更安全的區域,稱為“駕駛走廊”,定義為自車前方地面平面上的一個矩形,在攝像機坐標中為[?4 m < x < +4 m, z < 25 m]。
? ? ? ? 在我們的實驗中,我們將參考幾個傳感器數據和特征組合:PP-LiDAR是在LiDAR數據上訓練的PointPillars,具有4個典型的輸入特征:空間坐標和強度。該方法將作為我們雷達-激光雷達對比實驗的基準。PP-radar也是PointPillars網絡,但使用空間坐標、反射率和多普勒對具有所有5個特征的3+1D雷達數據進行訓練。相比之下,PP-radar(沒有X)去掉了特征X,只訓練了4個特征。最后,PP?-radar(N次掃描)是一種使用N次累積雷達掃描的PP?-radar,如第4-B小節所述。該實現構建在OpenPCDet[41]上。所有的網絡都以多類別的方式進行訓練。
?? ? ? ? 圖3:數據集中汽車、行人和騎自行車的人總體空間分布為對數圖。自車的位置是(0,0),向上看。每個像素對應一平方米的面積。最深的藍色表示零標注。
A.消融研究:PP-radar
? ? ? ? 在我們的消融研究中,在整個覆蓋區域和“駕駛走廊”區域內,各種PointPillars網絡的性能見表4。結果表明,去除多普勒信息(PP-radar(無多普勒))顯著降低了兩種VRU類別的性能(行人:34.9 vs. 21.3,騎行者:43.1 vs. 30.4,整個標注區域)。此外,它阻礙了整體的方向估計(mAOS: 30.5 vs. 22.1)。結果還表明,刪除高程信息或RCS(即PP-radar(無高程)或PP-radar(無RCS))都會影響性能(mAP: 38.0 vs. 31.9 vs. 36.6對于整個標注區域)。最后,我們研究了是否包括以前掃描的雷達目標來提供時間信息會產生顯著差異。我們分別使用最后3次和5次掃描中的點來訓練和評估另外兩個網絡,以創建PP-radar(3次掃描)和PP-radar(5次掃描)。添加更多的掃描可以提高整體性能(mAP: 38.0 vs.單次/五次掃描的47.0)并改進方向估計(mAOS: 30.5 vs.單次/五次掃描的39.6)。
? ? ? ? 表4:所有測試方法在整個標注區域和“駕駛走廊”內的結果。上圖:雷達特征的消融研究。中間:時間信息研究。底部:基于激光雷達的探測器。粗體顯示每個部分的最佳雷達結果。所有特定類別的列都涉及用3D借據計算的AP(汽車為0.5,行人/騎自行車者為0.25)。
? ? ? ? PP-radar對所有道路使用者類別的正確和不正確檢測示例如圖6和7所示。
? ? ? ? 圖6:PP-radar投影到圖像平面上的正確探測目標示例。汽車/行人/自行車檢測顯示為藍色/綠色/紅色包圍框。點是雷達目標,根據與傳感器的距離著色。
? ? ? ? 圖7:PP-radar錯誤檢測的例子:(a)合并較小的物體(兩個行人被檢測為一個騎自行車的人,(b)較大的物體分裂成較小的物體(一個騎自行車的人被檢測為兩個行人),(c)附近有強烈的反射和雜波(金屬桿和高路肩),(d)遠處的物體反射太少(遠處的行人)。
B.性能比較:PP-radar vs. PP-LiDAR
? ? ? ? 我們隨后比較了PP-radar和PP-LiDAR的目標探測性能,見表4。PP-LiDAR在所有三個類別中都明顯優于PP-radar(mAP: 62.1 vs. 38.0)。當我們只考慮“駕駛走廊”區域時,相對性能差距減小(mAP: 81.6 vs. 63.0)。圖4提供了性能作為距離的函數。有關這些結果的解釋,請參閱下一節。圖5顯示了性能作為所需IoU重疊的函數。一個有趣的趨勢是,在更高的IoU閾值下,雷達的性能比激光雷達下降得更早。這表明,雷達可以正確地探測和分類許多物體,但難以確定它們的準確3D位置,這阻礙了整體性能。
? ? ? ? 平均而言,PP-radar推理比PP-LiDAR推理花費的時間少40%(僅測量前饋步平均為7.8 ms vs. 12.9 ms)。
? ? ? ? 圖4:PP-LiDAR(虛線,菱形)和PP-radar(實線,圓形)在每個類別的距離上的性能(汽車3D IoU=0.5,行人/自行車IoU=0.25)。
? ? ? ? 圖5:不同3D?IoU閾值下PP-LiDAR(虛線,菱形)和PP-radar(實線,圓圈)的性能。
6討論
? ? ? ??一般來說,目標檢測性能將由多個因素決定:位于目標類的特定對象上的3D點的數量,它們各自的位置精度,它們的空間配置和附加屬性(例如速度),它們與非目標類對象的顯著性,最后,訓練集的大小。
? ? ? ? 所有基于雷達的多普勒方法在自行車類表現最好。與行人,尤其是汽車相比,數據集中絕大多數騎自行車的人都在移動,見表3。車輪和踏板的圓形運動,加上靠近中心的高反射金屬框架,產生了清晰而獨特的反射圖案,雷達可以更可靠地探測到。在汽車類上,雷達方法相對于這些物體的大尺寸表現得更差。這可以解釋為數據集中很少有移動的汽車,而且許多汽車都停在道路或運河的另一邊,距離較遠(見圖3),因此反射很少。圖4證實附近的車輛可以被更好地檢測到。當只關注車輛前方安全關鍵的“駕駛走廊”區域時,雷達對所有類別的性能都要好得多,見表4。這種性能與駕駛輔助或自動駕駛更相關。
? ? ? ? PP-LiDAR與PP-radar的比較表明,PP-LiDAR的綜合性能明顯更高。這可以歸因于所使用的特定類型的64線LiDAR傳感器的更高的點密度(標注區域的平均點數:LiDAR: 21344,雷達:216)。此外,位于車頂的激光雷達傳感器的高視點也有利于物體檢測性能,因為遮擋不那么明顯。然而,雷達傳感器在成本和易于包裝方面具有明顯的優勢。
? ? ? ? 累積多個雷達掃描被證明可以產生顯著的性能改進。這是因為點密度增加,但也可能是因為過去的掃描提供了時間信息,這有助于分類(多普勒特征隨時間的變化是特定類別的,例如擺動的四肢)。因此,使用多次掃描在一定程度上縮小了與激光雷達的相對性能差距。
? ? ? ? 如果由于點云密度低得多,可以嵌入到特殊硬件(具有一定的內存和處理限制)上,那么對目標檢測性能的妥協可能是可以接受的。雷達分辨率和目標提取(即峰值發現)的進一步改進,和/或低水平數據的可用性(例如雷達立方體[3])可以進一步改善目標檢測。
7結論? ? ? ??
? ? ? ??在64線三維激光雷達數據和3+1D雷達數據上進行了多類別道路用戶檢測(PointPillars)的實驗研究。在消融研究中,我們發現增加高程數據(如在下一代汽車雷達中)明顯提高了目標檢測性能(從31.9 mAP到38.0 mAP)。多普勒信息對于基于雷達的目標探測仍然是至關重要的,因為去除多普勒信息將大大降低性能(mAP 38.0 vs. 29.1)。RCS信息也有幫助(mAP 38.0 vs.如果刪除36.6)。
? ? ? ? 結果表明,當使用相同的PointPillars模型(mAP 62.1 vs. 38.0)時,64線激光雷達數據上的目標檢測仍然大大優于3+1D雷達數據。然而,累積連續的雷達掃描在一定程度上縮小了與激光雷達的差距(mAP 62.1 vs. 47.0, 5次雷達掃描),特別是在“駕駛走廊”(mAP 81.6 vs. 71.4, 5次雷達掃描)。
? ? ? ? 在我們的實驗研究中,我們引入了View-of-Delft (VoD)數據集,這是一個用于多類別3D目標檢測的多傳感器數據集,由校準、同步和標注的激光雷達、相機和3+1D雷達數據組成。它是包含3+1D雷達記錄的最大數據集,適用于促進未來僅雷達、僅相機、僅激光雷達或用于目標檢測和跟蹤的融合方法的研究。
總結
以上是生活随笔為你收集整理的论文解读--Multi-class Road User Detection with 3+1D Radar in the View-of-Delft Dataset的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 中国染料产业竞争格局分析与消费需求调研报
 - 下一篇: Windows无法安装到GPT格式磁盘的