【基于3D視覺系統(tǒng)的自動駕駛導(dǎo)航分析】自動駕駛需要許多技術(shù),但強大的3D感知是車輛與周圍環(huán)境互動的先決條件。目前,最標(biāo)準(zhǔn)的方法是基于Lidar來檢測和識別物體,發(fā)現(xiàn)可行駛道路和相關(guān)任務(wù)。相比于Lidar,基于視覺信息(如圖像或視頻)的3D感知對降低成本也至關(guān)重要。
2018計算機視覺歐洲大會(EuropeanConferenceonComputerVision,簡稱ECCV)主辦的這一挑戰(zhàn)要求參賽者基于3D視覺系統(tǒng)來完成自動駕駛相關(guān)的一些相關(guān)任務(wù),ApolloScape作為Apollo開源平臺的一部分,將為本次大會的計算機視覺社區(qū)提供一個大規(guī)模和高質(zhì)量的真實場景數(shù)據(jù)集。本次大會將于9月8日-14日在德國慕尼黑舉辦,該會議與CVPR、ICCV共稱為計算機視覺領(lǐng)域三大頂級學(xué)術(shù)會議。
ApolloScape是百度在2017年創(chuàng)立的的Apollo自動駕駛開源平臺的一部分。為了刻畫高細(xì)粒度的靜態(tài)3D世界,我們使用移動激光雷達掃描儀器從Reigl收集點云。這種方法產(chǎn)生的三維點云要比Velodyne產(chǎn)生點云更精確更稠密。在采集車車頂上安裝有標(biāo)定好的高分辨率相機以每一米一幀的速率同步記錄采集車周圍的場景。而且,整個系統(tǒng)配有高精度GPS和IMU,相機的實時位姿都可以被同步記錄。我們的采集圖像來自于中國的不同城市,比如北京、上海和深圳等。
ApolloScape擁有來自現(xiàn)實世界的高質(zhì)量的靜態(tài)場景的3D標(biāo)注與動態(tài)物體的2D標(biāo)注。目前,已經(jīng)產(chǎn)出了14.7萬張標(biāo)注,覆蓋了來自三個城市的三個站點周圍10KM的地域。而且,每個區(qū)域都在不同的天氣和光照條件下進行了重復(fù)掃描。最終,ApolloSacpe將會發(fā)展成為一個不斷更新進化的數(shù)據(jù)集,來自新的城市的數(shù)據(jù)標(biāo)注也會陸續(xù)的加入其中。ApolloSacpe計劃產(chǎn)出至少20萬張圖片用于舉行不同的挑戰(zhàn)賽,其中將會覆蓋來自三個城市的5個站點的20KM的道路。在下文中,我們將會針對不同的挑戰(zhàn)任務(wù)進行詳細(xì)的介紹。
關(guān)于挑戰(zhàn)賽
對于所有的挑戰(zhàn),除了測試精準(zhǔn)度外(精準(zhǔn)度會用來給算法排名次),我們也要求參與者具體說明他們所使用的算法的速度和執(zhí)行細(xì)節(jié)。我們會鼓勵實時運行的算法,例如30fps,也會將他們突出標(biāo)注在排行榜上,因為速度是實際應(yīng)用的關(guān)鍵屬性。
挑戰(zhàn)賽內(nèi)容:基于視覺的細(xì)粒度車道標(biāo)記分割
具有車道標(biāo)記的高精地圖通常用作自動駕駛車輛的后端導(dǎo)航。目前,大多數(shù)高精地圖的生產(chǎn)主要由手工標(biāo)記構(gòu)建。在此挑戰(zhàn)中,我們要求參與者設(shè)計實現(xiàn)基于RGB圖像的道路基本元素的自動檢測算法。這些分割結(jié)果直接用于高精地圖的生產(chǎn)或更新環(huán)節(jié)。這項任務(wù)的挑戰(zhàn)之處在于不清晰的車道標(biāo)注和擁擠復(fù)雜的交通環(huán)境。
整個數(shù)據(jù)集的Groundtruth是在三維點云上標(biāo)注完成的。然后通過投影得到2D圖像的Groundtruth。此外,移動障礙物的遮擋問題我們也通過2D圖像上的手動標(biāo)注來完成了。參與者還可以利用相應(yīng)的視頻、相機內(nèi)參和位置來幫助分割任務(wù)。我們在圖一中舉例說明了3D車道標(biāo)記,在圖二中列出了2D的Groundtruth。詳細(xì)的評估標(biāo)準(zhǔn)請參考我們的ECCV挑戰(zhàn)賽網(wǎng)站(http://apolloscape.auto/ECCV/index.html)。
2.實時自定位
基于視覺的自定位,即通過圖像或視頻估計相機的6自由度位姿。與使用LIDAR相比,具有成本低的優(yōu)勢,但同時也具有更高的挑戰(zhàn)。在我們的數(shù)據(jù)集上我們測試了最新的自定位算法如VidLoc[2],然而我們發(fā)現(xiàn)離工業(yè)應(yīng)用仍然有很大的差距(定位精度必須小于15cm)。此外,自我定位算法的實時性對于自動駕駛也至關(guān)重要。
在這次挑戰(zhàn)中,我們提供了大量的帶有精度相機位姿的訓(xùn)練視頻。同時我們的測試視頻也來自于同一個場景,但是在不同的時間、不同的天氣以及交通狀況下采集的。我們的指標(biāo)與DeLS-3D[3]和PoseNet[4]相同。在圖3中,我們突出標(biāo)記了地面實況攝像頭姿勢。我們已經(jīng)將所有的Groundtruth與ApolloScape發(fā)布的數(shù)據(jù)結(jié)合起來。詳細(xì)的評估標(biāo)準(zhǔn)請參考我們的ECCV挑戰(zhàn)賽網(wǎng)站(http://apolloscape.auto/ECCV/index.html)。
3.3D汽車實例了解
對于自動駕駛車輛來說,檢測其他車輛、行人、乘客等是非常重要的。系統(tǒng)必須了解每個圖像幀中每個物體的3D關(guān)系,尤其是自動駕駛車輛周圍或附近的物體。在該挑戰(zhàn)中,參賽者需要檢測,重建和估計圖像中所有車輛的3D形狀。圖4中顯示了兩幀標(biāo)注圖像的樣例。
我們將基于平均精度(AP)來評估車輛的3D邊框果,3D形狀和姿勢。這與2D實例檢測和分割類似。詳細(xì)的評估標(biāo)準(zhǔn)請參考我們的ECCV挑戰(zhàn)賽網(wǎng)站(http://apolloscape.auto/ECCV/index.html)。
關(guān)于ApolloScape
目前ApolloScape已開放了14.7萬幀的像素級語義標(biāo)注圖像,向全球的自動駕駛技術(shù)研究人員提供更為實用的數(shù)據(jù)資源。通過高精度的采集、標(biāo)注,創(chuàng)造了全球最大的三維自動駕駛數(shù)據(jù)集SceneParsing(場景解析)。
此外,ApolloScape計劃為數(shù)據(jù)集拓展更多類型、更多屬性的數(shù)據(jù):通過添加紅外圖像,幫助自動駕駛算法更容易進行夜間檢測;提取更稠密的軌跡信息,用于對駕駛行為進行建模;以及通過眾包模式采集立體視覺的駕駛特殊事件圖像。開發(fā)者也可以參照我們在CVPR上發(fā)表的有關(guān)自動駕駛數(shù)據(jù)集的論文,以便于更好的使用ApolloScape數(shù)據(jù)集。