前面的文章提到Tesla之所以能拋棄雷達(Radar)或是光達(LiDAR)而使用全視覺的技術,其中一個要素是使用大量的訓練質料來提升「感知」以及「預測」能力。另一個自駕團隊Lyft Level 5近期研究也發現足夠的訓練資料可以大大提升自駕品質:在預測的工作上如果訓練資料由10小時提升為1,000小時,每1,000英里自駕出錯機率會降為11分之1。訓練資料在自駕上扮演了關鍵的角色,特別是目前的演算法都採用了以深度學習為基礎的架構。
更新了自駕智慧模型設計後,如何評估效能?最直覺的方式就是開車子上路測試。但是這樣的方式很不符合經濟效益,測試的時間冗長、風險太高、而且中間出錯的狀況很難複製追蹤。所以目前大多使用行車紀錄或是(3D)行車模擬器,作為訓練或是測試資料(場景),而且大部分都是混合搭配。
錄製的行車資料,可以利用模仿學習(imitation learning)的方式,讓自駕系統學習人類的駕車方式,一般可以達到不錯的結果,但是在某些特殊案例,時常出現不可預測的反應。Waymo團隊發現,原因是這些長時間收錄的駕駛資料,都是符合法規的安全駕駛,沒有意外、違規等負樣本。解法是可以使用資料擴增的方式產生某些負樣本(例如讓車輛闖紅燈、撞上前車、偏離車道等),來協助訓練效果。
訓練自駕技術不僅需錄製的大量原始訊號,還需標註這些物件的3D位置、方向、速度等。而這些標註的取得十分昂貴,我們的經驗是3D資料(如點雲)並不是容易觀看的資料形式,時常得在多個視角切換,費時費力。
為降低時間以及人力成本,自動資料標註是很多團隊正在努力的方向。Tesla日前宣稱採用了龐大的自動標註訓練資料,Waymo團隊最近發表Auto Labeling技術,也呼應了Tesla的看法。因為資料標註不需要即時性,可以在後端利用較複雜的演算法(如物件追蹤),並統合多個時間點對同一個物件的感測,改進自動標註的正確性。實驗顯示,多時間的標註遠高於目前最好的3D物件偵測技術;更有意思的是,提出的自動標註技術與人工的品質相當。自動標註的潛力應該還有更大的發揮空間。
按照過往資料擴增的策略,我們可以生成更多的自駕訓練資料,一般是透過:(1)資料編修、(2)內容轉換、以及(3)新資料生成。編修既有的場景,加上需要的物件(事件),如加入一輛闖紅燈的跑車,或是逆向行駛的貨車,模擬對意外的應變能力。但是加入的物件必須與場景完全融合,光線、大小、甚至遮蔽等必須合乎自然,可以想像有非常多的面向必須考量。利用耗時的人工編修,當然可以達到目的,但不是具有擴充性的做法,最近Uber UTG團隊所提出的GeoSim,由深度學習技術自動編修,開啟更多的可能性。
同樣的也可以採用風格轉換的方式將白天轉換為黃昏、陰天,或是不同的季節,相關技術這幾年都有很多討論實做。在交通資料生成的方面,可以參考既有的交通流量,生成更多的訓練資料,不只是生成交通物件移動向量(如SimNet),甚至是自駕場景等都有所嘗試(如DriveGAN),也看到這些研究在降低自駕訓練以及測試成本所帶來的機會。
就模擬軟體而言,CLARA或是類似的模擬平台都是許多開發團隊所使用的,3D模擬軟體方便安置各樣的物件,或是模擬車上的感知元件,方便使用,但是場景有限,資料的多樣性是最大的限制。模擬平台又有sim2real,由模擬環境跨到真實領域的問題,目前不管在機械手臂、自駕車、或是電腦視覺的研究中,針對這樣的問題,都有許多跨領域學習調適(cross-domain learning)的方式可以著力。
自駕技術的演進,已經跨過技術概念展示的階段。所有頂尖團隊目前專注的都是如何將這些技術,以具有擴展性的方式,落地為未來可以獲利的產品。也代表者智慧車輛(甚至是智慧城市)變革不再只是實驗室內的討論,而即將逐一在產業發酵,帶來軟硬體的變革。在新產業驅動的同時,我們要扮演怎樣的角色,其實還是有選擇的機會,但也時間不多了。
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。