智慧應用 影音
Microchip Technology Hong Kong
華騰國際科技股份有限公司

Tesla為何自己設計晶片?

Tesla電動車的8顆攝影機配置。擷取自Tesla網站

Tesla前些日子召開AI Day,揭露他們在自駕車未來的AI軟體以及晶片布局。目前市值最高的汽車品牌,在乎的技術是AI軟體以及運算晶片上的突破。前幾年還不清楚為何Tesla抱怨車用晶片供應商提供的晶片不敷需求,要自己設計,幾年之後他們推出自己的車用晶片,包含了12個CPU,一顆GPU,2顆NPU (每顆算力36.86 TOPS)。而原因日益明朗:深度軟硬整合。

出人意料的,Tesla宣布Dojo計劃,正在開發後端訓練深度學習網路所須的AI伺服器,其中主要晶片D1。雖然宣稱與競爭對手相比有4倍的效能、1.3倍效能功耗比,但是Dojo還在開發中,成效如何還不知道。如同Elon Musk所言,Dojo成功與否,在於是否能替換目前已投資龐大的GPU超級電腦(算力世界排名第五)。所以對GPU在後端運算的影響還有待觀察。

為何Tesla要設計自己的晶片?透過電動車垂直領域的掌控,親自嚐到「數位化」以及「AI化」對於自身產品設計、服務競爭力的重要性。企圖採用top down的方式提供高度軟硬體整合的產品。而且目前所開發的自駕技術(介於Level 2~3之間),提供與競爭對手最大的差異化。龐大、複製的AI演算法,需要有相匹配的晶片配合,外部供應商趨向於通用的配置,很難優化。

自駕技術4個關鍵模組:感知、預測、規劃以及控制,在會議中也披露更多這些模組設計的技術細節。

感知模組是關鍵,他們再次強調Tesla的全視覺演算法(8顆相機,不使用光達或是雷達),雖然聽起來詫異,近來其他團隊的研究也證實,全視覺的做法是可行的。相機使用RAW格式作為輸入,使用標準的卷積網路(CNN)來分析畫面內容。他們強調訊號來源是RAW格式而不使用現行ISP處理完之後的影像,這也跟我們的觀察一致,因為RAW保有更多的感測訊息(雖然也含有雜訊),詳細討論請參考前文〈翻新ISP設計〉

使用Transformer類型的演算法(也是目前許多文字、對話常使用的機制)來結合跨相機間的觀察,偵測出道路以及環境狀態:包括物件類別、位置、標線、分隔島、號誌、十字路口、各種標誌燈號等。使用Transformer的原因是跨鏡頭間所觀察到的部分結構,有機會在另一個畫面中比對,找出相對關係,而以此逐一重建自駕所需的各種語意訊息:可以想像行進間使用演算法即時畫出引導車輛行駛的鳥瞰圖。

演算法的穩固性十分重要。大量使用電腦繪圖模擬各個場域環境、燈光、惡劣天氣,還有極少數的情境(如有人帶著狗在高速公路跑步),加強訓練,增加系統穩固性。訓練資料涵蓋營運中的50個國家,但是他們強調演算法的訓練是region-agnostic(獨立於國家或是區域之外),因為人類在駕駛時的環境感知本來就不受區域的限制。

預測需要考量偵測結果以及時間上的變化,所以很自然的,使用考量時間序列的深度學習網路來吸納物件動態變化,可以想像這樣的結果可以大大提升個別畫面預測結果的穩固性。這也與大家在駕駛時的經驗吻合,如果已經觀察到某些車輛的移動軌跡,即使有其他車輛暫時遮蔽、或是在大雨、濃霧中,我們還是可以大致推估對方可能的位置。

自駕技術4個關鍵模組並不是end-to-end一口氣做完,雖然目前學術研究發現這樣的效能會比較好,但是Tesla團隊提到還有許多技術尚待克服。採用的做法是感知結合預測模組,一起做完之後,將多個物件的偵測結果以及未來的路徑預測交給之後的「規劃」以及「控制」模組,完成自駕。

汽車產業進入典範專業,軟體逐漸吃掉汽車硬體(參考前文〈軟體吃掉硬體的自駕技術〉)。Tesla掌握電動車垂直領域,利用軟硬整合,開發專屬的ASIC晶片,拉大與其他OEM之間的差異。這樣的模式並不陌生,蘋果(Apple)在手機領域也是如此操作。如此看來,是否有其他產業領先者也需要自行設計晶片呢?這對台灣的供應鏈會有怎樣的影響?在許多國內的電子零件供應商想搶食汽車產業大餅時,這樣的變化,對於未來供應鏈的預測是有跡可循,還是多了不確定性?

徐宏民(Winston Hsu)現任台大資工系教授及NVIDIA AI Lab計畫主持人。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(工業智能新創)共同創辦人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗,近年致力將深度學習技術落實到產業,並協助成立研究開發團隊。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。