Tesla為何自己設計晶片？

徐宏民
2021-08-31
分享
Line

Tesla電動車的8顆攝影機配置。擷取自Tesla網站

Tesla前些日子召開AI Day，揭露他們在自駕車未來的AI軟體以及晶片布局。目前市值最高的汽車品牌，在乎的技術是AI軟體以及運算晶片上的突破。前幾年還不清楚為何Tesla抱怨車用晶片供應商提供的晶片不敷需求，要自己設計，幾年之後他們推出自己的車用晶片，包含了12個CPU，一顆GPU，2顆NPU (每顆算力36.86 TOPS)。而原因日益明朗：深度軟硬整合。

出人意料的，Tesla宣布Dojo計劃，正在開發後端訓練深度學習網路所須的AI伺服器，其中主要晶片D1。雖然宣稱與競爭對手相比有4倍的效能、1.3倍效能功耗比，但是Dojo還在開發中，成效如何還不知道。如同Elon Musk所言，Dojo成功與否，在於是否能替換目前已投資龐大的GPU超級電腦(算力世界排名第五)。所以對GPU在後端運算的影響還有待觀察。

為何Tesla要設計自己的晶片？透過電動車垂直領域的掌控，親自嚐到「數位化」以及「AI化」對於自身產品設計、服務競爭力的重要性。企圖採用top down的方式提供高度軟硬體整合的產品。而且目前所開發的自駕技術(介於Level 2~3之間)，提供與競爭對手最大的差異化。龐大、複製的AI演算法，需要有相匹配的晶片配合，外部供應商趨向於通用的配置，很難優化。

自駕技術4個關鍵模組：感知、預測、規劃以及控制，在會議中也披露更多這些模組設計的技術細節。

感知模組是關鍵，他們再次強調Tesla的全視覺演算法(8顆相機，不使用光達或是雷達)，雖然聽起來詫異，近來其他團隊的研究也證實，全視覺的做法是可行的。相機使用RAW格式作為輸入，使用標準的卷積網路(CNN)來分析畫面內容。他們強調訊號來源是RAW格式而不使用現行ISP處理完之後的影像，這也跟我們的觀察一致，因為RAW保有更多的感測訊息(雖然也含有雜訊)，詳細討論請參考前文〈翻新ISP設計〉。

使用Transformer類型的演算法(也是目前許多文字、對話常使用的機制)來結合跨相機間的觀察，偵測出道路以及環境狀態：包括物件類別、位置、標線、分隔島、號誌、十字路口、各種標誌燈號等。使用Transformer的原因是跨鏡頭間所觀察到的部分結構，有機會在另一個畫面中比對，找出相對關係，而以此逐一重建自駕所需的各種語意訊息：可以想像行進間使用演算法即時畫出引導車輛行駛的鳥瞰圖。

演算法的穩固性十分重要。大量使用電腦繪圖模擬各個場域環境、燈光、惡劣天氣，還有極少數的情境(如有人帶著狗在高速公路跑步)，加強訓練，增加系統穩固性。訓練資料涵蓋營運中的50個國家，但是他們強調演算法的訓練是region-agnostic(獨立於國家或是區域之外)，因為人類在駕駛時的環境感知本來就不受區域的限制。

預測需要考量偵測結果以及時間上的變化，所以很自然的，使用考量時間序列的深度學習網路來吸納物件動態變化，可以想像這樣的結果可以大大提升個別畫面預測結果的穩固性。這也與大家在駕駛時的經驗吻合，如果已經觀察到某些車輛的移動軌跡，即使有其他車輛暫時遮蔽、或是在大雨、濃霧中，我們還是可以大致推估對方可能的位置。

自駕技術4個關鍵模組並不是end-to-end一口氣做完，雖然目前學術研究發現這樣的效能會比較好，但是Tesla團隊提到還有許多技術尚待克服。採用的做法是感知結合預測模組，一起做完之後，將多個物件的偵測結果以及未來的路徑預測交給之後的「規劃」以及「控制」模組，完成自駕。

汽車產業進入典範專業，軟體逐漸吃掉汽車硬體(參考前文〈軟體吃掉硬體的自駕技術〉)。Tesla掌握電動車垂直領域，利用軟硬整合，開發專屬的ASIC晶片，拉大與其他OEM之間的差異。這樣的模式並不陌生，蘋果(Apple)在手機領域也是如此操作。如此看來，是否有其他產業領先者也需要自行設計晶片呢？這對台灣的供應鏈會有怎樣的影響？在許多國內的電子零件供應商想搶食汽車產業大餅時，這樣的變化，對於未來供應鏈的預測是有跡可循，還是多了不確定性？

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。