算力即國力，也是王道

詹益仁
2024-05-02
分享
Line

古典運算、平行運算，以及量子運算之概念比較。

數周前NVIDIA執行長黃仁勳在GTC 2024大會上發表新一代的GPU （B100/B200）。這B系列的GPU打破相當多紀錄，首先這GPU是由2顆獨立的晶片並排結合而成，採用台積電先進的4奈米N4P製程，而接合的方式是利用台積電CoWoS（chip on wafer on substrate）先進封裝技術。每一個晶片內涵1,080億個電晶體，這是首次單一晶片電晶體的數目超過1,000億顆，2顆加總共有2,160億顆。

1980年代我們在唸半導體的時代，1個晶片所含電晶體的集成度，由SSI（small scale integration），到MSI、LSI以及最後的VLSI（very large scale integration）。VLSI所定義的單一晶片所含電晶體的數目，也不過是100萬顆。現代的科技將這個數字推進10萬倍。

我們都知道GPU的算力跟電晶體的數目是直接相關，要增加電晶體的數目，一則是利用微影技術縮小電晶體的尺寸，另一則則是增大晶片的面積。就增大面積而言，在NVIDIA B系列前三代的GPU（H / A / V系列），晶片的面積就已經超過800平方釐米，將近3公分的平方。事實上這晶片面積，包括B系列在內，已經是12吋晶圓的極限，若繼續擴大晶片的面積，良率及在1片晶圓所能產生的晶片數目，都會受到很大的影響。

在無法繼續增加晶片面積的限制下，將2顆晶片利用先進的封裝技術，緊密並排在一起，如同1顆大的晶片，將會是未來的常態。蘋果（Apple）M1 Ultra處理器，就是由2顆M1晶片並排組合而成。

弔詭的是，這回B系列GPU使用的是台積電進階版N4P製程，與前一代H系的N4相比，根據台積電所公開的數據約是效能提升6%。然而，以單顆B系列的晶片為例，其電晶體的數目相較於H系列，增加約30% （1,080億顆 vs 800億顆）、功耗約略減少30%（500瓦 vs 700瓦），換言之，效能提升將近50%。

除非NVIDIA在B系列的GPU設計架構上，做了重大突破，否則很難想像這50%的效能改善是從何而來？

個人認為很大的改善在於，這2個晶片中的數據傳輸的損耗大幅下降。2個晶片中所傳輸的數據量是10TB/s，也就是每秒傳輸10的13次方的數據量，而M1 Ultra的數據量卻是2TB/s。緊密結合晶片中的數據傳輸所產生的功耗，是遠小於數據由晶片傳輸到印刷電路板上，再到另一個晶片上。兩者之間的功耗差距，除了距離長短之外，晶片與電路板間的阻抗不匹配，都會造成傳輸上的損耗。

換言之，在不斷需要提升算力的同時，利用先進封裝將幾顆運算晶片，緊密地結合在一起，未來將會是一個關鍵。如同利用矽光子及CPO（co-package optics）技術，將資料中心的交換器，大幅地減少其功耗及增加傳輸數據，是相同的道理。

算力除了跟晶片效能有很大的關係外，也跟計算機的架構有關。

我們以人工智慧運算及量子運算為例，最古典的運算如附圖（Ａ）所示。運算猶如一排車陣中，靠時序的控制（sequential control），一部車啟動後接著另一部，到最後一道指令，才完成整個車陣的紓解。然而在AI的運算中如附圖（B）所示，使用大量平行運算，１個GPU內部包含了數以千計的運算核心，因此算力遠大於古典的運算，但基本上仍存在時序的控制。

量子運算就完全不同了，如附圖（C）所示，在並排的車陣中利用量子的糾纏（entanglement），就宛如一張網絡將所有的車子四面八方的圈住在一起，沒有時序的控制，一聲令下就全員移動，因此算力又遠大於AI，相較之下所耗損的功率卻少了很多。

然而要產生量子糾纏，必須要在極嚴苛的環境下產生，如超低溫及超低雜訊，有太多不可控因素，所以時不時會有錯誤發生。個人淺見是，量子電腦很難成為一個商品化的產品，更談不上可靠度及品質管理系統。最有可能是大型的研究機構或大公司的研發部門，擁有台量子電腦，而且每售出1部量子電腦，原廠就得要有一組工程及技術人員進駐該單位。

不可否認算力即國力，GPU/AI的算力在未來一段時間內，仍然會是主流。在算力不斷地被要求提升之下，晶片的功耗及訊號的傳輸量，會是瓶頸之所在。先進的封裝技術如CoWoS，將會是各國所關注的焦點。