AI伺服器大行其道 供應鏈誰能沾邊? 智慧應用 影音
Vishay
Event

AI伺服器大行其道 供應鏈誰能沾邊?

  • 杜念魯台北

存在許久的AI與相關的AI伺服器,雖然再度躍上舞台,但背後究竟隱藏怎樣的秘密,與先前備受關注、甚至被視為市場逆境中唯一成長的伺服器產品之間,又有怎樣的差異,是在瞭解AI伺服器產業之前,需要先釐清的部分。

伺服器冠名AI 定義眾說紛紜

與傳統伺服器以中央處理器(CPU)為主要算力提供者的形式不同,AI伺服器一般是指採用異質架構形式的伺服器,一般常見可以為CPU+圖形處理器(GPU)、CPU+現場可程式閘陣列(FPGA)、CPU+張量處理單元(TPU)、CPU+特定應用IC(ASIC)及CPU+不同類型加速卡等多種形式。由於目前常見AI伺服器主要是透過CPU搭配GPU,因此讓以GPU起家的NVIDIA一舉躍上枝頭。

畢竟,目前AI伺服器的算力主要落在GPU上,而一台AI伺服器上搭載多少GPU,就成了評價AI伺服器最直接的標準。能搭載愈多的GPU,代表算力愈強,自然價格也就愈高。

不過,對於AI伺服器的定義,是泛指所有搭配GPU卡、加速卡的伺服器產品,都可統稱為AI伺服器;還是必須採用特殊介面及架構的伺服器才能算是AI伺服器,市場上還存有不同說法。所以,AI伺服器供應鏈或AI伺服器供應商,也難免出現參水的成分。

一台AI伺服器上搭載多少GPU,成為評價AI伺服器最直接的標準。李建樑攝(資料照)

一台AI伺服器上搭載多少GPU,成為評價AI伺服器最直接的標準。李建樑攝(資料照)

技術不新 但商機無止境

當然,不論是異質架構運算或AI伺服器,其實都不是最近才出現的技術、產品,之所以會受到廣大關注,主要還是對AI的需求持續提升,從線上遊戲到自駕車系統,處處都存在著AI的影子。NVIDIA執行長黃仁勳亦表示,AI模型規模預估每年將擴增10倍,這些模型需要大量伺服器效能,預期可拉動硬體需求成長。

根據產業研究機構調查,預估2023年包含搭載GPU、FPGA、ASIC等不同類型的AI伺服器,總出貨數量將上看120萬台,雖然目前AI伺服器佔整體伺服器出貨比重還不到10%,但2026年該數字有望達15%。同時,市場也預期相較於雲端市場2023~2030年有17%的年均複合成長率(CAGR),AI從2023~2030年的CAGR高達37%。

工業富聯董事暨技術長周泰裕曾表示,隨著GPT的發展,未來十年內全球資料中心會不斷推陳出新,預計有超過60%的雲端服務都與AI應用相關。如此龐大的市場成長潛力,也讓各家業者覬覦,想從中獲得一塊屬於自己的商機。
 

AI模型規模預估每年擴增10倍,需要大量伺服器效能。符世旻攝(資料照)

AI模型規模預估每年擴增10倍,需要大量伺服器效能。符世旻攝(資料照)

從上到下游 拆解供應鏈 

如果以目前CPU搭NVIDIA的GPU的主流情況下,上游晶片業者測試完NVIDIA的GPU晶片之後,晶片會往加速卡與GPU模組兩個不同的供應鏈發展,而GPU模組又會進一步成為GPU基板(或稱AI模組);至此,又會再次分成NVIDIA自有產品與伺服器業者客製化產品兩部分,最終導入機櫃而後進入資料中心運作。

加速卡的部分,主要採PCIe介面,由於PCIe已經是成熟介面,對一般業者而言,不僅導入成本低、彈性高,與既有的板卡、機架也比較容易整合,甚至可以透過額外增加PCIe板的方式,增加搭載加速卡的數量,透過高速傳輸介面與主板進行連接,所以對一般伺服器業者而言,不僅是最容易切入的形式,也是目前多數業者都有的AI伺服器基本架構。

至於往GPU模組的部分,則是先由工業富聯協助製作GPU模組,再由工業富聯與緯創協助生產GPU基板。先前黃仁勳在COMPUTEX主題演講中播放的H100自動化生產影片,就是在工業富聯全資子公司鴻佰的產線拍攝,生產的就是GPU基板。

而產出的GPU基板一方面會透過特定代工體系,協助NVIDIA生產自有品牌的AI伺服器產品(也就是一般市場上DGX系列);大部分則會交由像是廣達、英業達、美超微、泰安、華碩、和碩、技嘉、浪潮等不同體系的伺服器代工業者,各自協助像是惠普(HP)、戴爾(Dell)等品牌業者,或Google、微軟、AWS及其他自家不同的客戶,生產依據各自需求而定的AI伺服器(市場上所謂的HGX系列),而在COMPUTEX 2023展會期間,相關業者在攤位上展出的AI伺服器,多半則屬於這類產品。

AI伺服器供應鏈

算力飆漲 電源、散熱不缺席

除了終端的系統組裝業者外,原本伺服器相關供應鏈業者在這波AI伺服器風潮中,也有可能直接、間接受到不同影響,最顯著的是在電源與散熱領域。AI伺服器由於搭載大量的GPU進行運算,因此對電力的需求也大幅提升。據了解,2017年時,第1代HGX產品電力需求就達4.4kW,隨著產品持續演進,對電力供應的要求也愈來愈嚴格。

不僅是電源瓦數的要求愈來愈高,對用電效能與安全性等要求也大幅提升。對此,台達電董事長海英俊曾表示,AI伺服器較傳統伺服器的電源需求增加,台達電針對相關技術都已經做好準備,不會在AI伺服器領域缺席。其他像是光寶科、群電、康舒等相關業者,也都表示做好準備。

伴隨著高耗能而來的,是對散熱的需求也大幅提升,供應鏈業者表示,只要有電就會有熱,凡是有熱,就會需要散熱。特別是針對具有高運算力的AI伺服器而言,不僅對電源的要求更嚴苛,就連散熱方面的設計也趨於複雜。

除了在傳統氣冷解決方案上,增加風扇數量外,導入水冷也成為近期散熱設計上的新趨勢。像是鴻佰、雙鴻、奇鋐、建準、動力、Cooler Master等業者,也都針對今後繪圖卡及AI伺服器可能產生的額外散熱需求提出解決方案。

雖然目前看來,AI伺服器的光環全都聚集在NVIDIA一家業者身上,不過,隨著AI相關應用與對大型語言模型(LLM)的需求愈來愈多,亦會有更多業者投入AI伺服器領域。像是目前英特爾(Intel)、超微(AMD)甚至Arm等業者,也都分別調整往AI領域發展的策略方向。

供應鏈業者認為,NVIDIA目前的優勢在於對GPU領域的長期投入,以及透過CUDA建構出的龐大完整AI生態系統,但是價格的硬傷,是NVIDIA必須面對的挑戰。
 


責任編輯:游允彤