OCP Global Summit 2024的巡禮與回響
一年一度的OCP Summit(Open Compute Project)開放運算計畫高峰會,在10月14日起於美國加州聖荷西市舉行。OCP於2011年,在Meta的主導下成立,目的是藉由開放的平台,使得在資料中心的硬體建置,能有統一的規格,有助於供應鏈的建立。講白話一點就是藉由標準化及多家供應商,好降低成本。拜這兩年AI伺服器及雲端運算的蓬勃發展,今年(2024年)會場吸引超過7,000人參與,以及100個展示攤位,再加上200場以上的專題演講,可謂盛況空前。去年的OCP的展示現場,除了美國雲端業者、供應商外,幾乎都是台灣廠商的天下,顯示出台灣在AI運算硬體供應鏈上強大的實力。今年展示攤位出現幾家日韓記憶體,以及中國大陸伺服器的製造商。延伸報導OCP擴展AI開放系統戰力 NVIDIA助陣獻寶GB200大會一開始的主題演講,照例是由幾家雲端服務業者及主要晶片供應商(GPU/CPU)所擔任。輪到英特爾(Intel)資料中心業務的執行副總演講時,還在談老掉牙的x86平台,聽眾都覺得乏味之際。台下突然間有一個人跳了上去,原來是下一場要演講的超微(AMD),也是資料中心業務的執行副總。原來兩家公司在x86平台上彼此征戰這麼久,現在要開始結盟共組x86生態圈,以對抗來勢洶洶的Arm CPU。接著兩個人就開始介紹x86的優點,包括了可信賴的架構、指令的一致性、介面的共容性等優點。兩個人還時不時的調侃對方的CPU,暗示自己的還是比對方的好。所以商場上沒有永遠的敵人,但因此會成為朋友嗎?這個安排好的橋段,成為了當天會場上的亮點。同一個時段兩家業者的執行長,也在西雅圖宣布這項結盟。延伸報導Arm、高通AI PC網內互打 英特爾、超微撿到槍 x86不戰而勝AI for AI 是在會議中另一個響亮的口號,但是第一個AI的意思是accelerate infrastructure,也就是要加速AI運算硬體的升級(scale up)以及平行擴增(scale out)。算力的需求是持續地在增加,會場上的研討會不斷地在呼籲,諸如記憶體的儲存空間不足,由目前的HBM3要擴增到HBM4。資料的傳輸速度需要再增快,由400 Gb要到800 Gb,甚至1.6 Tb。AI交換機處理訊號的能力,也需要到 51.2 TB以上。每一機櫃的電力需求,目前的NV72已經到了120 KW,會場中已在討論250 KW的方案,甚至未來直接來到400 V或800 V直流高壓系統。隨著電力的增加,伴之而來的就是熱的解決方案。氣冷的極限在於每平方公分可散掉100 W的熱,未來的高速運算晶片,所產生的熱會達到每平方公分500 W,因此用液體來冷卻是必要的途徑。會場中的諸多討論都在敦促供應商們,要將硬體升級並橫向擴充,唯一沒有被抱怨的是晶片的先進製程,可見我們護國神山的傑出貢獻,深獲各界的肯定。順帶一提的是去年整個AI資料中心的市場規模是2,600億美元,扣掉建築、機房地硬體設施,以及半導體中的記憶體,其核心的半導體如CPU、GPU、switch ICs等就達到820億美元的市場規模,這其中有相當的一部分是進了護國神山的口袋。會場上也觀察到幾件耐人尋味的事,眾所周知雲端服務的系統業者都希望能有客製化自研的xPU,導致幾家SoC的大型公司如博通(Broadcom)、邁威爾(Marvell)、以及聯發科,都開始客戶端ASIC的設計服務。基於小晶片(chiplet)未來會扮演愈來愈重要的角色,SoC公司因為熟捻於供應鏈中的晶圓代工、EDA設計軟體、封裝測試等環節,未來也有可能增加提供小晶片的設計服務的事業。而Arm正挺身而出,想要建構此一生態系。目前的AI資料中心幾乎是NVIDIA一個人的武林,NVIDIA有GPU、CPU、ASIC,負責scale up傳輸的NV link,以及 scale out傳輸的Infiniband,更可怕的還有CUDA的軟體作業平台,以及能作為超級電腦的系統架構。NVIDIA做了上下游縝密的整合。其他公司所組成的復仇者聯盟,對應的有不同品牌的xPU,負責傳輸的PCIe、UA link、Ultra Ethernet等。這就如同蘋果(Apple)手機與Android系統的差別,再怎麼樣蘋果自成一格的手機,總是比其他各家使用上來的流暢,且不容易當機。延伸報導Arm來勢洶洶 英特爾與超微攜手x86化敵為友天下武功,唯快不破。NVIDIA對應著鋪天蓋地天兵天將的來襲,策略就是一年一個新機種,讓競爭者疲於奔命。然而800磅的大猩猩每年要脫胎換骨一次,就必須要具備強有力的指揮系統,這就難怪NVIDIA執行長黃仁勳得有40多人直接跟他報告了。
2024/10/29