國網中心結合AI國家隊 打造高效節能的AI雲端機房
去年(2018)年底傳來令人振奮的消息,由科技部國研院國網中心結合台灣大哥大、廣達電腦、華碩電腦共同組隊建造的「雲端服務及大數據運算設施暨整合式階層儲存系統」(簡稱「AI雲端平台」),其中「台灣杉二號」AI超級電腦主機憑藉9 PFLOPS優異效能,勇奪TOP500第20名,能源效率(Green500)名列第10,雙雙創下台灣超級電腦史上最佳成績。
上述AI雲端平台,堪稱台灣發展人工智慧的重要基盤,可提供快速運算能力、大量儲存空間與安全的網路,讓產學研界享有更即時、更便利的運算服務,從而加速台灣人工智慧相關技術與服務的發展。如此重要的平台,從無到有如何孕育而成,及機房基礎設施的建置,都格外讓人深感興趣。
AI雲端平台當初在採購、設計、規劃等各個階段,專案團隊皆參考國際大型主機能力,包含整個資源運用方式,另針對空調、機電部份,則響應政府綠能政策,將滿載情況下PUE目標設定為1.2。談及前一代超級電腦「台灣杉一號」,運算效能為1.7 PFLOPS,PUE則為 1.3,而運算能力向來與功耗成正比,表面看來運算量大5倍的台灣杉二號,PUE高於1.3並不為過,但專案團隊卻訂出高挑戰性目標,顯然在相關技術實作上掌握了獨到訣竅。
採取Direct-to-Chip技術,減少冰水主機製冷
建置團隊分析箇中關鍵。首先採取水冷式Direct-to-Chip技術,旨在帶走CPU的熱;其原理很簡單,假設CPU運作溫度高於攝氏50度,外在的水溫度只要低於50度,經過冷卻水塔散熱再進入CPU,必能形成溫差將熱帶走,台灣杉一號首開先例採用此技術,證實有效降低空調用電,台灣杉二號自然持續跟進。
其次重點是PUE公式,簡單來說PUE減掉1,便是機電設施用電量除以IT用電量,分子分母皆為變數,例如IT負載有高低變化,若機電設施未做對應調整,PUE肯定不佳;為此專案團隊引進變頻技術,讓機電設施的用電不再維持定值,會因應IT負載做大幅度的彈性變化。另專案團隊遵循Category 2樣態,決定以PDU Output嚴格定義量測點,分子與分母單位皆kWh,具時間累加概念、而非取平均值,以彰顯PUE真實表現。
再者國網中心僅規劃儲存、網路及監控等設施使用不斷電設備供電,大幅減少不斷電設備容量,並以220V電力供應伺服器,意在減少電壓轉換損失及線路損失,達到減少資本支出。
團隊應變得宜,克服GPU規格變更挑戰
台灣大哥大業務三處副理張哲源表示,整個建置案的特色就是「趕」,一個年度內緊鑼密鼓走完RFP規劃、採購程序、設備進駐、測試驗收等進程,尤其機房基礎建設部份,去年4月25日決標、8月底完工,前後更只有短短4個月,專案團隊仍如期如質完工,著實值得稱許。
當然建置過程中不乏高難度挑戰,例如台灣杉二號機房的所在建築物,是10年前傳統架構(每個機櫃功率約2~5kW)設計的資料中心,亦無高架地板。如何應付台灣杉二號主機每櫃近22kW以上的耗電量及電力、空調管線配置;因此國網中心特別與施工單位做前置協調會議,在會議中國網中心分享日本、新加坡的高速運算中心參訪心得,希冀藉由他人成功經驗,使周邊基礎設施建置團隊無需費時Try & Error,便能因應環境限制,加速打造綠節能之AI機房。
另一顯著的挑戰,在於中途出現規格變更。張哲源表示,台灣大哥大在專案中負責機房建置、資安維運,華碩與廣達分別負責軟體、硬體,由廣達於工廠完成組裝與客製化,再將整櫃運送到國網中心機房;期初預定採用內建16GB記憶體的NVIDIA GPU,後來隨著NVIDIA推出32GB新品,而科技部指示為了扶植台灣AI應用,須動員最大化資源,專案團隊跟著響應這個大方向,決定改採32GB新型GPU,形同設計變更,後續許多環節都必須跟著修正;而廣達在取得新品後,必須趕緊和時間賽跑,快速完成所有測試動作,可謂一大考驗。
施工團隊的代表說,舉凡電力、空調、網路皆環環相扣,牽一鬆動全身,GPU規格升級、運算能力變強,意謂Direct-to-Chip架構下的進水量必須增加,才能帶走更高的熱,所以不論水量、水溫、揚程,通通需要隨之提升;其間若有任何環節的設計亂了套,就會影響PUE 1.2的達標,所幸包括專案團隊、施工單位的應變能力甚強,即使GPU規格生變、又無參考素材可供調整參數設計,仍利用極為有限的時間整理出最佳調整之道。
實測PUE僅1.11,優於既定的能源效率目標
以施工單位而論,主要負責機房建置任務,在全案扮演「最晚交辦、最早交付」的火車頭角色,承受重大壓力,幸而隨著台灣大哥大PMO邀集專案成員進行多次技術討論,加上國網中心設施服務組的嚴格把關,協助施工單位理出頭緒,得以掌握達成目標的策略,進而按部就班加以落實,終能創造圓滿結果。
比方說機房空間不使用高架地板,因應這個條件限制,施工團隊選用四排機櫃兩座冷通道封閉Layout模式,完成27櫃AI水冷伺服器櫃、9櫃高速儲存與網路系統櫃、16座30cm面寬恆濕恆溫機櫃型精密空調主機的空間配置,一舉實現空調節能、備援架構等多重目標。
再者施工團隊透過國網中心既有300RT冷卻水塔,採用「異質雙水溫冷卻系統設計」(28~32度常溫水+12~17度冰水),組成兩套不同換溫能力的鈑式熱交換器,外加一組220RT無段容調式冰水主機、兩組帶有不同溫度的管路設計,以提供不同解熱方式,巧妙達成高效節能目的。
根據專案交付前的HPL測試結果,台灣杉二號的實際PUE僅1.11(非IT用電78.39KW、IT用電795.05KW),優於團隊預設的1.2目標,單憑此一卓越表現,便足以為這次專案增添超完美的註腳。
2019企業機房論壇即將於5/16(四)假台北國際會議中心(TICC)盛大舉辦,國家高速網路與計算中心副工程師陳景全將進行深度案例分享「打造AI數據中心的周邊基礎設施」,當日議程從機房的設計規範、關鍵技術到維運體系,一共18堂課讓您一次掌握完整資訊,歡迎即刻報名免費獲取18門奇功絕藝:https://www.digitimes.com.tw/seminar/DForum_20190516/。