資料中心的智能化管理與能源效率 智慧應用 影音
蔡司
參數科技

資料中心的智能化管理與能源效率

  • DIGITIMES企劃

宏正自動科技產品經理黃世強。
宏正自動科技產品經理黃世強。

由於許多科技應用如物聯網,已從概念階段走向實際應用,愈來愈多的企業投入公有雲與私有雲的建置,也因此驅動著大型及超大型機房的籌備與興建,宏正自動科技產品經理黃世強指出,包括配電、用電、空調製冷的選擇、集中管理及控制等,都已是現代資料中心不可或缺的管理重點,如何破除綠色機房的迷思與挑戰,更是IT人員必須了解的重要趨勢。

黃世強指出,據資策會的資料,全世界的伺服器在2015年的出貨量約有900萬台,年成長率約為5.9%。另根據TechNavio's analysts指出,預計從2013年到2018年,年複合成長率(CAGR)更將高達10.60%,由此可見資料中心的發展程度。

而從資料中心角度看客戶需求,各家廠商也是在逐步轉型。從普遍的X86傳統系統,開始導入預整合系統到整櫃輸出,原來一個機櫃僅放6?8台伺服器,現在已逐漸成長用到將近80%的機櫃空間; 同時也帶來更高密度的電力需求。此外,虛擬機器、模組化UPS、動態製冷及容易擴充的需求,以及收集用電資訊、機房環境溫濕度,並提供管理者可視化管理介面,都是資料中心管理必須要考量的重點。

黃世強指出,機房用電的範圍,如處理器、伺服器、儲存裝置及交換機等IT設備,大約佔52%,空調製冷大約佔38%,UPS、PDU等設備則是佔用電量10%。以伺服器的電力配送路徑為例,從中壓變電站送電進來,經隔離變壓器降壓至480/277V的三相電,再經過UPS、精密配電櫃之後,將208V/單相電配進每一個機櫃,整個配送過程會經過4次轉換,兩次隔離變壓器轉換,開關/斷路器也有10個左右。每一次的電力轉換與配電距離的長短,都會影響能源損耗。

為了降低機房用電的能耗,英特爾(Intel)在2009年提出一種直流供電系統架構,讓電力轉換只剩下兩次,一次隔離變壓器轉換,開關/斷路器也可以降到5個左右,這其實就是Facebook主導的OCP(Open Compute Project;硬體版的Open Source)的前身,目前也已經有一些資料中心開始導入,可大幅改善能源損耗的狀況(降低38%能源損耗與24%建置成本)。

黃世強指出,自從2008/09年開始,實體伺服器的建置費用就開始趨於平緩,多數伺服器的運作只用了其總負載容量的5%到15%,單一伺服器只需要處理/執行單一服務,而現在一台高階伺服器可以透過虛擬機器,作成4?6台虛擬機。VMWare甚至宣稱可讓伺服器硬體利用率提高到80%,進而降低硬體和營運成本達50%,減少能源成本達80%。

事實上,資料中心能否持續運作,不能只看初期的投資成本,而是要看長期運轉成本,以台灣地區用電需求達100kW的機房為例,年運轉電費支出約新台幣460萬,如果是北美地區的機房,長期運作的成本更是驚人。

另一個影響機房管理的重點,則是空調製冷的選擇。黃世強指出,列間空調近來比較受歡迎,因為單櫃可以處理的熱量從15kW到20kW,而背板式熱交換器(Rear Door Heat Exchanger;RDHx),單櫃甚至可以處理30kW到40kW的熱量,成為許多高密度的資料中心的優先選擇,效果最好的則是直接接觸式的空調(Direct Touch Cooling),甚至不需要冰水主機,用室溫水即可達到製冷的效果。

至於機房管理方面,黃世強認為,可視化管理非常重要,首先要佈設感測器, 在量測及收集數據之後,再產生報表,供管理人員分析並進行改善。或是直接利用自動化管理設備,動態調整伺服器的運算時間及空調製冷以優化能源使用效率。

黃世強以ATEN rack PDU為例,指出PDU就像機櫃內的探針,可以用來動態量測電壓、電流、功率、功耗、功率因素,但還需要集中控管軟體的計算能力,才能有效管理數量龐大的PDU與處理龐大的機房用電、機櫃微環境之數據資料,進而獲得動態的PUE/RCI/RTI 數據。

解析數據及產出報告,也是機房管理的重要項目。黃世強指出,透過儀表板式的數據呈現方式,與利用色彩進行的可視化管理,是ATEN能源管理軟體(eco sensors)的一大特色,有助於機房管理人員瞭解機房目前的運行能效,快速有效的察覺及解決問題。

黃世強指出,由於擔心過熱,大部分機房會將空調溫度調得太低,因而產生機櫃冷卻指數(Rack Cooling Index;RCI)RCILO過低、能源成本太高的問題;相反地,也有部分企業盲目追求低PUE值,而把溫度調得太高,使得RCIHI出現狀況,這是因為太重視節能,反而忽略安全,讓機房停機的風險升高。

另一個機房管理需要重視的數據,則是回風溫度指數(Return Temperature Index;RTI),過高或過低不是意指冷卻不足,不然就是能源的浪費。黃世強指出,不論是RCI或RTI,都應該要被即時監測,才能讓機房溫度進行動態調整,在機房的節能與安全之間找到平衡點。

此外PUE值不一定是愈低愈好,要實際去理解這個數據背後的真實意義。例如機房存在大量只耗電不工作伺服器,或是已經導入虛擬機器,且週邊用電保持不變的機房,這兩個看似可以拉低PUE值的動作,代表的意義卻截然不同,前者是低效能的機房,後者則是高效能的機房。

另外,由因應雲端運算需求而生的新建大型資料中心可以觀察到,CPU/GPU核心數已不再重要,浮點運算數才是重點;兩個同數量級的浮點運算需求機房, 以CPU為架構主體的機房其核心數會遠大於以GPU為架構主體的機房,相對的,前者的機房運算能效是低於後者的。

至於UPS的效率也是存有迷思的,黃世強指出,如果UPS於高效模式(Eco mode)下運行,雖然有節能效果卻是取巧的做法。由於處在bypass mode的操作狀態下,伺服器等於是直接暴露在市電常見的突波?浪湧與電壓畸變的風險中,因此正規的作法應該是採行計畫性驅動,或是採用模組化UPS,都能同時符合節能及安全的機房用電需求。