走過艱辛認證 完美打造永續維運機房
在2016年初,台灣大哥大IDC雲端資料中心歷經嚴格審查,通過了合格率僅5%的Uptime Institute Tier III金級維運認證,連同早先獲得的Tier III設計規劃、建置雙認證,成為東亞唯一榮膺三大證書的新世代資料中心。
一路參與IDC雲端機房孕育過程的台灣大哥大產品系統架構處處長陳紹元,對有志打造永續維運機房的企業提出建議,必須慎選認證,因為唯有高標準、才有永續維運。有的認證要求功能性驗證,有的僅採用紙本Check List,單從這點來看,前後道路一則艱辛、一則平順,企業應該不畏辛勞、認真打好永續維運根基?或捨難取易即可?在他看來,難走的路才是正解。
台灣大哥大為何選擇Uptime Institute認證?陳紹元娓娓道來。回顧2000年左右.com熱潮方殷,帶動資訊機房需求飆升,三大電信公司紛紛在此時建置IDC;因當年機房認證觀念尚未普及,故台灣大哥大依照業界慣用模式,委請國際大廠根據其內部最佳實務,協助興建IDC,儘管採取看似先進的N+1設計,但僅止於UPS或發電機等設備層面,關於盤體或閥體等管道間部份,仍為單一管徑。
礙於電力或空調迴路都僅一條,加上執行設備換新或維護時,需在停電狀態進行,所以無可避免一定出現Downtime。一般企業還可透過先建後拆、服務遷移,用迂迴方式翻新老化設備,反觀IDC擁有成千上百眾多客戶,業主無法強制要求他們配合同步轉換或搬移,只能選擇被動硬撐,事先備妥備機,等著在設備失效時換置,但換置需要時間,難免讓客戶權益受損,連帶使SLA(Service Level Agreement)下滑,所有電信公司都有苦難言。
接受國際標準淬煉,揮別機房管理老症頭
陣痛之餘,台灣大哥大於2011年規劃新的雲端機房時,決心不走老路,先列出亟需解決的兩大問題點——營運穩定度及節能,再積極研究有助徹底解決老問題的國際認證標準,一旦選定標準,就從設計端開始依序遵循,避免犯下日後難以修正的結構性疏失。
針對第一項營運穩定度問題,台灣大哥大擇定採用Uptime Institute Tier III標準。之所以選擇Uptime係基於多項理由,首先它有近似飛航安全調查委員會的獨立機制,由用戶、機房管理者組成,共同深入檢討真實機房事件,提出客觀、不隱匿的報告,據此持續補強規範內容;而第二點節能的部份,台灣大哥大採用冷熱通道隔離及自然冷卻等作法,讓PUE值最低達1.5,堪稱業界首座綠色雲端機房。
陳紹元接著說,Uptime另有類似ISO 27001的稽核授證機制。其中設計認證採書面審查,要求設計師具有Uptime ATD專業證書,例如參與台灣大哥大雲端機房設計案的日昇電機技師事務所,便符合資格要求;至於建置認證,需要在現場做功能性驗證,以台灣大哥大經驗而論,當時由Uptime指派兩位已通過培訓認證的稽核員來台,進駐現場5天,期間不只檢查是否照圖施工,更逐一關閉電力、空調斷點,驗證台灣大哥大能否真正確保電力與冷氣持續運轉,並在同時間執行維修,堪稱嚴苛試煉,因此至今高達六成受測者闖關失利。唯有走過這段路程,才足以確保任何意外發生時,機房備援機制能如預先設定般正常運作。
反觀Uptime Institute以外的另一種高知名度的機房標準,期初係直接引用Uptime對機房分級的定義與SOP,有規範、可惜無授證機制;爾後雖有業者打出認證旗號,但未獲官方授權,且僅以Check list執行設計與建置驗證,過關率逼近100%,與Uptime Tier III建置認證僅40%合格率大異其趣。陳紹元說,該公司早年曾仔細比較兩個認證體系,深覺若僅通過Check list型式的查核,縱然輕鬆拿到證書,但萬一8~10年後電子元件開始老化,無法確保不會發生電力或空調系統異常的老症頭,於是決定不走這條看似舒坦的道路。
藉由精實維運,巧妙達到Zero Downtime
更重要的,一經採用Uptime標準,機房建置模式也跟著變為「模組化」。以往IDC業主總是習慣建完一整個樓層,再讓用戶入住,即使欠缺彈性,卻不得不這麼做;只因機櫃上方的高層衝突太難處理,假使想要分區建置,必須精準預留管路與位置,毫釐之差都不能有,難度太高。如今採用BIM套圖,透過多次磨合已排除所有路徑衝突,得以留下正確的管路、甚至連工序也安排妥當,因此業主不管選擇建全部、一半或4分之1都沒問題,所有廠商按時進場、照圖施工即可,裨益業主形塑「接單式生產」模式,一區賣完再建下一區,創造最佳投報率。
台灣大哥大在雲端機房上線1.5年後,申請挑戰維運認證,經過半年期間有關SOP/EOP/MOP流程面、版本一致性、人員熟悉度等艱難考題的洗禮後過關,之所以挑戰這張證書,背後有著縝密思考。陳紹元解釋,Tier IV與Tier III差別,在於前者為N+N架構、後者是N+1,造價差距兩倍,惟以一年無預警停機時間而論,兩者依序為24分鐘、1.6小時,彼此落差的原因當中75%都源自人為疏失,因此台灣大哥大期望藉由維運認證促成維運的精實,消弭人為疏失,達到Tier IV等級24分鐘Downtime、甚至Zero Downtime的驚喜成果。