永續設計、施工與維運 淬鍊50年不墜的機房
回顧2016年,IDC業界出現一樁血淋淋的案例。位在美國的網站代管業者Peak Hosting,長期以來有高達八成的營收,係由遊戲公司Machine Zone所貢獻;按理說,面對這般大客戶,Peak Hosting理當悉心照顧,然而卻不然,在當年期間共計出現3次當機,分別造成39分鐘、2小時、9小時的服務中斷,一次比一次還嚴重。
前述當機事件,連帶導致Machine Zone的遊戲服務停擺,對於營收及商譽的衝擊可謂不小,在忍無可忍下決定實地訪視Peak Hosting機房,赫然發現號稱是專業IDC的機房內,竟充斥著散亂的紙箱,與盤根錯節的光纖線纜,意謂對方根本沒有遵循標準作業程序(SOP)、維修作業程序(MOP)、緊急作業程序(EOP),於是正式提出鉅額求償;最終Peak Hosting營運無以為繼,黯然宣告破產。
落實O&M Ready,確保資料中心永續營運
這個慘痛的案例,足堪成為xSP業者、電信公司,甚至是一般企業值得借鏡的教材。在正常前提下,服務供應商或企業建構資料中心的過程中,即需針對設計、施工、維運建立完整邏輯,意指在開張營運之前,SOP、MOP與EOP就應全數到位,每一道程序執行都需要歷經嚴格的演練且確認無誤,才足以達到永續營運之目標。
日昇意定科技顧問公司總經理朱國權,也對於Peak Hosting案例深有感觸,於是開始提倡「O&M Ready」(Operations and Maintenance)概念。所謂O&M Ready,意指機房與系統的設計、施工、維運,都必須有完整明確的方法論,且後續實際的執行軌跡,每一步都必須按照方法論來走,不能有所偏離;更直白來說,有了O&M Ready,代表機房開幕的第一天,所有的管理制度、維運制度、基礎設施皆已完整到位,且通過VMP(確效驗證)、MMP(維運驗證)、TVRA(安全威脅和漏洞風險評估)等多道驗證關卡。
然而綜觀現實情況,多數的機房設計、施工單位,在執行業務時,並未將基於日後維運所需要的Know-how加以整合,如此一來,就難以達到永續維運(Operational Sustainability)的願景,難保不會發生諸如Peak Hosting的悲劇。
上述的VMP、MMP與TVRA,都如同最後的考試,只要考過了,就代表這座機房符合永續維運標準,任何人來執行維運任務,都可以迅速確認地達成使命,且不管是業主或維運單位,皆深具信心;這也就是歐美提倡的「Design for Operational Sustainability」(永續性的維運設計理念加上全生命週期的功能驗證體系)原則。
持平而論,對於業主而言,興建機房絕對是一筆昂貴的投資,若仍秉持20、30年前的舊思維來便宜行事,疏於融入永續維運元素,委實太過可惜。
以BIM當基礎,作為資訊傳遞媒介
論及機房設計,首要之務,設計者必須懂得業主所期望的不中斷維運需求,究竟落在哪一個水平,例如一年的SLA(Service Level Agreement)須達到幾個9,先釐清這些需求目標後,才能據此定義架構。但若以整個生命週期角度來看,現今相對不甚到位的環節,並不在設計,而是在施工與維運,其中施工階段涉及的細節最多、複雜性最高,稱得上是O&M Ready概念下,最明顯的斷層。
為弭平沈積已久的斷層,確保施工、維運等相關單位都跟上O&M Ready目標,在每件建房建設專案的進程中,監造單位有必要確實啟動專案啟動會議(Kick-off Meeting)、教育訓練,並邀集施工承包商、業主與會,其間以BIM(Building information Modeling)管理平台為基礎,作為整個工程放樣、竣工、永續維運等資訊的傳遞媒介,將標示計畫、通用性命名原則、佈線清單等等各種細節,全都嚴謹講過一遍,並要求每一條線纜皆須有完整編碼與標示。
前述的細節如同基本功,儘管修練過程難免痛苦掙扎,但從資訊機房的全生命週期規劃設計施工、乃至永續維運等觀點來看,這些功夫都極其重要。以線纜的編碼及標示為例,只要有明確實施計畫、並且按部就班切實執行,日後維運人員即使並未攜帶當初的設計圖,看了編碼,就知道應當怎麼正確地進行維修及維護。
不僅是線纜,甚至連地板也需要有明確標示,因為機櫃編號與此息息相關,只要根據地板編號,就很容易探知各編號機櫃的XYZ座標,有了這些座標資訊,才能順利推動結構化佈線。
另一種情境,亦需借重地板編號。假使機房出現漏水,維護人員只要借助環控系統,便能快速得知應當開啟帶有哪兩個編號的高架地板,進而準確地關閉特定閥件、開啟漏水頭,快速解決問題,而非像無頭蒼蠅般無助亂竄。
其餘應留意的細節還相當多,但可惜鮮少獲得正視;舉個簡單例子,例如每座設備都應搭配一定的維修空間,聽來極其合理,可惜歷來大大小小的機房設計案,卻經常忽略這個基本要求。此外更重要的,前述的SOP、MOP與EOP,不僅一個都不能少,同時需要搭配嚴格的演練、不容敷衍懈怠,而對應的環控管理、文件管理等輔助系統,亦應一併到位,唯有確實做好每一步驟,才能將機房的潛在風險降至最低,讓客戶真正安心進駐。
嚴格控制細節,打造典範機房
台灣多數機房都是在2000年前後落成啟用,當時的設計、施工與維運原則,是基於1990年代的標準,如果今天依然套用舊準則,代表落後正常標準長達20~30年。眾所皆知,現今各行各業的資訊用量遠遠超過2000年時期,系統架構也已出現極大變化,因此現在要興建機房,顯然不宜沿襲舊標準,應該著眼於未來的2030年、2040年甚至2050年的需求,打造足以永續維運的現代化機房,此即為朱國權倡導O&M Ready的初衷。
令人欣慰的,近年有愈來愈多的業主,都已具備一定的風險意識,也都認同Design for Operational Sustainability觀念,面對設計計畫書裡頭的每個字、每張圖,都要求逐字導讀與確認,對於每一個細節,也都估算得相當精準,無疑是一大進步。但儘管如此,負責監造的單位,有必要比業主還要更加嚴格,譬如針對設備進場管制、資產管制等等業主較未顧慮的環節,便需要祭出嚴苛規範,只因為唯有堅持到底,才能真正打造出可長可久的典範機房。
值得一提的,為落實O&M Ready信念,日昇意定在參與個案的過程,皆以「LiBCx全生命週期功能驗證架構」為基礎,藉此建立專案管理平台、BIM PxP(Project Execution Plan)執行計畫,接著訂定預施工管理流程、BIM PxP預施工管理計畫,並執行整體預施工碰撞協調檢核高程、檢視是否有共同維護性;自此之後,舉凡施工營建階段所用的標準化管理,營運階段所用的視覺化維運管理系統(VMMS),全都構築在BIM建築資訊模型這個基礎平台之上,而為了確認BIM設計與執行之精準無誤,日昇意定也特別引進360度全掃描儀、3D全站儀等輔助工具。
事實上,除了新建機房外,即使是舊機房改善,也都適用O&M Ready原則;唯有堅持永續維運設計理念,方可避免起步走錯、永世不得翻身,真正打造未來50年榮景。
日昇意定科技顧問公司總經理朱國權,將於4/17舉辦的「企業機房論壇--與業務共同成長的資訊蜂巢」擔任講師,發表「Data Center維運管理實務」,活動完全免費,歡迎機房網管人報名2018年最具規模的Data Center盛會!