藉由系統性設計循序打造智慧機房
很清楚的,現在論及機房管理,絕對不能僅僅看待IT設備管理,甚至不能只談IT設備與機房設施的整合,而最好能將建築設計作為起始點,由此展開系統設計,才是足以確保孕育智慧機房之道。
四年前,一座隸屬於TANet學術網路的資訊機房,原本能源使用效率(Power Usage Effectiveness;PUE)高達2.63,絕不能算是理想水準,結果參與改造專案的承包技師,藉由機電系統架構的強化,乃至於參酌TIA-942 Tier II標準加入節能設計,使得這座原本頗為耗電的機房,順利脫胎換骨。
經由這番改造,該資訊機房PUE驟降至1.6~1.8水準,相當於一年可以省下新台幣120萬元電費,同樣一年可減少的二氧化碳排放量,足足等於一座大安森林公園一年的吸碳量,堪稱成效卓著;正因如此,該座機日後成為其他學校或學術研究機構的參考典範。
此一成功案例,蘊含了相當重大的意義。綜觀台灣的資訊機房建設,以往鮮少參考國際標準規範,要嘛以土法煉鋼方式進行,要嘛即是概括接受建築師事務所、技師事務所、資訊系統供應商或系統整合商的單方面建議設計,久而久之,單就節能效率一事來看,往往淪於不及格水準;由此觀之,爾後若欲扭轉這個不利現象,不論是新建機房或舊機房改建,應當採取有別於以往的設計思維。
接軌國際標準 優化機房設計
參與上述TANet機房改善專案的日昇電機技師事務所主持人朱國權,與廣知工程科技的總經理吳滄榮,一是專業的電機技師,另一是專業的冷凍空調技師,二人屢屢率領各自的技師團隊,參與大大小小的機房設計專案。
二人聯手執行的個案中,最引人津津樂道者,無疑就是台灣固網IDC機房設計專案,因為這座位在內湖區民權東路六段與瑞湖街交叉口的機房,在2012年三月期間,即由國際機房管理最具權威的機構-Uptime Institute,頒獎Tier III認證,堪稱全台首例,此一案例不啻是雲端機房的典範,意謂其可對企業用戶做出十足承諾,保證能夠絕不中斷的優質雲端服務。
難免有人納悶,一般企業的資訊機房,並不像電信公司,需要對外提供服務,其層次與規格頗有落差,難道也需要大費周章挑戰Uptime Institute認證,來證明自己的IT服務夠水準?對此朱國權表示,有無取得證書,倒還在其次,重點在於依循標準而來的方法論,絕對有助於提升機房設計品質,就像TANet機房,即便未以通過認證為目的,但參酌了TIA-942標準,仍然產生顯著效益,就是最好的例子。
「我們開始意識到國際標準的重要性,時間點可回溯到2005年,」吳滄榮回顧當時參與南港軟體園區第二期的機房設計案,即在遍尋技術平衡調整暨性能驗證方法的過程中,深刻感受到,某種程度上,機房設計就如同汽車組裝製造的生產線,絕不是把各項元件兜好,就能立即讓車輛出廠上路,必須經過嚴謹的驗證程序,確認其已達到最佳的運轉狀態才行,綜觀機房設計的各項環節,不管機電、空調、消防、安全乃至於環控,通通都應該如此。
最大的刺激點,無疑就在南港軟體園區機房的發包單位,提示了一份經由一期專案所累積的資料記錄,這些資料係由海外顧問撰寫而成,薄薄的一本,卻讓使用單位付出了昂貴的代價,此後進入第二期工程階段,實在難以承擔如此沈重的財務負擔,於是找來吳滄榮等本土技師,希望能參照上期海外顧問的做法來進行設計。吳滄榮驚覺,原來國際間講求的設計理念,竟然嚴謹細膩到如此程度,值得台灣借鏡與效法之處,實在相當多,於是與朱國權共同激盪出一個念頭,得趕緊遍尋各個國際標準,找出值得遵循的驗證方法論,並將此精髓引進並擴散,一來有助於帶動台灣機房設計品質的提升,二來也讓有心打造優質機房的用戶,無須忍痛以昂貴費用向海外顧問取經。
當年適逢TIA-942標準出爐,因此來自於Uptime Institute機構的Tier認證(Tier Certification)制度,就成為朱、吳二人的努力方向,朱國權甚至赴美接受ATD 課程訓練,成為全球第17位獲得認證的ATD 國際Tier設計師;且正好當時二人各自擔任電機、冷凍空調等技師公會的理事長,具有一定的高度,可以向工程業界宣導國際標準認證的理念,他們就這麼做起了電機技師公會的傳教士。
機房全天候運轉 務求具備可維護性
「推廣國際標準的重要性,在於兩大重點,其一,是所有工程設計,都應該要歷經調校與測試,並需要確保最終執行成果,與原始設計維持一致,凡此種種,皆有必要透過一套實務驗證程序加以確認,」朱國權接著說,其次,資訊機房是24小時全天候運轉,與辦公室環境可謂大相逕庭,一般辦公室內若有任何設備異常,大可將之關機進行維修,但機房則不允許,所以必須具備十足的可維護性,才能避免任何關鍵服務因停機而導致中斷、為企業帶來巨額損失。
只不過,縱使TIA-942標準立意甚佳,但朱、吳二人在推廣過程中,確實遭遇莫大反彈,只因國際標準對於施工品質要求嚴謹,倘若按表操課,肯定會徒增工程成本,從而侵蝕技師團隊的利潤空間,而用戶所需投資的金額過大,明顯不具賣點,但兩人並不因此而退卻。
朱國權指出,以一座符合Tier III認證等級的機櫃,假使是5kW規格,要價往往超過100萬新台幣,如果不考慮這層認證因素,或許只需付出30萬~40萬、甚至砍價到10萬以下,就有可能購得同樣支援5kW規格的普通機房,只是未來何時會出狀況,並沒有任何把握。
但倘若技師、甚至是用戶,始終因為計較初始建置成本的高低,因而影響到施工品質,吳滄榮期期以為不可,只因有可能形成因小失大的悲劇。他引述一份來自海外的統計報告,一般來說,機房的生命週期平均為30年,在這段漫漫長路裡,初期建設成本不過佔了10%,翻修與汰換成本則佔20%,另外的70%大餅,則是來自於運轉與維護,所以後面的這塊,才是最值得著力的一環,假使方法正確,讓運轉與維護成本省下20~30%、甚至超過40%,都是很有可能的事,比起針對一開始的10%成本錙銖必較,孰輕孰重,答案顯而易見。
一座座孤島 相互整合串聯
所謂Tier認證,其實可分為兩個階段,第一階段是設計驗證,舉凡環境控制、通訊、網路、電力、空調、消防、安全、接地、避雷…等等,所有可能出現機房環境的控制需求,通通都得蓋在內;至於第二階段則是施工驗證,Uptime Institute機構會指派人員到場駐足一週,進行嚴苛的Site Survey,檢驗其施工結果是否符合當初設計,不僅如此,甚至連標準作業程序SOP、緊急作業程序EOP、維運作業程序MOP,樣樣都不容或缺。
吳滄榮認為,這對於台灣慣常採取的測試暨驗收程序,已造成莫大的顛覆效果,主因在於,以往論及環控、教育訓練等後段維護事宜,總是被擺在施工完成後才進行,無須接受測試暨驗收的考驗、磨難,甚至慢慢做都可以,如今一下子拉到前面,需要與專案同步進行,衝擊自然不小;但可以肯定,藉由遊戲規則的調整,連帶會促使空調、電力等系統之間的介面,都能順利與環控機制整合。
也就是說,不管是各項機房基礎設施之間,抑或機房基礎設施與IT設備之間,全都會被串聯在一起,而非如同過去機電技師只管機電、空調技師只管空調,IT設備廠商也僅以自家產品為念,一味要求棲身在低溫環境,確保不會因過熱而出現當機,過去各個孤島之間鮮少有連結,如今伴隨智慧機房的國際趨勢使然,彼此都已高度連結。
在此前提下,朱國權也建議業主,在機房最初始的設計階段,不管是外部的設計、施工單位,乃至於內部的執行、維運團隊,都應該齊聚一堂、同時作業,不宜任由這些單位或團隊各自為政。
順應國際情勢 而非業主自決
表面上看來,Tier認證是業主或用戶本身的自發性作業,可以為了凸顯其服務的優質性,因而積極投入,也可能礙於節省金錢、節省人力、節省時間、避免麻煩…等各式理由或藉口,選擇繼續走傳統老路,但現實世界裡,情況未必是如此。
據悉,大陸為避免因機房運作效率不彰,導致衝擊公共服務品質,因此早已透過十二五計畫,針對信息機房多所規範,雖然站在當地政府立場,不可能強制要求各級公民營單位,都需要接受美國主導的Tier認證,但畢竟TIA-942標準有其獨特性與指標性,影響所及,大陸通過Tier認證的機房數量,開始逐步增多。
大陸如此,諸如南韓、馬來西亞、印度…等其他亞洲國家,投入Tier認證的速度都已加快;由此可見,TIA-942標準儼然成為國際潮流,如同台灣固網,也是為了爭取海外企業進駐,才如此大費周章導入Tier認證,換句話說,這股趨勢不完全取決於業主自決,甚至已成為證明IT服務健全與否的重要指標。
暫且跳脫資訊機房,觀察晶圓廠這個同樣講求品質與強度的場域,它們多是在民國80~90年期間建置,當時還未出現Tier認證觀念,所以只能按照自認為嚴謹的方式進行建造,雖然最終都能展現極高的穩定度,但每年總得停機3~4天進行歲修,每一天的損失,其實都高達好幾十億元,如果取決於訴諸「基礎設施同時可維修」的Tier III等級,或許哪一天,晶圓廠根本不必為了歲修而停機數日。
奠基於ITIL 激發智慧性整合功能
朱國權認為,DCIM所訴求的環控、IT管理整合,無疑是一個劃時代的進步,唯有如此,才能將業主以往礙難橫向串聯的資產管理、設施管理、維運管理、資安管理…等種種環節,得以全面統整到一致性的管理平台。
事實上,DCIM智慧性整合功能的箇中精髓,其實正是立基在ITIL架構之上。朱國權與吳滄榮兩位技師,為了順應這股整合潮流,所以在數年前相繼爭取到ITIL、PMP認證,只因這兩項證照都出自IT業界的語言,唯有予以瞭解並熟悉,才有助於縮短其與IT管理象限之間的差距。
另值得一提的,以往不少企業機房的建立過程,都是由國際級資訊大廠進行主導,技師參與的機率甚低,但近幾年則情況丕變,資訊大廠也敞開心胸,邀請專業技師與之並肩作戰,這個時候,技師愈能理解資訊大廠講述的語言,就愈能雀屏中選,成為大廠夥伴,爭取到更多專案建置機會。
BOX:認識TIA-942的四大等級
本文:
現已普遍用於評量機房通信基礎設施的TIA-942標準,主要是按照資料中心基礎設施的可用性、穩定性及安全性,進而劃分為Tier I、Tier II、Tier III與Tier IV等四個等級,而這四個等級的劃分,主要取材自美國Uptime Institute所制定的場地基礎設施性能標準,及相關分類等級的體系框架。
下列茲就TIA-942項下四個等級,逐一進行深入介紹:
一、Tier I:基本資料中心
列於此等級的資料中心(機房),對於有計畫或無計畫的營運中斷反應最為敏感,相對來說,所受影響程度也最大)。這類機房都配置了電腦電力分配及冷卻,但不強制擁有高架地板,另需要有一台UPS或一台發電機。而這些系統的關鍵負荷,可達到N的100%。基於預防性檢修的需求,一年度內場地內基礎設施需要被完全停運作;此外,Tier I機房僅具備由電力及冷卻分配的一條單向管路,並無多餘的組成部分,因此僅可提供99.671%可用度。
二、Tier II:基礎設施部分備援
此等級的資料中心採用的設備,具有部分備援的水準,因此比起Tier I機房,對於有計畫或無計畫的營運中斷反應相對較低,其內部已有高架地板,也有一台UPS及發電機,而動力設計為N+1,擁有一條單一的分配線路,關鍵負荷可達到N的100%。因應其關鍵線路的維修,以及場地內其他基礎設施的維修維護,需有一次處理性的關閉中斷;Tier II係由電力與冷卻分配的一條單向通路組成,但夾帶多餘的備援組成部分,故可提供99.749%可用度。
三、Tier III:基礎設施同時可維修
此等級的資料中心,具有能夠進行任何有計畫的場地基礎設施活動,而又不致因為電腦系統運行狀況而中斷之能力,所謂有計畫的活動,包括預防性及程式性的維修、修理,抑或汰換零組件,增添或調整組件的容量,以及執行組件與系統的測試。在於空調系統部分有兩套獨立管路,當其中一條管路進行維修或測試的同時,另一條管線也能保持運轉不中斷。在系統上的關鍵負荷不超過N的90%,而當企業期望獲得正常而合理的額外保護時,Tier III場地將被有計畫地設計成為「可升級至等級Tier IV」,其係由多條有效的電力和冷卻分配道路所組成,然其中只有一條通路執行運轉,另外多餘的組成部分,則在運轉的同時進行維修,足以提供99.982%的可用度。
四、Tier IV:基礎設施故障容錯
這個等級的資料中心,具有能進行任何有計畫的維修活動,且不會對關鍵負荷造成中斷的能力,在此同時,也可提供基礎設施足額的電力與空調容量,在此前提下,任何無計畫性的故障,都不會影響其關鍵負載,其需要同時執行的電路分配,通常為S+S的雙電源系統組態,每套電力系統都有N+1備援的兩個獨立UPS。在一個系統上的關鍵負載不會超過N的90%,而全部硬體設備都需要有故障容錯之雙電源輸入。在嚴格的故障容錯機制下,Tier IV擁有維持無計畫故障或運行錯誤時,不致產生電腦機房運作中斷的能力,其係由多條有效的電力與冷卻分配道路組成,有多餘的備援組成,而且是故障容錯,所以能提供高達99.995%的可用度。
Box:業主只要有心 改造機房為時不晚
綠色機房的主軸,不外乎兩點,一是節能(PUE),另一則是可靠度(Tier),意欲實現這兩大目標,最好的方式,即是從機房建造之初始,就開始做系統性設計;然不可諱言,既有機房的數量,遠遠超過新建機房,豈不意謂這些舊機房,只能忍痛與節能可靠保持距離絡?
日昇電機技師事務所的朱國權強調,情況並非如此,業主只要有心接受改造,絕對還有調整的空間。廣知工程科技總經理吳滄榮舉了一例,十多年前,他曾在花蓮承接一樁機房改造案,當時該機房很奇特,不管空調噸數怎麼加,裡頭溫度就是降不下來。
後來更離譜的是,以該機房不算大的面積,即使空調負載經追加到讓人咋舌的1,200噸,過熱現象仍然揮之不去,甚至熱到連機板都燒掉,迫使業主只好找冷凍空調技師共商解決之道。
吳滄榮一到場,並不是趕忙幫業主計算還需追加多少空調負載,因為先前聽業主吐過幾次苦水,他心中已大致有譜,可以肯定其原因絕非是空調噸數不足,而是熱冷混風情況太嚴重,假使不對症下藥,一切的努力終將成為虛工,因此他借助計算流體力學(Computational Fluid Dynamics;CFD)軟體,把原本不對的氣流流場,調整到正常狀態,很快就化解這場災難。
值得一提的,這座位在花蓮的機房,後來將空調負載從1,200噸急降至30噸,結果內部溫度還比從前低,機房改造的價值,至此已經表露無遺。
十年過去了,許多機房業主面臨的窘境,卻沒有太大的不同,有些時候,甚至只要將伺服器擺放位置,做180度翻轉,散熱冷率就會截然不同,但不少業主從未意識到問題癥結,甚至還因為伺服器轉換角度需要停機,生怕影響IT服務的運行,惹來使用者抱怨,所以最終寧可選擇抗拒改變,這也說明了,許多業主或管理人員亟待學習、成長的空間,其實還相當之大。
如今隨著雲端化、虛擬化的盛行,恐將迫使業主「不想改都不行」!朱國權解釋,早期Thermal控制走的是固定模式,各項參數都可以算得很精準,但現在機櫃的負載情況隨時變動,使得固定式設計邏輯不再適用,必須轉變成為「可調式」,首當其衝需要調整的,無疑正是空調,因為機櫃負載一變,產出熱空氣就不同,影響所及,舉凡送風量、送風溫度、風扇轉速,一直到後頭的水泵、冷卻水塔,通通得跟著變,空調如此,UPS也不例外,也得隨時升載或降載,也難怪變頻式空調系統、模組式UPS大行其道,值此時刻,機房設計思維豈能一成不變?
附檔:Uptime Institute.jpg