接軌國際認證 有利於創建優質雲端機房
DIGITIMES企劃
如何設計、維護和營運一個高可用性、高效率的資訊機房」已是企業賴以在激烈商戰中脫穎勝出,同時亦能免於釀成意外損失的首要關鍵;當然,這句話套用於企業自家的資訊機房,無疑至為重要,但若基於混合雲、託管私雲等考量,而將範圍擴大至外部的雲端IDC機房,不僅理應適用相同準則,甚至應以更嚴苛的標準加以檢視。
令人驚心動魄的是,2013年初,曾發生一場「城門失火、殃及池魚」的火警事件,導致一家承載諸多重要網路服務的IDC機房暫時失效,影響所及,舉凡知名的入口網站、電子商務、連鎖餐飲、交通訂票等數十家業者之服務悉數停擺逾10小時,迫使上百萬位最終使用者權益受損,損失難以估計。
此時不禁讓人納悶,按理說,IDC業者建構的資訊機房,理當比大多數企業資料中心更為嚴謹、專業才是,對於任何意外事故的耐受度與應變力,也理應勝出一籌,無奈此次事件仍燒出如此不堪結局,因而開始讓各界多所省思,亟欲探究箇中癥結為何。
有專家直指,其實是因為這起事故太受人矚目,才引發軒然大波,否則諸如水處理不佳導致管壁腐蝕、且維修困難,管道維修不佳造成洩漏,乃至於電池端子毀損等事件,可謂層出不窮,許多業者都曾面臨這般窘境。
老舊機房難進行保養 失效機率逐年攀升
為何如此?道理很簡單,因為台灣多數IDC機房,都是在2000年左右建造完成,當時諸如TIA-942等國際認證標準,當時都還付諸闕如,另對於Uptime Institute Tier概念亦顯陌生,因此相關業者尚無Dual Path、N+1設計概念,以致後續無法在不影響客戶服務的前提下進行維修;殊不知機房基礎設施在啟用10?15年後,舉凡UPS電容、電池端子等眾多元件,都會陸續到達使用年限,此時如果再不及時進行更換,則包括設施故障、失火意外等憾事的發生機率,必然逐年提高,此乃可預見之事。
事實上,若說所有IDC業者都不具備Dual Path、N+1等設計觀念,似乎也不甚公允,有不少業者,早在上述2013年初事故之前,便開始為其機房融入高可用性設計,針對諸如發電機、冰水主機等關鍵設施,皆務求做到N+1水平,但畢竟自我意識的抬頭,仍未臻至國際標準的細膩嚴謹,因此仍不免出現掛一漏萬的缺憾,最明顯的例子,一些關鍵設施雖然都已具備N+1保護,但居間串聯這些設施的管道、閥件,仍然停留在Single Path層次,因此就算這些設施再怎麼受到悉心呵護,一旦開關出了狀況,管它是N+1、N+2甚至是N+N,通通都將被迫停機,無法倖免於難。
專家依據IEEE 493-GOLD BOOK分析,綜觀大大小小機房事件,有16.4%比重是由於機電設施未進行逐月保養所滋生,更讓人憂心的,假使開關設備在超過24個月才被保一次養,則故障率更將飆高到77.8%之譜,不出事的機率僅剩不到四分之一;倘若企業將營業重擔交付於此類IDC業者之手,後果著實不堪設想。
面對此情此景,不管是IDC業主抑或企業經營高層,能夠苛責機房相關人員竟然如此漫不經心,導致機房的可用性、容量、安全或效率,通通都有問題?其實不然,只因業主對於IDC或資訊機房,通常都僅有唯一要求,那便是絕對不容出錯,因為只要出錯就可能撼動公司營運基業。
但另一方面卻又疏於做出必要投資,確保機房相關人員的本職學能得以接軌國際專業標準,只能放任他們憑藉師徒制的經驗傳承,或者邊做邊學邊摸索所累積的工作心得,作為研判機房設計暨管理良窳的準則,終至將機房長治久安的命脈,維繫於幾分直覺、幾分猜測再加上幾分運氣,又怎能強人所難永保不出亂子?
採納國際標準 打造高可用機房
可喜的是,台灣有若干大型雲端IDC服務供應商,已經意識他們所面臨的嚴峻課題,其中包括了,當各項基礎設施的生命週期告終,即使還有備援設備當靠山,但單一管路或電路設計不改,仍將導致機房管理者無法在不中斷服務的情況下,進行設施的汰舊換新。
再者,可以預見,電力支出佔整個機房運作成本的比重,未來只會更高、不會更低,若不設法運用自然冷卻、最佳化氣流循環控制(旨在避免冷熱空氣混風)或其他有效措施,將PUE能源效率降至較低水位,僅能被迫將電費成本轉嫁給最終用戶,使得營運競爭力趨於下滑。
此外,近年來針對雲端IDC機房的網駭攻擊態勢,已然明顯增溫,不管論及攻擊手法與頻率,都在在讓人憂心不已;在2014年6月期間,一家名為Code Spaces的程式碼代管網站,遭受了駭客精心籌劃的大規模分散式阻斷服務(DDoS)攻擊,趁勢將看似不起眼、但危害性甚高的APT惡意程式掩護入境,緊接著,駭客循序掌握該公司在亞馬遜AWS EC2雲端運算服務控制台的存取憑證,繼而提出鉅額勒索。
後來只因Code Spaces不從,駭客便斷然將AWS EBS快照、AWS S3的儲存內容、Amazon虛擬機的鏡像檔逐一清除,使得Code Spaces營運基業宣告瓦解,只好忍痛做出歇業決定,但令人不勝噓唏,原本對Code Spaces深信不疑的客戶,也莫名付出了極為慘重的代價。
大型雲端IDC業者願意正面因應這些由來已久的問題,下一步的舉措,即是導入國際認證。其中台灣大哥大於2013年底完工啟用的內湖雲端機房,便遵循Uptime Institute國際標準規範,相繼通過Tier Ⅲ Design設計規劃、Facility建置等兩項認證,確保機房內包括電力、空調、消防、安全及環控等基礎設施,全都具備可共同維護性之架構,意即無論面臨計劃性維護保養、抑或遭逢無預警突發事故,都可以在服務不中斷的前提下進行維修,使用戶權益獲得十足的保障。
除了可持續性維運外,台灣大哥大亦對於能源效率PUE 1.5、強化網路安全等其他事項著墨甚深,一方面透過空調水側自然冷卻系統架構的導入,乃至於建立完善的冷熱通道分離,據以推動節能設計,二方面則採取二層式防護架構-「前場防禦+後場防禦」,有效抗禦駭客攻擊,其中所謂的後場防禦,主要是思考前場防禦有時而窮,即採用最新防護方案,仍無法全然阻絕零日威脅,因而需要以駭客成功入侵為前提假設,一旦偵測到駭客出現譬如提權、植入後門等後場行為,旋即介入處理,針對駭客竊取資料的可能路徑嚴加封鎖。
除了台灣大哥大外,料將是全台最大規模雲端IDC的中華電信板橋雲端資料中心,則遵循美國電信產業協會(TIA)所頒布的TIA 942-A標準規範,進行機房設計,針對內部不同樓層,少則以Rated 3等級標準為依歸,每年僅容許出現1.6小時失效,多則以Rated 4最高等級標準為圭臬,每年僅容許出現24分鐘故障。
而在中華電信板橋雲端IDC內的Rated 4樓層,一律採行2N備援設計,全數配置多迴路路徑,藉此將可靠度推升到了99.995%超高水準。與此同時,中華電信亦導入ISO 50001能源管理認證,也透過自然冷卻、冷熱通道循環等設計,力求將PUE值壓低至1.5以下。
綜上所述,包括中華電信、台灣大哥大等IDC業者,致力打造與國際接軌的專業級機房,其用心相當值得肯定,亦可作為用戶遴選雲端IDC的量尺依據。