DCIM穿針引線 打通智慧機房任督二脈
隨著IT技術發展,及各式管理工具的應運而生,好不容易使得IT設備、機房基礎設施等兩造管理單位,不再像是楚河漢界,而可透過一致的介面,跨越不同設備之間的藩籬,得以互通彼此的資訊;箇中的關鍵驅動力,源自資料中心基礎設施管理(DCIM)解決方案。
回首過去,一座資訊機房之所以從無到有,接續繁衍出空間佈置、機電、空調、消防、門禁、安全監控、IT基礎架構…等所有元素,靠得並不是單一個人或團隊,而是多不勝數的團隊,其各自秉持不同的專業知識、邏輯概念,藉由不同的專案,分頭建立一部分的機房組成元素;比方說,在此之中有負責機電的團隊,也有負責空調的團隊,當然也有負責IT基礎架構的團隊。
等到許許多多的團隊,各自執行完成不同任務,這一個個成果的加總,最終就是完完整整的資訊機房;然不可否認,論及機房的規劃、設計、建置及竣工,的確是一段重大歷程,但後續的維運與管理,其實才更加重要,因為唯有好的維運與好的管理,方能確保機房真的是一個可靠的基礎構造組織,恆常保有高度的安全性、完整性及功能性,終至成為企業驅動商務運作的強力後盾。
看到這裡,察覺到何等問題?含括IT基礎設施維運、資產管理、水電空調管理、能源管理、連接管理、環境控制、安全監控、門禁管制、空間配置、變更管理…等各式各樣存在於機房的環節,背後都是由不同團隊、專業知識、技能、邏輯概念所催生,爾後進入維運管理,彼此所適用的管理工具,當然不盡相同,影響所及,IT與非IT等不同資產之間,也被硬生生樹立了好幾座分隔島,機房管理者縱使有綜觀全局、通盤管理的決心,也必須動用多套管理軟體、熟悉多個使用介面、費心比對不同屬性的資料、釐清各種設備的告警模式。
費盡千辛萬苦之餘,總算大致掌握了不同層面的管理要領,但真正的考驗,絕非日常承平之時,而是遭逢事故的當下,這些性質互異的設備或設施,能否在危難之際、有條不紊地連動響應?令人遺憾的,答案還真是否定的,也就是說,當市電中斷、UPS開始接手供應電力,然電池即將耗盡,IT管理者這一端,未必能即時知悉;當空調系統故障、後續將導致機房內部溫度飆升,伺服器正一步步走向過熱跳機的瀕死道路,IT管理者這一端,未必能即時知悉;當保全系統察覺可疑刷卡記錄、研判機房已有不明人士潛入,IT管理者這一端,同樣未必能即時知悉。
然而上述看似與基礎設施有關的事故,最終都極有可能損及資訊設備,乃至於無形的軟體、數據等珍貴資產,IT管理者豈能不在第一時間掌握所有狀況?但他真的能嗎?其實很困難,因為依現行運作機制,根本不可能做到跨設備的自動響應。
DCIM跨越鴻溝 使IT與基礎設施得以協作
而當DCIM(Data Center Infrastructure Management)開始現身,原本存在於傳統IT與設施人員之間的鴻溝,得以迅速被填平!只因為透過DCIM,機房管理人員就得以實現資訊設備與基礎設施之間的協同運作,當事件發生,所有設備與設施都能連動響應;更重要的,管理者也可藉由不同設備與設施資料的彙總,做到跨設備事件分析,洞悉許多不良現象的前因後果,從而制定改善策略,避免日後再次發生,致使資訊機房運作效率更趨良善。
業者指出,DCIM整合管理系統,有能力監視與控制所有基礎設施,而此監控能力奠基在一致性的使用介面、資料格式、告警機制、權限管理之上,管理者再也無需翻山越嶺頻頻穿梭不同管理工具,連帶所獲最顯而易的好處,便是提高資訊設備的可用度。
所謂可用度,IT人通常會採用一道公式予以表示,即是MTBF除以「MTBF+MTTR」,其中MTBF意指平均故障間隔時間,MTTR則代表平均修復時間,所以若能借助DCIM掌握所有基礎設施的運行狀況,一方面就可望提前發現疑難雜症、及早介入處理,俾使讓基礎設施恆常維持正常運行軌道,連帶減少資訊設備停機風險,二方面縱使在所難免遭逢突發事故,亦可掌握即時資訊,並且快速定位問題,而不會好比從前像無頭蒼蠅般不知所措。
也就是說,透過DCIM這個跨足基礎設施與IT系統的統一管理平台,將裨益管理者更易獲得管理所需之訊息或資料,進而根據這些訊息或資料加以分析、產生智慧決策,終至實現全面優化機房管理的宏大目標。
一旦有效實現上述目標,顯而易見的,MTTR必然可以減少,而MTTR數值只要縮小,則上述計算可用度的公式分母,也就跟著變小,連帶造成可用度的攀升。
動態PUE量測 充分滿足電力管理需求
細究DCIM的功效,儘管可能因不同廠牌系統產品,而有若干歧異,然萬變不離其宗,只要是DCIM,理應都具備一些共通的基本功能,單憑這些功能,已可讓企業機房管理者受用無窮。
不同廠牌的DCIM解決方案,無論功能模組是多或寡,皆會有一個基礎運行平台,它具有一個圖形化介面,可藉由機房平面圖的鋪陳方式,讓管理者一目瞭然各項設備的狀態資訊,每當有告警事件發生,管理者就能輕易從畫面中看出事故發生的位置,藉此快速釐清告警的定位點,此時系統亦將根據基礎運行平台所保留的事件記錄、歷史資料、排程管理、警報響應原則,協助產生一個最適化的處理建議,協助管理者利用最短時間排除當下的告警事件。
除了基礎運行平台外,每套DCIM方案都能提供攸關於電力管理的功能模組,使得管理者能藉此獲致動態PUE量測數據,並可與歷史PUE發展趨勢做比對,以瞭解當下PUE是處在正常或異常狀態,假使察覺異常,接著可透過逐層鑽取(Drill Down)程序,依據能耗的功能性分類,快速找出最亟需改善能源使用效率的癥結點。
更有甚者,不少DCIM亦可利用系統所彙集到的kWh數據,進一步執行電價分析,其電價計算基礎,可依照時間區段之不同,實際對應到台電費率,故可推算出相當趨近實際電價的費用結果。
另一項多數DCIM都具備的共通功能模組,即是資產管理。以台達電的InfraSuite Manager為例,其資產管理模組可呈現設備位置、額定資訊、電源、網路與維護資訊等詳細資訊,一方面可協助管理者執行必要分析與預測,好讓基礎設備與伺服器都能被裝設在機櫃內的最佳位置。
至於另一方面,管理者亦可善用電源路徑圖,詳加追蹤各項設備配電的上下游關係,含括從最前端的市電輸入、配電,一直到末端伺服器、儲存設備、網路設備等用電裝置的完整歷程,如此一來,當某台供電設備失效,後續對於IT設備將造成何等衝擊或影響,都可藉由事前的分析而預見,俾使管理者知所因應。
更重要的,透過DCIM資產管理功能,也可促使基礎設施與IT設備緊密整合,甚至能與虛擬機器的管理系統綿密互動,達到最佳化的移轉效果。舉例來說,當某一承載企業關鍵應用的虛擬機器,所處在的A機櫃出現供電警報,此時即可藉由DCIM與虛擬化管理軟體的連動響應,自動將該虛擬機器遷移至供電正常的B機櫃,藉此維繫企業關鍵應用服務的正常運轉,單憑此例,即不難看出DCIM的巨大效益。