融合BI與Big Data快速累積智慧資產 智慧應用 影音
vishay
世平興業

融合BI與Big Data快速累積智慧資產

  • DIGITIMES企劃

最近幾年,商業智慧(BI)的聲音並不算大,反觀巨量資料(Big Data)卻是響徹雲霄;讓人不禁認為,過往BI將功成身退,將由巨量資料取而代之,然而趨勢真是如此?

綜觀近3年來大大小小的IT論壇、研討會,無論主題為如何,經常都聽聞講者向企業用戶呼籲,必須留四大趨勢,而且這四大趨勢彼此之間環環相扣;這些趨勢是什麼?除了雲端運算、行動化、社群應用外,即是現今當紅炸子雞-Big Data。

影響所及,過去不時談論BI、資料採礦(Data Mining)等議題的業界人士,逐漸不談這些東西了,轉而跟進巨量資料浪潮,開口閉口都是Big Data;而有些深具技術背景的IT人,眼見Big Data,就彷若蒼蠅見到血,不斷卯足全勁上前吸吮,朗朗上口的都是Hadoop等艱深名詞。

一夕之間,難免予人一種感覺,BI趨近銷聲匿跡,似乎唯有擁抱巨量資料、Hadoop,才是真正的王道,因為如此不僅能從過去視而未見的非結構化資料中大舉挖礦,也能一併取代傳統的BI;在此情況下,不管是ODS (Operational Data Store)、資料倉儲(Data Warehouse),彷彿都不怎麼需要了。

巨量資料現身 不意謂BI就此退位
前述的感覺,一方面源自於當前巨量資料的盛況,這是無可厚非的,但在另一方面,則對於過往的BI系統多所貶抑,看來合理,但箇中謬誤之處其實不少,最大的癥結在於巨量資料是無法取代BI的,因此兩者之間並無彼消此長的因果關係;甚至可以這麼說,企業之所以擁抱巨量資料,為的就是挖掘出既有BI系統所無法處理的資料價值,特別是非結構化資料,其與過往商業智慧分析工具可謂殊途同歸,若說Big Data也是廣義商業智慧的一環,一點也不為過。

在此情況下,有些企業CIO視巨量資料分析為「進化版BI」,它之所以出現,正是因為過去BI做得不夠好。

隨著BI構面朝向巨量資料延伸,對於企業來說,也確實堪稱為美事一椿,只因過往不論作資料採礦、線上分析處理(OLAP),或是藉由Reporting System產出報表,不但都圍繞著資料庫裡頭的結構化數據,更重要的,這些數據絕大部分來自企業內部,久而之之,企業總是運用「Inside Out」角度來看待外部市場環境的變化,以作為決策制定的基礎,如今若能善用巨量資料,不僅可針對內部大量非結構化資料,諸如文字、網頁、聲音、影像、日誌檔(Log),執行有效的蒐集與分析,從中擷取更多有助於營運加值的養分,亦可讓分析範疇跨越到公司以外,譬如社群媒體等更為寬廣的境地,繼而轉換為「Outside In」思考模式,及早釐清客戶如何看待企業所推出的商品、行銷活動,從而檢視自身的商業決策是否正確,接著進行內部資源整合,儘速調整營運步調,以期妥善呼應市場需求,創造更大的利益與價值。

至少在短期間內,肇因於現今巨量資料分析技術尚處於進化階段,還不夠純熟,所以企業即便對於巨量資料心生嚮往,但當務之急的是,絕非朝向Big Data另立新門戶,將資料倉儲、ODS、ETL(Extract-Transform-Load)、報表系統、OLAP、資料採礦、平衡計分卡、戰情室…等一干過往的BI基盤予以搗毀捨棄,而應設法讓兩者並存,彼此間持續交換資料,才能在新舊世代交替的轉捩點上,建立最佳的平衡點。

融合式分析架構 更加迎合企業期望
因此展望未來數年,企業所需建構的商業分析版圖,不宜繼續獨尊於過去的Structure Data結構,而也不宜全然向Big Data新架構傾斜,而是一種融合式的BI架構。

如何建立融合式BI架構?一家深具BI系統建置輔導經驗的本土業者,提出兩種做法。其一,是讓原本植基於結構化資料分析的BI系統架構不動,另外再基於巨量資料分析,建立Hadoop基礎架構,佐以新一代前端展現工具,據此建構另一套分析系統架構,接著客製產出資料轉換程序,以利於兩者之間進行介接;如此一來,經由巨量資料分析架構,針對非結構化資料、半結構化資料所萃取的有價資訊,便有適當的路徑,可以回歸到既有BI系統架構進行整合分析,將加值運用的成效予以極大化。

上述雙軌分進合擊的做法,好處是建置時程似乎較快,但只靠客製化的資料轉換程序加以介接,資料整合度難免不足,且因反覆Hard Coding徒然加重程式開發負擔,更有加重管理複雜度之虞,因此縱有「短多」可期,亦不乏「長空」隱憂。

至於另一套做法是,借助業界發展的巨量資料管理系統,使得傳統BI分析與Hadoop平台,能夠同時納入單一視窗予以統一管控;而在此一架構中,舉凡傳統的ETL,乃至於Hadoop平台項下的HDFS/HBase讀寫、Hive/Pig語言程序、MapReduce程式發布、Cascading作業程序與Mahout語言程序等等,應有盡有,據此建立一個高度融合的混搭式商業智慧分析環境。

如此做法的好處是,可以大幅降低技術門檻,並有效減少系統維運複雜度,且因為省卻繁瑣的程式開發程序,因而足以坐收快速部署、減輕後續維運負擔等多重效益;由此觀之,此一做法較諸於上述雙軌分進合擊模式,顯然更能迎合企業需求。

在融合式商業智慧分析架構運作下,一旦面臨相對單純的巨量資料處理作業需求,則可迅速將之導向傳統BI架構,讓使用者透過較為成熟且熟悉的工具,化繁為簡地實現最終分析目的,反之,如果巨量資料處理作業較為複雜,可能涉及到諸如R Software專業統計軟體等運作需要,此時才會使融合式架構面臨較大考驗。

如何解決此項難題?幸而業界也已找出解決之道,也就是運用一套開放式機制,便於用戶將複雜作業客製為外掛(Plug-in)模組,毋需大費周章,即可將此類Plug-in插入統合式的管理環境中,一併納入管理;如此一來,所謂巨量資料管理系統的開放性或高或低,就顯得格外重要,畢竟隨著企業對於巨量資料的分析需求日益深化,終究有朝一日,肯定需要執行更為複雜的巨量資料處理作業,唯有底層平台具備足夠開放性,方可從容應付這一切挑戰。

在此同時,原本擅長於關聯式資料庫的廠商,抑或先前並未推出資料庫系統的業者,都亟思透過自行研發或購併方式,朝向大量平行處理(Massively Parallel Processing ;MPP)資料庫發展。

此類資料庫,不僅蘊含已被用戶廣為使用、也極易上手的商業智慧分析與報表工具,也悉心置入了Hadoop連接器,俾使企業可運用相同的環境,一邊銜接Hadoop運算架構,一邊則銜接既有的前端呈現工具,好讓原來略顯艱澀的巨量資料處理結果,得以透過化繁為簡的途徑,藉由友善介面呈現於使用者眼前。

值得一提的,這類型MPP資料庫,不再依循傳統關聯式資料庫的Raw-based運算結構,轉而採取 Column-based全新索引架構,得以營造較為顯著的增速效果,使得使用者毋需曠日費時,即可輕鬆而快速地查詢巨量資料;縱使將MPP資料庫套用於傳統OLAP或線上交易處理(OLTP)等日常作業,執行效率也突飛猛進。凡此種種,皆有助於企業建構融合式的商業智慧分析機制,相關產品或技術的演進,頗值得密切留意。