融合BI與Big Data快速累積智慧資產

DIGITIMES企劃／
2013-12-30
分享

最近幾年，商業智慧(BI)的聲音並不算大，反觀巨量資料(Big Data)卻是響徹雲霄；讓人不禁認為，過往BI將功成身退，將由巨量資料取而代之，然而趨勢真是如此？

綜觀近3年來大大小小的IT論壇、研討會，無論主題為如何，經常都聽聞講者向企業用戶呼籲，必須留四大趨勢，而且這四大趨勢彼此之間環環相扣；這些趨勢是什麼？除了雲端運算、行動化、社群應用外，即是現今當紅炸子雞－Big Data。

影響所及，過去不時談論BI、資料採礦(Data Mining)等議題的業界人士，逐漸不談這些東西了，轉而跟進巨量資料浪潮，開口閉口都是Big Data；而有些深具技術背景的IT人，眼見Big Data，就彷若蒼蠅見到血，不斷卯足全勁上前吸吮，朗朗上口的都是Hadoop等艱深名詞。

一夕之間，難免予人一種感覺，BI趨近銷聲匿跡，似乎唯有擁抱巨量資料、Hadoop，才是真正的王道，因為如此不僅能從過去視而未見的非結構化資料中大舉挖礦，也能一併取代傳統的BI；在此情況下，不管是ODS (Operational Data Store)、資料倉儲(Data Warehouse)，彷彿都不怎麼需要了。

巨量資料現身　不意謂BI就此退位
前述的感覺，一方面源自於當前巨量資料的盛況，這是無可厚非的，但在另一方面，則對於過往的BI系統多所貶抑，看來合理，但箇中謬誤之處其實不少，最大的癥結在於巨量資料是無法取代BI的，因此兩者之間並無彼消此長的因果關係；甚至可以這麼說，企業之所以擁抱巨量資料，為的就是挖掘出既有BI系統所無法處理的資料價值，特別是非結構化資料，其與過往商業智慧分析工具可謂殊途同歸，若說Big Data也是廣義商業智慧的一環，一點也不為過。

在此情況下，有些企業CIO視巨量資料分析為「進化版BI」，它之所以出現，正是因為過去BI做得不夠好。

隨著BI構面朝向巨量資料延伸，對於企業來說，也確實堪稱為美事一椿，只因過往不論作資料採礦、線上分析處理(OLAP)，或是藉由Reporting System產出報表，不但都圍繞著資料庫裡頭的結構化數據，更重要的，這些數據絕大部分來自企業內部，久而之之，企業總是運用「Inside Out」角度來看待外部市場環境的變化，以作為決策制定的基礎，如今若能善用巨量資料，不僅可針對內部大量非結構化資料，諸如文字、網頁、聲音、影像、日誌檔(Log)，執行有效的蒐集與分析，從中擷取更多有助於營運加值的養分，亦可讓分析範疇跨越到公司以外，譬如社群媒體等更為寬廣的境地，繼而轉換為「Outside In」思考模式，及早釐清客戶如何看待企業所推出的商品、行銷活動，從而檢視自身的商業決策是否正確，接著進行內部資源整合，儘速調整營運步調，以期妥善呼應市場需求，創造更大的利益與價值。

至少在短期間內，肇因於現今巨量資料分析技術尚處於進化階段，還不夠純熟，所以企業即便對於巨量資料心生嚮往，但當務之急的是，絕非朝向Big Data另立新門戶，將資料倉儲、ODS、ETL(Extract-Transform-Load)、報表系統、OLAP、資料採礦、平衡計分卡、戰情室…等一干過往的BI基盤予以搗毀捨棄，而應設法讓兩者並存，彼此間持續交換資料，才能在新舊世代交替的轉捩點上，建立最佳的平衡點。

融合式分析架構　更加迎合企業期望
因此展望未來數年，企業所需建構的商業分析版圖，不宜繼續獨尊於過去的Structure Data結構，而也不宜全然向Big Data新架構傾斜，而是一種融合式的BI架構。

如何建立融合式BI架構？一家深具BI系統建置輔導經驗的本土業者，提出兩種做法。其一，是讓原本植基於結構化資料分析的BI系統架構不動，另外再基於巨量資料分析，建立Hadoop基礎架構，佐以新一代前端展現工具，據此建構另一套分析系統架構，接著客製產出資料轉換程序，以利於兩者之間進行介接；如此一來，經由巨量資料分析架構，針對非結構化資料、半結構化資料所萃取的有價資訊，便有適當的路徑，可以回歸到既有BI系統架構進行整合分析，將加值運用的成效予以極大化。

上述雙軌分進合擊的做法，好處是建置時程似乎較快，但只靠客製化的資料轉換程序加以介接，資料整合度難免不足，且因反覆Hard Coding徒然加重程式開發負擔，更有加重管理複雜度之虞，因此縱有「短多」可期，亦不乏「長空」隱憂。

至於另一套做法是，借助業界發展的巨量資料管理系統，使得傳統BI分析與Hadoop平台，能夠同時納入單一視窗予以統一管控；而在此一架構中，舉凡傳統的ETL，乃至於Hadoop平台項下的HDFS/HBase讀寫、Hive/Pig語言程序、MapReduce程式發布、Cascading作業程序與Mahout語言程序等等，應有盡有，據此建立一個高度融合的混搭式商業智慧分析環境。

如此做法的好處是，可以大幅降低技術門檻，並有效減少系統維運複雜度，且因為省卻繁瑣的程式開發程序，因而足以坐收快速部署、減輕後續維運負擔等多重效益；由此觀之，此一做法較諸於上述雙軌分進合擊模式，顯然更能迎合企業需求。

在融合式商業智慧分析架構運作下，一旦面臨相對單純的巨量資料處理作業需求，則可迅速將之導向傳統BI架構，讓使用者透過較為成熟且熟悉的工具，化繁為簡地實現最終分析目的，反之，如果巨量資料處理作業較為複雜，可能涉及到諸如R Software專業統計軟體等運作需要，此時才會使融合式架構面臨較大考驗。

如何解決此項難題？幸而業界也已找出解決之道，也就是運用一套開放式機制，便於用戶將複雜作業客製為外掛(Plug-in)模組，毋需大費周章，即可將此類Plug-in插入統合式的管理環境中，一併納入管理；如此一來，所謂巨量資料管理系統的開放性或高或低，就顯得格外重要，畢竟隨著企業對於巨量資料的分析需求日益深化，終究有朝一日，肯定需要執行更為複雜的巨量資料處理作業，唯有底層平台具備足夠開放性，方可從容應付這一切挑戰。

在此同時，原本擅長於關聯式資料庫的廠商，抑或先前並未推出資料庫系統的業者，都亟思透過自行研發或購併方式，朝向大量平行處理(Massively Parallel Processing ；MPP)資料庫發展。

此類資料庫，不僅蘊含已被用戶廣為使用、也極易上手的商業智慧分析與報表工具，也悉心置入了Hadoop連接器，俾使企業可運用相同的環境，一邊銜接Hadoop運算架構，一邊則銜接既有的前端呈現工具，好讓原來略顯艱澀的巨量資料處理結果，得以透過化繁為簡的途徑，藉由友善介面呈現於使用者眼前。

值得一提的，這類型MPP資料庫，不再依循傳統關聯式資料庫的Raw-based運算結構，轉而採取 Column-based全新索引架構，得以營造較為顯著的增速效果，使得使用者毋需曠日費時，即可輕鬆而快速地查詢巨量資料；縱使將MPP資料庫套用於傳統OLAP或線上交易處理(OLTP)等日常作業，執行效率也突飛猛進。凡此種種，皆有助於企業建構融合式的商業智慧分析機制，相關產品或技術的演進，頗值得密切留意。

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

商情專輯－商業智慧專輯