整合巨量資料的奧秘
巨量資料已經成為十分熱門的議題,關於巨量資料分析的特性,包括從隨機抽取樣本演變為分析全體資料形成的「巨量性」,從結構化資料進化為非結構化資料的「多樣性」,反應時間縮短且即時擷取資料的「即時性」,到資料來源的控管與確認的「真實性」,許多人都早已耳熟能詳。
江孟峰認為,企業若要掌握整合巨量資料的奧秘,第一步要關心的是什麼時候要用巨量資訊?如許多企業納入巨量資料分析的非結構化資料(Unstructured Data),包括e-mail、機器記錄、社交媒體貼文、文件、電子書、醫療紀錄等,其實只是「還未結構化的資料」,江孟峰認為,必須要想辦法先結構化,才能進行處理。
事實上,巨量資料可能遭遇的問題還很多,除了原本無法存入資料的資料,要如何處理外,隨著資料量的成長,原有應用的關聯式資料庫勢必會開始不堪負荷,當資料庫中的某個欄位達到數百萬筆以上的記錄時,效能就會開始下降,甚至嚴重下降到企業主難以忍受的程度,就需要將這種成長迅速的資料,盡快移轉到巨量資料庫。
江孟峰指出,以製造業為例,機台所產生的資料愈來愈快,如果想要分析這些資料,可能就得購買許多伺服器來分析,如Hadoop就可以串聯很多台伺服器來分析,但Hadoop只提供了檔案系統的分析,如果想要分析結構化資料,就得安裝HBase。
此外,巨量資料分析的系統架構技術及相關費用,也必須加以考量。江孟峰指出,Hadoop的系統特性為可組成可伸縮的的叢集,提昇運算能量,自動備援; 從古至今,資料分析的對象都是結構化資料,但分析需要meta data,HBase不用直接使用Map Reduce,且HareDB HBase Client則是比較容易理解欄位的型式,適合喜歡SQL查詢,並能夠快速匯入巨量資料的需求。
至於費用方面,Hadoop是用一般的伺服器連結成叢集,且依據需求調整數量,並可自動備援;HBase的優點則是不用訓練一批工程師學習新的程式技術,也不用重新開發所有系統;HareDB HBase Client則是可以讓已經熟悉SQL的工程師,可以很快的上手,並在最短的時間內,開始進行巨量資料分析。
江孟峰指出,HBase Client操作工具支援HQL,與SQL類似,可快速查詢,而其具備的Meta Data管理能力,可用View清楚了解資料呈現,易於管理,而快速上載巨量資料的能力,更可解決巨量資料處理難題,且可管理多個叢集。
但如果企業的思維,以為巨量資料庫是要用來取代原有的關聯式資料庫,其實是有問題的。因為原有的資料庫所遭遇的問題,可能只需要在軟硬體方面做適當的投資就能解決。
江孟峰認為,巨量資料庫的價值,應該是可以將許多商業行為如半導體產品的製造良率,以前都只能從製造過程所產生的資料來蒐集分析,但上下游的供應鏈會有一些行為,如果供貨不及,調整良率的急迫性就沒那麼高。更重要的是,企業現在的製造思維,已經開始轉向終端客戶需求,而不是下游客戶而已,因此需要蒐集更多未結構化的資料進行分析。
至於要如何把還未結構化的資料結構化,江孟峰指出,已有明確分析的目標,仍然是多數企業的選擇,否則也可先看看資料再想如何分析。而在應用推廣方面,目前在建立巨量資料處理平台方面,江孟峰表示,目前已可針對結構或非結構的資料進行蒐集、過濾、儲存、查詢、分類等分析功能,數值類型資料部分也可整合到傳統BI工具,文字類型資料進行視覺化呈現。
此外,在建立與分析工具連結的方式方面,目前也可善用主流技術,整合現有系統,達到降低成本、擴增資料量、分析關鍵因素的目標。導入相關技術的產業包括半導體製造、IC設計、影像處理、供應鏈分析、客戶資料管理等。
江孟峰最後指出,企業現有的資料庫一旦不堪負荷,可以先嘗試提升硬體及資料庫軟體,但如果想要不限維度的分析資料,或是已將資料壓縮成一大堆檔案,需要好好整理時,就需要巨量資料庫及相關分析工具。
企業若有有建立巨量資料庫的需求,江孟峰建議,企業應先瞭解產品的特性與建議,而且要看到模擬的成果驗證,並有認證服務團隊的支援,才是可靠的巨量分析工具。