做好資料倉儲 巨量資料價值才能累積
資料堪稱是新世代的原油,值得各界投入探勘,以淘寶網為例,在俗稱「光棍節」的11月11日,一整天的交易量高達300多億元人民幣(相當於台幣1,500多億),相當於PChome十年的交易量,更重要的是,交易過程產生幾十TB的資料,若能善用這些資料,勢必能對淘寶網上的客戶喜好,有更深入的了解。
在網路時代,雖然說Content(內容)為王,在資料科技(Data Technology)年代,講得是挖掘Context價值。資料蒐集再多,若不了解資料的內涵,卻可能只是「入寶山卻空手而回」。關貿網路陳俊良經理指出,企業若想要善用巨量資料(Big Data),關鍵在於思想觀念的轉變,甚至要建立以資料為核心的的商業流程。
若從字面上來拆解「Big Data」,「Big」是要解決資料爆炸的問題,要利用資料倉儲(Data Platform)把所有資料收進來,然後解決儲存及計算的問題,目前又以Hadoop為解決前述問題的最熱門工具之一;「Data」則是解決資料使用分析的問題,尤其是跨學科分析技術,不管是數學統計、Data Mining、Machine Learning及特定產業的領域專家,都非常需要,才能將巨量資料分析技術應用在特定產業或市場領域上。
陳俊良強調資料科學的精神就是「與其相信一人的判斷,不如相信千萬人的資料」,但一般人無法處理千萬人的資料,所以需要專家及新技術來處理。但目前跨學科分析技術的人才不足問題相當嚴重,因為資料科學家人才,要十八般武藝樣樣精通,但如果找很多各自具備專長的專家群,則又會有溝通方面的問題。
另外一方面來看,若要善用巨量資料,一定要統整巨量資料倉儲的資料來源,就像採礦之前要確認礦源,包括交易資料、政府開放資訊、物聯網、雲端應用或行動裝置、社群資料等,都是資料的主要來源,應用前一定要多方探索了解。
談及資料儲存應用的演進過程,大部分來自於線上交易處理(OLTP)系統,但這些資料庫都還只是一個孤島,彙整相關資料庫逐步發展到線上分析處理(OLAP)資料倉儲,從企業重要作業流程應用(Line-Of-Business Application)一路發展到大型企業資訊倉儲(Enterprise Data Warehouse),現在已經發展到巨量資料倉儲(Big Data Warehouse),資料量愈來愈大的趨勢,儼已成形。
另一方面,資料來源型態格式更是千變萬化,包括企業內部、外部連結、非結構資料,都必須透過File Loading或ETL (Extract-Transform-Load)工具來轉置蒐集,並集中到Hadoop資料平台上。由於目前的Hadoop技術以批次處理HDFS上面的資料為主,即時分析通常還是要靠傳統Enterprise Data Warehouse (EDB)才能即時處理,現今發展技術則是結合In Memory Computation或SQL onHadoop等技術,設法在Hadoop上形成巨量資料倉儲,達到接近即時應用的目標。
陳經理表示,In Memory Computation的概念,是要讓很多台機器一起以小搏大運作,靠軟體技術來存取調用,網路存取交換硬碟資料速度也要相對非常快才跟得上,資料視情況看是否需壓縮處理,而且因為資料是在記憶體上處理,還必須要有能力避免因為當機,造成資料不一致的問題。
陳經理也分享了關貿資料倉儲的經驗,如何先做好資料永久保存,非常重要,關貿的雲端存證就是扮演這個角色,因為各應用系統會產生很多歷史紀錄及文件,可以用來做進一步的分析,如資安防護、行業資料分析及其他應用。
而在存證應用方面,除了要先做好二階雲端異地備份外,還需確保資料的一致性。陳俊良特別指出,兩年前Hadoop技術尚未完全成熟時要導入商業應用,必須要自己花不少時間去做小心驗證,才能大膽應用到線上服務。以流通業應用為例,要連結外部資料才能作更深入的分析,如在不同的時段會有不同的熱銷產品,才知道該怎麼去管理供應商,至於購物籃分析,則可以隨選細化觀察商品搭售的狀況。
在客服CTI則可以做服務熱點分析,包括那些廠商常問那些問題、各系統前十大問題等,都可以提供詳細的分析報告,一旦知道什麼樣類型的客戶,會提出什麼類型的問題,企業就可以預先針對前述問題提出最佳解決方案。
此外,利用系統日誌紀錄(Log)做異常偵測,也可以進行資安防護,只要先將記錄週期性地做好整理,利用In Memory計算技術即時參考歷史流量統計模型,判斷當下流量是否出現異常或乖離現象,就會立刻發出警告通知系統管理者。
關貿網路也將分析技術應用在社交網路輿情探勘上,陳經理指出,人工進行輿情訊息的蒐集及判斷非常辛苦,在瞬息萬變資訊爆炸的年代,若可透過巨量資料及自然語言分析技術來增強自動化作業,減少人工投入或監控的成本,則能提升隨時掌握資訊之明顯效益。基本文本內容的正負面觀感判斷技術,經過人工領域調適後可達70%以上正確性,足以讓有效輿情資訊蒐集成本大幅下降。
整體而言,巨量資料分析技術應用於關貿網路的各項服務上,效益相當卓著。舉例說明,以零售通路客戶導入分析型CRM系統為例,有效會員數就因此增加92%;網路電子商務客戶強化線上推薦功能、應用分析型精準行銷,也讓線上推薦成交比率由13%提升為27%;處理22億筆交易資料,執行Ad-hoc Query任意分析,查詢時間大幅由5分鐘有效縮短至10秒內達成。
關貿陳俊良經理最後強調,巨量資料分析技術其實是一種學習用數字解決問題的科學方法,但坐而言不如起而行,資料大小其實不是問題,而是要先知道問題何在?資料是否有解?就可解放巨量資料的應用價值,由內部支援系統走向營運決策,發揮更大的綜效。