數位科技快速匯流 大數據角色日益重要 智慧應用 影音
Microchip
member

數位科技快速匯流 大數據角色日益重要

  • 洪千惠

大約半年前,美國在台協會與美國創新中心共同舉辦一項論壇,意在探討未來應用趨勢;其間有專家特別點明大數據應用發展的重要性,綜觀當今炙手可熱的議題,包括物聯網(IoT)、智慧城市、擴增/虛擬實境(AR/VR)、區塊鏈、語音辨識,以及人工智慧(AI)等等項目,可望透過大數據(Big Data)技術產生數位匯流效果,將人類社會帶向一場巨大的變革。

前述提及的重大科技趨勢,彼此環環相扣、相輔相成。比方說,初估目前全球連網裝置來到84億台,這些裝置可借助區塊鏈技術以強化安全性;再者透過物聯網,將使智慧城市應用場景持續產生巨量資料,這些數據亟待AI進行分析;此外,語音辨識與AR/VR則需借重AI不斷進行學習。

大數據市場規模預測。

大數據市場規模預測。

大數據使用案例。

大數據使用案例。

大數據框架。

大數據框架。

換言之,伴隨資料驅動時代來臨,各式數位科技議題應運而生,都可望為大數據市場持續挹注推升動能。

大數據市場後勢看漲

根據Statista.com所揭露的大數據市場規模預測顯示,該市場總營收可望從2011年的76億美元、2012年的122.5億美元,一路挺升至2026年的922億美元,前後15年下來,足足增長了1,113%(11倍)之多。深究大數據市場之所以持續看漲,乃在於大多數企業皆深刻體認傳統的數據應用處理,確實有所不足,然而一旦有效運用大數據,便能做出更明快睿智的決策,大幅優化短、中、長期的商業戰略規畫。

若就市場營收結構來細分,目前最大區塊係為專業服務,現今年產值約百億美元,約佔整個市場餅圖的5分之2強。惟專家預期,今後十年期間,專業服務的總體佔比將逐步下滑,取而代之的新主流,將落在大數據軟體之上。

至於當前企業在推展大數據應用的過程中,依然面臨一些共通難題,例如安全性、建置成本,乃至缺乏大數據專業知識等環節,今後持續改善的空間仍相當大;此外基於企業決策高層主管的角度,在持續收集大數據的同時,又得兼顧數據品質的維護,堪稱為重大挑戰。

大數據首要使用場景,為資料倉儲優化

根據Dresner Advisory Services產出的大數據分析市場研究報告顯示,截至2017年,有53%企業已經導入大數據技術,即使現在還未導入的另外47%企業中,也有高達4分之3比例表示未來會加以採用。若以垂直產業來細分,採用大數據的比例已突破50%大關的4個行業領域,由高而低依序是電信、金融、高科技、醫療。

針對大數據的使用案例(Use Case)部份,高達七成企業認為最關鍵的項目為資料倉儲優化,另外兩項獲得逾五成企業認同的Use Case項目,則包括了客戶/社群分析,以及預測性維護;其餘項目如點擊流(clickstream)分析、詐欺偵測、物聯網,則分別獲致30%~40%企業的青睞。

以現今持續發燒的AI話題而論,多數企業皆心知肚明,資料就是AI的養分,如果缺乏資料,便不必奢望能產生任何AI應用成果。持平而論,資料早已存在於企業之中,且一直都在,但長期以來皆側重於ERP、CRM、SCM、EIP...等等結構化的系統記錄資料,反觀帶有知識、Know-how等導向的資料素材,數位化的整備度相對較低,有的被留在員工的個人電腦、甚至大腦當中,有的則散見於Google Analytics、Facebook或LINE等外部系統。

想當然爾,急欲建立大數據文化的企業,不可能見容於數據資源四處散落,因為這將導致決策高層無從看清公司營運的全貌,故而需要設法提升資料能力,使得不管是分析、討論、規劃等等需要用到的資料,都變得垂手可得;在此前提下,過去僅擅長處理結構化資料、且處理速度不夠快的資料倉儲系統,自然不敷使用,當然需要被優先、補強。比較常見的強化方式是,建立一套植基於Hadoop的資料湖泊,藉此擷取各式大量資料,提升資料分析彈性,妥善因應非結構化資料、及全新的資料探索及挖掘需求,繼而與傳統資料倉儲互補,共同撐起大數據分析應用的架構藍圖。

Spark後發先至,躍居主流框架

接著談及大數據的軟體框架。依照Dresner Advisory Services的報告顯示,Spark、MapReduce與Yarn三者,是比較受到企業用戶倚重的項目;如果以「關鍵」與「非常重要」的合計比例來看,唯獨Spark超過五成關卡,顯示該項技術在多數企業的大數據分析架構裡頭,已然扮演吃重角色。

Spark的問市時間,比起前輩Hadoop晚上4年,現今聲勢與老大哥相比毫不遜色,但Spark並非意在取代Hadoop,因為兩者的存在目的不盡相同,Hadoop代表分散式的數據基礎設施,並具有索引與追蹤數據的能力,Spark則明顯偏向分散式數據的處理工作,因此Spark能夠取代的部份,僅止於Hadoop裡頭的MapReduce運算引擎;所以經常見到有企業在Hadoop環境中安裝Spark,藉由HDFS儲存資料,再透過Spark進行分析。

為何愈來愈多企業捨Hadoop自身的MapReduce不用,轉而採用Spark?道理很簡單,因為兩者採用的數據處理方式不同,導致處理速度方面有莫大落差,握有「RDD(最小邏輯單位)」、「記憶體運算」及「大幅減少磁碟I/O」等架構優勢的Spark,數據分析速度甚至可比MapReduce快上百倍,無怪乎備受不少用戶青睞。

有關大數據的存取方式,前身為Shark的SparkSQL技術拔得頭籌,獲得最多企業的普遍採用,略優於知名度甚至更高的HDFS與Hive;除了前三大技術外,Amazon S3也獲得逾四成用戶點明是重要的大數據存取方法。

掌握更多新時代決策者的商業智慧,歡迎參加3/27的巨量資料論壇--當AI遇上BI,數據時代的企業決策大躍進,活動完全免費,掌握趨勢,請速報名!