發展巨量資料技術 公私部門腳步要加快 智慧應用 影音
MongoDB
ST Microsite

發展巨量資料技術 公私部門腳步要加快

  • 黃凱旋

Googled堪稱是巨量分析技術的翹楚,Hadoop的原始組件-HDFS及MapReduce都是源自於Google。DIGITIMES攝
Googled堪稱是巨量分析技術的翹楚,Hadoop的原始組件-HDFS及MapReduce都是源自於Google。DIGITIMES攝

由於各種智慧終端裝置如個人電腦、平板或智慧型手機的迅速普及,加上其他設備資訊化(如智慧家電)的腳步加快,各種機器設備所產生的數據資料,也正呈現倍速成長的趨勢,加上物聯網(Internet of Things;IoT)及「機器與機器間(Machine to Machine;M2M)間資料的交換環境已臻成熟,包括感應裝置、行動裝置、穿戴式裝置及嵌入式裝置的出現,更成為數據資料非常重要的來源,也讓管理者可以擁有更多值得分析的資料,將巨量資料轉化為商業生產力及競爭力,連帶也讓「巨量資料分析(Big Data Analytics;BDA)」技術,成為ICT產業最熱門的科技之一。

巨量資料分析與雲端運算息息相關

智慧健康或醫療應用,可以使用巨量資料分析技術,找出資料間之關聯性與差異性,進而提供更為正確的判斷或建議。DIGITIMES攝

智慧健康或醫療應用,可以使用巨量資料分析技術,找出資料間之關聯性與差異性,進而提供更為正確的判斷或建議。DIGITIMES攝

由於巨量資料分析能力必須兼具Volume(數據資料的大量)、Velocity(資料分析的時效)、Variety(資料格式的多樣)與Veracity(資料內容的真實)所謂4V特質,透過雲端技術來部署巨量資料分析的系統,將會是非常洽當的選擇。

因為進一步檢視巨量資料分析系統的架構,最基本的層次架構包含應用層、分析層、資料處理層以及基礎系統層,正好可以對應雲端運算的服務模式,如軟體即服務(SaaS)、平台即服務(PaaS)、以及基礎架構即服務(IaaS)。

由於巨量資料分析能力的發展顯然會與雲端運算產業彼此互相牽動,如巨量資料顯然需要存放在雲(如後台的資料中心與眾多伺服器),才能藉由雲端運算的技術架構與服務型態,所提供的高性能、低功耗、高彈性等特性,來因應巨量資料多元、量大、快速等特性,也才能藉由雲端運算平台的資料創造、蒐集、儲存、萃取、分析等運算過程,最後形成應用決策。

政府公部門積極投入

巨量資料分析的價值,不僅具有商業價值,對於本來就擁有巨量資料的政府公部門,更可以做為施政方向的重要依據。如美國政府曾發表「巨量資料研究與開發計畫」(Big Data Research and Development Initiative),由科學與技術政策辦公室(Office of Science and Technology Policy;OSTP)主導,共計6 個政府機構參與,投資2億美元進行巨量資料技術研發。

其中包括國家科學基金會(National Science Foundation;NSF)提供加州柏克萊分校1,000萬美元補助及「EarthCube」資金補助,並鼓勵研究機構與大學從事人才育成工作;國家衛生研究所(National Institutes of Health;NIH)則是經由Amazon 的AWS(Amazon Web Services),將資料總量高達200 TB的千人基因組計畫資料免費公開。

美國國防部(Department of Defense;DOD)每年更投入2,500萬美元於巨量資料相關研究,其中600萬美元用於新的研究項目。能源部(Department of Energy;DOE)則以2,500 萬美元進行資料管理(Data Management)、分析與視覺化(Visualization)相關技術開發,並設立專責機構進行統合。

美國國防部先進研究計畫局(Defense of Advanced Research Project Agency;DARPA)則是啟動XDATA 計畫,計畫連續4年每年投入2,500萬美元,開發分析大規模資料的運算工具和軟體資料。地質調查局(United States Geological Survey;USGS)的「John Wesely Powell Center」,則是以地球科學理論為基礎,啟動新的巨量資料研究項目,進行地理資訊相關的巨量資料驗證與探索。

新加坡政府以精進的統計資料品質、多元而友善的傳輸介面、透明與公開的服務態度而著稱,雖然受到地理區域的限制,在統計上則偏向城市的規模,但由於新加坡在多項統計編製及調查已有多年之歷史,其規劃作業方式及相關實務經驗,仍值得各界參考。

如新加坡「通信發展管理局」(Infocomm Development Authority of Singapore;IDA)正計畫在新加坡建立第一個包含8個資料中心的產業園區,提供100萬平方公尺的空間,希望能吸引知名的巨量資料國際大廠如Oracle、Revolution Analytics等,進駐設立研究中心。

在實際應用方面,新加坡的Make Health Connect(MHC)醫療網絡,已將上千個醫療院所,每年處理服務100多萬人次的相關病歷、處方、付費、病假資料,予以整合,僅利用看診者之身分、看診內容,即可利用其開發之平台與巨量資料分析技術,找出資料間之關聯性與差異性,如結合GIS呈現流行病分布及擴散日程趨勢,有益公共衛生追蹤管理,並透過特異值檢測,協助客戶管理契約診所。

台灣也正積極開發巨量資料分析技術,如新北市將與經濟部合作,推動「新北傳統產業大數據應用示範計畫」,以大數據分析協助企業洞燭業務先機;期在資策會數據科技與應用研究所及產官學研各界共同支持下,鎖定金屬、機械、紡織產業,針對製程分析及銷售分析兩大面向,協助業者提升智慧製造與高值服務能力,透過多元製程巨量資料的收集、分析,改善優化產能,並了解市場動向,掌握消費者觀點。

國際大廠快速深化布局

國際科技大廠在發展巨量資料分析能力也相當積極。如亞馬遜在2006年啟動雲端服務的業務AWS之後,從2009年開始提供以Hadoop為基礎的Amazon Elastic MapReduce(Amazon EMR)服務、以及後續的數據倉庫及商業智能的Amazon Redshift(2012)服務、資料串流的Amazon Kinesis(2013)服務、配合巨量資料分析的其他各種服務如NoSQL資料庫功能的Amazon DynamoDB(2012)服務、雲端儲存及運算的Amazon S3(2006)服務、關聯式資料庫Amazon RDS(2009)服務、Amazon EC2(2006)服務等。

亞馬遜在2014年於美國拉斯維加斯舉辦的年度大會中,宣布推出商用級關連資料庫AWS Aurora,以及事件驅動運算服務AWS Lambda,也顯示亞馬遜正持續研發,希望能打造出一個巨量資料分析雲端運算平台,同時提供給擁有巨量資料分析解決方案的第三方供應商使用,也因此幫助市場更加容易地開發及使用雲端的巨量資料分析應用及系統。

微軟(Microsoft)的巨量資料分析在雲端運算的部署,目前已有Apache Hadoop微軟版「Microsoft Azure HDInsight(2013)」,HDInsight採用了Hortonworks Data Platform(HDP)為主體包括了大部分Hadoop生態系統譬如Storm、HBase、Pig、Hive、Sqoop、Oozie、Mahout、Ambari等。

Google更是巨量分析技術的翹楚,Hadoop的原始組件-HDFS及MapReduce都是源自於Google。Google在2010年推出了支持巨量資料分析的BigQuery及Prediction API,BigQuery提供了對巨量資料以類似SQL的極快速查詢功能,而Prediction API則提供了機器學習演算法對數據進行分析及創建預測模型。

IBM在購併倉儲設備商Netezza、跨資料管理系統搜尋軟體商Vivisimo後,也推出不少有關巨量資料分析技術的產品或服務,如:BigInsights(IBM Hadoop)、IBM Streams(數據流)、dashDB(數據倉庫和分析)、VoltDB(內存NewSQL數據庫)、Time Series DB(時間序列數據庫)、Geospatial Analytics(地理空間分析)、IBM Watson Analytics(問答分析)等。

成立於2013年的Pivotal Software,是由EMC及VMware最近收購的一些公司合併而成,其中包括了Greenplum(數據庫、商業智能)、Cloud Foundry(平台即服務)、SpringSource(Spring框架)、GemStone(分布式內存)等等,產品目標是針對雲端運算(PaaS)及巨量資料分析,尤其是面對企業界的用戶以及私有雲建置。

腳步宜加快  部署在雲端

從國際大廠的布局,可以發現現階段的巨量資料分析技術發展策略,在於引入Hadoop及相關技術,來處理大規模非結構化資料,再配合不斷改進的傳統資料庫、資料倉儲、商業智慧、分析預測、機器學習等相關技術,並設法提升即時處理的能力,而且都是在雲端運算架構上部署實施。

儘管巨量資料價值生態體系統快速形成,且國際大廠積極布局,競爭相對激烈,但也唯有即時掌握巨量資料分析技術,並設法應用在各個垂直產業界中,才能帶動資訊服務暨軟體產業結構優化升級,各國政府正積極投入巨量資料相關計畫,我國也應善用優勢所在,快速追趕應用服務的商機。