活化巨量資料 創造應用價值 智慧應用 影音
TI(ASC)
ST Microsite

活化巨量資料 創造應用價值

  • DIGITIMES企劃

國立臺北商業技術學院 教授 鄒慶士
國立臺北商業技術學院 教授 鄒慶士

巨量資料(Big Data)近年來已成為業界最炙手可熱的話題之一,在巨量資料時代,企業不僅需要提升儲存容量與資料管理能力,更重要的是,要設法從龐大、多元格式的資料海洋中,挖掘出資料的極致價值,進而創造新的商業機會與營運決策。

國立臺北商業技術學院教授鄒慶士指出,巨量資料是個大議題,大家其實都還在學習階段,但可以確定的是,對電腦而言,最有價值的東西已經不再是硬體,而是資料,許多產品及應用也都是以資料為基礎,才能進一步產生重大價值。

DIGITIMES舉辦2014年巨量資料論壇,邀約巨量資料分析、平台、產業應用等實務專家發表專題演講,並匯集多家IT供應商展示解決方案,吸引將近700人報名參加。

DIGITIMES舉辦2014年巨量資料論壇,邀約巨量資料分析、平台、產業應用等實務專家發表專題演講,並匯集多家IT供應商展示解決方案,吸引將近700人報名參加。

鄒慶士指出,巨量資料的主要應用,仍是以資料探勘為主,但跟過去相比,特點在於資料量變得非常大,但巨量資料不見得數大就是美,容量大小還可以靠技術來解決,整理的時間則因為變得非常長,已經成為資料分析的困擾。鄒慶士認為,唯有從資料分析的本質開始思考,才能真正深入巨量資料這個議題。

鄒慶士甚至認為,就像Web 1.0是建立網站,Web 2.0則是經營網站,現在的巨量資料應用,應該要進入「巨量資料2.0」的時代。在「巨量資料1.0」的時代,資料是靠IT科技來建立,後來則是透過統計領域或機器學習模式,來建立模式,但現在需要的是達到視覺化及詮釋資料的能力。鄒慶士認為,在巨量資料1.0,需要的是掌握新技術與系統,但在巨量資料2.0,需要培育新型資料分析人才。

若從資料探勘角度來思考,為了要讓巨量資料發揮價值,以資料為基礎來做決策,首先要注意的是,資料探勘是一個跨領域的科學,涉及統計、AI、Machine Learning等,必須將來自於不同領域的資料收集起來後,才能整合調理得出結論。

鄒慶士將跨產業的資料探勘過程,簡化成三個步驟,分別是資料預先處理(Data Preprocessing)、資料探勘(Data Mining)及後處理(Postprocessing),其中又以第一個階段花最多的時間,鄒慶士表示,前置處理非常重要,才不會在後面產生問題,導致「垃圾進、垃圾出」的資料輸出結果。

至於第二階段的主要工作,分別是預測(Predictive)、群集(Cluster)、關聯、異常等管理為主。但回到資料分析的根本,鄒慶士認為,第一步要先做到資料有感(Data sensitive),才知道該怎麼對待資料;第二步是資料混搭(Data mashups),要懂很多不同的模式,知道每一個模式建模的特性,最後才能落實想法,先後完成模型混搭(Models mashups)及雛型化工具(Prototyping tools),再一步步放大,但一定要建立在商業理解上。

鄒慶士還將巨量資料的屬性分成四類,第一類是名目尺度(nominal),如身分證號碼、眼色、郵遞區號,特徵是僅能比較異同;第二類是順序尺度(ordinal),如排名、年級、高度等,特稱是能夠分別順訊;第三類是區間指度(interval),如日期、溫度等,特徵為有絕對零點,差異或距離都有其意義;第四類為比例尺度(ratio),如長度、時間、次數等,特徵為有自然零點,比率有其意義。

鄒慶士強調,每一類的處理方式都不同,運算的方式也因此會有適用的領域,不能隨便亂用。資料集類型則分為三種,分別是記錄資料(如資料矩陣、文件或交易資料)、圖形資料(如全球資訊網或分子結構)及有序資料(如時間、次序、間或基因序列資料等),鄒慶士指出,巨量資料時代要面對的資料不只一種,而是多元的資料來源。

巨量資料時代的資料來源,其實是充斥在每個領域,包括推文串流、網頁伺服器記錄等。鄒慶士指出,其實重點不在找資料,而是如何混搭各方來源資料,進行混模加值。

因此,鄒慶士建議,面對巨量資料時代,企業要練就資料柔術(Data Jiujtsu),好的資料人才,不能只是懂科技,而是要涉獵許多領域,才有辦法將大問題分解成小問題,不用立即處理海量資料,做到小處著眼,反覆加值,以機敏彈性的流程,逐步邁向目標。

鄒慶士指出,R工具的出現,就是要因應前述的需求,目前已有5,000多個套件,而且支持開放源,所有的演算邏輯都是公開的,可以藉此了解其他工程師的思維。

但在使用工具解決巨量資料的問題時,鄒慶士認為要注意三個議題,分別是撰寫有效率的程式,提高執行速度;將資料儲存在外部,以避免記憶體受限的問題;運用專門的統計程序,以有效率的方式分析大量資料。

但不管是什麼工具,都會一直不斷地在演化,鄒慶士指出,要特別注意工具的發展,工作才會有效率。此外,巨量資料分析要能伸縮自如,可大可小,資料分析的思維,一定要回到資料本身的屬性,如紛絲團經營指標最佳權重,資料欄位超過90個,所以在開始進行巨量資料分析時,第一個步驟反而是刪除不必要的欄位。

鄒慶士指出,活化巨量資料應用價值的關鍵,主要是加強個人與組織的資料分析思考能力,唯有將資料、程式及人的智慧加以整合,才會產生價值。企業還必須要能活化顧客留下的資料軌跡,因為價值的關鍵在於應用。