巨量資料分析帶動儲存市場商機
根據IBM研究顯示,全球資料量至2020年將會增加為40 ZB,約為2005年全球資料量的300倍。從企業平均儲存資料量來看,目前美國企業單一公司平均資料儲存量也高於100 TB,由於各類行動應用的普及速度與物聯網的大量應用,資訊量增加的速度在未來10年內,仍將呈現快速成長的趨勢。
資訊量的快速增加,主要是來自於社群網路、智慧型手機應用的蓬勃發展,因此,除了傳統客戶交易資訊的分析外,其他諸如社群網路意見、用戶回應反饋等情報分析的重要性也跟著大幅增加,也明顯影響巨量資料分析應用的趨勢。
因此,企業在導入巨量資料分析應用的同時,為了能夠即時分析大量資料,勢必得面臨到大量資料的儲存問題,除了得設法因應不斷成長的大量數據外,如何取捨資料儲存選擇、資料保存期限、對應巨量資料的結構變化,設計儲存架構等,都將是企業導入巨量資料分析應用時,所要面對的課題,連帶也成為儲存軟硬體應用業者必須掌握的商機。
企業要有能力儲存大量非結構性資料
傳統的資料分析,多半是透過固定資料欄位架構,將存在依循規定好的結構標準中的資料,儲存到關聯式資料庫中來進行處理。但由於常見的巨量資料來源,包含RFID資訊、感測器網路資訊、網際網路文件、社交網絡資料、影音圖片、網路搜尋紀錄、客服中心呼叫記錄、醫學記錄,甚至是生產線機臺設備產生的Log記錄,資料結構千變萬化,不可能迎合事先規定好資料結構的關聯式資料庫,企業唯有發展出結構化資訊分析的能力,才能分析從行動裝置或社群網路上的巨量資料,如影片、社群討論、語音、地理資訊等數據。
相較於傳統的資料分析,這些來自於社群或行動網路的巨量資料,往往具有三大特性:資料量大、輸入和處理速度快、資料結構更具多樣性。在資料量方面,因為所有的資訊都可能在未來派上用場,企業保存資料的期限,勢必要擴大到半年甚至一年以上。以中華電信保留的資料如用戶網頁瀏覽記錄為例,每個月就會產生大約3~4TB的資料量,若要分析這些原始資料,過程中必須對資料進行多種複製和轉換,導致系統要處理的資料量,可能還會再增加2倍以上。
但企業若想要儲存長達一年以上的資訊量,很可能會讓企業儲存資訊高達數10TB甚至PB,企業勢必得面臨儲存設備採購的龐大支出,如何在有限且逐年減少的IT預算中,找到更符合成本效益的儲存解決方案,導入新的儲存架構,以建構一個成本合理且處理效率高的儲存硬體架構,便成為巨量資料時代的重要趨勢。
高速資料分析能力成必要考量
傳統資訊系統處理資料的形式,通常是先將需要處理的資訊傳送到運算資料的程式系統內,進行處理與分析後,再將處理結果運送回儲存設備內儲存。由於這些資料都是已經簡化或萃取過的資料,在資料運送與存儲上的效率需求並不高。
但在巨量資料的趨勢下,由於需要處理的資料量,單次就可能是TB等級以上,如果用前述的資訊處理方式,勢必會大幅增加儲存設備存取與系統頻寬的工作量,花費許多時間與資源在資料傳輸與讀取上,大幅減緩資訊分析的時程。
因此,企業除了要面對迅速膨脹的資料量外,還得設法掌握高效率的資料處理技術。尤其是同時面對大量結構與非結構資料要同時分析的狀況下,如在分析消費者採購偏好時,可能就得同時分析消費紀錄,以及消費者在社群網路上的文字對話、影音分享等眾多檔案。如何讓資料在不同架構的平台下能夠互通與共同分析,並使資源有效的被利用,建構可以彈性因應檔案需求而調整的儲存系統,也成為必要考量。