亦思科技HareDB 巨量資料整合奧秘
HareDB(www.HareDB.com)是一個巨量資料系統平台,提供架構在Hadoop環境之上的解決方案,運用其擴展容易及備援穩定的優勢,協助企業客戶建立快速敏捷、高整合度及大容量的新一代資料庫。HareDB系統包含從Hadoop系統、HBase及Hare查詢工具、Data Model Manager資料模型定義及格式管理工具、Data Visualization視覺化資料整合介面、及HBase Client圖形化資料整合操作環境等,以混合式(Hybrid)的整體解決方案概念所設計出來的HareDB系統,能夠大幅提升企業資料分析的決策能量。
亦思科技這幾年來有不少協助客戶巨量資料整合的經驗,其中包括:根據產業相關資訊,開發資料蒐集之應用程式,電子大廠累積了數量相當龐大的資料,根據亦思的經驗,有許多資料在過去基於系統的限制,包含軟體與硬體,都無法支援大量資料處理。但近年由於Hadoop分散式系統及HBase逐漸的被採用,使得大量的資料處理出現了可能的解決方案。因此整合產業資料及需求,設計適合的資料收集方法,用以收集相關的產業資料,例如產業研究報告、產業趨勢觀察、供應鏈結構分析報告、產值分析,等等各種結構化或非結構化的資料,運用HareDB可以很容易的以SQL語法進行資料查詢,並以Table或View的方式來檢視資料,作為資料分析的來源,以提供資料的價值與可用性。
整合統計工具,以提供使用者各項分析方法及資訊,R語言是一種提供使用者進行統計分析的軟體工具,已廣泛的被許多使用者採用,透過R語言能使用各種統計方法,針對資料執行各項統計指令,R語言也提供視覺化的功能,提供使用者利用視覺化圖表的顯示方式來呈現資料,因此整合R語言以提供使用者對HBase資料庫中的資料進行統計及分析,並能提供相關圖表,方便資料分析者能在巨量資料的使用上更有效的達到目的,HareDB可以很容易的與R語言連結並進行分析。
整合Mahout專案以提供使用者對系統內之產業資料進行各項資料探勘,目前Mahout為Hadoop生態圈中重要的專案之一,已經出現各種不同的商業應用,例如推薦、分類、分群等演算法,利用這些演算法,能夠對巨量資料進行資料科學研究,HareDB可以對Mahout專案進行整合,提供使用者利用Mahout專案各項功能,對HBase資料庫中的資料進行各項產業資料的研究。
隨著資料量的成長,資料來源呈現複雜多樣化,若以傳統關聯式資料庫及資料倉儲概念來思考分析系統的設計,可能會造成很大的侷限,而Hadoop與HBase的非結構化特性可以補強此弱點,這也意謂著資料在未事先設定格式的情況下,也要能納入資料儲存及查詢系統之中,而這就是巨量資料系統日漸重要的主要原因。