Hadoop為何物? 多數企業如霧裡看花 智慧應用 影音
Event
榮耀會員

Hadoop為何物? 多數企業如霧裡看花

Hadoop熱力四射? 高達7成企業仍感陌生!
Hadoop熱力四射? 高達7成企業仍感陌生!

隨著巨量資料議題的延燒,也讓Hadoop這個由Apache軟體基金會所研發的開放原始碼平行運算編程工具與分散式檔案系統,因而洛陽紙貴,一併被喊得震天價響。

在此前提下,在台灣以Hadoop為主題的會議規模,似乎有愈來愈大的趨勢。譬如在2012年10月,國網中心便與趨勢科技共同主辦「Hadoop in Taiwan 2012」,議程內容涵蓋前瞻技術及實作應用,俾使從個人到企業、從資深人士到新進者,各種角色的技術專才都能藉此學習並吸收新知,進而加速Hadoop在台灣的發展進程。由此可見,Hadoop的時代的確已經降臨!

企業IT人力愈單薄 不需Hadoop比例愈高。

企業IT人力愈單薄 不需Hadoop比例愈高。

所以DIGITIMES也從善如流,在本次調查中設計了「下列與Hadoop相關的技術中,哪些是貴公司較具需求的項目? 」題目,藉以探索企業面對此一技術門派的應用需求。

Hadoop熱力四射? 高達7成企業仍感陌生!
肇因於Hadoop是一門相對新穎、且略顯艱澀的技術,不諳此道的企業甚多,導致填答「不瞭解」的比例高達7成,選擇「都不需要」也佔了9.2%,兩個不算正面的選項,竟聯手席捲了近8成的票數。

這也意謂著,現今已然明瞭Hadoop項下眾多子技術的內涵,並清楚知悉自己需求何在的企業,委實不算多,所以才陷入一片「無感」。

然而幸運的是,7成的高票,是被灌注在「不瞭解」之上,而非「都不需要」,因此可以解讀,現在受訪的企業IT人員無法有效表達其需求,只是因為初期無可避免的陌生感,倒未必是直接將它棄若敝屣,只待假以時日琢磨,情勢都還有轉寰的可能。或許,如同上述「Hadoop in Taiwan 2012」之類的盛會,可以多舉辦一些,肯定有助帶領用戶走出團團迷霧。

但不容否認的,由於填答「不瞭解」加「都不需要」的比例實在太高,所以剩餘可分配給真正代表Hadoop相關技術選項的空間,的確十分狹窄,所以各選項獲票率普遍偏低。

在一片低迷沈悶的氛圍中,全名為Hadoop Distributed File System的HDFS分散式檔案系統,是唯一取得一成以上票數者,其受歡迎的程度,反倒高於近來亦被頻繁討論的MapReduce(得票率為8.4%)。

有關HDFS,其系統架構係以Namenode為核心,它負責將檔案切割成固定大小的Block,然後把Block分散儲存到不同的HDFS成員、也就是Datanodes之上,而每個檔案的儲存,皆是跨越實體主機的藩籬,因此有人比喻HDFS是一個虛擬的分散式檔案系統,與一般檔案系統分割Block後、都儲存於同一主機的型態,可謂極大不同。

至於MapReduce,則源自於谷歌(Google),是一種以解決問題為目的之程式開發模型,用戶得先將問題予以拆解,使之能夠以平行運算方式加以執行,意即運用Map同步處理一段段的細碎資料,等到Map程式跑出結果後,再以Reduce程式執行合併動作,彙集出完整答案,整個分散運算流程,至此即大功告成。

另一個同樣獲得5%以上票數的選項-HBase,算是1項有助於落實Big Table設計概念的工具,某種程度上,有點像是Hadoop上面的資料庫,經常被拿來與MongoDB、Cassandra、CouchDB、Redis或Riak等「NoSQL資料庫」做比較,而HBase屬於NoSQL資料庫當中最大的Key-Value流派,基本上走的是主從式架構,與不講究主從關係的Cassandra,恰好形成鮮明對比。

企業IT人力愈單薄 不需Hadoop比例愈高
在合理正常的情況下,企業IT人力資源的多寡,肯定關乎對Hadoop這門新技術的鑽研深度;所以此處以企業資訊部門人數為軸心,針對企業需要哪些Hadoop子技術的議題,進行交分析。

象徵最極端負面的「都不需要」選項,赫然出現在「<5人」與「5~10人」等兩個區塊的Top 4排行榜內,因而排擠到真正代表Hadoop相關技術選項的入榜空間;這也說明了,資訊部門人丁單薄的企業,操持現有維運事務尚且分身乏術,實在無法騰出多餘心力,好好研究Hadoop等一干巨量資料處理技術,索性直接了當填答「都不需要」,無意為自己增添麻煩。

至於資訊部門人數大於10的族群,扣除掉填答「不瞭解」的部分,表達出最具需求的Hadoop子技術,大抵不脫HDFS、MapReduce及HBase。


關鍵字