ETL 智慧應用 影音
台灣玳能
虎門科技

ETL

所謂ETL,是Extract、Transform及Load等3個英文字的縮寫,顧名思義,其即是被用以描述將資料從來源端,經過萃取、轉換、載入而至目的端之過程,該項名詞最常伴隨資料倉儲而出現,惟其應用範圍,其實並不僅止於資料倉儲;無論如何,通常具備大量資料、複雜轉換邏輯、目的端運算能力較強等特質之資料庫,都適合採用ETL技術,因為唯有如此,才便於運用目的端資料庫的平行運算能力。

有關「萃取」,是將資料從各種原始業務系統中讀取出來;至於「轉換」,即是按照預先設計好的規則,將萃取而來的資料予以轉換、清洗,讓原本結構不一的資料格式,能夠趨於統一;而在「載入」部分,則是將轉換完成的資料,按照既定計畫,藉由增量或全部的導入方式,使之得以載入到目的端資料庫之中。

論及ETL的運作流程,其實可以藉由任何程式語言來加以開發,亦即俗稱的Hard Coding,惟由於ETL堪稱極為複雜的過程,輔以程式頗不易被管理,故有愈來愈多的企業,都採用特定工具來協助ETL的開發,且採用其所內建的Metadata功能,以儲存來源與目的之間的對應(Mapping)、轉換規則,不僅如此,相關工具還可提供較為強大的連接(Connectivity)功能,據此連接資料來源與目的端,而開發人員無須熟悉各種異質平台或資料結構,照樣能進行開發。

ETL發展迄今,已被視為商業智慧(Business Intelligence;BI)、資料倉儲(Data Warehouse)的核心靈魂,此乃由於,它能夠依照一致化的規則,從而整合、且提高資料的價值,其間所涉及的轉化過程,堪稱實施資料倉儲的重要步驟,因此有人這麼比喻,若說資料倉儲的模型設計,算是1座大廈的設計藍圖,而資料則可被視為磚瓦的話,ETL便意謂建造整座大廈的過程;綜觀整個資料倉儲專案,箇中難度最高的部分,要算是使用者需求分析、模型設計,但若以工作量的大小而論,ETL所對應的規則設計、實施步驟,則是負荷最為吃重的環節。