AWS推出Amazon S3新功能 實現更快的資料湖分析及簡化資料探索和洞察
亞馬遜(Amazon)旗下Amazon Web Services(AWS)在2024年re:Invent全球大會上,宣布雲端可大規模擴展的物件儲存服務Amazon Simple Storage Service(Amazon S3)推出新功能,使Amazon S3成為首個全受管支援Apache Iceberg的雲端物件儲存,進一步提升資料分析速度,並以最簡單的方式儲存和管理任何規模的表格資料。新功能還包括自動生成可查詢的中繼資料,簡化資料探索與理解,助力客戶充分挖掘Amazon S3中的資料價值。
Amazon S3 Tables是首個內建支援Apache Iceberg表格的雲端物件儲存服務,推出新型儲存貯體,以Iceberg表格的形式優化儲存和表格資料查詢,查詢速度最高可提升3倍,每秒交易處理量(TPS)可提高10倍,並自動化表格維護和分析工作負載。
Amazon S3 Metadata自動擷取可查詢的物件中繼資料以及使用物件標籤的客製化中繼資料,並將結果儲存於Amazon S3 Tables中,以加速資料湖分析,實現近乎即時的資料探索。
AWS儲存副總裁暨傑出工程師Andy Warfield表示:「Amazon S3作為領先的物件儲存服務,儲存了超過400兆個物件,成為數百萬客戶的選擇。我們致力於不斷創新,以前所未有的規模消除處理資料的複雜性。隨著表格資料快速增長,眾多客戶希望實現跨表格查詢並提升查詢效能,更好地理解和組織大量資料,以便輕鬆找到需要的資訊。Amazon S3 Tables和Amazon S3 Metadata消除了在物件上組織和運作表格以及中繼資料儲存的複雜性,使客戶能夠專注於資料建構。」
Amazon S3 Tables和Amazon S3 Metadata現已與Apache Iceberg表格相容,客戶可以使用AWS分析服務以及開源工具,包括互動式查詢服務Amazon Athena、雲端原生無伺服器BI服務Amazon QuickSight以及Apache Spark輕鬆查詢資料。
Amazon S3 Table:以簡單快速的方式執行Amazon S3中的Apache Iceberg表格分析
如今,許多客戶都以表格來組織用於分析的資料,這些資料通常儲存在Apache Parquet中,這是一種優化資料查詢的檔案格式,而Parquet已成為Amazon S3中增長速度最快的資料類型之一。客戶希望能查詢這些不斷增長的表格資料集,通常會使用開放表格格式(open table formats;OTF),一種以表格儲存資料的開源標準,有助於更有效地管理、更新和追蹤大量資料的變化。
隨著客戶使用Iceberg處理PB級至EB級資料的數十億個檔案,以Iceberg管理Parquet文件已成為最流行的OTF。然而,隨著客戶規模擴大,管理Iceberg變得極具挑戰,往往需要專業團隊來建構和維護系統,進行表格維護、資料壓縮以及存取權限管理。這些外部系統成本高昂且複雜,還需要專業的團隊來維護,佔用了企業許多寶貴資源。
Amazon S3 Tables專為管理資料湖中的Apache Iceberg表格建構。Amazon S3 Tables專門針對分析工作負載進行優化,與通用的Amazon S3儲存貯體相比,提供高達3倍的查詢效能和10倍的每秒交易處理量。Amazon S3 Tables能自動管理表格維護任務,包括為了更好的查詢效能進行壓縮,以及快照管理,即使客戶的資料湖不斷擴大和發展,也能持續優化查詢效能和儲存成本。
客戶僅需建立一個表格儲存貯體,即可使用Amazon S3 Tables優化儲存和查詢全受管的Iceberg表格中的資料。借助Amazon S3 Tables,客戶將受益於Iceberg的多項功能,如資料列層級交易處理、透過時間旅行功能查詢快照、模式演進(schema evolution)等。此外,Amazon S3 Tables還提供表格層級的存取控制,讓客戶能精準定義資料存取權限。
Genesys是AI驅動的體驗編排服務的全球領導者,正計畫使用Amazon S3建構資料湖。借助Amazon S3 Tables支援的受管Iceberg,Genesys期望為多元的資料分析需求建構一個實體化檢視層(materialized view layer)。Amazon S3 Tables內建支援Iceberg表格,將大幅簡化複雜的資料工作流程,透過自動執行關鍵維護任務,如表格壓縮、快照管理以及未引用檔案清理等。
Genesys希望能從Iceberg相容的分析工具中獲得效能提升和廣泛支援,這些工具可直接從Amazon S3中讀寫Iceberg表格。Amazon S3 Tables將成為Genesys未來資料策略的基石,幫助Genesys提供更快、更彈性、更可靠的資料洞察,以支援AI驅動的客戶和員工體驗解決方案。
Amazon S3中繼資料:更輕鬆、快速地探索和理解Amazon S3中的資料
隨著越來越多客戶將Amazon S3作為中央資料儲存庫,資料量與資料種類以指數成長。作為理解和組織海量資料的方式,中繼資料變得越來越重要,讓客戶能找到所需的確切物件。為了應對這個挑戰,許多客戶不得不建構並維護複雜的中繼資料擷取與儲存系統,來深化他們對資料的認知。
然而,這些中繼資料系統不但成本高昂、耗時,而且資源密集,通常需要資料工程師在中繼資料流經處理管道時,手動追蹤和更新中繼資料;同時,還需要資料分析師手動檢查海量的物件儲存,以找到用於分析、人工智慧(AI)、機器學習(ML)資料處理工作流程所需的特定資料。
Amazon S3 Metadata能夠近乎即時地自動生成可查詢的物件中繼資料,進而加速資料探索,並提升資料理解,幫助客戶減輕建構和維護複雜中繼資料系統的負擔。借助Amazon S3 Metadata,客戶可以查詢、探索並使用資料,以支援業務分析、即時推論應用等用途。Amazon S3 Metadata能自動生成物件中繼資料,包括系統定義的詳情,如物件的大小和來源,並可透過新的Amazon S3 Tables進行查詢。
隨著物件增加或刪除,Amazon S3 Metadata會即時更新Amazon S3 Tables中的物件中繼資料,確保客戶能檢視最新的資料。客戶還可以使用物件標籤客製化中繼資料,為物件加註特定的業務資訊,如產品SKU、交易ID、內容評分或客戶的詳細資訊。客戶也可以透過簡單的SQL查詢輕鬆搜尋中繼資料,快速尋找和準備資料,以支援業務分析、即時推論應用、基礎模型微調、檢索增強生成(RAG)、整合資料倉儲與分析工作流程,以及執行指定的儲存優化任務。
各種規模的企業都將受益於Amazon S3 Metadata的資料探索和理解功能。領先的生物科技公司羅氏(Roche),預計借助Amazon S3 Metadata加速他們的未來生成式AI計畫。隨著羅氏開發進階大型語言模型(LLM)應用程式,如複雜的內部聊天機器人,羅氏預期用於檢索增強生成的非結構化資料量將以指數成長。
Amazon S3 Metadata將簡化可擴展中繼資料系統的建構,自動為匯入的新資料生成並更新中繼資料。羅氏期望透過客製化的Lambda函數擷取複雜的、特定業務的中繼資料,並在簡單、可擴展且無伺服器的資料整合服務AWS Glue綜合目錄中,將這些資料與Amazon S3 Metadata無縫整合。這將使企業變得更有效率,並快速辨識可用於前沿AI應用程式的相關資料集,讓羅氏聚焦於個人化醫療服務的突破性創新。
Cambridge Mobile Telematics(CMT)是全球最大的遠端資訊處理服務供應商。CMT從設備收集感測器資料,並使用上下文資料進行增強,進而建立車輛與駕駛員行為統一的檢視圖,供汽車保險公司、汽車製造商、商業交通服務公司以及公共部門用於風險評估、安全、理賠和駕駛員改善計畫。
CMT儲存並分析來自全球數百萬物聯網設備的多種PB級資料,隨著公司規模擴大,要定位特定資料來提出新洞察和開發新模型,變得越來越具挑戰性。借助Amazon S3 Metadata(包括系統中繼資料和客製化中繼資料),CMT能查詢PB級中繼資料,使尋找相關資料變得簡單且經濟高效。
Amazon S3 Tables現已正式可用,Amazon S3 Metadata現已推出預覽版,Amazon S3 Tables與AWS Glue Data Catalog整合現已可供預覽。客戶可使用AWS的分析服務,如Amazon Athena、快速簡單、經濟高效的PB級雲端資料倉儲Amazon Redshift、雲端大數據平台Amazon Elastic MapReduce(Amazon EMR)和Amazon QuickSight,對Amazon S3 Metadata表格等資料進行查詢和視覺化。