AWS與NVIDIA宣布合作 針對生成式AI推出超級電腦基礎設施、軟體及服務
亞馬遜(Amazon)旗下Amazon Web Services(AWS)與NVIDIA於AWS re:Invent全球盛會上宣布擴大策略合作,將聯手推出先進基礎設施、軟體及服務,推動客戶在生成式AI(Generative AI)的創新。
NVIDIA與AWS將挹注NVIDIA與AWS技術的精華,包含NVIDIA新一代GPU、CPU與AI軟體的最新多節點系統,以及AWS的Nitro System先進虛擬化與安全平台、Elastic Fabric Adapter(EFA)互連介面和UltraCluster擴充服務,以提供理想的環境來訓練基礎模型與打造生成式AI應用。
雙方保持長久的合作關係,合力推動生成式AI時代。此次擴大合作為使用機器學習(ML)的先驅們提供所需的運算效能,協助發展最尖端的技術。
此次雙方合作將大幅加速所有產業應用生成式AI的發展,合作內容包括:
1.AWS成為第1家將配備多節點NVLink技術的NVIDIA GH200 Grace Hopper Superchip超級晶片導入雲端環境的雲端服務供應商。NVIDIA GH200 NVL32多節點平台運用NVIDIA NVLink與NVSwitch技術連結32個Grace Hopper Superchip超級晶片,組合成一個執行個體。
此平台將以Amazon Elastic Compute Cloud(Amazon EC2)執行個體的型態上線營運,連結Amazon的強大網路(EFA),加上先進虛擬化(AWS Nitro System)與超大規模叢集(Amazon EC2 UltraClusters)的支援,讓共同客戶能擴充至數千顆GH200超級晶片的規模。
2.NVIDIA與AWS將聯手在AWS上推出NVIDIA DGX Cloud這項AI訓練即服務(AI-training-as-a-service)方案。此方案將是首個配置GH200 NVL32的DGX Cloud方案,為開發者提供單一執行個體中最多的共用記憶體。AWS雲端上運行的DGX Cloud將可加速含有超過1兆參數的尖端生成式AI與大型語言模型的訓練。
3.NVIDIA與AWS正合作推動Project Ceiba,聯手設計全球最快的GPU驅動AI超級電腦,配備GH200 NVL32與Amazon EFA互連技術的大規模系統由AWS代管,為NVIDIA研發團隊提供服務。這部開創先河的超級電腦配置16,384顆NVIDIA GH200超級晶片,能處理65 exaflops速度等級的AI運算,將推動NVIDIA進行全新生成式AI的創新。
4.AWS將再推出3款Amazon EC2執行個體:P5e執行個體配置NVIDIA H200 Tensor Core GPU,瞄準大規模與尖端生成式AI及HPC高效能運算工作負載;以及分別配置NVIDIA L4 GPU與NVIDIA L40S GPU的G6 與G6e執行個體,能運行包括AI微調、推論、繪圖、以及影片工作負載等廣泛應用。G6e執行個體特別適合用來開發3D工作流程、數位分身、以及其他使用NVIDIA Omniverse的應用,用來連結與打造各種生成式AI的3D應用。
AWS執行長Adam Selipsky表示:「AWS與NVIDIA已經合作超過13年,起初是推出全球首個配置GPU的雲端執行個體。現在我們為各種工作負載推出最廣泛的NVIDIA GPU解決方案,包括繪圖、遊戲、HPC高效能運算、機器學習,一直到現在的生成式AI。我們持續運用NVIDIA技術推動創新,結合新一代NVIDIA Grace Hopper Superchip超級晶片與AWS的EFA強大網路、EC2 UltraClusters的超大規模叢集、以及Nitro的先進虛擬化功能,讓AWS成為執行GPU運算的最佳雲端環境。」
NVIDIA創辦人暨執行長黃仁勳表示:「生成式AI正改變各種雲端作業的負載,為多元內容創作挹注加速運算動能。我們共同目標是為每個客戶提供符合成本效益的先進生成式AI,為此NVIDIA與AWS在整個運算層級上合作,包含AI基礎設施、加速程式庫與基礎模型,以及生成式AI服務。」
AWS雲端上運行的NVIDIA軟體加速生成式AI的研發
此外,NVIDIA發表在AWS雲端上運行的軟體,將加速生成式AI的研發。NVIDIA NeMo Retriever microservice微服務提供多項新工具,用來創造高精準度的聊天機器人,以及運用加速語意檢索技術的歸納工具。在Amazon SageMaker服務上運行的BioNeMo計畫在AWS托管的NVIDIA DGX Cloud上執行,讓製藥企業運用自己的資料簡化與加速模型訓練,藉此加快新藥開發。
AWS雲端上運行的NVIDIA軟體協助亞馬遜為其服務與營運注入創新動能。AWS正運用NVIDIA NeMo架構訓練新一代的Amazon Titan大型語言模型。Amazon Robotics也已開始運用NVIDIA Omniverse Isaac打造數位分身,在虛擬化環境中推動自主倉庫的自動化、最佳化以及規劃,完成之後再部署到真實環境。