NVIDIA宣布Cosmos世界基礎模型及實體AI資料工具重大發布
NVIDIA近日宣布推出全新的NVIDIA Cosmos世界基礎模型 (WFM)的重大發布,為實體人工智慧(AI)開發引入開放且完全可客製化的推理模型,並提供開發人員對世界生成前所未有的控制權。
NVIDIA還將推出兩種NVIDIA Omniverse和Cosmos平台驅動的全新藍圖,為開發人員提供用於後期訓練機器人和自駕車的大量可控制合成資料生成引擎。
1X、 Agility Robotics、Figure AI、Foretellix、Skild AI和Uber等產業領導者,均作為率先採用Cosmos的企業,為實體AI更快、大規模地生成更豐富的訓練資料。
NVIDIA創辦人暨執行長黃仁勳表示:「正如大型語言模型徹底顛覆了生成式與代理AI,Cosmos世界基礎模型則是實體AI的重大進展。Cosmos為實體AI引入了一個開放且完全可客製化的推理模型,並為機器人技術與實體產業的階躍發展開創機會。」
用於合成資料生成的Cosmos Transfer
Cosmos Transfer WFM擷取結構化影片輸入,例如分割圖、深度圖、光學雷射掃描、姿態估計圖和軌跡圖,以生成可控制的逼真影片輸出。
Cosmos Transfer可精簡感知AI訓練,將在Omniverse中建立的3D模擬或地面事實轉換為逼真的影片,用於大規模、可控制的合成資料生成。
Agility Robotics將是Cosmos Transfer和Omniverse的早期採用者,用於大規模合成資料生成,訓練機器人模型。
Agility Robotics技術長Pras Velagapudi表示:「Cosmos提供我們將逼真訓練資料擴展至超出我們在現實世界中收集的資料範圍的機會。我們很高興看到可以利用這個平台釋放新效能,同時充分利用我們已有的實際型模擬資料。」
用於自動駕駛汽車模擬的NVIDIA Omniverse藍圖利用Cosmos Transfer來擴大基於實體的感測器資料的變化。有了 此藍圖,Foretellix可針對各種駕駛資料集透過改變天氣和光線等條件來增強行為場景。Parallel Domain也在利用此藍圖將類似的變化應用於感測器模擬。
用於合成操作動作生成的NVIDIA GR00T藍圖結合Omniverse和Cosmos Transfer以大規模生成各種資料集,並利用OpenUSD驅動的模擬技術,將資料收集與增強時間從數天縮短至數小時。
用於智慧世界生成的Cosmos Predict
Cosmos Predict WFM於1月的CES展會發表, 可以透過文字、圖像和影片等多模式輸入來生成虛擬世界狀態。全新的Cosmos Predict模型將實現多影格生成,在給定開始和結束輸入影像時預測中間動作或運動軌跡。這些模型專為後期訓練而打造,可利用NVIDIA開放提供的實體AI資料集進行自訂。
利用NVIDIA Grace Blackwell NVL72系統的推論運算能力及其大型NVIDIA NVLink網域,開發人員可實現即時世界生成。
1X正在利用Cosmos Predict和Cosmos Transfer來訓練其全新的人形機器人NEO Gamma。機器人大腦開發商Skild AI正在利用Cosmos Transfer增強機器人的合成資料集。此外,Nexar和Oxa則正在利用Cosmos Predict推進自動駕駛系統。
用於實體AI的多模態推理
Cosmos Reason是一款開放且完全可自訂的WFM,具備時空感知技術,利用思維鏈推理來理解影片資料,並以自然語言預測人類踏入斑馬線或盒子從架子上掉落等互動結果。
開發人員可利用Cosmos Reason來改善實體AI資料註釋和管理、強化現有的世界基礎模型或建立新的視覺語言動作模型。他們還可以對AI進行後期訓練,建立高階規劃器,讓實體AI了解如何完成任務。
加速實體AI的資料管理與後期訓練
根據下游任務,開發人員可在NVIDIA DGX Cloud上使用原生PyTorch指令碼或NVIDIA NeMo架構來對Cosmos WFM進行後期訓練。
Cosmos開發人員還可以在DGX Cloud上使用NVIDIA NeMo Curator,加速資料處理和管理。Linker Vision和Milestone Systems正利用它來管理大量影片資料,訓練建置於NVIDIA AI Blueprint的視覺代理的大型視覺語言模型,用於影片搜尋和摘要。Virtual Incision正在探索將其部署於未來的手術機器人,而Uber和Waabi則正在推進自駕車的開發。
推動負責任的AI與內容透明度
根據NVIDIA的可靠AI原則,NVIDIA在所有Cosmos WFM上實施開放式護欄。此外,NVIDIA正與Google DeepMind合作,將SynthID整合至浮水印,並協助識別官網上展示的Cosmos WFM NVIDIA NIM微服務的AI生成輸出。
Cosmos WFMs現已在NVIDIA API目錄中提供預覽,以及列於Google Cloud上的Vertex AI Model Garden。 Cosmos Predict和Cosmos Transfer現已在Hugging Face和GitHub上開放提供。 Cosmos Reason已開放搶先體驗。
透過觀看NVIDIA GTC主題演講,以及報名參加NVIDIA和業界領袖在展會上的Cosmos演講和訓練,包括NVIDIA生成式AI研究副總裁劉洺堉的「Cosmos世界基礎模型的介紹」。