NVIDIA Grace Hopper超級晶片在MLPerf推論基準測試中取得卓越成果 智慧應用 影音
TI(ASC)
ST Microsite

NVIDIA Grace Hopper超級晶片在MLPerf推論基準測試中取得卓越成果

  • 黎思慧台北

GH200、H100和L4 GPU以及Jetson Orin系統模組在從雲端到網路邊緣的生產環境中運行人工智慧方面表現出領先的效能。NVIDIA
GH200、H100和L4 GPU以及Jetson Orin系統模組在從雲端到網路邊緣的生產環境中運行人工智慧方面表現出領先的效能。NVIDIA

NVIDIA GH200 Grace Hopper超級晶片 首次亮相於MLPerf產業基準測試中,在所有人工智慧推論加速器測試中均表現優異,進一步擴展了NVIDIA H100 Tensor Core GPU的領先效能。這些結果還展示了NVIDIA 人工智慧平台在從雲端到網路邊緣的卓越性能和多功能性。NVIDIA另外宣布推出推論軟體,能讓使用者在效能、能源效率和總持有成本方面上得到顯著的提升。

GH200超級晶片在MLPerf基準測試中表現優異

GH200連結Hopper GPU 和Grace CPU成為一個超級晶片。這個組合能提供更多記憶體、頻寬,以及能在CPU和GPU之間自動調節電力,以最佳化表現。此外,配備 8 個H100 GPU的HGX H100系統在本輪每個MLPerf推論測試中提供了最高的吞吐量。

Grace Hopper超級晶片和H100 GPU在所有MLPerf的資料中心測試中處於領先地位,包括電腦視覺推論、語音識別和醫學成像,以及要求更高的推薦系統應用案例和生成式人工智慧中使用的大型語言模型(LLMs)。

總體來說,這次測試結果延續了NVIDIA自2018年MLPerf基準推出以來,在每輪人工智慧訓練和推論方面效能領先的記錄。最新的MLPerf測試中包括對推薦系統的更新測試,以及首次針對GPT-J進行的推論基準測試。GPT-J是一個具有60億參數的大型語言模型,而參數是用來衡量人工智慧模型大小的粗略指標。

TensorRT-LLM大幅提升推論效能

為了減少各種規模的複雜工作負載,NVIDIA開發了TensorRT-LLM,這是一種可最佳化推論的生成式人工智慧軟體。這個開源程式碼在八月向MLPerf提交測試結果時尚未完成,能使客戶能夠在無額外成本的情況下,將其已購買的H100 GPU的推論效能提高一倍以上。NVIDIA內部測試顯示,在H100 GPU上使用TensorRT-LLM,與以前的GPU運行GPT-J 6B相比,效能提升高達8倍。

這個軟體源於NVIDIA與業界領先公司的合作,包括Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現為Databricks的一部分)、OctoML、Tabnine和Together AI,以加速和最佳化大型語言模型推論的過程。

MosaicML在TensorRT-LLM的基礎上增加所需的功能,並將其納入現有的服務堆疊。Databricks 工程部門副總裁 Naveen Rao 指出:「這絕對是一件輕而易舉的事。」

「TensorRT-LLM 簡單易用、功能多樣且相當有效率。它為使用 NVIDIA GPU 的大型語言模型服務提供了最先進的效能,讓我們能夠把省下來的成本回饋給客戶。」Rao 說。

TensorRT-LLM是NVIDIA全端AI平台持續不斷創新的最新範例。這些不斷升級的軟體為用戶提供了可隨時間延長的性能,而無需額外成本,並且能適應當今多樣化的人工智慧工作負載。

L4 提升主流伺服器的推論效能

在最新的MLPerf基準測試中,NVIDIA L4 GPU在各種工作負載上表現卓越,提供全面性的出色性能。例如,L4 GPU運行在精巧、功耗為72W的轉接卡上,與功耗高出近5倍的CPU相比較,L4 GPU提供高出6倍效能。除此之外,L4 GPU內建專屬的媒體引擎,在NVIDIA的測試中與CUDA軟體合用能加速電腦視覺應用達120倍。目前可以從Google Cloud和許多系統製造商端使用L4 GPU。它們為從消費者網路服務到藥物研發等多個產業的客戶提供服務。

在邊緣環境中效能提升

此外,NVIDIA應用了新的模型壓縮技術,使在L4 GPU上運行BERT LLM的效能提升達4.7倍。這一結果在MLPerf的所謂開放組別(Open Division)中實現,這是用於展示新能力的一個類別。該技術預計將適用於所有人工智慧工作負載。當在尺寸和功耗受限的邊緣設備上運行模型時,它尤其有價值。

在另一個邊緣運算領先範例中,NVIDIA Jetson Orin系統模組顯示物件偵測的效能相對前一輪測試提升高達84%,這是邊緣人工智慧和機器人場景中常見的電腦視覺使用案例。

Jetson Orin的先行產品來自採用最新版晶片核心的軟體,如可程式設計視覺加速器、NVIDIA Ampere架構GPU和專用深度學習加速器。

多功能的效能,廣大的生態系統

MLPerf基準是透明且客觀的,因此使用者可以依靠其結果做出明智的購買決策。它們涵蓋了廣泛的應用案例和情景,因此使用者知道他們可以獲得可靠且部署靈活的效能。

在本輪測試中參與提交的合作夥伴包括雲端服務供應商Microsoft Azure和Oracle Cloud Infrastructure,以及華碩電腦、Connect Tech、戴爾科技集團、富士通公司、技嘉科技、慧與科技、聯想集團、雲達科技和美超微等系統製造商。

總體來說,MLPerf得到了超過70家組織的支持,包括阿里巴巴、Arm、思科、Google、哈佛大學、英特爾、Meta、微軟和多倫多大學等。

欲瞭解更多詳細資訊以及我們如何獲得這些成果,請閱讀技術部落格文章

於此次測試中使用的各種軟體公開於MLPerf資源庫,每個人都能取得這些世界級的成果。NVIDIA不斷將最佳化結果放入NVIDIA NGC (GPU 加速軟體目錄)的容器中,提供GPU應用。

關鍵字
議題精選-AI專欄