智慧應用 影音
研華股份有限公司
東方之盾

NVIDIA積極部署新一代人工智慧運算 瞄準資料中心未來

  • 台北訊

NVIDIA企業運算部門負責人Manuvir Das。
NVIDIA企業運算部門負責人Manuvir Das。

NVIDIA(輝達)宣布併購Arm與積極策劃人工智慧(AI)應用的同時,並以創新技術來增強資料中心的AI運算能力。在COMPUTEX 2021期間,NVIDIA發表資料中心伺服器新的硬體與軟體,包括NVIDIA BlueField-2 DPU的資料處理器,以及NVIDIA認證系統,還有推出NVIDIA Base Command

BlueField-2 DPU提供高速網路介面、可程式化的Arm核心,以及硬體加速的加密/解密引擎,可以額外提供網路傳輸、資料安全與儲存的運算能力。

對於BlueField-2 DPU能夠如何幫助伺服器提升整體的效能,NVIDIA企業運算部門負責人Manuvir Das表示:「目前資料中心的CPU最多僅能挪用30%的運算效能,處理一般的系統管理工作任務,而非支援資料中心內的應用程式運作。」

BlueField-2 DPU是專門設計用以協助資料中心伺服器處理基礎架構任務的運作,透過DPU的導入與加持後,從而可以釋放CPU的資源,讓企業可以用較少的伺服器執行相同的任務,因為伺服器效能變好了。

使用硬體加速卡運作效益也大不同,相較於使用軟體加速的GPU加速卡,一旦DPU可以用來處理在伺服器與儲存裝置間,以及伺服器的資料輸出入介面的繁忙網路運作時,資料中心的效能與效期都大為改觀。

BlueField DPU在處理網路運作的優異加乘效能與表現之下,讓大部分的競爭對手產品顯得相形見絀,因為對手多半只是言過其實的僅考慮將運算能力強加進晶片而已。

Manuvir Das強調:「在DPU內的Arm核心處理器與專屬的晶片組也在加速網路傳輸任務中扮演著關鍵角色,由於效益顯著,未來NVIDIA將會尋求將DPU與GPU加以整合至同一晶片內的機會。」

為了順勢大力推廣,NVIDIA與其他結盟的伺服器製造商,如華碩(ASUS)、技嘉(GIGABYTE)、雲達科技(QCT)、戴爾科技(Dell Technologies) 與美超微(Supermicro)將推出搭載DPU的伺服器系統。因為DPU主要幫助分攤伺服器處理器的工作負擔,所以硬體系統幾乎可以用在各產業與應用系統中。

值得一提的,伺服器系統內的資訊安全功能特別容易受惠於DPU的導入,隨著資訊安全在雲端運算產業益形重要之際,DPU特別可以協助已經分身乏術又佔住龐大運算資源的CPU。

「再者,對於NVIDIA認證的資料中心伺服器,目前NVIDIA與伺服器製造商正在為認證伺服器建立測試模板,製造商需要在各自的伺服器系統上建立針對NVIDIA伺服器的硬體架構做出正確的效能調校與設定,然後通過效能驗證機制以取得NVIDIA的認證。」Manuvir Das補充說明。

一旦取得NVIDIA認證後,採購認證的伺服器系統將獲得在AI運算效能上的保證,也可以獲得NVIDIA的技術支援,即使在認證機制下發生的可能性已非常低。

NVIDIA也預計在2022年將認證伺服器的計劃擴展到Arm核心為主的伺服器系統上,對於大部分的AI應用軟體而言,主要由伺服器系統中的GPU負責運算,所以伺服器多半搭載輕量級的CPU以降低功耗,而Arm核心則是以省電效能著稱的處理器,因此非常適合未來伺服器系統來使用。

Manuvir Das強調:「全球頂尖伺服器製造商已正在打造Arm核心的伺服器系統,雖然目前 x86 架構的伺服器系統仍是業界的主流,NVIDIA仍嘗試為利基型應用的伺服器扮演推手,以滿足客戶的需求。」

NVIDIA Base Command平台是專為大規模、多使用者、多AI開發工程團隊的運作流程而設計的,並兼具本地(on-premises)或雲端部署之用,讓多個研發專家或資料科學家可以同步一起運作,來提升運算效能與速度,讓企業得以發揮專家團隊與珍貴的AI架構資源的產能最大化效益。

Base Command平台原本是NVIDIA內部工程團隊的基礎系統,專用於資料科學家進行多個AI計劃時,作為分享最新成果與工作進度的平台,當平台越來越成熟而客戶的需求也越來越明顯之時,NVIDIA決定加以商品化推廣與分享,Manuvir Das強調:「NVIDIA負責維護Base Command平台,並涵蓋軟、硬體架構的服務,雖然整體營運服務是由NetApp公司所主導。」

當大多數企業導入AI應用的過程遇到問題或是瓶頸時,Manuvir Das特別指出,NVIDIA目前所看到具關鍵挑戰性的難題,就是資料科學家以及IT工程師間的合作與協調,他們一個是AI訓練與模型建立的佼佼者,另一個則是擅長於如SAP和VMware應用的專家,NVIDIA希望Base Command平台能順利協助解決雙方的問題。

隨著AI運算伺服器成為全球資料中心最受歡迎與廣泛使用的系統,Manuvir Das期盼NVIDIA認證伺服器的數量,能成為AI-ready硬體裝置市場滲透率的一個重要指標,目前資料中心業者仍習慣個別採購伺服器系統與GPU加速卡,但是NVIDIA認證伺服器將會在幾年內改變這個生態。

然而,伺服器的更替循環仍需要好幾年的時間,主要的資料中心伺服器系統也需要一段時間的汰舊換新才能執行完整的AI運算任務。

此外,Das亦分享NVIDIA與VMware的合作計劃,包括vSphere更新與Project Monterey。VMware在2021年3月針對vSphere打造一個更新版本以支援NVIDIA AI企業軟體套件,目前 NVIDIA已經可以提供一些早期的版本給部分客戶。

2021年夏天,VMware將會進行vSphere更新,目前NVIDIA會提供第一個普通版本的AI企業軟體套件讓客戶可以從研發進行到生產。

另外,Project Monterey是NVIDIA與VMware 一起合作將VMware軟體在BlueField DPU環境執行運作,因為VMware的Hypervisor虛擬化管理程序已經可以在CPU環境下運作,而新的計劃是要讓DPU分擔CPU的工作負擔並有效率的執行虛擬化管理程序,請大家拭目以待。

觀看NVIDIA COMPUTEX 2021主題演講重播,進一步了解更多NVIDIA企業AI最新消息。



商情專輯-COMPUTEX 2021