NVIDIA GPU再強化 GPU運算新世紀來臨 智慧應用 影音
新思
世平興業

NVIDIA GPU再強化 GPU運算新世紀來臨

  • 賴品如

NVIDIA HGX-2雲端伺服器平台。
NVIDIA HGX-2雲端伺服器平台。

NVIDIA GPU技術大會(GPU Technology Conference)全球海外巡迴首站於上周在台北完美落幕,現場吸引超過2,200多名科學技術人員、開發者、研究人員、政府與企業領袖以及媒體等共襄盛舉。

GTC為人工智慧與深度學習技術的頂級盛會,與會者不僅能深入了解 GPU解決方案與超級電腦的最新發展,更重要的是,來自不同領域的專家、開發者以及研究人員能透過此次機會相互交流、激發更多火花。

2018年3月於美國聖荷西所舉辦的首場GTC吸引超過8,000多人參與,現場展示各種AI應用的最新突破,從醫療、大數據、高效能運算到虛擬實境,以及更多採用NVIDIA技術的先進解決方案應用成果。

NVIDIA於2018年美國GTC發布DGX-2人工智慧超級電腦,為AI技術人員夢想中的產品。強大的DGX-2系統是企業級的雲端伺服器,其設計核心是為滿足高效能運算與人工智慧領域的發展,內含16個Tensor核心的Tesla V100 GPU,較2017年推出的DGX-1效能提升10倍,同時擁有高達512GB的HBM記憶體,配置12個NVSwitch光纖互連技術,為全球首款為AI系統提供運算效能達2 petaFLOPS的單一伺服器。DGX-2由NVIDIA DGX軟體堆疊以及基於NVSwitch技術所打造的可擴充架構所組成。

在此次專訪中,NVIDIA解決方案架構暨工程副總裁Marc Hamilton 分享他對於GTC與台灣科技產業生態系發展的看法,Hamilton帶領他的技術工程團隊與客戶及合作夥伴共同推出基於NVIDIA人工智慧與深度學習、專業視覺化以及高效能運算的解決方案。透過多次與生態系夥伴及開發者的交流,Hamilton對於台灣的AI發展步伐相當了解。

AI正著手解決HPC等級的擴充問題

AI技術透過改變我們的工作模式、增加人機互動合作以及開創人工智慧所驅動的創新新世代來提升企業整體競爭力。AI解決方案正迅速躍昇成為最具成效的新科技,企業絡繹不絕地積極投入AI解決方案的懷抱,而DGX-2躬逢其盛,提供一個可立即採用的解決方案,同時兼顧未來擴充所需的AI效能。

DGX-2是專為AI和HPC作業負載所設計,透過具高度彈性的移轉技術來簡化AI擴充的速度,並藉由大量深度學習所組成的運算叢集結合虛擬化技術,在共享基礎架構環境中大幅改善用戶和作業負載隔離。透過加速部署模型以及易於擴充的開放式架構,開發團隊以及資料科學家得以投入更多時間來挖掘洞察,並減少建立基礎架構的時間。

以氣象預報系統為例。進行天氣預報的HPC應用需要處理大規模的運算節點,透過基於流體流量、物理學以及其他參數的運算變化,氣象預測因應而生。

氣象預測的精準度取決於模型與演算法的準確性,尤其是有多少重點資料被呈現出來。進行氣象預測需要安排一系列複雜的前、中、後處理作業,且所有的預測必須即時交付。預測應用程序於伺服器節點上運作,並透過分布在運算節點上的監控程式接收報告。 

由於HPC系統動則牽涉數以千計的多核心處理器,深度學習技術需要龐大的資料並且彼此交互傳遞與運算,因此記憶體的需求馬上水漲船高,許多HPC的應用軟體需要將資料直接匯入到GPU的記憶體,以獲得最大的運算效能,有時記憶體不足,耗費在搬運記憶體的時間將會降低整體效能,因此當把多個GPU組合來應用時,記憶體的大小與GPU彼此間記憶體的傳輸速度將決定一切。

NVSwitch透過NVLink將GPU間的資料吞吐量極大化

記憶體是當今深度神經網路(Deep Neural Networks;DNN)中最大的挑戰之一。

DNN需要高速的記憶體以存取資料、重量參數以及激活,而開發人員正努力面對DRAM設備中有限的記憶體頻寬,因為AI系統將透過這些記憶體頻寬存取DNN中大量的重量參數與激活。

NVIDIA在2016年發表基於Pascal架構的Tesla P100 GPU時,發現以前仰賴PCI Express的資料傳輸通道與技術已經陷入瓶頸,無法負荷多個GPU間的資料吞吐量,於是積極部署GPU間的資料交換與互連新技術,而NVLink技術便應運而生。

透過單一GPU可支援多達6個NVLink連結,可提供各個獨立GPU之間更高的頻寬,或於低頻寬間仍能直接連接到GPU。事實上,NVIDIA的混合式立方網絡(Hybrid Mesh Cube)限制了單一NVLink叢集至8個GPU的大小,即便它是一個NUMA設置仍無法讓每個GPU皆能看到彼此。利用8個以上的GPU 需要透過InfiniBand連接多個系統,從而失去NVLink與緊密連結的GPU中記憶體共享與低延遲的優勢。

DGX-2需要將16顆Volta GPU整合至一個伺服器架構中,因此NVIDIA推出NVSwitch,其設計旨在利用一個交換器晶片來切換更多不同的 NVLink連接,單一個NVSwitch具備18個全頻寬,運算效能是單一Tesla V100 GPU的3倍,而所有的NVSwitch讓各GPU能互連。

NVSwitch的目標是為了增加叢集GPU的數量並支援16個GPU配置,而在DGX-2上共設計了12個NVSwitch連接,提供多達216個資料通道的記憶體頻寬,滿足GPU間每秒最大的300GB資料吞吐量,DGX-2較DGX-1系統提升兩倍的速度,這個進化讓資料科學家與系統開發者得以進行更複雜的AI應用。

有鑑於TensorFlow以及所有主要的深度學習架構所採用的NVIDIA NCCL(NVIDIA Common Collectives Library),深度學習架構如 TensorFlow不再需要了解伺服器中底層的NVLink拓樸結構。

NVIDIA的AI軟體堆疊經過全面優化及更新後能支援採用DGX-2及其他DGX系統的開發者,其中包含NVIDIA CUDA、TensorRT、NCCL、cuDNN以及專為機器人所設計的Isaac軟體開發套件(SDK)。

Hamilton表示:「TensorRT 4.0為NVIDIA推出的優化推論加速器新版本。目前TensorRT 4.0已整合到TensorFlow 1.7 ,而TensorRT 4.0為當今最受歡迎的深度學習架構之一。」NVIDIA的工程師非常了解自家GPU,透過針對基於GPU平台的優化和高效能runtime,使TensorRT 4.0 軟體能加速深度學習推論於各領域應用。

Hamilton表示:「許多TesorFlow的用戶將能從最高推論效能中獲益,並藉由TensorRT 了解清楚的工作流程。TensorRT能提供FP16與INT8精準的推論內容,以及高達8倍的推論吞吐量(與低延遲目標中的GPU執行相比)。」

在邊緣運算領域,TensorRT可以部署在NVIDIA DRIVE自駕車與NVIDIA Jetson嵌入式平台。而每個架構上的深度神經網路都能在資料中心的NVIDIA DGX系統上進行訓練,並部署到所有的邊緣裝置上。透過TensorRT,開發人員能專注於研發新穎的深度學習應用,而不用費心為推論部署進行繁瑣的效能調校。

HGX-2雲端伺服器平台為大型資料中心建立運算參考架構

NVIDIA旗艦級產品DGX-2超級電腦預計於2018年第3季正式量產上市,為了有效整合台灣的伺服器ODM大廠、生態系夥伴以及全球主要的伺服器國際品牌,NVIDIA於台北舉行的GTC發布HGX-2雲端伺服器平台,NVIDIA自家的DGX-2便是採用HGX-2所設計的旗艦級產品。

伺服器相關產業一直是台灣ODM大廠中,始終保持強勁競爭力的產業之一,透過AI領域的發展機會將有助於台灣系統製造商持續前進。NVIDIA工程團隊與台灣ODM大廠保持密切的往來合作,協助縮短從設計到生產部署的開發時間。

HGX-2的設計旨在滿足HPC與 AI 領域持續成長的應用需求。這些伺服器品牌與ODM大廠正在設計基於HGX-2的系統,為超大數據中心打造各種客製化設計的GPU 加速系統。

HGX-2具備兩項突破性功能,包含NVIDIA NVSwitch 網狀互連架構,能順暢串連16個內建Tensor Core 的 NVIDIA Tesla V100 GPU。透過HGX-2伺服器建構組件,伺服器製造商將能打造完整的伺服器平台,以滿足各種資料中心的需求。

台灣的AI應用與未來

Hamilton這幾年與台灣各產業保持密切的互動,針對AI訓練計畫,預計培育3,000位AI技術開發人員,藉由與台灣科技部的「博士創新之星計劃(LEAP)」合作,提供博士後研究的菁英人士相關實習與AI研究專案參與,其中關於智慧醫療的專案最令人期待,目前利用AI技術打造疾病預測研究,逐漸開展人工智慧技術進入台灣醫療體系。

另外,Hamilton指出AI的影像判讀技術用在晶圓檢測已有不錯的起步,晶圓損壞與錯誤檢測牽涉精密的檢測機台以及工程人員長時間的付出,透過AI的自動偵測與判讀技術,將可降低檢測成本並掌握時效,對台灣的半導體產業有相當大的幫助。此技術目前也逐步擴展至PCB產業的錯誤偵測與品質檢測應用,AI的應用總是帶來令人驚喜連連的創新發展。

議題精選-COMPUTEX 2018