AMD IT運用Azure HPC滿足對容量、擴充及創新無止境需求 智慧應用 影音
工研院
Event

AMD IT運用Azure HPC滿足對容量、擴充及創新無止境需求

  • 林稼弘台北訊

AMD的IT團隊使用Microsoft Azure高效能運算(HPC)、HBv3虛擬機器及其他 Azure 資源,建構可擴充的容量並最佳化企業雲端功能,加快上市時間並消除甚至數個月的延遲。Microsoft
AMD的IT團隊使用Microsoft Azure高效能運算(HPC)、HBv3虛擬機器及其他 Azure 資源,建構可擴充的容量並最佳化企業雲端功能,加快上市時間並消除甚至數個月的延遲。Microsoft

身為半導體、電腦處理器及相關技術的領導業者,AMD 有責任為客戶提供服務,與產業保持同步,並協助制定伺服器、電腦及嵌入式系統的運作標準。為了維持這項執行方式,AMD 的 IT 團隊使用 Microsoft Azure 高效能運算(HPC)、HBv3 虛擬機器及其他 Azure 資源,建構可擴充的容量並最佳化企業的雲端功能,加快上市時間並消除數週甚至數個月的延遲。

AMD IT 部門資深主管Rajiv Malhotra表示,我們藉由Azure HPC快速因應運算需求的變化,這對我們的客戶產生重大影響,因為我們可以向他們展示,當需求變化時,我們將如何滿足需求。AMD Azure HPC video

走在客戶前端的創新者

AMD 對更多運算資源的需求永無止境。無論是開發新的主機板晶片組、先進的微處理器或功能更強大的繪圖處理器,身為半導體技術的全球領導業者之一,AMD 在尋求持續創新的過程中,不斷突破其雲端和內部部署基礎設施的限制。

不同於許多傳統 IT 部門,AMD IT 扮演獨特的角色,亦即擔任 AMD 新產品的第一個客戶 。此部門會將新產品部署至生產環境,並與 AMD 工程團隊密切合作以測試和改善每個產品,以協助確保成功推入商業和消費者市場。

AMD的CAD 基礎設施和物理設計部門研究員 Philip Steinke 表示,我們持續在產品計畫中增加新產品。產品的複雜性也在不斷升高,以提供客戶所需要的所有功能。

當 AMD IT 需要滿足運算資源需求並擴大規模以完成工作時,會利用雲端技術以獲得彈性並縮短啟動時間。Steinke 表示,每踏入一個新的產品世代,我們都需要提高運算能力以實現設計,確保產品能如預期般運作,並讓產品進入製造階段。

遇到需求高峰和緊急需求時

為了維持產品設計和驗證以最高效率運作並承接新專案,AMD IT 體認到必須提高其運算能力並加快工作時間。該團隊需要更多容量,以擴充為了高效能運算 (HPC) 所配置的虛擬機器 (VM),藉此滿足激增的需求,並在不需要機器時能縮減規模。

AMD IT 部門資深主管 Rajiv Malhotra 表示:「無論我們執行多少作業,都會有大約 20% 至 30% 的相同作業量正等待執行。實際上,我們的使用率已達 100%,而且沒有太多的內部部署運作彈性。如此缺乏彈性會導致損失機會成本。」

為擴充其功能、為其傳統的內部部署基礎架構帶來彈性、增加對運算能力的存取,以及縮減採購時間,AMD IT 決定採用Azure HBv3 虛擬機器上的Microsoft Azure 高效能運算 (HPC) 資源,執行其電子設計自動化(EDA)工作負載。

透過為 HPC 配置的 Azure HBv3 VM 充分運用容量

透過針對 Azure HPC 進行最佳化配置的 HBv3 虛擬機器,並採用 AMD 自有的先進 EPYC 處理器,AMD IT 現在擁有可靠的節點至節點互連性,並可為 EDA 環境提供可快速擴充的高核心容量和卓越效能。HPC 適用於內部部署和雲端基礎架構,因此 AMD IT 可根據需要在其混合式環境中快速輕鬆地建立突增容量。該公司的 IT 主管認為這種適應能力水準是保持容量和可靠性的關鍵。

Malhotra 表示,在使用 Azure 之前,當需求激增時,我們必須決定最不想要犧牲哪個專案。有了Azure HPC後,我們可快速因應運算需求的變化,這大大影響了我們的客戶,因為我們可以向客戶展示,當需求變化時能如何滿足需求。

在為期一年的標準專案週期中,總是會出現意料之外的任務,而且可能會有多個專案相互重疊。AMD IT擁有Azure的彈性,可在任何特定時間策略性規劃所需的機器和程序。因此,IT的運作對公司獲利帶來正面影響。

Steinke 表示,我們將 Azure HPC 用於各種工作負載類型,包括在非常大的機器上,需要有大量 RAM 的大型系統工作負載執行,但這些工作負載可能只需執行 8 小時,而且每 24 小時只執行一次。現在我們可在有需要時獲取資源,而且只需為我們使用的容量付費,而不必讓機器閒置。

加快設計週期並縮短上市時間

AMD IT 把握機會自訂其技術堆疊,進而縮短完成解決方案的時間,同時以動態 AMD EPYC CPU-powered HBv3 VM 建構強大的工程 Unix 環境,使用Azure HPC CacheAzure NetApp Files將其工作負載引入雲端。HPC Cache在 Azure 和 AMD 的本地部署儲存裝置之間劃分運算容量以協助保持 EDA 作業的運作,進而為使用者提供更快的反應時間。同樣的,IT 團隊使用 Azure NetApp Files ,為 Azure 所產生並由快速讀寫存取的多個作業所使用的資料,提供高階儲存裝置。這有助於防止 CPU 核心在等待工作時卡住。

Steinke 表示,我們立下了基準,我們想要在雲端完成的工作,至少要與在本地部署資料中心使用高效能 EPYC 處理器核心和檔案伺服器,達到相同程度的成果。採用 Azure 讓我們能達到並超越基準效能。AMD IT 藉由結合上述 Azure 資源,建構了對 VM 和彈性運算能力的存取,因此能更快完成產品設計週期並加快上市時間。

人工智慧和機器學習提升靈活性和可視性

自從將 Azure 整合至生產環境之後,AMD IT 大幅獲益於更高的彈性和更廣泛的資源,並運用這些資源進行規劃和執行作業。執行報告每天需要同時使用多達 80 台完整的伺服器,由於會對有限的資源帶來額外壓力,這項任務的速度可能會大幅減緩。

Steinke 解釋,在我們引進 Azure HPC 之前,團隊可能必須錯開時段執行報告,一天執行 40 次,改天再執行 40 次,而且每兩天才能看到所有詳細內容。利用 Azure HPC 提供的額外資源,團隊可執行所有報告並可每天報告。

AMD IT 希望透過指標和分析方面的進步,專注於從雲端獲得更多價值,以協助確保一致且強大的專案執行。Malhotra 表示:「我們希望使用部署於 Azure HPC 的人工智慧和機器學習,為我們提供獨特的見解,包括工作流程如何消耗運算資源、工作流程如何執行,以及如何獲得更深入的知識和預測,以更快速進行整合。」

AMD IT 持續達成並超越其效能目標,同時進一步發展與 Azure 的合作關係。Steinke 表示,我認為我們的 Azure HPC 成功案例,證明了它是經過完整測試和驗證的解決方案。

AMD公司CAD 基礎設施和物理設計部門研究員Philip Steinke表示,我們立下標準,在雲端完成的工作時,至少要與在本地部署資料中心使用高效能 EPYC 處理器核心和檔案伺服器,達到相同程度的成果。採用 Azure 讓我們能達到並超越基準效能。

AMD公司IT部門資深主管Rajiv Malhotra表示,我們希望使用部署於 Azure HPC 的人工智慧和機器學習,為我們提供獨特的見解,包括工作流程如何消耗運算資源、工作流程如何執行,以及如何獲得更深入的知識和預測,以更快速進行整合。

高效能運算(HPC)是一組完整的運算、網路和儲存體資源,並與HPC應用程式的工作負載協調流程服務整合。有了專門建立的HPC基礎結構、解決方案和最佳化的應用程式服務,Azure提供比內部部署選項更具競爭力的價格/效能,並具備額外的高效能運算優勢。此外,Azure還包含新一代的機器學習工具,可推動更聰明的模擬,讓制定決策更具智慧。進一步透過最新微軟助力半導體產業升級白皮書了解Azure如何偕同AMD與Intel針對EDA/CAE不同的模擬軟體與情境提供的最佳實踐。詳請參考Azure for the Semiconductor Industry