Azure FX VM協助Ansys RedHawk-SC降低成本 縮短執行時間 智慧應用 影音
Event
EVmember

Azure FX VM協助Ansys RedHawk-SC降低成本 縮短執行時間

  • 林稼弘台北訊

微軟與Ansys密切合作,制定精細的解決方案,使RedHawk-SC在Azure的高效能運算(HPC)基礎結構上運行。台灣微軟

微軟與Ansys密切合作,制定精細的解決方案,使RedHawk-SC在Azure的高效能運算(HPC)基礎結構上運行。台灣微軟

什麼是Ansys RedHawk-SC?現代半導體積體電路,或稱為晶片,可加載超過500億個電晶體。這樣的設計勢必得仰賴電子設計自動化 (EDA;Electronic Design Automation) 類別下的軟體工具,以支援、自動化和驗證晶片設計流程的每一步驟。RedHawk-SC即是由Ansys開發的EDA工具,以領先市場之姿,提供Power Integrity的服務。這對所有半導體的設計流程是很關鍵的驗證步驟,Sign off演算法需耗費極多資源,驅動成千上百個 CPU 核心持續運作好幾個小時,使之成為雲端運算理想的應用程式。

為雲端而生

RedHawk-SC架構於Ansys SeaScape Cloud friendly分析平台上,其SeaScape資料庫具完全分散性,非常適合用於在網路上的分散式磁碟存取。RedHawk-SC分散運算工作負載至多個記憶體條件低的Worker,每個Worker不到32GB。每個CPU則可運行一個或多個 Worker。在只能使用一些Worker的情況下,這種彈性運算架構能儘快即時啟動。

運算工作負載的分散僅會佔用必要的記憶體,因此最佳使用率可達2,500以上個CPU,也不需要繁重的主節點,因為會由極輕量的排程器協調分散,即使是最大的晶片,也僅耗費不到2GB。載入、查看或故障排除結果等都是同等道理。

RedHawk - SC on Azure工作負載

如RedHawk-SC等EDA應用程式對於最佳雲端部署有特定的需求。我們將這些考量整理成以下重點:

(1)簽核產生非常大量的工作負載,需要上千萬個CPU和數千百GB容量的磁碟。

(2)大型設計尺寸需要雲端內有持續或分散式的資料和結果的儲存空間。

(3)高頻寬網路的Worker溝通呼叫(10Gbps以上)。

Ansys和微軟共同推出在Intel驅動的Azure雲端執行個體上操作RedHawk-SC,並評估其實際工作負載,以及如何配置最佳的硬體設定。

(表1)針對代表性小型區塊(Block)工作負載、中型叢集/分區(Cluster/Partition)工作負載,和大型「全晶片(Full Chip)」工作負載的 RedHawk-SC 資源需求。台灣微軟

(表1)針對代表性小型區塊(Block)工作負載、中型叢集/分區(Cluster/Partition)工作負載,和大型「全晶片(Full Chip)」工作負載的 RedHawk-SC 資源需求。台灣微軟

EDA 的雲端運算模型

微軟與Ansys密切合作,制定精細的解決方案,使RedHawk-SC在Azure的高效能運算(HPC)基礎結構上運行。這些目標參考架構使轉移至Azure順暢無礙,並協助設計團隊以更少的成本,更迅速地執行。

IC設計公司可能會選擇與像Azure的雲端供應商以雲原生(All In)的模式合作,即整個設計專案皆在雲端執行,或是他們會尋找「混合型」(Hybrid)的合作模式,運用雲端資源,來補足他們現有的地端的Capacity(如圖1所示)。

(圖1)混合型與雲原生模式在雲端都有主節點和運算節點。台灣微軟

(圖1)混合型與雲原生模式在雲端都有主節點和運算節點。台灣微軟

Ansys和微軟Azure已驗證RedHawk-SC可符合「All in / Hybrid」使用模式和授權的條件。

為EDA最佳化的Azure基礎結構

為了縮短run time (執行時間),各公司一般會先著手投資支援最高時脈速度的處理器。此外,善用雲端有另一層效率考量,例如資料中心的使用效率與工作流程最佳化的架構,測試報告顯示雲端上可擴充的儲存空間對於EDA最佳化的架構有極大的影響。

Azure採用全新Intel處理器,打造FXv1 VM執行個體,其特別為含有高記憶體需求的運算密集型工作負載所設計,符合RedHawk-SC需求。FXv1不只時脈速度高達 4.1GHz,也具有低延遲快取的特性,以及高達2TB的NVMe本地磁碟,並擁有RedHawk-SC渴望的High IOPS Throughput。RedHawk-SC在Intel也善加利用了Intel的Math Kernel Library。

透過廣泛測試這些實際的工作負載,微軟和Ansys提供最佳化軟體配置的建議,以在 Azure上操作RedHawk-SC,如下圖2所示。Azure Silicon團隊選擇以下基礎結構來支援這項測試:

(1)採用第二代Intel Xeon可擴充處理器的FX VM系列。

(2)Azure 50GbE Accelerated Networking。

(3)CycleCloud Operations Orchestration。

Azure的加速網路提供高頻寬50GbE乙太網路,串接Worker和Smart NICs。從CPU卸載網路負載,因此提升了運算吞吐量。除此之外,CycleCloud Operations Orchestration用於動態部署虛擬機器以支援RedHawk-SC。

(圖2)在Azure混合雲端上執行Ansys RedHawk-SC的參考架構。台灣微軟

(圖2)在Azure混合雲端上執行Ansys RedHawk-SC的參考架構。台灣微軟

運用大型的全晶片工作負載測試FXv1執行RedHawk-SC(如圖1所示)顯示隨著 CPU 數量上升,執行時系統近乎呈線性發展。期望的擴展程度反映有效率的分散式技術,展現了RedHawk-SC的SeaScape架構以及FXv1提供每個核心的最佳化高記憶體容量。

在展示Worker數量的微軟Azure FXv1 VM上執行不同RedHawk-SC工作負載所需的執行時間。台灣微軟

在展示Worker數量的微軟Azure FXv1 VM上執行不同RedHawk-SC工作負載所需的執行時間。台灣微軟

經由圖1,令人驚訝的發現是,在Azure執行一個RedHawk-SC工作的總成本其實會隨著您增加Worker數量(至最大限制數量)而下降,與一般認知總成本會隨著您納入愈多 CPU而增加相牴觸。這與RedHawk-SC能達到的最高CPU使用率有關。Worker的最佳數量相等於RedHawk-SC自動計算的Power Partition這個結果直覺上並不明顯,客戶不應該嘗試減少CPU數量來節省成本。事實上,他們其實應該要增加到最佳的CPU。

結論

廣泛測試Azure上的RedHawk-SC使微軟採用Intel處理器的以利以雲端為基礎的EDA工作。此配置顯示超過240個CPU在一系列實際、非常大規模的EDA工作負載上的優秀擴展能力。此測試進一步得知CPU的最佳數量,協助大幅降低執行Azure上RedHawk-SC的總成本。最終,客戶可以在Azure上運用最佳的配置,輕鬆設定他們針對吞吐量和成本的power integrity signoff analysis。

了解Ansys Cloud in Azure Marketplace

更多資訊,點擊最新Ansys Cloud on Azure白皮書


關鍵字