Azure FX VM協助Ansys RedHawk-SC降低成本縮短執行時間

林稼弘／台北訊
2022-06-21
分享

微軟與Ansys密切合作，制定精細的解決方案，使RedHawk-SC在Azure的高效能運算(HPC)基礎結構上運行。台灣微軟

什麼是Ansys RedHawk-SC？現代半導體積體電路，或稱為晶片，可加載超過500億個電晶體。這樣的設計勢必得仰賴電子設計自動化 (EDA；Electronic Design Automation) 類別下的軟體工具，以支援、自動化和驗證晶片設計流程的每一步驟。RedHawk-SC即是由Ansys開發的EDA工具，以領先市場之姿，提供Power Integrity的服務。這對所有半導體的設計流程是很關鍵的驗證步驟，Sign off演算法需耗費極多資源，驅動成千上百個 CPU 核心持續運作好幾個小時，使之成為雲端運算理想的應用程式。

為雲端而生

RedHawk-SC架構於Ansys SeaScape Cloud friendly分析平台上，其SeaScape資料庫具完全分散性，非常適合用於在網路上的分散式磁碟存取。RedHawk-SC分散運算工作負載至多個記憶體條件低的Worker，每個Worker不到32GB。每個CPU則可運行一個或多個 Worker。在只能使用一些Worker的情況下，這種彈性運算架構能儘快即時啟動。

運算工作負載的分散僅會佔用必要的記憶體，因此最佳使用率可達2,500以上個CPU，也不需要繁重的主節點，因為會由極輕量的排程器協調分散，即使是最大的晶片，也僅耗費不到2GB。載入、查看或故障排除結果等都是同等道理。

RedHawk - SC on Azure工作負載

如RedHawk-SC等EDA應用程式對於最佳雲端部署有特定的需求。我們將這些考量整理成以下重點：

(1)簽核產生非常大量的工作負載，需要上千萬個CPU和數千百GB容量的磁碟。

(2)大型設計尺寸需要雲端內有持續或分散式的資料和結果的儲存空間。

(3)高頻寬網路的Worker溝通呼叫(10Gbps以上)。

Ansys和微軟共同推出在Intel驅動的Azure雲端執行個體上操作RedHawk-SC，並評估其實際工作負載，以及如何配置最佳的硬體設定。

(表1)針對代表性小型區塊(Block)工作負載、中型叢集/分區(Cluster/Partition)工作負載，和大型「全晶片(Full Chip)」工作負載的 RedHawk-SC 資源需求。台灣微軟

EDA 的雲端運算模型

微軟與Ansys密切合作，制定精細的解決方案，使RedHawk-SC在Azure的高效能運算(HPC)基礎結構上運行。這些目標參考架構使轉移至Azure順暢無礙，並協助設計團隊以更少的成本，更迅速地執行。

IC設計公司可能會選擇與像Azure的雲端供應商以雲原生(All In)的模式合作，即整個設計專案皆在雲端執行，或是他們會尋找「混合型」(Hybrid)的合作模式，運用雲端資源，來補足他們現有的地端的Capacity(如圖1所示)。

(圖1)混合型與雲原生模式在雲端都有主節點和運算節點。台灣微軟

Ansys和微軟Azure已驗證RedHawk-SC可符合「All in / Hybrid」使用模式和授權的條件。

為EDA最佳化的Azure基礎結構

為了縮短run time (執行時間)，各公司一般會先著手投資支援最高時脈速度的處理器。此外，善用雲端有另一層效率考量，例如資料中心的使用效率與工作流程最佳化的架構，測試報告顯示雲端上可擴充的儲存空間對於EDA最佳化的架構有極大的影響。

Azure採用全新Intel處理器，打造FXv1 VM執行個體，其特別為含有高記憶體需求的運算密集型工作負載所設計，符合RedHawk-SC需求。FXv1不只時脈速度高達 4.1GHz，也具有低延遲快取的特性，以及高達2TB的NVMe本地磁碟，並擁有RedHawk-SC渴望的High IOPS Throughput。RedHawk-SC在Intel也善加利用了Intel的Math Kernel Library。

透過廣泛測試這些實際的工作負載，微軟和Ansys提供最佳化軟體配置的建議，以在 Azure上操作RedHawk-SC，如下圖2所示。Azure Silicon團隊選擇以下基礎結構來支援這項測試：

(1)採用第二代Intel Xeon可擴充處理器的FX VM系列。

(2)Azure 50GbE Accelerated Networking。

(3)CycleCloud Operations Orchestration。

Azure的加速網路提供高頻寬50GbE乙太網路，串接Worker和Smart NICs。從CPU卸載網路負載，因此提升了運算吞吐量。除此之外，CycleCloud Operations Orchestration用於動態部署虛擬機器以支援RedHawk-SC。

(圖2)在Azure混合雲端上執行Ansys RedHawk-SC的參考架構。台灣微軟

運用大型的全晶片工作負載測試FXv1執行RedHawk-SC(如圖1所示)顯示隨著 CPU 數量上升，執行時系統近乎呈線性發展。期望的擴展程度反映有效率的分散式技術，展現了RedHawk-SC的SeaScape架構以及FXv1提供每個核心的最佳化高記憶體容量。

在展示Worker數量的微軟Azure FXv1 VM上執行不同RedHawk-SC工作負載所需的執行時間。台灣微軟

經由圖1，令人驚訝的發現是，在Azure執行一個RedHawk-SC工作的總成本其實會隨著您增加Worker數量(至最大限制數量)而下降，與一般認知總成本會隨著您納入愈多 CPU而增加相牴觸。這與RedHawk-SC能達到的最高CPU使用率有關。Worker的最佳數量相等於RedHawk-SC自動計算的Power Partition這個結果直覺上並不明顯，客戶不應該嘗試減少CPU數量來節省成本。事實上，他們其實應該要增加到最佳的CPU。

結論

廣泛測試Azure上的RedHawk-SC使微軟採用Intel處理器的以利以雲端為基礎的EDA工作。此配置顯示超過240個CPU在一系列實際、非常大規模的EDA工作負載上的優秀擴展能力。此測試進一步得知CPU的最佳數量，協助大幅降低執行Azure上RedHawk-SC的總成本。最終，客戶可以在Azure上運用最佳的配置，輕鬆設定他們針對吞吐量和成本的power integrity signoff analysis。

了解Ansys Cloud in Azure Marketplace

更多資訊，點擊最新Ansys Cloud on Azure白皮書

關鍵字

CPU 微軟 Azure Ansys

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

Azure FX VM協助Ansys RedHawk-SC降低成本 縮短執行時間

Azure FX VM協助Ansys RedHawk-SC降低成本縮短執行時間