Ubiquiti AI團隊以Gemini AI Console管理GPU加速AI研發 智慧應用 影音
Microchip
Event

Ubiquiti AI團隊以Gemini AI Console管理GPU加速AI研發

  • 尤嘉禾台北

全球第三大網通公司優比快科技(Ubiquiti Inc., NYSE: UI),領先透過AI來深化網通技術,以及增進監控產品的效能。位於台灣的AI研發團隊,每天都有大量的AI模型訓練與測試工作在進行,而為了能夠讓研發更有效率,於年初購入了頂級Nvidia A100 GPU運算卡,但要如何在多人協同開發情境下,有效利用這樣高規格的卡片,成為他們最具挑戰的問題之一。

「我們當初就是看到雙子星雲端有GPU Partitioning的功能,才決定要導入AI Console來管理我們的資源。」優比快AI平台架構師Elton表示。

優比快科技以AI研發,替客戶帶來更優質的體驗。圖為AI平台架構師Elton。雙子星雲端運算

優比快科技以AI研發,替客戶帶來更優質的體驗。圖為AI平台架構師Elton。雙子星雲端運算

該團隊在導入AI Console以前,採用一人一台小型GPU工作站來進行AI模型的研發,但由於每個人所專注的AI研發項目不同,開發環境也有很大的差異,因此也很難進行資源整合。

後來也曾經租用了公有雲運算環境,但Elton坦言:「之前考慮到如果要租用更高規格的GPU長期使用,價格會遠遠超過自行建置。所以評估多個因素過後直接購買硬體資源,也訓練團隊能自行管理On-Prem Server。」

但光有硬體資源還是不夠,開發人員環境不一致的問題依然存在,甚至在同一個環境上,也會出現資源互斥(resource conflict),以及GPU記憶體互搶的問題,導致即使一個GPU可以兩個工作同時使用,但一個工作失敗了,另一個也會受影響而失敗。

因此在等待機器這段時間,研發團隊內也先行做了許多研究,像是透過Docker或self-hosted K8S來管理GPU資源,甚至也使用了Kubeflow 這套以容器為基礎的知名開源機器學習平台,可惜在使用的過程中不斷遇到問題,也很難進行除錯(debug)和整合既有內部開發流程,因此才萌生出購買商用軟體來解決問題的想法。

Gemini AI Console內建GPU Partitioning分割共享機制,能夠將一片GPU,透過有效資源隔離的方式達到GPU共享,而這正是採用頂級GPU的優比快AI團隊所需要的功能。

目前該團隊已成功將大部分AI模型訓練的工作,透過AI Console以容器化的方式,派送給兩台裝載Nvidia A100的 Dell伺服器上。甚至自主開發了一個簡易的MLOps平台,將AI Console內所提供的兩大管理介面,以及核心監控報表,嵌入在該平台的首要位置,並搭配團隊目前使用的其他既有開發工具,成為研發團隊統一的AI研發入口。

Elton表示:「AI Console讓組織的計算資源可以有效管理,而且雙子星的窗口對於我們任何問題回復的速度都很快。」這是在導入這段期間內,他對於雙子星的產品與服務最大的感想。而未來雙子星雲端,也將會不斷替客戶提供最新的AI Console版本,讓客戶可以基於雲原生與容器化技術,以及雙子星的專業技術,快速進行AI研發與創新。

關鍵字