可程式化邏輯閘加速機器學習應用 智慧應用 影音
新思
世平興業

可程式化邏輯閘加速機器學習應用

  • 魏淑芳

賽靈思公司(Xilinx)亞太區工業及醫療市場高級經理羅霖。
賽靈思公司(Xilinx)亞太區工業及醫療市場高級經理羅霖。

賽靈思公司(Xilinx)亞太區工業及醫療市場高級經理羅霖,提到最近穀歌翻譯越來越精準,正是運用機器學習技術。深度學習(Deep Learning)技術底下有多層度?摺積式(Convolutional)?回饋式(Recurrent)神經網路技術等。拜摩爾定律及雲端大數據資料庫累積,使得深度學習技術開始進入市場應用。

各種機器學習導入的應用有其系統需求與技術挑戰。賽靈思的場域可程式邏輯閘(Field Programmable Gate Array;FPGA)聚焦於已訓練好的單向推理(inference)應用。像亞馬遜AWS、百度與騰訊等雲服務商,在HPC伺服器的前端部署基於賽靈思FPGA的加速器,提供雲客製、雲加速、安防、自駕車與語音?影像辨識、醫療影像診斷、金融與深度學習的應用。

羅霖以圖表比較,CPU能效、計算核心數最低;DSP/GPU則能效、計算核心數稍高;FPGA在能效上更高;最高則是ASIC,但其可調整程度也最低。同時,在邊緣側的機器學習應用上,低時延是非常重要的指標,FPGA相對於GPU具有10倍以上的優勢。

AlexNet處理一張待辨識圖片,需經22.7億道權重運算與6,500萬筆資料搬移。通過剪枝(Pruning)和參數共用(Weight Sharing)技術可以達到30?50倍的運算模型壓縮率,且無損其辨識結果。

以ILSVRC 2012做影像辨識,8/16位元辨識錯誤率低於1%,但較32位元高出10倍能效與4倍記憶體頻寬節省量。學術界正研究以2/3bit位元神經網路(Bitwise Neural Network;BNN),其辨識率正逐年逼近摺積式神經網路(Convolutional Neural Network;CNN)。

羅霖指出賽靈思FPGA具備客製化平行運算,記憶體優化架構,與較佳的能源效率(5.25倍,AlexNet影像辨識)等特性。27x18bit寬度的單一乘法器設計,用8bit量化值可單週期同時做兩個MACC運算。由暫存器檔案、邏輯閘與管線緊湊化的(DSP Supertiles)運算陣列設計,可以超過600MHz時脈做摺積運算。

Xilinx KU115/VU9P/VU13P FPGA提供9.2?19.3兆運算(TOPs)、51?66W功耗,以及較競爭者優出4~6倍的能效。以Xilinx Zynq7020與即將推出的Zynq ZU2CG,在自駕車的影像辨識?物體偵測?臉部辨識效能,直追Tegra K1/X1 SoC平台,但性價比更優。

Xilinx提供符合OpenCL/HLS(C/C++)的SDSoC/SDAccel開發環境、編譯器與優化的函式庫,開發過程可縮短到數周之內。2017年5月後更可達到較Tegra TX1高出3.8倍的影像辨識能效。目前已有客戶導入無人機、自駕車ADAS系統與雲影像識別的應用。