首創增強式學習AI影像壓縮陽明交大研究成績亮眼

增強式學習編碼優化壓縮技術(右圖)與HEVC(左圖)國際標準壓縮的主觀品質比較。(彭文孝教授提供)
在GPU運算能力大幅飆升、演算法成熟之後,AI技術被應用在許多智慧應用服務中,唯一例外是發展超過20多年的影像/視訊壓縮技術。此技術在過去 20 年沒有重大演進,卻是多媒體領域中扮演影響經濟發展的重要關鍵,無論是時下流行的YouTube、Netflix等,又或者疫情時間使用量大爆發的視訊會議服務,都非常仰賴該技術協助。
目前影像/視訊等使用的壓縮技術,是採用人類開發的數學演算法,因此有團隊嘗試以AI技術取代,期盼能創造更好的效果。獲得科技部贊助、由陽明交大資訊工程學系教授彭文孝領軍,與杭學鳴、蕭旭峰、黃敬群、邱維辰等教授合作的「基於生成模型的視訊壓縮」計畫,已連續四年參與 Google 舉辦的學習式影像壓縮競賽 (CLIC) ,且在 JPEG AI CfE 競賽中獲第二名的佳績,而國研院國網中心的台灣杉超級電腦則扮演幕後功臣的角色。
彭文孝教授指出,在影像辨識等眾多領域中,AI技術都有非常出色的表現,唯獨在影像/視訊壓縮技術,至今仍然無法超越最新一代的壓縮技術。從2018年Google舉辦學習式影像壓縮競賽後,也帶動全球團隊投入此領域的風潮,不僅每年研究論文數量開始暴增,JEPG組織更預定2024年要完成學習式影像標準化的工作。

研究成果出色 國際競賽成績卓越

目前全球將AI應用於影像/視訊壓縮領域的發展趨勢,分成AI-based、AI-assisted、Hybrid-based三大面向。在AI-assisted影像/視訊壓縮,彭文孝教授帶領的團隊,首創採用增強式學習進行編碼優化壓縮技術,可在不更改既有的編解碼器前提下,實踐提高壓縮效能的目標。此技術已發表在 2021年Data Compression Conference,且分別在台灣及美國申請專利。
此外,彭教授團隊也在AI-based端對端學習式影像與視訊壓縮,有所突破。利用最新的Normalizing Flow生成模型,可在相同位元率下,擁有最佳品質,效能超越傳統的壓縮標準HEVC,並接近 2020 年最新制定的壓縮標準 VVC。在主觀視覺效果上,則大幅超越傳統技術。

台灣杉服務加持 論文受國際關注

過去,團隊在投入開發增強式學習進行編碼優化壓縮技術時,都是透過平行運算將研究室內20多台的電腦串連起來,才能免強滿足專案所需。只是在此狀況下,每當需要調整專案中的AI參數,都得花費數個小時之後才知道結果,若是AI模型建置更需長達數個月之久,嚴重影響到專案進度。2018年國網中心開始打造台灣杉一號時,團隊獲得參與測試機會,自此開始也加快增強式學習進行編碼優化壓縮技術的研發成果。
彭文孝教授表示,自行維護運算架構不僅耗時,電腦設備也難以定時更新。當團隊改成租用國網中心的台灣杉一號服務後,由於該平台支援多種深度學習框架容器,環境建置時間自數小時縮短到數秒鐘即可完成。其次,台灣杉一號擁有眾多GPU、大量 VRAM 以及運算單元,也讓模型訓練時間從以往數個月縮短到一兩週即可完成。
在國網中心台灣杉一號全力支援下,目前團隊已在國際期刊發表7篇論文,另有1篇已被接受。至於在頂級研討會及重要國際研討會發表的論文數量,則共達到56篇之多,也吸引眾多國際團隊合作,未來可望在國際市場佔有一席之地。
文章來源:本文擷取自DIGITIMES。
陽明交大資訊工程學系教授彭文孝。(陽明交大)