智能技術長久以來大多專注在分析(如辨識、分類、偵測等),但快速進展的深度學習技術,能因著使用情境而產生適切的內容,也在各方面產生令人驚艷的結果。如顯示器、攝影的影像品質強化、自動內容製作、照片視訊編修、AR/VR內容生成、對話機器人等。這些生成內容橫跨文字、影像(視訊)、音樂、語音,對於娛樂、安全、自動服務等產業,已經產生極大的變革,也預計會大大影響電子資訊產品的技術走向。
以影像為例,傳統影像生成的應用之一在於超高解析度成像(super-resolution),將低解析度的影像長寬各放大為數倍,而增加的畫素內容大都是利用內差法的方式填補。在文字對話上則是針對某些關鍵字,用簡單統計模型或是規則來產生文字內容。因為過於簡化,不管對於影像或是文字,在內容觀看上還是相當不自然。主要原因有2個:無法真正瞭解內容為何以及生成模型過於簡化。
深度生成模型的進展就逐漸解決了這兩個關鍵問題。不管生成的內容為何,生成模型有3個主要模組:編碼器(encoder)、解碼器(decoder)、以及生成內容的評量機制。編碼器大多類似於深度學習辨識用的網路,主要將內容層層分析之後,產生訊息量較高階的多個(高緯度)特徵值;這些可能代表了影像、視訊、或是對話中的語意細節。而解碼器則是本於內容的深度瞭解,基於這些特徵值,在深度網路中各層漸進的還原(拼湊出)該有的內容。
生成內容評量則是在訓練生成模型時,控制了內容生成的品質。一般以各種成本函數在模型訓練時評量生成網路(特別是解碼器)的生成內容,用以修正大量的網路參賽;常用的大多是以訓練資料中的高品質影像或是文字來衡量品質差異。其中最有趣的是這幾年興起的生成對抗網路(generative adversarial network;GAN),刻意設計了一個辨識器(discriminator)來與生成網路對抗,前者努力區分真實與生成(造假)的內容,而生成網路則努力合成難以區分的內容,以對抗的方式彼此增強。
基於這些進展,我們看到了大量高品質,幾可亂真的生成內容,這也就是為何DARPA察覺這樣的威脅,進而將自動分辨虛實技術,列為美國未來智能技術的發展重點。最近,我們也研究了超低解析度照片的人臉辨識、可以使用在電子商務上的虛擬試穿等新穎生成技術,也驚訝這些技術的突破,以及在各個產業可能帶來的影響。
智能生成技術已經在許多軟體應用服務上落地為產品,我相信這些技術將會以「增益」的方式進入數位內容錄製(生成)及觀看使用的電子產品中,其可能影響的層面廣與深,絕對是不容忽視的技術進展。
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。