智能生成模型的產業機會

徐宏民
2018-10-16
分享
Line

智能技術長久以來大多專注在分析(如辨識、分類、偵測等)，但快速進展的深度學習技術，能因著使用情境而產生適切的內容，也在各方面產生令人驚艷的結果。如顯示器、攝影的影像品質強化、自動內容製作、照片視訊編修、AR/VR內容生成、對話機器人等。這些生成內容橫跨文字、影像(視訊)、音樂、語音，對於娛樂、安全、自動服務等產業，已經產生極大的變革，也預計會大大影響電子資訊產品的技術走向。

以影像為例，傳統影像生成的應用之一在於超高解析度成像(super-resolution)，將低解析度的影像長寬各放大為數倍，而增加的畫素內容大都是利用內差法的方式填補。在文字對話上則是針對某些關鍵字，用簡單統計模型或是規則來產生文字內容。因為過於簡化，不管對於影像或是文字，在內容觀看上還是相當不自然。主要原因有2個：無法真正瞭解內容為何以及生成模型過於簡化。

深度生成模型的進展就逐漸解決了這兩個關鍵問題。不管生成的內容為何，生成模型有3個主要模組：編碼器(encoder)、解碼器(decoder)、以及生成內容的評量機制。編碼器大多類似於深度學習辨識用的網路，主要將內容層層分析之後，產生訊息量較高階的多個(高緯度)特徵值；這些可能代表了影像、視訊、或是對話中的語意細節。而解碼器則是本於內容的深度瞭解，基於這些特徵值，在深度網路中各層漸進的還原(拼湊出)該有的內容。

生成內容評量則是在訓練生成模型時，控制了內容生成的品質。一般以各種成本函數在模型訓練時評量生成網路(特別是解碼器)的生成內容，用以修正大量的網路參賽；常用的大多是以訓練資料中的高品質影像或是文字來衡量品質差異。其中最有趣的是這幾年興起的生成對抗網路(generative adversarial network；GAN)，刻意設計了一個辨識器(discriminator)來與生成網路對抗，前者努力區分真實與生成(造假)的內容，而生成網路則努力合成難以區分的內容，以對抗的方式彼此增強。

基於這些進展，我們看到了大量高品質，幾可亂真的生成內容，這也就是為何DARPA察覺這樣的威脅，進而將自動分辨虛實技術，列為美國未來智能技術的發展重點。最近，我們也研究了超低解析度照片的人臉辨識、可以使用在電子商務上的虛擬試穿等新穎生成技術，也驚訝這些技術的突破，以及在各個產業可能帶來的影響。

智能生成技術已經在許多軟體應用服務上落地為產品，我相信這些技術將會以「增益」的方式進入數位內容錄製(生成)及觀看使用的電子產品中，其可能影響的層面廣與深，絕對是不容忽視的技術進展。

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。