智能技術可以具有人類的視覺美感嗎？

徐宏民
2018-12-11
分享
Line

目前已有軟體可以讓一般人自動將影片轉換為特定畫家的風格，利用卷積網的數千萬個參數，學習到影像轉換的方式，產生如油畫電影《梵谷：星夜之謎》的效果。Vincent van Gogh

我們看到了智能技術在影像辨識、偵測上的突破，甚至落地為產品。很多人問，這些深度學習為核心的電腦視覺技術也可以具有人類的美感—具有評判、編修、甚至美學創作的能力嗎？

智能視覺美感技術大致可以區分為三類：首先為影像(或視訊)編修強化，包括修圖(對比、亮度、景深等)、超高解析度成像、突破壓縮技術、改善電視顯像品質、加速電影(內容)特效製作、甚至主動改善車輛安全駕駛在低亮度下的視訊品質；其次為照片美學評分、取景，自動挑選具美感的照片或是畫面；第三為自動生成不存在的影像。而這些核心技術所啟發的應用都已經是進行式，或是即將落地為產品。

相關技術大大改變數位內容產業。梵谷油畫電影《梵谷：星夜之謎(Loving Vincent)》耗時6年，動員超過百位來自世界各地的畫家才完成這個耗時、耗資的工作。目前已經有軟體服務完成類似的功能，可以讓一般人自動將影片轉換為特定畫家的風格，透過畫家的經典創作，讓卷積網路(CNN)的數千萬個參數，學習到影像轉換的方式，均衡風格跟影片內容。我們在兩年前參與的IBM華生研究中心預告片自動剪輯研究，也同樣帶來類似產業的突破。

一般的卷積網路架構為設計適合的編碼器以及相對的解碼器；前者將畫面內容解析之後，透過後者生成適切的影像(強化或是編修)，大量的卷積網路參數透過事前的訓練資料來達成目的。而時常被忽略的是適合的目標函數，通常得同時使用多個，並將領域知識吸納其中，這是成功與否的重要關鍵！

在美學評分方面，一般利用卷積網路加上迴歸函式來逼近美感分數。最大的挑戰在於訓練的資料。因為嚴謹的美感牽涉到文化、社會、以及個人的差異，可以取得的訓練資料─不管是透過人工標註或是社群網路下載—不全具代表性，很難學習到通用的美感。不過在特定家用照片上，透過自動評分，甚至修正照片(旋轉、取景、飽和度等)等都已經落地在國內外的各種應用當中。如果能進一步熟悉應用場域，個人化適性學習，將有更大發揮的空間。

最具挑戰的是從無到有生成具美感的影像，一般都嘗試利用生成對抗網路(GAN)來實現，但是目前在速度、解析度、生成品質控制上都還有相當努力的空間。

值得產業注意的是，我們觀察到這些視覺美感智能突破也逐漸由雲端走入本地端。相機、攝影機、電視等相關晶片都已經看到國內外的公司正逐漸佈局。因為提供具美感的生活體驗，不正也是智能世代的新產品嗎？

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。