影像訊號處理器(ISP,Image Signal Processor)是每個相機(攝影機)的核心,主要是將影像感測器的訊號輸出接續轉換為標準的全彩(如sRGB或類似色彩表示、或進而壓縮為適當格式)。其主要過程包括去馬賽克、降噪、白平衡、曝光校正、銳化、色彩轉換、編碼等複雜的模組。
ISP為攝影機的關鍵,攝影品質好壞全然取決於在不同的光學條件下的影像輸出品質。所以ISP中各個功能模組參數調教,即成了業界的重要工作甚至是獨門秘方。一般而言,這些功能都是獨立模組,所以每個模組無法操控其他模組的輸出結果,或是彌補其他模組處理所損失的訊號。連續獨立模組計算,不能避免的造成原始感測訊號的損失。
近幾年興起的卷積網路(CNN)能否取代傳統ISP的工作?能否設計一個CNN將影像感測訊號(如RAW原始格式)直接轉換為高品質的全彩影像?這是近年學術界新興的問題。因為卷積網路具有高運算能力,富含數百(千)萬個參數,遠大於傳統ISP的參數量。近來的研究更發現透過機器學習系統化的訓練,在各項智能工作中都遠勝於人工參數調教的成果。而且CNN端對端的運作方式有機會彌補其他卷積層的訊號損失,又優於傳統ISP各個模組間獨立運作的侷限。
特別是目前行動設備中的影像感測器較小,傳統ISP的算法有其侷限性,然而卷積網路善用龐大參數量以及大量的訓練資料,可以擴張感測器的極限。近年來終端卷積加速晶片的發展— 速度提升以及低耗能,也預備了全新「智慧化」ISP的運算平台。因為CNN的參數更可以抽換(修正),智能ISP甚至有機會開啟個人化的功能。
近年來的研究也驗證了這樣的猜想。研究顯示可以設計出單個端到端的卷積網路來取代、甚至超越目前市面上複雜的ISP, 即便CNN不預先知道影像感測器和光學元件的組成特性。利用好幾層的卷積,不同大小的卷積核,同時處理數個不同解析度的畫面,CNN可以考量畫面的區域或是全局亮度、材質、線條,甚至了解畫面的語意進而進行智慧化影像修補、增強,包括放大畫面的超解析、去模糊化、直接產生高動態範圍影像(HDR)等重要工作。
我們這兩年的研究也發現,直接由RAW訊號上進行影像以及視訊品質強化工作,如超解析畫面增大、視訊去模糊化等,採用卷積網路增益的效果更佳,因為RAW所含有的原始訊號較豐富。特別是在低亮度的情況下,由RAW直接增益的效果更為明顯。甚至連物件偵測、影像切割的等重要智能工作,直接在RAW上運算,明顯比在傳統ISP處理後的sRGB上進行來的優異。
另一個未來的思考面向:攝影內容是讓人看?還是機器看的?最近兩年遇到攝影機產業鏈的業界朋友,我們都會討論一個問題,目前或是未來出貨的攝影鏡頭所拍的視訊,是人看的比較多,還是機器(演算法)看的較多?大家都認為應該(或是即將)是機器看得較多。因為人力無法負荷監看這麼高速成長的鏡頭。 特別在快速變革、高成長的應用場域,如交通、零售、工業安全、醫療照護等,更為明顯。如果趨勢不變,傳統ISP為人類視覺優化的設計是不是得大幅修正?
設計全新的ISP似乎吻合目前技術的走向,但是產品化的過程中如何切入最佳的產業垂直領域?搭配何種GPU/VPU或卷積加速晶片?如何設計適切的卷積網路來確保運算速度以及耗能?或是如何產生RAW及sRGB的匹配訓練資料等?都是產品化的必要研究課題。深具挑戰,不過我相信國際攝影機產業鏈中,一定有不少人往這方向努力尋找典範轉移的新機會。
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。