翻新ISP設計？

徐宏民
2020-05-05
分享
Line

隨著視訊影像的作用改變，傳統ISP為人類視覺優化的設計也許可以重新思考。Unsplash

影像訊號處理器(ISP，Image Signal Processor)是每個相機(攝影機)的核心，主要是將影像感測器的訊號輸出接續轉換為標準的全彩(如sRGB或類似色彩表示、或進而壓縮為適當格式)。其主要過程包括去馬賽克、降噪、白平衡、曝光校正、銳化、色彩轉換、編碼等複雜的模組。

ISP為攝影機的關鍵，攝影品質好壞全然取決於在不同的光學條件下的影像輸出品質。所以ISP中各個功能模組參數調教，即成了業界的重要工作甚至是獨門秘方。一般而言，這些功能都是獨立模組，所以每個模組無法操控其他模組的輸出結果，或是彌補其他模組處理所損失的訊號。連續獨立模組計算，不能避免的造成原始感測訊號的損失。

近幾年興起的卷積網路(CNN)能否取代傳統ISP的工作？能否設計一個CNN將影像感測訊號(如RAW原始格式)直接轉換為高品質的全彩影像？這是近年學術界新興的問題。因為卷積網路具有高運算能力，富含數百(千)萬個參數，遠大於傳統ISP的參數量。近來的研究更發現透過機器學習系統化的訓練，在各項智能工作中都遠勝於人工參數調教的成果。而且CNN端對端的運作方式有機會彌補其他卷積層的訊號損失，又優於傳統ISP各個模組間獨立運作的侷限。

特別是目前行動設備中的影像感測器較小，傳統ISP的算法有其侷限性，然而卷積網路善用龐大參數量以及大量的訓練資料，可以擴張感測器的極限。近年來終端卷積加速晶片的發展— 速度提升以及低耗能，也預備了全新「智慧化」ISP的運算平台。因為CNN的參數更可以抽換(修正)，智能ISP甚至有機會開啟個人化的功能。

近年來的研究也驗證了這樣的猜想。研究顯示可以設計出單個端到端的卷積網路來取代、甚至超越目前市面上複雜的ISP，即便CNN不預先知道影像感測器和光學元件的組成特性。利用好幾層的卷積，不同大小的卷積核，同時處理數個不同解析度的畫面，CNN可以考量畫面的區域或是全局亮度、材質、線條，甚至了解畫面的語意進而進行智慧化影像修補、增強，包括放大畫面的超解析、去模糊化、直接產生高動態範圍影像(HDR)等重要工作。

我們這兩年的研究也發現，直接由RAW訊號上進行影像以及視訊品質強化工作，如超解析畫面增大、視訊去模糊化等，採用卷積網路增益的效果更佳，因為RAW所含有的原始訊號較豐富。特別是在低亮度的情況下，由RAW直接增益的效果更為明顯。甚至連物件偵測、影像切割的等重要智能工作，直接在RAW上運算，明顯比在傳統ISP處理後的sRGB上進行來的優異。

另一個未來的思考面向：攝影內容是讓人看？還是機器看的？最近兩年遇到攝影機產業鏈的業界朋友，我們都會討論一個問題，目前或是未來出貨的攝影鏡頭所拍的視訊，是人看的比較多，還是機器(演算法)看的較多？大家都認為應該(或是即將)是機器看得較多。因為人力無法負荷監看這麼高速成長的鏡頭。特別在快速變革、高成長的應用場域，如交通、零售、工業安全、醫療照護等，更為明顯。如果趨勢不變，傳統ISP為人類視覺優化的設計是不是得大幅修正？

設計全新的ISP似乎吻合目前技術的走向，但是產品化的過程中如何切入最佳的產業垂直領域？搭配何種GPU/VPU或卷積加速晶片？如何設計適切的卷積網路來確保運算速度以及耗能？或是如何產生RAW及sRGB的匹配訓練資料等？都是產品化的必要研究課題。深具挑戰，不過我相信國際攝影機產業鏈中，一定有不少人往這方向努力尋找典範轉移的新機會。

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。