智慧應用 影音
MongoDB
ST Microsite

20年相機技術更迭教我們的事

計算攝影是未來值得關注的趨勢。Google

第一次使用數位相機是2001年到尼泊爾爬山時,也一起帶了使用正片與負片的傳統相機。雖然解析度不高(640x480),卻頻於分享數位相片,因為方便在電腦上觀看、聚會時投影出來解說旅程的故事、或是透過電子郵件分享。所以「數位化」、「便於分享」彌補了早期數位相機品質的不足。

2002年到紐約進行博士學業,與台灣家人的分享完全透過數位照片,大量拍照更新,讓家人理解在美國的生活情形,透過E-mail以及後來使用的照片社群服務(如Flickr),讓照片分享、儲存更為容易。之間更換了多台數位相機,較佳的攝影品質、鏡頭焦段等促進換機的理由;數位相機品質提升,傳統底片相機沒落。

2010年行動(手機)攝影問世後,10年來不斷竄升,方便攜帶、搭配網路、互動頻繁的網路社群App,讓行動攝影後發先至,不斷取代數位相機。數位相機由2010年的高峰,快速下滑,也讓數位相機產業產生極大變化。而行動攝影品質、手機鏡頭也成了現今行動電話換機的首要因素。

與數位相機相比,手機的尺寸不大,限制了行動攝影的相機硬體規格。感光元件尺寸小(解析度低)、固定光圈、進光量有限、影像可記錄數值範圍狹小。厚度的限制,也無法負荷光學變焦,景深等更為有限。

即使這樣,行動攝影為何可以達到這麼好的品質呢?憑藉的是這十年方興未艾的計算攝影(Computational Photography)技術,利用演算法,打破相機的硬體侷限來提升照片品質,甚至降低硬體成本。

善用手機上較高的運算能力,計算攝影技術利用各種演算法來補強相機光學以及感光元件的限制:例如提高影像解析度、降噪、高動態範圍成像(HDR)、低光拍攝、或是模擬出景深效果等,甚至利用多顆鏡頭,多張影像計算提升影像品質。目前的研究,或是早期產品都發現,跳過傳統ISP (Image Signal Processor),直接由感光元件上(RAW訊號)進行計算攝影運算,可以獲得更好的影像品質。

從傳統相機、數位相機、到行動攝影,甚至延伸至各樣視覺感測器。二十年產業結構轉變,肇因於數位化、連網、分享能力、軟體彌補硬體的侷限、多鏡頭/多訊號源、3D成像、社群、App等,絕大部分是我們忽略的軟性技術:軟體與服務。 

另一個更躍躍欲試的是「智慧化」,受惠於這幾年進展快速的卷積網路(深度學習技術)。傳統的相機ISP大都使用近乎線性、考慮小區域的計算來增益影像品質,卷積網路可以提供更複雜的運算,甚至考量畫面語意(如樹、路面、人等)更精準的改善影像品質。搭配逐漸成形的卷積加速晶片,深度學習演算法與硬體加速兩股力量匯流,預期會看到更令人驚艷的影像產品。一系列neural-based ISP技術發展(如DeepISP),值得關注。

而這樣的攝影技術更替還沒停止,甚至蔓延到其他產業。鏡頭捕捉的畫面不再是為了美觀,而是讓機器精準判讀:視訊監控、AOI、ADAS、自駕車、機械手臂等使用大量鏡頭。特別是在快速成長的車用市場,每部車鏡頭個數將高達兩位數,用於車道/障礙物監控、路線規劃、自動停車、環景、或是了解駕駛(乘客)的狀態。搭配V2X 聯網、5G通訊等,過去二十年相機技術典範轉移的成因(軟體與服務),似乎也是熱衷於新能源車的企業們,所不能忽略的。

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。