隨著攝影鏡頭的普及以及安全防護的需求,近來人臉辨識相關技術成為產業界關心的對象。搭配運算速度的提昇、深度學習技術的突破、以及許多使用者端、企業端、政府端各種實質應用情境,也觸發除了指紋、虹膜等生物特徵辨識之外的產業機會。
人臉辨識的定義常有許多混淆,一般是為了瞭解拍照的目標為何人。舉例來說,進來銀行的人是誰,如果直接可以辨識,我們會有多幾秒的時間可以知道他是VIP嗎?黑名單?喜歡什麼樣的商品?該找誰服務呢?
但是也容易與其他技術混淆。例如人臉屬性偵測,目的是為了瞭解標的年齡、性別、人種、打扮等,用途在於購物安全(如自動販賣機的年齡限制)、目標群眾大致統計等。
另一非常類似的領域為表情偵測:區分微笑、嚴肅、生氣等表情,可以用於客服或是使用者滿意度分析;目前駕駛安全技術上,也會有駕駛打瞌睡、不專心等透過人臉判斷的技術。
人臉辨識核心可以大致區分為兩個問題:人臉確認(face verification)以及人臉識別(face identification)。前者的定義主要是給兩張人臉,必須回答是否為同一人,例如自動通關時掃描護照,同時比對攝影以及官方人臉資料;或是iPhone解鎖等安全確認情境。
人臉識別主要是在大規模的人臉資料庫中(可能每人有一到多張)照片,找出提供的照片是否在資料庫內?是哪一個人?警政的人臉搜尋、安全監控、或是進出管制等,大多屬於這個範疇。
雖然兩個問題看起來類似,但是後者較為挑戰,當資料庫內需要識別的人變多時,比對速度會變慢、特徵值(表示人臉的高緯度資料)間會大大的混淆。
辨識的訊號來源也不侷限於2D的人臉照片,包括大家已熟知在手機上的3D點雲、走路的姿勢(聲音)、甚至是在空間移動對Wi-Fi訊號的影響等,都有不同的應用。
這幾年精進的人臉辨識技術早已跳脫早期僅限安防使用的局限性,並且看到原本在雲端的功能,逐漸落地到設備端。例如具有辨識功能(自動開鎖)的門鈴、利用人臉來提供個人化服務、廣告內容、存取功能、開關設備等。
諸多應用發現,人臉辨識更需要軟硬整合,如光線變化時如何自動調整鏡頭硬體?辨識用的影像(視訊)該如何壓縮?我相信在智能應用轉型的契機,對於產業界也是另一個相當大的機會!
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。