智能產品開發沒有免費的訓練資料

徐宏民
2018-03-06
分享
Line

資料是訓練深度學習網路重要的關鍵，而訓練資料的累積，絕對是智能技術公司的珍貴資產。(圖片來源：Pixabay)

最近在幾個中文網站都看到類似的文章下著聳動的標題”人臉辨識系統是否有種族、性別歧視？”故事源自於紐約時報的一篇文章以及其所引用麻省理工學院最近發表的某篇論文。大意是說經過實測三家公司（Microsoft, IBM, 以及大陸的Face++）的人臉辨識API（應用程式介面），發現在深膚色的人種上，辨識效果奇差，甚至錯誤率達到35%。

基於好奇，我把兩篇出處文章都找出來看了一下。其實這裡的「人臉辨識」只是人臉的性別屬性偵測（男或是女），並非較複雜的人臉辨識系統。

這三家公司的線上系統，應該都是使用卷積神經網路（CNN; 深度學習網路針對影像的特別結構）的作法，我們實驗室內部也有一套系統，在數十種人臉屬性（例如：性別、種族、年齡區間，戴眼鏡、墨鏡等）的辨識上，正確率已經相當的高了，尤其是高畫質的正臉相片。

我的猜測單純是訓練資料的問題，因為深色肌膚的女性資料本來就是少數，所以當初訓練評測的時候，並沒有特別被注意。而且這類別也可能不是公司產品重視的標的族群。

過去一段期間協助幾個產品上線，每個產品都有它想解決的標的、客群、應用情境，資料絕對是訓練深度學習網路重要的關鍵，公司內部得再花時間以及經費來額外收集資料協助產品落地，不可能單用網路上學術界常使用的數據集。所以，訓練資料的累積，絕對是智能技術公司的珍貴資產。

當然，如何以最低成本收集所需的訓練資料，這在學術界或是Internet公司都是行之有年的研究以及工程策略上的問題。在視覺辨識使用的訓練資料，一般而言都是利用社群媒體（例如：Flickr、Instagram、YouTube等）上大量的（免費）照片、視頻、文字等，下載之後，利用人工（可以自行雇用或是利用Amazon Mechanical Turk）來標註。

當然也可以利用演算法自動清理後作為訓練的樣本。為省下昂貴的人工標註，我們在2013年曾嘗試過幾種自動收集過濾的方式，作為人臉屬性偵測器的訓練資料。在這個工作當中，我們還真的發現地域性必須考量進來，所以照片的GPS位置也是個考量因素，因為多樣性（Diversity）是訓練資料的重要特質。這也剛好可以解決文前所提的深膚色女性辨識效果不好的問題！

徐宏民
台大資工系教授

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士，專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員，慧景科技(thingnario)共同創辦人，NVIDIA AI Lab計畫主持人；曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會；十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。