資料的可得性決定機器(深度)學習演算法的可靠度。過去已經有許多研究指出,同一個演算法,當(標註的)訓練資料愈多時,通常演算法的正確率或是穩定度就越高。但在真實的情境中,訓練資料通常是缺乏的,成為應用落地的障礙。
資料不足,通常原因是資料的可得性低或是標註成本高。比如說,在工業檢測上,如果生產線時常更換,要得到大量的檢測資料是有難度的;在醫學上,標註的成本較高, 因為醫護人員的有限時間及專業門檻。
為了解決這個問題,除了之前提過利用自我監督(self-supervised)的機會外,這幾年許多學者關注著「少量樣本」(few-shot)的機器(或深度)學習技術,目的是在標註資料很少的情形下,依然讓算法收斂到穩定的效能。
按照目前的研究進展,我們將少量樣本學習的方法大致分為三類,包括:data augmentation(資料生成)、metric learning(度量學習)、以及meta learning(元學習)。之前已經討論過在標記資料少的情形下,要刻意生成資料是有問題的。而後兩類都先預設標記資料少的情形下,來優化算法。
因為少量樣本,無法學習到穩定的分類器,所以度量學習希望透過少量樣本的深度特徵比對進行分類,訓練方式讓同類別的樣本有較小的距離,不同類則較遠。而元學習則是訓練一套深度網路,在使用少量樣本微調時依然有穩定的分類效果,所以學習的目標不是為了優化訓練資料的分類效能,而是訓練網路可以穩定「調適到」新的問題中,即使提供少量標記資料。
弱監督(weakly-supervised)學習則是在給定不完全標註的資料中訓練。例如在醫學上,僅知道病人患有某種疾病,但是不曉得在所有檢驗資料中何處關聯最大,那就在學習中利用attention(關注)的方式找到這些隱藏因子。目前最經典的範例是大量的X光肺部病變中,僅僅給予病人的確診疾病,透過演算法(利用影像的2D attention),找到X光中重要的病徵區域。類似的想法應該也可以使用在工業生產檢測或是生產優化上。
標記訓練資料不足的缺陷,是在工業領域中必須坦然接受的問題。在近期內可以解決的方式是利用metric learning,善用取得標記成本較低的資料訓練,然後再轉移到少量標註的新工作中,或是meta learning中的訓練策略。不過最大的機會還是在找到自我學習的pre-training方式,善用大量未標註的資料。
徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。