智慧應用 影音
MongoDB
ADI

機械手臂與3D立體視覺

深度學習搭配3D感測器,將能提升機械手臂的生產效率。KUKA

近年來協作型機械手臂大幅成長,人機協作也成了生產線的未來態勢。

工業用機械手臂近年來快速成長,原因除了價格已被市場接受外,主要是可以提升營運效率,不管是在倉儲或是各種生產線。此外,當然還有缺工因素,特別是工作環境較惡劣的廠房,或是必須24小時輪班的生產線。

電腦視覺技術為機械手臂開光,可以進行更複雜的任務,不管是物件取放、塗膠、或是檢測工作,都可以看到機械手臂所提供的製造優勢。而3D立體視覺為機械手臂最重要的視覺來源,因為在運作的過程中需要非常精準的3D定位。

如以機器手臂抓取為例,可以分為兩個技術範疇:「感知」(perception)與「路徑規劃」(planning)。前者透過視覺推估物件的位置、姿態、可能抓取點等;後者則是推估如何移動手臂上的關節來接近物件,避開可能的障礙。可以想見3D感測器在這裡扮演了非常重要的角色。

抓取點偵測(grasp detection)為機械手臂建置時的關鍵技術,必須準確且快速地找到物件抓取位置。傳統方法需要先給定被抓取物的3D模型(如CAD),將這個模型比對套到3D感測器所拍攝到的點雲當中,如透過類似ICP (Iterative Closest Point)的演算法,接著使用模型上預設抓取位置。可以想像這樣的做法在稀疏的點雲上會有很大的問題,特別是在多個物體堆疊的情況之下,遮蔽或是只看到部分物件,模型比對會有相當大的挑戰。而最大的障礙是只能抓取「預先給定」的物件,這大大限制了工業佈建的擴充性。

隨著電腦視覺技術的突破,抓取點偵測被轉化為類似物件偵測的工作,在輸入的RGB-D (2.5D)或是點雲3D資料中,先產生相當多的候選抓取點(grasp proposal),接著利用深度學習網路選取適合的抓取點,無需事先給定3D模型。當然這是屬於監督式學習的工作,必須先標註訓練資料的抓取點。

在實際的應用上,需要找出多個可能抓取位置。因為物體原本就有多個抓取點,或是在路徑規劃過程中,某些抓取點手臂無法到達,或是可能會撞擊其他物件,特別是在複雜的真實環境中,所以候選抓取點的多樣性很重要。

這幾年來,深度學習技術也推升了機械手臂智能化。已在諸多關鍵技術上大大提升正確性、穩定度、以及速度,特別是結合3D點雲運算,讓機械手臂抓取的工作可以落實到各種應用場域並降低佈建時間。除了使用深度學習算法由大量的候選抓取點中找出適合的抓取位置外,這些候選抓取點也可以透過GAN的生成網路,產生多樣性的可能位置,這比隨機生成有效率多了。

目前也傾向在模擬環境中訓練,避免曠日費時的場域資料收集。當然在佈建時可以利用之前提過的「跨域演算法」(cross-domain learning)來解決模擬環境以及真實場域間的誤差。目前在模擬環境中,研究人員更嘗試各種自我監督學習(self-supervised learning)甚至是強化學習(reinforcement learning)方式提升3D視覺技術,更積極的避免使用高成本以及數量有限的訓練資料標註。

工業4.0是製造業未來的標竿。搭配目前深度學習技術的突破以及3D感測器的發展,機械手臂在生產效率以及成本考量下,一定會扮演關鍵的角色。智慧化的製造技術,絕對是維持產業競爭力的終極武器。

徐宏民(Winston Hsu)現任富智捷(MobileDrive)技術長暨副總經理以及台大資訊工程學系教授。哥倫比亞大學電機博士,專精於機器學習、大規模影像視訊搜尋與辨識。為訊連科技研發團隊創始成員,慧景科技(thingnario)共同創辦人,NVIDIA AI Lab計畫主持人;曾任IBM華生研究中心客座研究員、美國微軟研究院客座研究員。習慣從學術及產業界的角度檢驗技術發展的機會;十餘年產學合作及新創經驗。曾獲2018 IBM Research Pat Goldberg Memorial Best Paper Award 、2018偽裝人臉辨識冠軍、傑出資訊人才獎、吳大猷先生紀念獎等國內外研究獎項。