機器人行為大躍進 結合人工智慧的機器人技術與產業發展(上)
半導體的突飛猛進及生成式AI技術的突破,讓沉寂一段時間的機器人發展,似乎突現一道亮光,高運算能力促使機器人的行動及感知能力大幅提升,不僅具有學習能力,動作也更流暢,將對全球產業與社會帶來重大影響,備受關注。
在硬體算力的倍增以及演算法精進的推波助瀾下,近年來人工智慧(AI)又成為全球科技發展的鎂光燈焦點,尤其是生成式AI。然而在各界積極投資布建算力的基礎建設下,這個科技對產業與社會將帶來什麼衝擊?也引發許多推測及論述。尤其是如此龐大的投資勢必需要產生具規模性的商業利益,或是對人類社會的進步有顯著的影響。對於目前生成式AI投資所產生的報酬率,近來已經有不少分析和評論。例如高盛(Goldman Sachs)在2024年6月的全球總經研究報告[註1]就以「生成式AI:太多投資,太少回收?」為標題,預估接下來對生成式AI的投資將超過1兆美元,然而文中訪談麻省理工學院的經濟學教授阿傑姆奧盧(Daron Acemoğlu),就預測生成式AI在未來10年,對美國的生產力僅會提升0.53%~0.66%,反映到美國GDP成長也僅是0.99%。
AI算力猛進 提升機器人感知行動力
臺灣在半導體以及電子產品製造的強大能力,無疑是這波設備投資中的受惠者,然而我們必須對其投資報酬偏低的預估有所警覺,同時對其可能的應用先期布局。人工智慧專家簡立峰博士在先前的文章中[註2],在避免生成式AI泡沫化的隱憂下,將雲端龐大的算力導引到邊緣運算(Edge Computing)應用,將可能是這個科技落地的方向,這其中一個重要的項目就是機器人。
為什麼機器人在這波AI的發展中這麼被重視,其原因可以追溯到1980至90年代的莫拉維克悖論(Moravec’s paradox)觀念,當時很著名的人工智慧及機器人學者如美國卡內基美濃大學的莫拉維克(Hans Moravec)教授,麻省理工學院的布魯克斯教授(Rodney Brooks)及閔斯基教授(Marvin Minsky),一致感覺到電腦可以解決人類認為很困難的問題,如數學或物理的計算,但是卻無法解決人類認為很容易的能力,如感知環境到採取行動。其實倒也不是電腦無法執行感知行動的功能,而是要達到人類這些能力所需要花費的算力,記憶容量及耗能,以當時的科技是無法達成的。
時至今日,半導體的突飛猛進及生成式AI技術的突破,似乎可以解決莫拉維克悖論所揭示的困境。而這種高層次的難題被解決,將對人類社會造成重大影響,也引發各界對於其應用與商機的想像。
機器人自主化 可修改目標適應環境
這一道曙光已經引發了新一波的投資,例如在2024年2月完成6.75億美元B輪融資的新創公司Figure AI,估值已經高達26億美元。包含特斯拉的Optimus以及波士頓動力,全世界至少有三十幾個新創團隊在開發結合大語言模型(LLM)與生成式AI技術的機器人產品。不論是哪一種形式的機器人,現今的重點都是強調自主化(Autonomy)。自主化與自動化(Automation)不同,自動化通常指的是機器人照著一套事先規劃好的行動方案(或稱劇本)去執行,而自主化則是機器人會根據目標去產生行動方案,而且在執行期間會去修改方案甚至修改目標去適應環境的變化。
舉個簡單的例子:「把保溫杯裝滿熱水」這個目標,牽涉一系列的動作如找到保溫杯,找到熱水來源,然後打開蓋子、倒水等,如果這其中所有的環節都已經安排好,包含各物件的位置,如何打開蓋子,與如何倒水的動作細節等,然後機器人照此執行,這就是自動化,即使這安排與實際狀況有差異,如杯子擺放姿態不同,只要在機器人的感測器(如視覺)可以偵測的範圍,都可以透過修正來執行。而所謂的自動化,就是機器人對這賦予的行動方案,可以一直重複執行而無需人為介入。
從這個例子,讀者一定會感到疑惑,「把保溫杯裝滿熱水」付諸行動,對人類是再容易不過的,而且幾乎是不需要用腦思考,尤有甚者,即使保溫杯的蓋子有不同的扣合方式,人類都可以很快的就觀察了解而適應,為什麼對計算能力超強的電腦而言是困難的?這就是莫拉維克悖論所持的觀點,也是長久以來困擾著機器人研究界的重大議題。想像我們每天的生活和工作(包含工廠產品製造),隨處都是這種從目標到行動的行為,如果每件事都要去替機器人規劃,其用途就非常侷限,無怪乎目前大部分的機器人,都還是在工廠執行事前規劃好且重複性的工作。
這個困擾在大語言模型的生成式AI技術突破後,似乎看到了解決的可能性。如果去ChatGPT問:「假設你是機器人,你怎麼把保溫杯裝滿熱水?」所得到的回答會讓人感到很神奇,它會很準確地列出所有的步驟:
1.定位保溫杯:使用視覺或定位系統確定保溫杯的位置,確保杯子是空的並且放在穩定的表面上。
2.檢查水源:確保有足夠的熱水供應,比如熱水壺或熱水機。
3.啟動熱水供應系統:如果需要加熱水,啟動熱水機或熱水壺,將水加熱到合適的溫度。
4.取水容器:抓取或操作熱水壺的手柄,確保穩固握住。
5.傾倒熱水:將熱水壺的嘴對準保溫杯的開口,緩慢傾倒,確保水流穩定且不溢出。
6.監控水位:使用感測器或視覺系統監控保溫杯的水位,確保不超過杯子的容量。
7.停止倒水:當保溫杯裝滿時,停止傾倒熱水,將熱水壺恢復到原位。
8.確保安全:檢查是否有任何水溢出或滴落,清理可能存在的水漬,確保環境乾燥且安全。
對機器人工程師而言,這些步驟距離機器人可執行的行動命令似乎相距不遠了。而且對於許許多多封閉式目標(Closed-end Target),也就是目標有清楚且可以被檢驗的產出,大語言模型都可以給出明確的執行步驟。可是仔細解析,這些文字描述的步驟到機器人的行動,仍然存在著許多問題需要解決,其中最關鍵的就是機器人的行為能力(Behavior)。
「行為」所定義的範圍很廣,這裡的行為指的是機器人面對其所處的環境,要達到某個目的時所需要執行的行動。例如上述步驟4,機器人如何確認熱水壺的種類並決定要怎麼穩固的抓取?怎麼確定是穩固的?又如步驟5,機器人如何控制其手部動作,使熱水以穩定且適當的流速倒入杯中?輝達的黃仁勳執行長在2024年Wired雜誌專訪時,樂觀看待人型機器人發展時下的註解(原文翻譯)[註3]。
「如果你可以生成文本,如果你可以生成圖像,你也可以生成動作嗎?答案可能是肯定的。然後,如果你可以產生動作,你就可以理解意圖並產生通用版本的關節動作。因此,人形機器人技術應該指日可待。」
這裡的動作,就是上述機器人的行為。基於大語言模型的成功,人類是否可以用同樣的手法建構大行為模型(Large Behavior Model;LBM),就是生成式AI的下一個挑戰。
大行為模型 算力需求龐大
如同LLM一樣,LBM需要大量且標記好的行為資料(包含與環境互動的紀錄),最直覺的方法就是示範學習(Learning by Demonstration)。史丹佛大學的團隊在GitHub上就展示了這個方法[註4],研究人員穿戴與機器人結構相同的教導器,遙控機器人執行各種動作,而機器人將此動作與攝影機影像同時錄製下來,就構成了可供訓練的資料,也就是訓練類神經網路,由影像資訊(環境感知)去產生運動命令,完成特定行為。乍看之下似乎沒什麼困難,但是訓練的目的不是要機器人複製動作,而是要認知這個一系列動作的意義,進而可以對類似的環境與工作生成相對應的動作。這種類似舉一反三的能力建構,就是示範學習要去研發的重點,電腦必須從錄製的感測與動作資訊,以及其結果進行認知的訓練。
認知的部分目前是借助快速發展的視覺語言模型(Vision Language Model;VLM)。VLM是從同步圖像和文字輸入中學習的多模態生成式模型,然後產生具各種意義的文字輸出。大型VLM的能力包括對影像內容的討論(看圖說故事)、透過文字指令進行影像辨識、視覺問答與文件理解等。一些VLM還可以捕捉影像中的空間屬性,例如定位不同的物體,以及其相對或絕對位置的資訊。
換句話說,VLM可以提供機器人透過攝影機,對環境、物體以及空間關係的認知。回到上述示範學習錄製的資料,就可以透過VLM產生文字描述,然後再建構一個類神經網路模型去學習此文字描述與機器人的動作的關係。採取這個策略最積極的就是Google RT-2計畫,Google稱此為視覺語言行動(Vision Language Action;VLA)。以這個技術策略去達到通用化是許多團隊競逐的目標,包含VLM本身的認知能力,產生的文字資訊是否足以對應行動的產生,如何泛用到不同的機器人結構等。
更重要的是,需要經過機器人實際操作的過程回授,來微調這個模型。因為機器人的動作是連續的,而且需要很高的精準度才能達到動作目標,所以VLM等模型要在回授過程中不斷計算產生即時反應,因此算力的需求很龐大。綜合上述,以目前晶片與電腦系統的速度和成本,短期內每台機器人擁有獨立運算的泛用化LBM幾乎不可能,這也產生怎麼結合雲端與邊緣運算的技術想像空間。
註1:Goldman Sachs Research, “Gen AI: Too much spend, too little benefit ? ” Jun. 25,2024.
註2:簡立峰,「專注兩大關鍵!小心台灣 AI 泡沫化」,遠見雜誌,2024 年 7 月4 日。
註3:”Nvidia Hardware Is Eating the World,” interview with Jansen Huang, Wired, Feb. 3, 2024.
註4:Mobile ALOHA,Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
(本文作者工研院副院長胡竹生,轉載自智慧自動化產業期刊,DIGITIMES林佩瑩整理報導)