智慧應用 影音
EVmember
Event
林一平
  • 國立陽明交通大學資工系終身講座教授暨華邦電子講座
現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。
讓MusicTalk訴說敲擊的故事
2024年10月6日,我到國家戲劇院觀賞朱宗慶打擊樂團擊樂劇場《六部曲》。打擊音樂水準極高,讓觀眾感受到洗滌心靈的音樂饗宴。國家戲劇院是一座智慧劇院,舞台背後設有巨型銀幕,能與表演者進行虛實結合的互動。表演過程中,銀幕上出現浮雲、瀑布、抽象光影等動畫。感覺上打擊樂器與銀幕圖像較無即時地關聯。在我腦海中浮現的是各種打擊樂器的即時梅爾頻譜圖 (mel spectrogram)。梅爾頻譜圖是一種變形的頻譜圖,常運用於語音處理和機器學習。它與頻譜圖類似,顯示音頻信號隨時間變化的頻率內容,但其頻率軸不同。我發展一套AI工具MusicTalk,其中一個功能可以即時分辨出一首樂曲中同時演奏的樂器種類。MusicTalk將樂器的聲音轉換為梅爾頻譜,並以特殊AI演算法分析,準確度接近95%,是迄今最準確的方法。我在開發MusicTalk時,研究許多打擊樂器的梅爾頻譜圖,因此在《六部曲》的演奏過程中,各種變化多端的梅爾頻譜圖不斷在我腦海中浮現。將抽象動畫與敲擊聲音連結並不容易,若能將敲擊聲音與科學結合,將更具意義。第一位以科學系統化賦予敲擊聲意義的是奧恩布魯格(Leopold Auenbrugger, 1722~1809)。他是旅館老闆的兒子,在維也納大學接受醫學教育,深受Gerard van Swieten影響。1761年,他出版小書《新發明》(Inventum novum),成為以叩診法(percussion in the diagnosis)診斷胸部疾病的第一人。儘管傳說他的發現靈感來自童年敲打父親酒桶的經歷,但更可能的是他敏銳的音樂耳朵讓他能分辨出胸部病變過程中的音調變化。他描述各種病變如何導致叩診時音調轉變為不同音色,如「高音」(sonus altior 或鼓音)、「低音」(sonus obscurior 或模糊音)、或「鈍音」(sonus carnis percussae 或肉叩音)。這些發現後來得到臨床診斷的實證。奧恩布魯格一生酷愛音樂,經常在家中舉行午後音樂聚會,莫札特 (Wolfgang Amadeus Mozart, 1756~1791) 一家也曾受邀參加。他的2個女兒都很會彈鋼琴,賓客們曾評論說:「她們兩人,尤其是姐姐,彈得非常好,並且極具音樂天賦。」10年後,莫札特為薩爾茨堡(Salzburg)創作一些新歌劇,其中之一是日耳曼喜劇《煙囪清潔工》(Der Rauchfangkehrer)。該劇於1781年首次在維也納國家歌劇院上演,劇本正是由奧恩布魯格撰寫。奧恩布魯格的音樂藝術天分無庸置疑,能以極具創意的方式將器具的敲擊聲賦予科學 (醫學) 的意義。奧恩布魯格的成就,影響我對利用敲擊工具(樂器)解釋科學現象的興趣。我開發出 AI 工具 WatermelonTalk,能將拍打西瓜的聲音分為4類,代表不同的成熟度,準確度高達94%,是迄今最精準的成熟度判定方法。在聆聽《六部曲》時,我期望編劇者能充分利用如MusicTalk這類AI工具,以科學方式利用未來劇院的智慧銀幕,呈現敲擊樂器的特徵,使觀眾更能理解樂器所表達的內涵,進一步促進音樂與科技的深度結合。 
2024/10/31
物聯網醫療復健機
中風是全球導致死亡和致殘的主要原因之一,其中由運動障礙引起的功能性殘疾是中風後常見的問題。約60%的中風患者在中風後失去行走能力,20%的患者在1年後仍無法獨立行走。恢復行走能力在中風康復中至關重要,直接影響患者的生活品質。傳統的物理治療和職能治療計畫,歷來支持中風後的神經和功能恢復,但結果往往難以預測。為改進康復策略,機器人輔助步態訓練(Robot-assisted gait training;RAGT)這種創新方法應運而生,專注於改善行走能力。RAGT透過重複特定任務,促進運動學習和功能改進。這項技術使患者能夠參與高強度的訓練,例如在10分鐘內完成300步,減少依賴物理治療師。結合物聯網技術,RAGT進一步強化中風後的神經和功能恢復。RAGT有2種方法:末端效應器法和外骨骼法。在末端效應器法中,患者的腳放在足板上,模擬步態的站立和擺動階段;在外骨骼法中,外骨骼裝置透過驅動裝置,在擺動階段彎曲髖部和膝蓋,並配合跑步機模擬站立階段。綜合研究深入探討這些方法的臨床、技術和監管層面的應用,為臨床醫生提供了有關機器人康復潛在恢復機制的寶貴見解。被動訓練模式和重力補償功能為處於急性或亞急性階段的中風患者提供早期康復,使他們能夠專注於運動控制。透過病歷查閱,收集參與者特徵、中風細節和合併症信息,同時透過腦部CT或MRI提供病變位置和中風類型的信息。為評估治療前日常生活活動(ADLs)的獨立性,須對病人進行多項評估,包括Berg平衡量表(BBS)、Brunnstrom階段、匹茲堡睡眠品質指數、Fugl-Meyer下肢功能評估(FMA-LE)和總分(FMA-total)。在慢性中風患者的研究中,常使用POMA的行動性能評估來衡量平衡和步態,並使用BBS來測量姿勢控制和平衡。這些參數在評估和定制康復干預計畫以達到最佳結果。下肢運動功能主要涉及平衡和步態,這些元素是相互關聯的,在中風後經常下降。BBS以其在衡量平衡功能中的高信度和重測信度而著稱,特別適用於中風倖存者的評估。步態分析是下肢運動功能的重要評估工具,推薦用於評估和增強中風後的行走能力。結合BBS和步態分析可全面評估平衡和步態,作為衡量康復干預效果的重要參數。這一綜合方法提供了對患者在恢復行動能力和執行日常任務進展的全面理解。利用物聯網技術,我們在中國醫藥大學開發出一套系統MRGtalk,這是一款針對中風及神經障礙引起的下肢康復的應用輔助前端系統,提升老年人的肢體活動和身體健康。MRGtalk使用普適計算(Pervasive Computing)進行下肢康復,強調肌肉力量的改善和行走能力的增強,包含:1. 增強感官反饋的三點支撐設計促進全負重的站立踏步訓練;2.根據個人能力,可通過具有網頁瀏覽器的固定或移動設備遠程調整訓練參數(步長、頻率、軌跡和持續時間);3.多患者獨立訓練模式優化時間和精力的使用。作為應用輔助前端,MRGtalk輸出關鍵的訓練參數。臨床實驗顯示,其在改善中風患者的下肢肌肉功能、平衡和行走能力方面具有良好效果。MRGtalk簡化RAGT過程,減少了治療師提供手動輔助的需求,是資通訊技術運用於復健的一個典範。
2024/9/25
透過物聯網技術 搶救小豬大作戰
在豬養殖業中,仔豬死亡率是一個需要仔細處理的嚴重問題。特別是,在頭三天裡,有7.5%的仔豬會被母豬意外壓死。平均每天有1.2頭仔豬被母豬壓死。具體來說,仔豬壓死可能發生在母豬躺下或翻身時。這樣的事故更容易發生在較弱的仔豬身上,因為較弱的仔豬更有可能靠近母豬吸乳。此外,當產房溫度較低時,仔豬也會更靠近母豬保暖。因此,為了防止仔豬被母豬壓死,我們應該避免仔豬餓和受冷。或者,可以使用產房籠來限制母豬的姿勢變化,並為仔豬提供更安全的空間。當一頭仔豬被壓死時,養豬者必須在太遲之前迅速採取行動。一位技術嫻熟的養豬者可以通過仔豬的尖叫聲來檢測仔豬的死亡,並強迫母豬站起來或將被壓死的仔豬與母豬分開。然而,監控產房籠對養豬者來說是一項全天候的工作,而勞動成本過高。物聯網技術可由麥克風感應器中收集豬的聲音數據,並在仔豬被壓死時自動採取行動。我的研究團隊利用 IoTtalk 的物聯網設備管理平台,提出了 PigTalk 技術,來解決仔豬被壓死的問題。透過對產房收集的聲音數據進行即時分析,PigTalk 檢測是否有任何仔豬尖叫事件發生,並自動啟動母豬警報器進行應急處理。PigTalk利用一種音頻轉換方法來預處理原始聲音數據,並在機器學習中利用最小-最大標度化來檢測仔豬的尖叫聲。PigTalk以上述數據預處理方法與機器學習模型微妙的參數設置將仔豬尖叫檢測準確度提高到了 99.4%,比以前的解決方案(最高達 92.8%)更好。PigTalk 可以在 0.05 秒內拯救 99.93% 的仔豬。這樣的結果已在商業化的產房得到驗證。PigTalk 是一種新方法,可以自動減輕仔豬被壓死的情況,這是過去無法實現的。PigTalk提供一個遠距操控的GUI (graphical user interface),豬場飼主可用手機控制強迫母豬站起來的致動器(Actuator)。圖(a)提供的致動器包括振動地板、氣流噴射、灑水系統和電極(有些不太人道,並未真正實作)。當豬場飼主收到警報時,他/她通過手機觀看從攝像機 (圖(b)) 發送來的視頻,並可操作攝影機放大影像,清楚觀察(圖(c)) 。如果仔豬的尖叫聲不是由於被壓死引起的,那麼養豬者可以遠程停止致動器 (圖 (f))。如果確實發生了仔豬壓死,則他/她應該跑到籠子處理這個仔豬壓迫事件。養豬者可以選擇打開或關閉致動器 (圖 4 (a)),當危險情況得到緩解時停止致動器。在PigTalk中,環境致動器例如加熱燈可以手動打開/關閉 (圖 4 (d)),或者在溫度變化時自動打開/關閉 (圖 4 (e))。PigTalk搶救小豬大作戰是運用AI及物聯網技術的很好範例。關於技術的詳細信息,請參閱W. E. Chen, Y.-B. Lin, L.-X. Chen (2021, June). PigTalk: an AI-based IoT Platform for Piglet Crushing Mitigation. IEEE Transactions on Industrial Electronics, 17(6): 4345-4355。 
2024/8/20
妖姬的跳頻
台灣中山科學研究院在無線通訊的跳頻技術(Frequency Hopping)上有很深的著墨。這項技術能有效地防止敵人的無線電干擾。今日烏俄戰爭中,高檔的無人空中載具都充分運用跳頻技術,讓士兵能遠距操作無人機,不受干擾。很多人可能想像不到,跳頻技術的發明人是電影《霸王妖姬》(Samson and Delilah)的女主角「妖姬」海蒂·拉瑪(Hedy Lamarr, 1914~2000)。這部電影獲得第23屆奧斯卡金像獎。拉瑪發明跳頻技術的動機並非要運用於空中的飛機,而是水中的魚雷(Torpedo)。第一款魚雷是白頭魚雷(Whitehead Torpedo),製造於1866年,以其發明者懷海德(Robert Whitehead)命名。過去的漂移水雷必須被動等待敵艦撞上,而白頭魚雷內建動力,可主動攻擊敵人目標。1895年的甲午戰爭,日本帝國海軍以魚雷重創清朝北洋艦隊定遠號戰艦,證明了魚雷以小博大的實際戰果。日俄戰爭期間,俄羅斯帝國海軍與日本帝國海軍互相使用魚雷攻擊敵方艦艇。然而軍事專家在日俄海戰過程中發現,魚雷實在是無甚作用。日俄共發射近600枚魚雷,只擊沉數艘船艦,其餘80多艘船艦是被傳統炮火擊沉。特斯拉(Nikola Tesla;1856~1943)很早就發現魚雷的缺點,向美國軍方遊說無線電導引魚雷的可行性,但遭到拒絕。特斯拉的想法超前軍方太多,而日俄戰爭證實特斯拉建議的必要性。美國海軍恍然大悟,開始在第一次世界大戰時研發無線電控制的魚雷,稱之為哈蒙德魚雷(Hammond Torpedo)。1930年代的拉瑪白天忙著拍電影,晚上則一直想點子,希望幫助盟軍打贏第二次世界大戰;她向休斯(Howard Hughes, Jr., 電影《鋼鐵人》中男主角爸爸的原型)提出飛機機翼的設計,並被休斯採用;她也構想出發泡片劑,讓在前線作戰的軍人將片劑融入水中,就可以變成可樂暢飲。1940年,拉瑪在宴會上遇到鋼琴家安瑟(George Antheil, 1900~1959)。在鋼琴邊閒聊之際,拉瑪忽然想到一個祕密通訊的方法,可發展出抵擋敵人電波干擾魚雷的控制。當時的無線通訊使用固定頻率,除了容易被攔截干擾外,還時常有斷訊問題。拉瑪看著安瑟手邊的琴鍵,靈機一動:「就像彈奏鋼琴的不同琴鍵一樣,時常改變通訊的頻率就可以達到防止敵人電波干擾的目的。」安瑟按照拉瑪的想法,藉由他所熟悉的自動鋼琴,開發出一個能夠自動編譯密碼的模型,也就是今天我們熟悉的跳頻技術。這項技術不但擴大通訊量,並且成功將通訊內容加密,並於1942年取得美國專利。拉瑪將這個貢獻提供給美國軍方。軍方不認為電影明星和鋼琴家的奇思妙想能夠真的實現,勸拉瑪將發揮她其他方面的天分,利用她的美貌幫軍方募款。拉瑪只好將她偉大的發明擱置一旁,到處宣傳,幫政府募到2,500萬美元的戰爭債券。拉瑪說:「希望和對未來的好奇心,似乎比保證的事物更好。這就是我的方式。未知的事物對我總是如此有吸引力……現在依然如此 (Hope and curiosity about the future seemed better than guarantees. That's the way I was. The unknown was always so attractive to me... and still is)。」
2024/8/7
不學AI不會輸在起跑點?
人工智慧(AI)對城市發展有著深遠的影響,一般市民和地方產業應該了解如何運用AI。在新竹縣政府和新竹縣議會指導下,新竹縣工業會支持成立了AI產業發展聯盟。希望能全面提升新竹縣縣民、企業和公部門對AI產業轉型的認識。聯盟成立啟動儀式上,所有的音樂、影片和開場歌曲都是由AI數位生成,參與的民眾對於AI的發展潛力和表現感到既驚艷又大開眼界。我在大會演講指出,AI技術發展迅速且多元,平均每兩至三個星期就有新技術產出。因此,我希望集結聯盟的力量,幫助大家找到產業所需的AI技術,並降低AI機器設備的成本。為了吸引聽眾的注意力,我在演講的投影片上寫道:「不學AI不會輸在起跑點,而是會死在起跑點。」這句話引發了觀眾的哄堂大笑,但也讓大家認真思索AI對他們個人的影響。一般群眾分不清判別式(Discriminative)AI和生成式(Generative)AI,因此我以自己的研究為例,說明兩者的區別。判別式AI根據輸入數據進行分類或標籤,經過訓練後能識別每個類別特有的模式和特徵,並根據這些模式進行預測。而生成式AI則著重於構建能生成與訓練數據相似的新數據的模型,這些模型學習訓練數據的潛在概率分佈,並從中生成新樣本。了解不同AI技術本質,就更清楚如何運用這些技術。新竹縣AI產業發展聯盟將致力於解決縣內重要議題,例如提升新竹縣的數位治理,以及幫助中小企業理解並促成AI轉型。未來,聯盟將通過舉辦講座、企業參訪、研討會等活動,甚至是個別企業諮詢和技術小聚,來媒合技術與需求,同時協助企業爭取中央的計畫補助。新竹縣政府拼經濟是首要工作,而AI更是重要的發展項目,公部門的科技治理應時時貼近民意,透過AI的智能服務,讓民眾生活更加美好。今年暑期7月份的AI課程在短短不到一周的時間內便報名爆滿。未來將針對不同產業需求,加開相關課程,例如勞工如何運用AI科技、如何通過AI改善愈來愈壅塞的交通問題等。甚至將引進認證課程,讓企業能深入了解AI轉型的技術。歡迎有興趣的企業夥伴一同加入,共同努力發展先進的縣市智慧應用。
2024/7/11
雷達的趣聞
烏克蘭與俄羅斯戰爭中使用的雷達技術玲瑯滿目。這些技術涉及監視雷達、防空雷達,以及由雙方部署的戰場監視系統。這些雷達系統用於偵測飛機、導彈或地面活動的系統。這些雷達技術是哪些厲害人物發明的?麻省理工學院輻射實驗室在第二次世界大戰時期將電磁波的研究發揮得淋漓盡致,對於雷達(Radar)的發展有不可磨滅的貢獻,也產生出多位諾貝爾獎得主,包括創造「核磁共振」這個名詞的拉比 (Isidor Isaac Rabi, 1898~1988), 在1937年確實驗證原子核的角動量,而於1944年獲頒諾貝爾物理獎。薄賽爾 (Edward Purcell, 1912~1997) 與布洛赫 (Felix Bloch, 1905~1983)因發現在外加磁場下,所有物質只要是有奇數個質子或中子皆可以形成共振現象,能發射特定射頻信號,而在1952年榮獲諾貝爾物理獎。這項發現早期應用在化學物質的檢測上。薄賽爾得諾貝爾獎時好像只有發表6篇論文。阿瓦雷茲 (L.W. Alvarez, 1911~1988) 因製成第一部質子直線加速器,以及對基本粒子研究發展的貢獻,而榮獲諾貝爾物理獎。冉濟(Norman F. Ramsey, 1915~2011) 發展出分離的震盪場方法及其在氫邁射和其他原子鐘上的應用。第二次世界大戰期間列強的戰爭需求使得先進科學技術得以快速的發展,於是雷達就出現了。大戰期間,德國空軍老是跨海轟炸倫敦,讓英國煩不勝煩,急需一種探測空中金屬物體的技術,能在反空襲戰中幫助搜尋德國飛機。雷達的最早構想來自於沃森瓦爵士 (Sr. Robert Watson-Watt, 1892~1973),希望與美國攜手合作,共同打擊德軍。於是上述這群偉大科學家的電磁波研究集中火力,在戰爭時期發展出地對空、空對地搜索轟炸、空對空截擊火控,以及敵我識別功能的雷達技術,德軍聞之喪膽。戰後雷達有多項民生應用。例如微波爐(所謂的「雷達烤箱」)深受家庭主婦喜愛;雷達測速器則成為汽車超速者的剋星。沃森瓦開車超速曾被雷達測速器抓到罰錢,對於自己推動這項發明的應用,反讓他自食惡果,啼笑皆非。 
2024/7/4
西瓜熟了沒?拍打西瓜的AI
在西瓜的商業生產過程中,農民必須在收穫後迅速評估水果的成熟度,根據可食用時間分類,以減少損失。這個過程提升市場銷售和生產力,但傳統的西瓜測試方法通常不可靠。當你購買西瓜時,成熟度測試是一個有趣的「儀式」。一般家庭主婦將西瓜成熟度分類為2個等級:未成熟和成熟;農夫在西瓜田的辨識則分為3個等級,包括未熟類(不要碰)、成熟類(作為商品選擇)和過熟類(需要丟棄)。許多人分享他們測試西瓜成熟度的經驗。其中最具創意的一個方法是使用稻草技術,將一根稻草水平放在西瓜上。成熟的西瓜會使稻草旋轉45度,而未熟的西瓜則保持靜止。這種說法認為稻草的運動是由西瓜內部的電力作用引起的。我多次嘗試這種方法未果,只好放棄,改變方向,研究其他方法。雖然像拍打、顏色檢查和計日等手動技術具有實用性,但其準確性依賴於主觀判斷。目前,普遍使用的方法是通過拍擊聲音來評估西瓜的成熟度。這種拍打技術出奇地具有邏輯性,因為產生的聲音提供了足夠的成熟度指標。然而,對這些聲音的個人解讀受主觀經驗和傳統智慧的影響。我思考是否能利用AI及物聯網(IoT)來進行大量快速的西瓜成熟度的拍擊評估。在我研究團隊的辛勤工作後,提出WatermelonTalk技術。這是一個基於物聯網的即時深度學習平台,專為聲學西瓜測試設計。我們還引入了「拍打合奏\(tapping ensemble)的概念,顯著提升預測準確性,這在文獻中尚未出現。我們邀請農友種苗公司的專家將343個品種的1,698個西瓜按成熟度分類,利用深度機器學習,首次探討四級測試,其中將三級測試中的未成熟類進一步細分為未成熟類和半熟類。比起未成熟類,農民更關注半熟類,須確保對其進行比未成熟類更頻繁的測試。這樣做是為了防止這些半熟西瓜在下一次測試時過熟。我們的研究在三級測試中達到97.64%的測試準確性,而在四級測試中達到94.07%的顯著準確性,這是聲學框架中的最佳結果。三級測試可供消費者在購買西瓜時使用,而四級測試則作為農民專業生產的工具。西瓜有不同的成熟程度,選擇適當的成熟度會大大影響西瓜的味道和質地。在收穫後迅速評估水果的成熟度,通過可食用時間進行分類,可顯著降低收穫後的損失。因此,WatermelonTalk幫助農民仔細衡量西瓜的成熟度,提升市場銷售和生產力,彰顯AI對日常生活的貢獻。關於技術的詳細信息,請參閱Yun-Wei Lin, Yi-Bing Lin, Wen-Liang Chen, Chia-Hui Chang, and Han-Kuan Li, Watermelons Talk: Predicting Ripeness through Tapping, 將刊登於IEEE Internet of Things Magazine。
2024/6/24
AI解析音樂與尼采如是說
我以AI物聯網分析音樂,並利用其結果來驅動樂器的演奏,稱之為MusicTalk。接下來就想訓練大型語言模型(LLM),將文字與音樂互換,再將音樂用來詮釋影像。最大的應用是電影配樂。要將音樂智慧化以配合影像,科技人必須對音樂的內涵有深入的認識。例如電影的配樂最讓人印象深刻的是1968年電影《2001太空漫遊》(2001: A Space Odyssey)中用史特勞斯(Richard Strauss, 1864~1949)演繹《查拉圖斯特拉如是說》(Thus Spake Zarathustra)這首樂曲的開場。《查拉圖斯特拉如是說》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同於一般哲學作品,而是以散文詩完成。尼采曾表示這本書實際上是一部「交響曲」,以一種偽聖經風格撰寫,它包含許多含糊不清且充滿詩意的神秘箴言。我沒讀通這本書,膚淺了解其主要思想是,人類應該擁抱生活、自然、身體和物質存在,包括其中的樂趣和痛苦,而非尋求超越或來世的精神世界。生活即使伴隨著所有的苦難,還是值得為了它的存在而生活。許多藝術家和作曲家受到《查拉圖斯特拉如是說》的影響,但很少有人像史特勞斯那樣深切融入尼采的哲學觀點。1896年時32歲的史特勞斯開始創作 《查拉圖斯特拉如是說》樂章。當時尼采因三期梅毒的感染,已精神失常。史特勞斯將自己作品的各個部分以尼采書中不同章節命名。他嘗試將尼采抽象的文字清晰地翻譯成同樣抽象的器樂音樂。該作品在完成後幾個月內進行首演,其華麗的編曲、複雜的音樂紋理、大膽的和諧和具爭議性的主題,引發激烈的批評和喝采。《2001太空漫遊》使用這首樂曲開場為外太空的日出配樂,符合史特勞斯描繪尼采書中開場的山頂日出情境。開場中的小號旋律呈現「自然」或「世界之謎」動機;它在整個樂曲中反覆出現,象徵著大自然的冷漠和神秘性: 在強烈的開場之後,號角的回應是一個宗教式的旋律,由分散的弦樂器精彩演奏。開場時音樂從柔和到逐漸增強,象徵著人類對一個完美、天堂般、精神上的自然替代的渴望。有了《2001太空漫遊》的例子,我嘗試以MusicTalk反推史特勞斯的音樂,想找出他想表現的意涵,卻遭遇極大困難。史特勞斯曾經開玩笑地說,他可以在音樂中訴說一切,即使人們無法理解,我就是那位無法理解的人,妄想以物聯網駕馭史特勞斯的音樂。《查拉圖斯特拉如是說》太過深奧,AI處理不來。我決定放棄好高騖遠的做法,由小朋友聽得懂的《彼得與狼》訓練MusicTalk,總算有初步成果。這是一個基於物聯網的創新音樂樂器檢測系統。MusicTalk 引入了一種名為亮度特徵基礎Patchout的新穎機制,以提高樂器檢測的準確性,並超越現有解決方案。MusicTalk首次系統性地將單個樂器檢測器作為物聯網設備進行整合,為與其他物聯網設備的交互管理提供有效的方法。我們在MusicTalk中引入一個通用音頻整形器,融合各種音樂公開數據集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。我們利用Grand-CAM分析Mel-Spectrograms來優化 MusicTalk中ViT Patchout和CNN的組合,以實現前所未有的準確率。例如,小提琴檢測的精確率和召回率分別達到96.17%和95.77%,這是所有方法中最高的。此外,MusicTalk 的另一個優勢在於其基於物聯網的視覺化能力。通過將樂器檢測器作為物聯網設備整合,MusicTalk能夠使用動畫Avatar來無縫地視覺化歌曲。透過《彼得與狼》為例的案例研究,我們證明,改進的樂器檢測準確性增強音樂的視覺敘事效果。與先前的方法相比,MusicTalk在這首歌曲上的F1分數提高12%。然而,我念念不忘的是,我們訓練AI模型,何時能如同史特勞斯,了解尼采的想法。MusicTalk仍有很大的改進空間。 
2024/5/27
論AI的自由與約束
在人工智慧(AI)迅速發展的環境中,有關倫理問題以及可能限制其發展的辯論變得日益突出。透過密爾(John Stuart Mill, 1806~1873)的作品《論自由》(On Liberty),我們可以探索合理限制AI發展的觀點,強調在合理的範圍內,個體自由、進步和追求知識的重要性。密爾的《論自由》被嚴復翻譯為「群己權界論」,奠定理解社會控制和個人自由平衡的基礎。我試圖將密爾的哲學應用於當前AI發展的時代背景,以了解如何界定群己權。密爾主張自由開放的思想交流(Self-Development),或「思想市場」 (marketplace of ideas),是社會進步的重要因素。在AI發展的領域中,不受限制的資訊和創新概念流動促進多元觀點環境,有助於知識的成長。密爾強調個體自治(Individual Autonomy)。正如個體應該自由追求自己的興趣和自我發展,AI系統作為人類創造力的延伸,應賦予演進和適應的自主權,以改善人類生活並應對複雜社會挑戰。AI的發展改善人類生活,並增強應對複雜社會挑戰的能力。在此過程中,必須尊重使用者的個體權益,並促進社會和諧。密爾的傷害原則主張(The Harm Principle),限制個體自由的唯一理由是防止對他人造成傷害。密爾的哲學也告訴我們須負責任地謹慎開發AI系統,遵從道德準則並優先考慮人類福祉,讓其發展不會產生本質性的傷害。在AI算法的訓練中,如果基於不公正的資料集或缺乏多樣性而導致歧視性結果,則應限制這類不公平和歧視性的AI應用,確保考慮到社會的多樣性。然而,我們很難限制AI算法,避免其誤入歧途。 可行的方法是在AI晶片的設計中,直接加入艾西莫夫(Isaac Asimov, 1920~1992)的機器人三定律(Three Laws of Robotics),並在晶片製成過程中,將其直接寫入硬體。密爾警告多數的專制(The Tyranny of the Majority),強調壓制少數意見的危險。例如社交媒體平台的AI算法過度強調某一特定觀點,可能形成資訊泡泡(filter bubble),多數用戶僅看到和接觸到相似的意見和觀點。這樣的專制可能使得不同意見的少數群體的聲音被忽視,並進一步加劇社會的分裂和不理解。密爾倡導緊密連結社會進步與知識和創新 (Societal Progress and Innovation) 的追求。AI是人類巧思的體現,從醫療到教育等各個領域實現變革性的進步。然而,AI發展也必須有序權界,社會才會健康的前進。密爾的《論自由》為深入探討AI發展提供重要的倫理框架,強調擁抱個體自由、思想市場和知識追求的原則,是推動人類進步的核心價值。然而,在引導AI發展時,必須謹慎遵循負責任的道德原則。我們可以探索合理限制AI發展的觀點,引導未來AI的方向,確保其符合人類整體利益,並實現可持續、負責任且對人類有益的發展。
2024/5/14
等待AI果陀
2024年的台灣國際科展邀請我進行大師講座,分享AI「做中學」。生成式AI(generative AI)的出現,對人文及科學會造成不小影響,很多高中老師避免思考生成式AI對他們專業的影響。生成式AI開始侵襲某專業時,專業人士難免有抗拒之反應。過去對「專業」無條件的接受,似乎是台灣學校教育的普世價值,今日,這種執著很危險。當生成式AI輾壓人類的專業時,或許正是我們進行反思的最好時刻。專業知識的灌輸並不足以培育完整的個體。通過專業教育,雖然可以訓練一個人成為實用的工具,但不能保證他能成為一個和諧發展的人。培養學生對價值觀的理解和情感上的投入更為重要。他們需要具備對美和道德的敏銳辨識力,以建立更全面的個人發展。否則,即便擁有豐富的專業知識,可能只是像一隻經過良好訓練的狗。生成式AI最擅長學習專業,更容易勝過人類,被訓練成為比人類更厲害的機器狗。全盤接受「專業」不對,完全臣服於「生成式AI」也不妥。要避免被AI取代,必須超越專業訓練的思維,思考自己本業能更進一步創造的價值。這個價值是甚麼,會隨領域而不同,只能各自嘗試體會。貝克特(Samuel Beckett, 1906~1989)說: 「嘗試過、曾經失敗過, 沒關係。 再試一次、 再次失敗,我們會失敗得更好。」這是我們面對AI時代的狀況。必須「我無法繼續下去,但我會繼續。」貝克特是上世紀五十年代「荒謬劇場」的主要作家之一。「荒謬劇場」主要成員是歐洲劇作家,以荒謬小說戲劇而聞名,探討當人類失去存在目的時會發生什麼,展示從邏輯溝通到非理性和不合邏輯,最終導致沉默的過程。貝克特於1969年獲頒諾貝爾文學獎,表彰他以小說和戲劇的形式,在現代人的貧困中獲得卓越(in the destitution of modern man acquires its elevation)。貝克特的許多作品都聚焦於人類在生活中無法克服的荒謬情境,包括《墨菲》(Murphy;1938年)、《等待果陀》(Waiting for Godot;1953年)、《克拉普的最後錄音》(Krapp’s Last Tape ;1958年)和《幸福時光》(Happy Days ;1961年)。 這幾本書很值得年輕學子閱讀,從中尋找AI造成人類貧困時代(destitution)的生存之道(elevation)。年輕人可能迷惘於等待何種AI果陀,但千萬不要氣餒躺平。馬克吐溫如是說: 「 二十年後,你將會感到更多的失望。你會對於未做的事情感到遺憾,而不是對於你已經做過的事情。這意味著,要避免這種結果,你必須擺脫阻礙你的限制。遠離安全的港灣,投身於狂風肆虐之地。探索、夢想並勇往直前。」 在AI時代,必須如此。《等待果陀》的果陀是何物,貝克特沒揭曉答案,因此眾說紛紜。等待果陀,時光易逝。布朗寧(Robert Browning)說: 「和我一起變老!最好的尚未來到,……青年不過展現人生一半:相信上帝,看見所有,也不要懼怕!!」在AI時代讀此句子,更有感觸。我希望,年輕的學子終能找到他們的AI果陀。 
2024/4/29