智慧應用 影音
Microchip
ADI

讓MusicTalk訴說敲擊的故事

梅爾頻譜圖。

2024年10月6日,我到國家戲劇院觀賞朱宗慶打擊樂團擊樂劇場《六部曲》。打擊音樂水準極高,讓觀眾感受到洗滌心靈的音樂饗宴。國家戲劇院是一座智慧劇院,舞台背後設有巨型銀幕,能與表演者進行虛實結合的互動。表演過程中,銀幕上出現浮雲、瀑布、抽象光影等動畫。

感覺上打擊樂器與銀幕圖像較無即時地關聯。在我腦海中浮現的是各種打擊樂器的即時梅爾頻譜圖 (mel spectrogram)。

梅爾頻譜圖是一種變形的頻譜圖,常運用於語音處理和機器學習。它與頻譜圖類似,顯示音頻信號隨時間變化的頻率內容,但其頻率軸不同。我發展一套AI工具MusicTalk,其中一個功能可以即時分辨出一首樂曲中同時演奏的樂器種類。MusicTalk將樂器的聲音轉換為梅爾頻譜,並以特殊AI演算法分析,準確度接近95%,是迄今最準確的方法。我在開發MusicTalk時,研究許多打擊樂器的梅爾頻譜圖,因此在《六部曲》的演奏過程中,各種變化多端的梅爾頻譜圖不斷在我腦海中浮現。將抽象動畫與敲擊聲音連結並不容易,若能將敲擊聲音與科學結合,將更具意義。

第一位以科學系統化賦予敲擊聲意義的是奧恩布魯格(Leopold Auenbrugger, 1722~1809)。他是旅館老闆的兒子,在維也納大學接受醫學教育,深受Gerard van Swieten影響。1761年,他出版小書《新發明》(Inventum novum),成為以叩診法(percussion in the diagnosis)診斷胸部疾病的第一人。儘管傳說他的發現靈感來自童年敲打父親酒桶的經歷,但更可能的是他敏銳的音樂耳朵讓他能分辨出胸部病變過程中的音調變化。他描述各種病變如何導致叩診時音調轉變為不同音色,如「高音」(sonus altior 或鼓音)、「低音」(sonus obscurior 或模糊音)、或「鈍音」(sonus carnis percussae 或肉叩音)。這些發現後來得到臨床診斷的實證。

奧恩布魯格一生酷愛音樂,經常在家中舉行午後音樂聚會,莫札特 (Wolfgang Amadeus Mozart, 1756~1791) 一家也曾受邀參加。他的2個女兒都很會彈鋼琴,賓客們曾評論說:「她們兩人,尤其是姐姐,彈得非常好,並且極具音樂天賦。」

10年後,莫札特為薩爾茨堡(Salzburg)創作一些新歌劇,其中之一是日耳曼喜劇《煙囪清潔工》(Der Rauchfangkehrer)。該劇於1781年首次在維也納國家歌劇院上演,劇本正是由奧恩布魯格撰寫。奧恩布魯格的音樂藝術天分無庸置疑,能以極具創意的方式將器具的敲擊聲賦予科學 (醫學) 的意義。
奧恩布魯格的成就,影響我對利用敲擊工具(樂器)解釋科學現象的興趣。我開發出 AI 工具 WatermelonTalk,能將拍打西瓜的聲音分為4類,代表不同的成熟度,準確度高達94%,是迄今最精準的成熟度判定方法。

在聆聽《六部曲》時,我期望編劇者能充分利用如MusicTalk這類AI工具,以科學方式利用未來劇院的智慧銀幕,呈現敲擊樂器的特徵,使觀眾更能理解樂器所表達的內涵,進一步促進音樂與科技的深度結合。

 

奧恩布魯格(Leopold Auenbrugger, 1722~1809)。

現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。