香儂的智慧

林一平
2024-03-05
分享
Line

香儂（Claude Shannon, 1916～2001）被譽為資訊理論之父。圖靈（Alan Turing, 1912～1954）則被稱為計算機科學之父。

1943年，香儂和圖靈相遇於紐約市的貝爾實驗室。儘管他們的研究題目不同，他們討論彼此的工作，其中包括有關圖靈的「通用機器」。圖靈相當驚訝，香儂在一片程式碼和計算機的海洋中，將藝術和文化視為數字革命不可或缺的部分，將之稱為「數字DNA」。香儂在1943年告知圖靈夢幻般的想法，如今已經成為現實，因為所有媒體都以數位化呈現，涵蓋數百萬的「文化事物」和龐大的音樂收藏。

香儂在藝術、訊息和計算之間建立的早期聯繫，直觀地描繪我們今天正在經歷的未來。

圖靈在1950年發表論文〈計算機與智慧〉（Computing machine and Intelligence），首次談到人工智慧（AI），並提出「圖靈測試」，為資訊研究領域創建智慧設計的標竿。圖靈測試說，如果一台計算機能夠欺騙人類相信它是人類，那麼它就應該被稱為智慧計算機。香儂則直接訂出機器學習的目標: 「創造出擊敗世界冠軍的象棋程式；撰寫出能夠被知名文學期刊選用的優美詩歌；編寫能夠證明或反駁黎曼猜想（Riemann hypothesis）的數學程式；設計一款收益超過50%的股票選擇軟體。」今日，香儂的第一個目標已在2017年由AlphaGo達成。

機器學習常見的做法，是將隨機事件相關聯的預期資訊量（expected amount of information）加以量化，並衡量概率分布之間的相似度。今日則被用作衡量概率分布訊息內容的指標，則是香儂提出的資訊熵（Shannon entropy）。

香儂熵背後的基本概念是所謂事件的自資訊（self-information），有時也稱為驚奇性（surprisal）。

自資訊的直覺是這樣的。當觀察到一個不太可能發生的隨機事件時，我們將其與大量訊息相關聯（這代表當不太可能發生的事件發生時，我們獲得極大的資訊量）。相反，當觀察到一個很有可能的結果時，我們將其與較小的資訊量相關聯。將自資訊視為「事件發生會造成我們多大的驚奇」非常有幫助。例如，考慮一個始終會落在正面的硬幣。任何硬幣投擲的結果都是完全可預測的，我們永遠不會對結果感到驚訝，這意味著我們從這樣的實驗中獲得的資訊為零。換句話說，其自資訊為零。

如果硬幣的落地面的隨機性增加，則每次投擲硬幣時都會有一些驚奇，儘管超過50%的時間我們仍然會看到正面。因此，自資訊大於零。最大的驚奇量是在硬幣是公平不偏的情況下獲得的，即落在正面或反面的機會都是50%，因為這是硬幣投擲結果最不可預測的情況。

基於上述非正式的需求，我們可以找到一個合適的函數來描述自資訊。對於一個具有可能值 x1, . . . , xn 和概率質量函數 P（X）的離散隨機變量 X，任何介於0和1之間的正單調遞減函數都可以用作衡量資訊的指標。還有一個額外且重要的性質，那就是獨立事件的可加性；兩次相繼的硬幣投擲的自資訊應該是單次硬幣投擲的兩倍。對於獨立變量來說，這是有意義的，因為在這種情況下，驚奇或不可預測性的數量變為兩倍。

藉由上述特性，香儂熵被應用於測量與一組概率相關的不確定性或資訊內容。香儂熵通常用於決策樹（decision tree）和其他AI模型，以量化數據集的不純度或混亂度。例如在決策樹算法中，香儂熵用作在每個節點上對數據進行分割的依據。目標是最小化熵，熵較低的節點被認為更「純粹」或更具資訊。為每種可能的分割計算熵，選擇導致熵最大程度減小的分割。這個過程在決策樹不斷增長的情況下進行遞歸性地重複，得到我們想要的答案。

香儂在1948年提出資訊熵的概念，影響到80年後的今日機器學習的發展，真奇人也。

香儂（Claude Shannon, 1916～2001）。

林一平
國立陽明交通大學資工系終身講座教授暨華邦電子講座

現為國立陽明交通大學資工系終身講座教授暨華邦電子講座，曾任科技部次長，為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬，發展出一套物聯網系統IoTtalk，廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元，喜好藝術、繪畫、寫作，遨遊於科技與人文間自得其樂，著有<閃文集>、<大橋驟雨>。