跟上ChatGPT浪潮 全球第一款繁體中文語言模型開放測試 智慧應用 影音
TI(ASC)
Event

跟上ChatGPT浪潮 全球第一款繁體中文語言模型開放測試

  • 劉憲杰台北

聯發科攜手中研院、國教院打造全球首款繁體中文AI語言生成模型。符世旻攝
聯發科攜手中研院、國教院打造全球首款繁體中文AI語言生成模型。符世旻攝

由聯發科集團轄下的前瞻技術研究單位聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊,今日開放全球第一款繁體中文語言模型到開源網站提供測試。

本次公開釋出以開源語言模型BLOOM開發的繁體中文大型語言模型(large language model),比目前開源可用的最大繁體中文模型大1,000倍,所使用的訓練資料也多1,000倍。

該模型已公開讓外界下載,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。

聯發創新基地負責人許大山博士表示:「此次結合中研院及國教院,成為台灣極少數能訓練大型語言模型的團隊,既發展自主訓練大型人工智慧模型的能力,也讓繁體中文的大型語言模型研究及應用更為普及。」

開放原始碼釋出的大型語言模型,目前多數仍以英文為主要優化的對象,繁體中文的語言模型相對不足。為此中央研究院詞庫小組在2019年開發並公開BERT和GPT-2的繁體中文優化版本,但是因為資料量的差距,這些模型與主流的大型語言模型差距越來越大。

為了建立該項語言模型,國家教育研究院提供了大量高品質的繁體中文語料,作為主要的訓練材料。聯發創新基地則建置了訓練的硬體環境,制訂各種符合國際標準的繁體中文評量指標,收集更近期的語料,並對模型進行能更有效讀懂使用者的指示的特別訓練。

責任編輯:陳奭璁