訓練非英語AI模型 Meta專家：2大挑戰待克服

2023-09-28 13:19 中央社／加州孟羅公園27日電

疫情

國科會以Meta語言模型Llama為基礎，發展融合台灣元素的可信任人工智慧（AI）對話引擎，Meta專家今天在Connect大會回答中央社提問時表示，打造非英語的語言模型，需要克服詞彙量差異、預訓練學習率下降等2大挑戰。

Meta今天在美國加州總部舉辦Connect大會，為COVID-19（2019冠狀病毒疾病）疫情後首度恢復實體舉行，會中發表Quest 3頭戴式裝置、圖像生成模型Emu、結合直播功能的新一代智慧眼鏡，為元宇宙鋪路。Meta僅邀請全球不到百家媒體與會，中央社為唯一親臨現場的華文媒體。

在Connect主題演講後進行的媒體團訪時間，中央社記者提問，台灣政府部門使用Llama打造中文版AI對話引擎，Meta能否為相關研究者提供建議。Meta AI研究科學家安琪拉．范（Angela Fan）表示，打造非英語的語言模型，會面臨一些挑戰，其中之一是詞彙量（vocabulary size）差異。

安琪拉．范指出，如果某個語言模型的詞彙量是根據英語文本進行訓練，那麼未來使用其他語言訓練時，會發現詞元（token）分布方式不同。

她以英語為例，一個單字可能被分成2個詞元，但在另一種語言中的一個單字可能被分成6個詞元，這會對生成式應用帶來更多挑戰，因為詞元分布的任何差異，都可能導致模型輸出錯誤。在大部分時候，人們嘗試透過第二階段的預訓練（Pre-training）來改善相關問題。

不過，安琪拉．范提到，預訓練資料的多樣性也帶來另一種挑戰。在世界不同地區，人們關心不同的事情，如果主要使用英語資料訓練語言模型，能涵蓋的知識範圍將受限，影響模型輸出結果。就實務而言，大多數語言模型進行預訓練時，學習率都會逐步下降，必須做出更多調整，也是需要克服的問題。

疫情美國語言