Meta再度開源AI語言模型「一言不漏」直譯200種語言

2022-07-07 18:06

聯合新聞網／ INSIDE

「NLLB-200」是一套不經由中介語言、支援200種語言直接互譯的的翻譯模型。Meta 表示，對比先前的研究，這套最新的模型可以提升44%的翻譯品質，尤其是部分非洲與印度系語言的精準度更提高了70%以上。

世界上有多少種語言？根據國際標準ISO 639-3的統計，包含方言全世界已有超過7000種語言被確認。科技的力量必然還力有未殆，但平台業者Meta對於征服語言再次展現雄心，6日宣布，將開源2月發表「No Language Left Behind（不遺漏任何語言）」專案計畫的AI語言模型「NLLB-200」。並將提供20萬美金獎助金給採用這套模型的研究人員或非營利組織。

「NLLB-200」是一套不經由中介語言（例如先將中文翻譯成英文、再由該英文結果翻譯成其他語言）、支援200種語言直接互譯的的翻譯模型。Meta表示，對比先前的研究，這套最新的模型可以提升44%的翻譯品質，尤其是部分非洲與印度系語言的精準度更提高了70%以上。

科技媒體The Verge引用德國慕尼黑大學計算語言學（computational linguistics）專家Alexander Fraser說法，「其最主要的貢獻在數據，重點在於有『100種全新語言』（被該模型支援）」。許多商業工具不支援的低資源語言（low-resource languages），也就是少於百萬人口使用的語言。而這是「NLLB-200」試圖處理的最主要課題。

該模型使用Meta於1月發表、與NVIDIA共同開發的超級電腦「AI Research SuperCluster（RSC）」進行Training。Meta在該專案的AI科學家Angela Fan表示，這個模型也將應用在支援維基百科（Wikipedia）的編輯者將編輯項目翻譯成其他語言。另外，開發該模型所使用的技術，很快的也會整合進Meta的翻譯工具。

儘管The Verge的報導也提及一些低資源語言使用者的擔憂，認為若透過科技生成更多低資源語言的文本（例如維基百科或其他教育文本），可能會影響到該語言的使用者自行用自己的語言建置文本的動力。但總體來說，Alexander Fraser教授表示，「Google、Meta 以及Microsoft等公司都致力於低資源的機器翻譯（machine translation），這是一件好事。」

Meta認為，建構一個可以支援多國語的技術，對於人們在元宇宙 有重要意義，因為「沈浸式體驗有助於民主化」、「可讓全球更多人進入到元宇宙」。

《本文作者湯皓茹，原文刊登於合作媒體INSIDE，聯合新聞網獲授權轉載。》

📌 數位夯什麼？快來看看