18+

Meta再度開源AI語言模型 「一言不漏」 直譯200種語言

「NLLB-200」是一套不經由中介語言、支援200種語言直接互譯的的翻譯模型。Meta 表示,對比先前的研究,這套最新的模型可以提升44%的翻譯品質,尤其是部分非洲與印度系語言的精準度更提高了70%以上。

世界上有多少種語言?根據國際標準ISO 639-3的統計,包含方言全世界已有超過7000種語言被確認。科技的力量必然還力有未殆,但平台業者Meta對於征服語言再次展現雄心,6日宣布,將開源2月發表「No Language Left Behind(不遺漏任何語言)」專案計畫的AI語言模型「NLLB-200」。並將提供20萬美金獎助金給採用這套模型的研究人員或非營利組織。

「NLLB-200」是一套不經由中介語言(例如先將中文翻譯成英文、再由該英文結果翻譯成其他語言)、支援200種語言直接互譯的的翻譯模型。Meta表示,對比先前的研究,這套最新的模型可以提升44%的翻譯品質,尤其是部分非洲與印度系語言的精準度更提高了70%以上。

科技媒體The Verge引用德國慕尼黑大學計算語言學(computational linguistics)專家Alexander Fraser說法,「其最主要的貢獻在數據,重點在於有『100種全新語言』(被該模型支援)」。許多商業工具不支援的低資源語言(low-resource languages),也就是少於百萬人口使用的語言。而這是「NLLB-200」試圖處理的最主要課題。

該模型使用Meta於1月發表、與NVIDIA共同開發的超級電腦「AI Research SuperCluster(RSC)」進行Training。Meta在該專案的AI科學家Angela Fan表示,這個模型也將應用在支援維基百科(Wikipedia)的編輯者將編輯項目翻譯成其他語言。另外,開發該模型所使用的技術,很快的也會整合進Meta的翻譯工具。

儘管The Verge的報導也提及一些低資源語言使用者的擔憂,認為若透過科技生成更多低資源語言的文本(例如維基百科或其他教育文本),可能會影響到該語言的使用者自行用自己的語言建置文本的動力。但總體來說,Alexander Fraser教授表示,「Google、Meta 以及Microsoft等公司都致力於低資源的機器翻譯(machine translation),這是一件好事。」

Meta認為,建構一個可以支援多國語的技術,對於人們在元宇宙 有重要意義,因為「沈浸式體驗有助於民主化」、「可讓全球更多人進入到元宇宙」。

《本文作者湯皓茹,原文刊登於合作媒體INSIDE,聯合新聞網獲授權轉載。》

本日熱門 本周最熱 本月最熱