Facebook利用機器學習 實現100種語言「直接互譯」

Facebook宣布推出以機器學習為基礎的語言翻譯技術「M2M-100」,標榜能直接翻譯超過100種語言,同時並非像傳統透過中間介質語言 (例如英文)方式進行翻譯,而是讓兩種語言能直接互譯,藉此保留更完整的語言原意。
「M2M-100」總計對應100種語言,並且透過多達75億組字句,以及超過150億種參數訓練,進而可實現對應兩種語言直接互譯,而非透過中間介質語言轉換。
依照Facebook研究助理Angela Fan解釋,傳統翻譯方式通常是透過中間介質語言進行翻譯,透過同義比對方式翻譯不同語言構成語句,而這樣的方式最常見的作法是以英語做為中間介質語言,因為英語對應內容較為普及,因此相對容易用來比對不同語言字句所對應含意。
不過,由於透過中間介質語言對應資料比對方式仍會有誤差,加上進行二次翻譯 (例如中文轉成英文,在從英文轉成法文)過程也會讓原本字句含意走樣,更不用說部分語言像中文在同字情況,可能就會代表不同含意,因此在這樣的翻譯方式難免會讓原本陳述內容無法百分之百重現。
而在Facebook的作法,則是仰賴本身每天串接超過20億人互動,同時累積大量發文內容,其中至少涵蓋160種語言,同時超過三分之二的內容是以英語以外語言撰寫,使得Facebook能運用這些內容進行深度機器學習,讓電腦系統能自行學習不同語言內容互譯,並且得到能保留原文含意的翻譯結果。
藉由BLEU雙語互換評鑑測試結果,Facebook提出的語言翻譯方式,將比傳統以中間介質語言進行翻譯的方式更為精準。
目前Facebook已經在動態時報頁面提供外語翻譯功能,平均每天翻譯量超過200億次,同時也能由各地區的Facebook使用者手動回報翻譯結果,讓Facebook能針對翻譯結果進行調整,藉此讓翻譯功能更為準確。
類似的作法,Google過去也提出以人工智慧協助提高翻譯精準度的方法,不過翻譯過程則是透過可讓系統理解的中間介質語言,進而轉譯成目標翻譯語言,並且配合機器學習分析理解翻譯語句關連,進而了解整段語句所要表達含意,讓過往逐字翻譯產生的奇怪語句情況有所改善,達成更貼近自然語句的直譯效果。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
延伸閱讀
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言