語言學習新創Speak升級語音辨識系統 回饋服務更準確
人工智慧語言學習平台Speak打造低延遲、高辨識度的英語口說識別服務,近日宣布整合分散各平台基礎架構上的訓練數據,全面升級核心語音辨識系統。使Speak更能貼近實際使用場景,有效辨識各種帶有口音的口語英語。與之前的模型相比,新模型將字詞錯誤率(WER)降低了45%,整體字詞錯誤率更是減少超過60%,大幅提升Speak服務中口語回饋的準確性與可靠性。
Speak過去針對iOS、Android作業系統分別建置語音辨識系統,透過Speak客製化模型及協力廠商提供等多個語音辨識模型進行訓練,導致數據來源分散且重複,為有效在單一後端系統上整合來自各個平台來源的數據進行模型訓練,Speak以輝達(NVIDIA)為研究和開發語音和大語言模型所開發的端對端雲原生開源框架NVIDIA NeMo,加速分散式訓練和模型的開發維運。整合自動語音辨識(ASR)模型推理及後處理邏輯,Speak 將核心語音基礎架構重新打造為單一且更大型的後端系統,導入來自全球Speak App中的學習者數千小時、帶有各地濃厚口音的英語語音作為訓練數據集,將Speak所有數據集整合,簡化維運並確保所有用戶和裝置都能獲得即時且高效的服務回饋。
根據Speak以字詞錯誤率(WER)為指標針對其新模型效能進行的評估,整體字詞錯誤率減少超過60%,相較於預訓練模型有了顯著的進步,強化了Speak核心口語回饋循環的可靠性和可信度,主因來自於其導入訓練的數據集完全在特定領域內,並且涵蓋了多種強烈口音,這些口音是現成的模型仍然難以處理的。
延伸閱讀
贊助廣告
商品推薦
udn討論區
共 0 則留言
規範
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言