NVIDIA以人工智慧打造擬人化語音應用 讓機器人更富「情感」

在NVIDIA旗下針對人工智慧技術應用研究項目中,語音項目已經成為相當重要研究內容,其中包含針對線上視訊互動時的聲音識別優化、擬人化的聊天機器人等應用,而NVIDIA的目標更希望創造更富「情感」的人機互動體驗。
NVIDIA深度學習應用研究部門副總裁Bryan Catanzaro表示,「聲音」在許多時候成為溝通重要關鍵,尤其在人與人之間溝通會透過聲音起伏變化判斷對方說話時的情緒,進而產生不同互動感受。
目前在NVIDIA針對聲音項目的研究中,不僅透過人工智慧分析語句、語意等內容,同時也會藉由音調起伏等變化,藉此記錄各類說話時產生情緒,使得人工合成聲音可以變得更有「感情」,進而能夠呈現更「真實」的電腦語音,並且讓機器人、數位助理服務在聲音互動更有親和力。
Bryan Catanzaro說明,一般人在與機器人等科技產物互動時,若接收到的是較為冰冷的電子合成語音,勢必會讓互動體驗大幅降低,但如果能透過更貼近自然人聲說話模式呈現,則會吸引更多互動意願,原因在於更貼近自然人聲的互動模式較容易讓使用者放下「戒心」。
例如近年用於展示人工智慧技術應用的「I am AI」短片中所呈現口白,實際上就是透過NVIDIA旗下人工智慧技術合成的電子語音,其中不僅參考自然人聲發音,更透過後續調整讓整體口說內容更像真人表達,藉此詮釋NVIDIA在人工智慧技術投入應用方向,亦即讓人工智慧可以協助人類完成更多挑戰。
而為了讓人工智慧技術合成的電子語音更像真人,NVIDIA目前也與諸如Mozilla Common Voice等第三方語音資料內容提供者合作,透過更龐大語音資料量進行訓練,讓人工智慧可以呈現各地區語言、不同口音呈現方式,其中包含美國英語、英國英語或澳洲英語發音上的差異,或是同樣都是中文,在台灣、中國、新加坡、香港等地區也會有不同發音表現,藉由人工智慧進行深度學習,都能讓系統呈現不同發音。
在NVIDIA的目標中,自然是希望消除機器人等裝置透過語音與人互動時的隔閡感,甚至讓人工智慧驅動互動服務能以更貼近真人發音增進互動真實感,或是搭配肢體語言更加活靈活現。
至於在應用部分,NVIDIA更強調可透過SDK、API等資源讓開發者更容易串接使用,進而創造更豐富的擬真互動系統,同時也能讓更多應用服務透過擬人化方式吸引更多人使用。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》
▪ 【快報】HTC Desire 22 pro怎麼玩元宇宙一次看 網友受驚規格:你認真出這支?
▪ 「日本iPhone沒快門聲」是真的!他靠這幾招OK、還能省8千買廉航機票
▪ 我就問「亞馬遜森林」怎麼搜出這種圖片?
▪ 【快來玩】免費《糖豆人》來啦!教你5步申請跨平台帳號一起玩 這Country有點尷尬
▪ 《糖豆人》PS5、Switch畫質比拚 這平台「變GIF動畫」
延伸閱讀
贊助廣告
商品推薦
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
FB留言