訓練AI閱讀華語文 挑戰首獎2000萬
「科技大擂台與AI對話」第二屆挑戰賽今起接受報名,邀高手再度挑戰華語文能力測驗中流利精通級的閱讀理解測驗,角逐首獎2000萬元。PTT創辦人、台灣人工智慧實驗室創辦人杜奕瑾說,台灣未來要賺智慧財,而不是勞務財。
今年的中文語音辨識,是與台灣人工智慧實驗室(Taiwan AI Labs)開發的「雅婷逐字稿」語音辨識系統,開放參賽團隊介接使用。
科技部表示,相較於去年的比賽,本屆挑戰賽不以選擇題方式進行,而將以語音閱讀及連續對話測驗,全力挑戰AI對中文的語意理解能力,讓AI閱讀不同學科領域的主題內容,考驗對詞句的理解與推論,並將廣泛的資料整理成應用知識,達成AI自學思考。競賽分兩階段進行,初賽預定於今年12月,決賽則是明年4月舉辦。
科技部於競賽期間持續增加語音資料集規模,讓團隊進行技術開發與測試。委請台北科技大學副教授廖元甫研究團隊進行的語音標注,已再度釋出約600小時的AI語音數據資料。
本次競賽題型分為「簡答題」與以任務導向的「多輪對話題」兩大類。 「簡答題」基於文本內容進行推理;「多輪對話題」著重任務明確的自然語言 對話,如訂購旅遊票卷、旅館房型、租車服務等需要根據客戶與客服之間的逐 步詢問、一來一往的對話才能完成訂單的模式。競賽試題設計涵蓋教科書、現代漢語的寫作文本、新聞語料、維基百科等資源。訓練資料將於本月陸續公開。
科技部長陳良基表示,台灣目前AI語音辨識系統的程度,僅停留在「國小程度」,還需要再多努力。去年大部分團隊都沒有達到人類預試得分的80%,今年隊伍若大於或等於人類預試分數的80%,第一名就可獲得500萬元。若最高分隊伍大於人類預試得分,第一名就可拿到2000萬元。
陳良基說,機器要跟上人類,三、五年內還是有困難,但希望藉由比賽,激發出更多團隊的能力。希望透過AI語音對話能力的精進,掌握台灣口語的主導權,讓更多台灣產品可以進行數位轉型。
杜奕瑾表示,人機介面的改變,可以造成人類習慣的改變。國際大廠還是專注英文語音辨識系統,中文語音辨識系統一直沒有國家做得很好。他提到,語音理解的問題真的很難,不需要第一年就達到目標,會不斷累積經驗和資料,一年一年不停地「攻破山頭」。以雅婷逐字稿為例,目前已有很多記者、藝術人員、醫療領域都在使用。
杜奕瑾表示,很多人以前不想念博士,是因為台灣沒有相對應的產業能夠留下這些人,但現在AI時代來臨,像他的實驗室就很需要這樣的高階研發人才。
留言