智通*（8932）旗下深耕串流影音AI優化的子公司「聯和科創」25日宣布，AI部門在主管李鴻欣博士帶領下，攜手國立臺灣師範大學陳柏琳教授及中央研究院王新民研究員組成的頂尖產學合作團隊，再次於國際舞台上取得重大突破。聯和科創的兩項研究成果，不僅展現了卓越的技術創新，更直接回應了當前AI應用於真實世界所面臨的兩大關鍵挑戰：

第一個挑戰：如何讓AI在任何環境下都「聽得準」？

過去，大家普遍認為語音助理在嘈雜的車內或使用不同品牌的藍牙耳機時會變得遲鈍、甚至頻頻出錯只是訓練資料不足的問題。聯和科創與合作團隊卻發現，不同麥克風捕捉到的聲音，就像是帶有不同「口音」的語言，會讓AI模型感到困惑。

為此，聯和科創團隊在論文《揭示音訊通道於自動語音辨識（ASR）性能衰退中所扮演的角色》中，開發出了一種創新的「聲音正規化」技術。它能即時將帶有「口音」的聲音，轉換為AI最熟悉、最純淨的標準版本，從而大幅降低辨識錯誤率。

第二個挑戰：AI生成的音樂和語音，如何判斷「好不好聽」？

隨著技術發展，AI不僅能聽懂我們說話，更能創作音樂、生成語音。但我們該如何客觀地評斷AI生成的音樂「品質」？傳統方法是讓機器去預測一個分數，但這種方式非常粗糙，常常無法捕捉人類感知的細微差異。

在論文《QAMRO：用於音訊生成系統之人類聽感對齊評估的品質感知適應性邊界排序優化框架》中，團隊提出了名為QAMRO的全新評估框架。它不再是讓AI猜分數，而是教導AI學習像人類專家一樣去「品鑑」和「排序」。

團隊透露，它能夠理解「這段聲音比那段聲音聽起來更悅耳」，從而更精準地評估出AI生成內容的品質。這項突破性的框架，將能幫助開發者打造更貼近人類審美、品質更高的AI產品。

李鴻欣博士表示，這兩項成果充分展現我們以「解決真實問題」為核心的研發理念。我們不僅要讓AI更聰明，更要讓它在複雜多變的現實世界中更實用、更可靠。這次成功的產學合作，攻克了語音辨識穩健性與生成內容品質評估兩大難題。未來，我們將繼續引領技術前沿，創造真正能改善人們生活的AI應用。