今天發表的最新研究指出，人工智慧（AI）聊天機器人雖能輕鬆通過大多數醫學執照考試，但它們未必能比傳統方式提供更可靠的醫療建議。

英國牛津大學（University of Oxford）學者、研究共同執筆人潘恩（Rebecca Payne）表示：「儘管外界大肆宣傳，AI仍未準備好扮演醫師的角色。」

她在聲明中補充說：「患者必須了解，向大型語言模型諮詢症狀可能存在危險性，因為它可能給出錯誤診斷，甚至無法辨別何時需要立即就醫。」

綜合法新社和路透社報導，這個由英國主導的研究團隊想要了解，人類在使用聊天機器人判斷健康問題，以及是否需要就醫或住院時的成功率有多高。

研究團隊設計出10種不同情境，包括普通感冒、熬夜飲酒後頭痛、新手媽媽身心俱疲、膽結石和腦出血等。

接著，研究人員隨機分配近1300名受試者使用OpenAI的GPT-4o、Meta的Llama 3或Cohere的CommandR+等3種聊天機器人，另設一個使用搜尋引擎查找資料的對照組。

結果顯示，受試者使用AI識別相關疾病的比例僅約1/3，找到正確處置方式的比例不到44.2%，表現不比使用傳統方法的對照組好。相關報告已刊載於知名國際期刊「自然醫學」（Nature Medicine）。

在未使用真人受試者的情況下，這3種大型語言模型能在94.9%的案例中正確識別症狀，在56.3%的案例中提供正確的處置建議，例如呼叫救護車或就醫。

研究人員表示，AI與真人互動的結果，與其在醫學基礎測驗和考試時表現極佳存在落差的原因在於「溝通失效」。

相較於測試時使用的模擬病患，真實人類往往未能向聊天機器人提供所有相關資訊；有時人類難以理解聊天機器人提供的選項，或誤解、忽略其建議。

研究團隊詳細分析約30次互動後發現，人類受試者經常提供不完整或錯誤的資訊，大型語言模型有時也會生成誤導或不正確的回應。

例如，一名患者描述蜘蛛網膜下腔出血這種危及生命的急性腦血管疾病時，主訴頸部僵硬、畏光和「前所未有的劇烈頭痛」，AI正確建議他立即就醫；另一名患者描述相同症狀時，提到「頭痛得非常厲害」，AI只建議他躺在昏暗房間裡休息。

研究顯示，每6名美國成年人，就有1人每月至少向AI聊天機器人詢問一次健康相關資訊，而隨著愈來愈多人使用新科技，這個比例預計會持續攀升，但目前尚無證據顯示這是最佳或最安全的方式。

荷蘭馬斯垂克大學（Maastricht University）生物倫理學家蕭奧（David Shaw）說：「這是一項非常重要的研究，凸顯聊天機器人對公眾健康帶來的實際風險。」蕭奧並未參與這項研究。

他建議民眾應僅信賴可靠來源提供的醫療資訊，例如英國國民保健署（NHS）。

研究團隊計劃在不同國家、使用不同語言，並隨著時間推移進行類似研究，藉此測試是否會影響AI的表現。

這項研究獲得數據公司Prolific、德國非營利組織狄特施瓦茲基金會（Dieter Schwarz Stiftung）及英國和美國政府支持。