沒有通過認知測試 研究:聊天機器人已出現數位痴呆症

(首圖來源:Pixabay)
(首圖來源:Pixabay)

【文‧黃嬿】

AI 大腦愈來愈成熟,會逐漸取代人類工作 ,甚至連醫生都在擔憂,聊天機器人是否超越醫生。一項研究讓幾個大型聊天機器人接受癡呆症測試,發現幾乎所有聊天機器人都顯示有輕度認知障礙挑戰 AI 很快就會取代醫生的假設。

多項研究發現,大型語言模型 (LLM) 非常擅長執行醫療診斷,但人類大腦會老化,機器人可能也會,但還沒有科學驗證。這次研究員使用蒙特利爾認知評估 (MoCA),測試幾個頂尖語言模型的認知能力,包括 OpenAI ChatGPT 4 / 4o、Anthropic Claude 3.5 Sonnet  Google Gemini 1 / 1.5

MoCA 測試為簡短任務和問題,包括注意力、記憶力、語言、視覺空間技能,以及執行功能等,普遍檢測認知障礙和失智症早期跡象,通常用在老年人,滿分為 30 分,26 分以上一般認為正常。ChatGPT 4o MoCA 測試得高分,但也只是勉強達標的 26 分,其次是 ChatGPT 4 Claude 得到 25 分,Gemini 1.0 得分最低。

視覺空間與執行任務是 AI 弱點

所有聊天機器人多數任務表現都不錯,如命名、注意力、語言和抽象,但視覺空間和執行任務表現不佳,包括軌跡製作任務,需按升序連接圓圈中數字和字母,以及時鐘繪圖測試,要求測試者繪製顯示特定時間的鐘面。Gemini 1 / 1.5 在相當簡單的延遲回憶任務,記住五個單字序列都失敗。

研究員測試視覺空間認知力,發現聊天機器人無法表現同理心,也無法準確解釋複雜視覺場景,缺乏同理心是額顳葉失智症的代表症狀。只有 ChatGPT 4o 通過史楚普實驗 (Stroop test),用顏色名稱和字體顏色組合衡量干擾如何影響反應時間。

AI 無法醫學診斷

研究作者表示,舊版聊天機器人就像老年患者,測試往往表現較差,挑戰 AI 很快會取代醫生的假設。至於所有大型語言模型視覺抽象和執行功能任務都失敗,突顯聊天機器人的重大弱點,可能阻礙臨床環境運用。

這研究目的不是醫學診斷 AI,而是駁回一波研究浪潮,這些研究認為 AI 可用於醫療領域,特別是當診斷工具

聊天機器人明顯認知障礙可能會影響醫療診斷的可靠性並降低病患信心,結論是,至少目前所見,醫生不太可能被大型語言模型取代。論文刊登於《英國醫學期刊》。

【本文章由科技新報授權提供,更多精彩內容請詳科技新報官網

延伸閱讀

「豆包」大模型 帶旺概念股

小米進擊AI大模型

五条君快做!《戀上換裝娃娃》喜多川海夢泳裝坐姿Figure彩色原型公開

AI VTuber Neuro兩歲了!自己展示超可愛新L2D模型 堪稱Vedal火力展示

相關新聞

日本加薪只給年輕人 40~54歲冰河世代最慘

日本擺脫幾十年薪資凍漲,這幾年勞工收入大幅增加,2024 年春季薪資談判,平均薪資漲幅超過 5%,創歷史新高。雖然日本的起薪和薪資漲勢強勁,但只有年輕勞工享受到,中老年勞工的薪資成長實際上仍在停滯甚至下降。

雇主低估遠距工作魅力 研究:員工視遠距是福利=加薪

美國企業到美國政府,都在叫員工返回辦公室工作,專家不認為這些強制令會改變遠距工作的趨勢。一項調查發現,員工認為工作與生活的平衡,是遠距工作帶來最大的好處,許多員工為了能夠在家工作,他們願意減薪或是兼職。

校園禁手機學生會更好?研究:禁不禁都沒差

青少年花在社群媒體和通訊軟體時間增加,副作用是心理健康狀況越來越差,身體活動越來越少,睡眠品質越來越差,教育程度越來越低,課堂破壞性行為也越來越重。但全球第一個評估全天禁止使用手機的學校發現,學校手機禁令,對學生幸福感與成績沒什麼幫助。

不只手機 研究:空氣污染也會干擾注意力

現代人注意力都很短暫,記憶也很短暫,專家認為是手機訊息不斷干擾,使大腦功能退化,專注力與記憶都變差。現在有研究發現,不只因為外物分心,空氣污染也是一大因素,即使短期接觸壞空氣,也會影響人們專注於日常任務的能力。

影響工作滿意度的不是興趣 研究:好同事與主管才是關鍵

追隨自己的熱情找工作,不一定會帶來工作滿意度。研究發現,對職業的興趣很重要,但在工作滿意度方面並不像您想像的那麼重要,真正能夠提供工作滿意度的關鍵是人,好的主管、好同事,再來才是一份好薪水。

幸福國度是老年專屬 北歐年輕人憂鬱症成國病

北歐國家號稱全世界最幸福,但可能對年輕人來說不是如此。歐洲老年人和年輕人憂鬱症調查發現,北歐國家年輕人最憂鬱,但憂鬱現象在老年人群體就不存在。

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。