AI考高考成績如何? 這個大陸模型「考生」贏過GPT-4o

上海人工智慧實驗室旗下機構近日公布首個由人工智慧(AI)大模型高考全卷評測結果,阿里巴巴的通義千問2-72B總得分排名第一,略高於第二名OpenAI的GPT-4o。圖/取自新浪科技
上海人工智慧實驗室旗下機構近日公布首個由人工智慧(AI)大模型高考全卷評測結果,阿里巴巴的通義千問2-72B總得分排名第一,略高於第二名OpenAI的GPT-4o。圖/取自新浪科技

中國大陸高考(大學入學考試)6月初已結束,各地近日將陸續公布考試成績。搶在這之前,上海人工智慧實驗室旗下機構近日公布首個由人工智慧(AI)大模型答卷的評測結果。在7個來自中國海內外大模型進行語文、數學、英語三科全卷能力測試下,阿里巴巴的通義千問2-72B總得分排名第一,略高於第二名OpenAI的GPT-4o。此外,閱卷老師也剖析了AI與人類考生答題上的差異。

上海第一財經報導,在前不久高考結束後,上海人工智慧實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考語文、數學、英語全卷能力測試,這項首個大模型高考全卷評測結果於19日公布。

在三科加起來滿分為420分(語文、數學滿分150分;英文滿分120分)的前提下,此次高考測試結果顯示,大模型的語文、英文考試程度普遍不錯,但數學都不及格,最高分也只有75分。

從排名看,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智慧實驗室的書生·浦語2.0排名第三,三個大模型的得分率都超過70%。

第四至六名則為阿里通義千問2-57B、零一萬物Yi-1.5-34B、智譜GLM4-9B。來自法國大模型新創公司的Mistral Mixtral 8x22B排名第七墊底。

上海人工智慧實驗室表示,此次三科全卷測試,成績由具備高考評卷經驗的老師匿名人工判分,閱卷開始前,閱卷教師「未被」告知答卷均由模型生成,使閱卷教師完全以面對真實考生的標準評判回答效果。

值得一提的是,大模型「犯錯」的方式和人類考生有差異,有的模型會存在完全不理解題意導致亂答、重複生成、回答更像解析而非解答的問題,因此實際執行上,閱卷老師未能完全適應給分的過程,團隊則要求老師將離譜的錯誤直接視為答題錯誤,解析類型的回答以是否包含正確解題過程作為唯一準則。此外,每個題目都邀請了至少三位老師評閱取平均分數。

針對大模型在各科的表現,語文方面,評卷老師認為,模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。大模型作文則更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物材料等手法。對於「比喻」等語文概念,多數模型無法理解。

在數學考卷上,老師們發現,大模型的主觀題回答「相對凌亂」,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強,但是無法在解題過程中靈活引用。

英語則整體表現良好,但部分模型因不適應題型,在七選五、克漏字填空等題型得分率較低。大模型英文作文普遍存在因超出字數限制而扣分的情況,而人類考生多因為字數不夠扣分。

OpenAI 上海 英語 高考

延伸閱讀

世界人工智能大會7月上海登場 將展出45款智慧機器人

上海市人工智慧大會 特斯拉微軟等500家企業參展

不僅GDP!陸與美「4領域」差距擴大 學者示警曝解決困境關鍵

加強亞太工作 IMF設立上海區域中心

相關新聞

內需疲軟 陸8月進口年增0.5%

大陸海關總署昨公布八月進出口數據,按美元計,出口年增百分之八點七,優於市場預期的六點六,並來到十七個月新高;但進口僅年增...

國泰君安併海通 成為陸券商龍頭

大陸兩家國有券商國泰君安和海通證券宣布合併,將成為一家資產規模達人民幣一點六八兆元(約新台幣七點六兆元)的「航艦級」券商...

淘寶擬引入微信支付 支付寶:與淘天集團繼續深化合作

阿里巴巴旗下電商平台淘寶4日宣布,計劃新增騰訊旗下微信支付能力。淘天集團發言人表示,淘寶天貓始終秉持開放的合作理念,積極...

阿里巴巴完成整改 分析指中國渴求發展經濟和科技

中國官方日前宣布電商平台阿里巴巴集團完成3年整改並給予肯定。分析指出,中國的平台經濟帶動大量就業以及AI、雲端運算等科技...

比亞迪上半年獲利增加24% 毛利率超越特斯拉

中國新能源汽車巨頭比亞迪今年帶頭降價打價格戰,中場成績出爐。比亞迪昨晚公布報告顯示,上半年營收成長15.76%,獲利大增...

華為證實 問界汽車新M7 Pro虧錢賣

鴻蒙智行26日舉行新品發表會,問界新M7推出新的Pro版車型,起售價為人民幣24.98萬元。華為智慧汽車解決方案BU董事...

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。