閱讀數學/聳立在AI面前的數學高牆(上)

示意圖/路透
示意圖/路透

去年底GPT-o3推出後,在許多評測上都有重大的突破。然而,或許是這一年多來AI的進展太快,大家都有些麻木。起先我們也沒特別關注,直到看見某個指標——FrontierMath 25%的問題被解決了!?​

等等,這可是其他大型語言模型只解出不到2%的超難題庫。當代最傑出的數學家之一,陶哲軒(Terence Tao)在2024年11月時還下了評論:​

「這些問題極具挑戰性……我認為它們至少在未來幾年內都會對人工智慧構成阻礙。」

然後,這個阻礙幾個月就被突破了嗎?

 ​

▍人類 vs. 語言模型,數學是最後堡壘?

在大型語言模型的測試中,數學常常被拿來提出來討論。某些人甚至認為它就像是進擊巨人裡的城牆一樣,是大語言模型無法攻克,人類展現智慧的最後淨土。這樣的想法主要是基於兩大原因:

 ​

➊ 數學需要高度的抽象思維和嚴密的邏輯推理能力。

➋ 最尖端的數學領域可供 AI學習的訓練數據非常有限。陶哲軒就曾指出,FrontierMath 中許多問題的相關訓練數據「幾乎不存在」。連帶導致模型缺乏相關的知識。

因此,數學對目前的語言模型來說是一個極具挑戰性的領域。GPT3剛公佈時就展現驚人的文字撰寫能力,但數學表現卻不如預期。後來陸續有人拿最新的模型去考試,數學也往往是進步最慢,考最差的一個科目。

不過,儘管如此,還是有越來越多的數學題目被語言模型攻克。人們又因此設計了更難的測試題庫,從最早中小學等級的GSM-8K,到奧數等級的Omni-Math,還有十一月才誕生的FrontierMath,這道迄今為止最高聳的數學之牆。

FrontierMath 收錄的數學問題範圍涵蓋數論、組合學、代數幾何、群論、拓撲學等多元領域。不僅有挑戰性的競賽題,還有直接來自當前數學家正在面對的研究問題。更重要的是,所有問題都是全新且未發表的。可以確保模型無法利用其訓練數據中的類似問題來獲得正確答案。

(未完待續)

閱讀數學 語言 數感實驗室 推理

相關新聞

高職生就是矮人一截?從高職汽車科到北科大碩士 高偉哲用行動翻轉技職刻板印象

針對社會上普遍對高職「升學路窄」的刻板印象,高偉哲認為,關鍵在於是否了解自己的志向與目標。他提醒,填高職志願時,最好先了解統測的專業科目考什麼,「了解自己未來要學的是什麼,確定是不是真的對那個領域有興趣。」

作家丘美珍:一起共度的時光 會在孩子心中累積成「被愛的記憶」

北一女、政大新聞系畢業的丘美珍,30多歲就當上了總編輯,職涯一片光明,但她卻在42歲時「裸辭」,回家陪三個小孩,等到孩子都大了以後,才重新開始找工作,啟動人生下半場。

賽娜小姐:父母不用教出更好的孩子 而是讓他看見真實的你

賽娜的6歲兒子今年第一次用注音寫母親節卡片送給她,裡面寫道:「最喜歡和媽媽一起煮菜」。有在關注賽娜的IG的人,經常可以看到 Lowry 煮菜的身影,從清洗到料理一手包辦,也會跟妹妹Mia一起榨蔬果汁、蒸饅頭當早餐。很多人都很驚訝,怎麼辦到的?

是律師也是台語歌王》蘇明淵:不管女兒做什麼都支持

處理家事案件多年,讓蘇明淵對婚姻與家庭有更深刻的體悟,更懂得珍惜。個性內斂的他不擅於表達情感,那些對家人說不出口的話,他選擇用音樂傾訴,將深藏心底的情感寫進歌裡。

寫作教室/「假設題型」重返會考?下筆前仔細審題 奪分關鍵曝光

隨著心測中心公布「預試題」〈癌末少女的選擇〉(後文簡稱〈癌〉),「假設題型」又久違的回歸到「會考/基測」的出題範圍裡。

科學人/顛覆認知!側面著地的蛋比較不會破

過去有研究懷疑,雞蛋殼的結構,能夠承受自身重量100倍的重量。麻省理工學院(MIT)土木與環境工程學教授其研究團隊進行了180顆蛋的實驗,讓雞蛋以三種方式落下:尖端朝下、鈍端朝下、側面落地。實驗結果顯

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。