阿里發布Qwen3-Max性能躋身全球前三 逾300個開源模型下載破6億

「通義千問Qwen」微信公眾號24日發布,阿里巴巴推出Qwen3-Max模型,性能超過GPT5、Claude Opus 4等,躋身全球前三。該模型是阿里迄今為止規模最大、能力最強的模型。Qwen3-Max包括指令(Instruct)和推理(Thinking)兩大版本,預覽版已在 Chatbot Arena 排行榜上位列第三,正式版性能可望再度實現突破。
新浪科技報導,阿里雲智慧集團首席技術官周靖人,24日在2025雲棲大會上分享中透露,截至目前,通義千問已累計開放300+開源模型,覆蓋全尺寸、全模態模型,開源模型下載量已經突破6億次。
證券時報報導,該模型預訓練資料量達36T tokens,總參數超過兆,擁有極強的Coding程式設計能力和智慧體(Agent)工具調用能力。在大模型用Coding解決真實世界問題的SWE-Bench Verified測試中,Instruct版本斬獲69.6分,位列全球第一梯隊;在聚焦Agent工具調用能力的Tau2-Bench測試中,Qwen3-Max取得突破性的74.8分,超過Claude Opus4和DeepSeek-V3.1。
Qwen3-Max的推理增強版本Qwen3-Max-Thinking-Heavy也展現出非凡性能,結合工具調用和並行推理技術,推理能力創下新高,尤其在聚焦數學推理的AIME 25和HMMT測試中,均達到突破性的滿分100分,為境內首次。Qwen3-Max推理模型之所以能夠取得優異成績,原因在於大模型在解數學題時懂得調動工具,能夠寫代碼做題,同時,增加測試時的計算資源,也讓模型表現變得更好。
大模型預訓練原理Scaling Law(規模化法則)認為,持續地增長資料和參數規模,是通向AGI的可能路徑之一。由於自然數據的數量有限,當前有部分學者認為預訓練的Scaling Law即將逼近上限,而Qwen3-Max的性能突破顯示,繼續增大資料、模型參數,依然能鍛造出更強的模型。目前,通義千問系列模型已經實現從0.5B到超萬億的全尺寸覆蓋,包含300多個大模型,可滿足不同場景的需求。
延伸閱讀
贊助廣告
udn討論區
- 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
- 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
- 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
- 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
僅需 3 分鐘,簡單點選您的興趣與偏好,讓我們為您打造專屬的閱讀體驗!









