「通義千問Qwen」微信公眾號24日發布，阿里巴巴推出Qwen3-Max模型，性能超過GPT5、Claude Opus 4等，躋身全球前三。該模型是阿里迄今為止規模最大、能力最強的模型。Qwen3-Max包括指令（Instruct）和推理（Thinking）兩大版本，預覽版已在 Chatbot Arena 排行榜上位列第三，正式版性能可望再度實現突破。

新浪科技報導，阿里雲智慧集團首席技術官周靖人，24日在2025雲棲大會上分享中透露，截至目前，通義千問已累計開放300+開源模型，覆蓋全尺寸、全模態模型，開源模型下載量已經突破6億次。

證券時報報導，該模型預訓練資料量達36T tokens，總參數超過兆，擁有極強的Coding程式設計能力和智慧體（Agent）工具調用能力。在大模型用Coding解決真實世界問題的SWE-Bench Verified測試中，Instruct版本斬獲69.6分，位列全球第一梯隊；在聚焦Agent工具調用能力的Tau2-Bench測試中，Qwen3-Max取得突破性的74.8分，超過Claude Opus4和DeepSeek-V3.1。

Qwen3-Max的推理增強版本Qwen3-Max-Thinking-Heavy也展現出非凡性能，結合工具調用和並行推理技術，推理能力創下新高，尤其在聚焦數學推理的AIME 25和HMMT測試中，均達到突破性的滿分100分，為境內首次。Qwen3-Max推理模型之所以能夠取得優異成績，原因在於大模型在解數學題時懂得調動工具，能夠寫代碼做題，同時，增加測試時的計算資源，也讓模型表現變得更好。

大模型預訓練原理Scaling Law（規模化法則）認為，持續地增長資料和參數規模，是通向AGI的可能路徑之一。由於自然數據的數量有限，當前有部分學者認為預訓練的Scaling Law即將逼近上限，而Qwen3-Max的性能突破顯示，繼續增大資料、模型參數，依然能鍛造出更強的模型。目前，通義千問系列模型已經實現從0.5B到超萬億的全尺寸覆蓋，包含300多個大模型，可滿足不同場景的需求。