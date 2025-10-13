產業分析機構SemiAnalysis在近日新發布的InferenceMAX v1基準測試中，輝達（NVIDIA）最新一代Blackwell平台（B200、GB200 NVL72）同時拿下「跑得最快」與「最省成本」兩大關鍵指標。這套基準以「真實場景、算總成本（TCO）」為設計核心，不只比速度，還把每百萬詞元（token）成本、能效與互動延遲納入評比，更貼近企業營運AI的現實需求。

InferenceMAX v1是產業研究機構SemiAnalysis推出的開源、廠商中立AI推論基準；它在真實工作負載下，同步衡量資訊輸送量（tokens/s per GPU）、互動性（TPS/user）與每百萬詞元成本（TCO），並以帕雷托前沿呈現效能與延遲的權衡。此基準採夜間持續跑測、跨多款熱門模型與多家硬體平台，程式碼與方法公開、可重現，近來已被多家科技媒體報導，且輝達、超微等業者亦公開回應與引用，使其在觀察「推論經濟學」上具有代表性與參考性。

輝達超大規模與高效能運算副總裁Ian Buck表示：「推論是AI每天創造價值的關鍵。這些結果證明，NVIDIA的全端策略提供客戶在大規模部署AI時所需的效能與效率。」

NVIDIA以示範情境強調，若投入500萬美元建置GB200 NVL72，可望創造7,500萬美元的詞元收入，折算投報率約15倍。同時，透過軟體堆疊最佳化，B200在開源模型gpt-oss上把每百萬詞元成本壓到約0.02美元；能效面也較前代每兆瓦輸送量提升10倍、整體每百萬詞元成本降低15倍。

在實測表現上，輝達舉出兩組代表數據：其一，採用TensorRT-LLM的B200在gpt-oss上，可達到每顆GPU每秒60,000個詞元、每位使用者每秒1,000個詞元的互動效能；其二，最新版gpt-oss-120B-Eagle3-v2導入推測式解碼（speculative decoding）後，每位使用者TPS較前版提升約3倍，達每用戶每秒100詞元，而每顆GPU速度由約6,000拉高至30,000詞元/秒。此外，面對Llama 3.3 70B這類參數密集模型，B200在「每GPU 10,000詞元/秒、每使用者50 TPS」條件下，每GPU吞吐量較H200提升約4倍。簡單說，無論是大量並發或講求即時回應的場景，Blackwell都把速度與互動性往上推。

為什麼能做到？ 核心在「硬體＋軟體」同時設計：硬體面導入NVFP4低精度格式，在不犧牲準確度的前提下提升效率；第5代NVLink與NVLink Switch將72顆Blackwell GPU以雙向1,800 GB/s高頻寬串成「一顆大 GPU」；軟體面以TensorRT-LLM v1.0、NVIDIA Dynamo搭配vLLM、SGLang等開源推論框架做深度優化。NVIDIA並表示自Blackwell發表以來，單靠軟體就把效能再拉高超過兩倍。

至於InferenceMAX v1本身，採用帕雷托前沿（Pareto frontier）呈現「資料中心輸送輛」與「回應性」的多目標權衡，強調Blackwell在多維度同時取得較佳位置，目的在避免只為單一測項「刷分」而犧牲實際經濟性。

整體來看，NVIDIA想傳達的重點是：Blackwell不只更快，還試圖把「更快」直接變成「更低的每百萬詞元成本」與「更高的ROI」。不過，投報與成本數據仍取決於各企業的電價、上架率、SLA與模型設定等差異，後續可持續觀察此基準在第三方重現、與其他供應商在相同條件下的對比結果。