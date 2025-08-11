華為將於明（12）日與中國銀聯在「2025金融AI推理應用落地與發展論壇」發布推理加速技術。據透露，該技術或能降低大陸AI推理對高頻寬記憶體（HBM）的依賴。

HBM是基於3D堆疊的高性能DRAM，具高頻寬、低延遲等優勢，允許GPU直接訪問完整模型，避免DDR頻寬不足導致算力閒置，顯著提升千億參數大模型推理響應速度。

目前，HBM在高端AI晶片的訓練端滲透率接近100%，同時推理端隨模型複雜化而加速普及。然而，其產能緊張和美國出口限制倒逼大陸廠去探索Chiplet封裝、低參數模型優化等替代方案。

IT之家提到，華為曾與北大合作DeepSeek全棧方案，昇騰平台單卡Decode每秒處理突破1,920 Tokens/s，時延降50%。與科大訊飛合作實現MoE模型大規模並行推理，處理速度增3.2倍。

中國基金報引述業內人士，AI產業正從「追求模型極限」轉向「應用價值最大化」，推理成為下一階段重心。HBM是解決「數據搬運」關鍵，HBM不足會導致推理卡頓、響應慢。

大陸通訊行業網站C114通信網則指，算力和存儲是訓練與推理率先受益領域，大陸國產化趨勢下決定未來十年AI勝負。但大陸國產HBM與海外存技術差距，在產能緊張和美國限制下，「彎道超車」是華為等陸企突破的重要方向。