大陸科技巨頭華為據報12日將在「2025金融AI推理應用落地與發展論壇」上發布AI推理領域的突破性技術成果。據透露，這項成果或能降低中國AI推理對HBM（高帶寬內存）技術的依賴，提升大陸國內AI大模型推理性能，完善中國AI推理生態的關鍵部分。

綜合科創板日報、中國基金報、IT之家等陸媒報導，業內人士表示，當前AI產業已從「追求模型能力的極限」轉向「追求應用價值的最大化」，推理成為AI下一階段的發展重心。而HBM是解決「數據搬運」的關鍵。HBM不足時，用戶使用AI推理的體驗會明顯下降，導致出現任務卡頓、響應慢等問題。

美國於2024年12月初限制向中國出口先進的高帶寬記憶體晶片（HBM）。美國禁令下，包括HBM2 和 HBM3、HBM3e 等更先進 HBM 晶片，以及製造這些 HBM 晶片的設備都禁止出口中國。SK 海力士、美光和三星是三大HBM供應商，都禁止出口中國HBM2以上HBM晶片。此舉對於華為發展先進AI技術形成阻礙。

不過，華為此前在AI推理領域的技術已有部分突破。北京大學在3月聯合華為發布DeepSeek全棧開源推理方案，該方案基於北大自研SCOW算力平台系統和鶴思調度系統，整合了DeepSeek、openEuler、MindSpore 與 vLLM / RAY 等社區開源組件，實現了華為昇騰上的DeepSeek高效推理。

此外，華為昇騰也有突破，比如CloudMatrix 384超節點部署 DeepSeek V3 / R1 時，在 50ms 時延約束下單卡Decode吞吐突破每秒1920Tokens；Atlas 800I A2推理服務器在100ms時延約束下單卡吞吐達到每秒808Tokens。

據了解，8月12日召開的「2025金融AI推理應用落地與發展論壇」上，來自大陸信通院、清華大學和科大訊飛的專家，華為此次攜手中國銀聯共同發布AI推理的最新應用成果，共同探索AI推理技術在金融領域的規模化落地路徑。