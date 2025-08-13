華為昨（12）日發表AI推理創新技術─推理記憶數據管理器（UCM），這項突破性成果有望降低中國大陸AI推理對高頻寬記憶體（HBM）技術的依賴，提升大陸AI大模型推理性能，打破美國封鎖大陸取得HBM的瓶頸。而華為也宣布該技術將9月正式開源（開放程式碼）。

美中科技戰方興未艾，美國早在去年就限制大陸取得先進HBM，HBM是AI晶片的心臟，負責資料高速傳輸，其性能直接決定AI算力集群效率，美國智庫CSIS專家指出，HBM約占先進AI晶片成本的50%，封鎖HBM可大幅延緩華為等陸企的AI晶片開發進程。

新浪財經報導，華為昨天參加2025金融AI推理應用落地與發展論壇，首度推出的UCM是一款以KV Cache（已計算的先存起來，下次直接拿來用不必再重算）為中心的推理加速套件，融合多類型緩存加速演算法工具，透過分級管理推理過程中產生的KV Cache記憶數據，擴大推理上下文窗口，實現高吞吐、低延時的推理體驗。

據了解，HBM作為解決數據搬運問題的關鍵技術，在AI推理過程中扮演著舉足輕重的角色。當HBM資源不足時，用戶在使用AI推理時會明顯感受到體驗下降，任務卡頓、回應緩慢等問題接踵而至。

UCM技術透過優化KV Cache記憶資料管理，使首每個文字單位（Token）時延最大降低90%，同時降低Token的推理成本。

這項技術發表正值AI產業從「追求模型能力的極限」轉向「追求推理體驗的最優化」的關鍵節點，推理體驗直接關聯用戶滿意度和商業可行性，成為衡量模型價值的重要標準。