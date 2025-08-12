華為12日發表AI推理黑科技UCM（推理記憶數據管理器），可大幅降低推理時延與成本，並大幅提升推理效率。

華為12日舉行新產品發表會，正式發表AI推理創新技術UCM，華為數字金融軍團CEO曹沖在發表會中表示，高延遲、高成本是當下AI推理領域發展的主要挑戰，UCM融合多類型緩存加速演算法工具，分級管理推理過程中產生的KV Cache記憶資料，可擴大推理上下文窗口，以實現高吞吐、低時延的推理體驗，降低每Token推理成本。

華為表示，UCM通過層級化自我調整的全域首碼緩存技術，可實現任意物理位置、任意輸入組合上的KV首碼緩存重用，在多輪對話、RAG知識檢索等場景中直接調用KV緩存資料，避免重複計算，使首Token時延最大降低90%。

另外，UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中自動分級緩存，同時融合多種稀疏注意力演算法，實現存算深度協同，使長序列場景下TPS（每秒處理Token數）提升2-22倍，降低每Token推理成本。

此外，UCM通過動態KV逐層卸載、位置編碼擴展、Prefill稀疏等組合技術，將超長序列Cache分層卸載至外置專業存儲，利用演算法突破模型和資源限制，實現10倍級推理上下文窗口擴展。

華為指出，中國互聯網企業在AI領域的投資規模僅為美國的十分之一，大陸國內大模型的推理體驗與海外相比仍存在差距—而推理體驗的不足會直接導致用戶流失，進而減緩企業的投資節奏；投資收縮又會使企業難以承擔高昂的推理成本，反過來進一步限制推理體驗的提升，形成惡性循環。UCM能夠在算力基礎設施投入保持不變的前提下，顯著優化推理體驗。

據了解，華為UCM已率先在中國銀聯的客戶之聲、行銷策劃、辦公助手等三大業務場景中，開展智慧金融AI推理加速應用試點，並已取得一定成果。

隨著AI應用向各類實際場景深度滲透，使用者規模和請求量急劇攀升，以火山引擎為例，今年5月日均Token調用達16.4兆，較2024年同期激增137倍。巨大的Token處理量意味著高昂運營成本—伺服器維護、電力消耗持續攀升；而保障流暢推理體驗又需加大算力投入。如何在兩者間找到平衡，成為全行業亟待破解的難題。

另外，華為計畫今年9月正式開源UCM，屆時將在魔擎社區首發，後續逐步貢獻給業界主流推理引擎社區，並共享給業內所有Share Everything(共用架構)存儲廠商和生態夥伴，開源是希望行業內更多人（企業）一起推動推理框架、標準的形成，加速發展的過程。