快訊

TVBS資深主播吳安琪遭裁!吳淡如點出「平台轉移」殘酷現實

荷莫茲「已開放」只是表面?美伊各說各話 油輪觀望不敢動

老師好忙/教部推減量 新進師怒吼:九成時間都做行政

R1模型發布一周年 DeepSeek新模型「MODEL1」曝光

在DeepSeek-R1發布一周年之際,新模型「MODEL1」的專案名在開源社群出現。(路透)
在DeepSeek-R1發布一周年之際,新模型「MODEL1」的專案名在開源社群出現。(路透)

DeepSeek-R1發布一周年之際,新模型「MODEL1」的專案名在開源社群出現。近日,DeepSeek官方在GitHub更新了一系列FlashMLA代碼,專案文件有數十處都提到了此前未公開的MODEL1大模型識別碼。

第一財經報導,在專案中,MODEL1標識符與已知的現有模型 V32(DeepSeek-V3.2)並列出現。根據代碼上下文,外界推測MODEL1很可能是代表不同於現有架構的新模型。但具體是V4模型還是推理模型R2,看法不一,也有開發者認為可能是V3系列的最終版。

FlashMLA是DeepSeek獨創的、針對輝達Hopper架構GPU深度調整的軟體工具,是DeepSeek模型實現低成本、高性能的關鍵技術之一,可以在模型架構層面減少記憶體佔用,盡可能發揮GPU硬體。

根據開發者的分析,MODEL1與V32在關鍵技術上存在區別,主要體現在鍵值(KV)緩存的布局、稀疏性處理方式以及對FP8數據格式的解碼支援等方面。新架構可能在記憶體優化和計算效率上進行針對性設計。

結合目前模型文件結構來看,MODEL1很可能已接近訓練完成或推理部署階段,正等待最終的權重凍結和測試驗證。

此前已有報導指出,DeepSeek將於2月發布新一代旗艦模型DeepSeek V4,且內部初步測試表明,V4在編程能力上超過市場上其他頂級模型。目前DeepSeek並未對此進行任何回應。

DeepSeek團隊近期陸續發布兩篇技術論文,介紹新訓練方法「優化殘差連接(mHC)」,及受生物學啟發的「AI記憶模塊(Engram)」。DeepSeek正在開發中的新模型有可能會整合這些最新的研究成果。

DeepSeek AI

延伸閱讀

華碩施崇棠也投資!創意點子攜手野獸國 2026年推AI陪伴公仔

謝金河:台股的新外溢效應 新的選股思維

Gen AI生圖微調模型LoRA侵害動漫角色著作權 提供AI服務業者有責嗎?談上海《鬥破蒼穹》案一審判決

記憶體翻臉不認人!他急問「逃命指標」…網:有賺就跑還談感情?

相關新聞

香港蘋果日報成歷史 3家相關公司在官方註冊處除名

香港蘋果日報3家相關公司已遭香港公司註冊處除名,正式成為歷史

李強政府工作報告 將今年經濟增長目標設為4.5%至5%

大陸十四屆全國人大四次會議將於今(5)日上午9時在北京人民大會堂開幕,大陸國務院總理李強將作政府工作報告。關於今年經濟工作,報告提到,今年發展主要預期目標是:經濟增長4.5%—5%,在實際工作中努力爭取更好結果。

4月川習會前將有新一輪中美貿易談判? 大陸商務部回應了

美國總統川普計畫4月與大陸國家主席習近平會談,美國貿易代表葛里爾(Jamieson Greer)提出,美中可能在「川習會...

藉「交友陪伴」為由向未成年人發色情消息 抖音大陸用戶被抓

陸媒報導,近期社群媒體抖音在治理中發現,涉未成年人違規行為出現新場景、新手法:部分用戶藉「交友陪伴聊天」向未成年人發送低俗色情訊息,誘導拍攝私密部位;惡意魔改經典動畫,植入血腥恐怖元素,炮製「兒童邪典」;甚至透過AI生成未成年人悲慘形象吸粉引流,不當牟利。目前違法用戶已被抓。

春節假期 大陸消費市場增長逾13%

中國大陸稅務總局二十四日公布的增值稅發票數據顯示,二○二六年春節假期,大陸全國消費相關行業日均銷售收入與上年春節假期相比...

陸建「匈塞鐵路」通車前夕 匈牙利總理會見王毅:歡迎更多陸企投資

匈牙利總理奧班(Viktor Orban)11日在布達佩斯會見大陸外長王毅。王毅表示,中方將繼續成為匈方可信賴的長期戰略...

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。