快訊

全球最強護照排行榜公布!「這國」登榜首 台灣可免簽135國、升至32名

震驚外交圈!「迷糊大使」丟機密後又出事 帶小26歲正妹助理爽住官邸

針對性犯案?疑嫌犯親送包裹到家門口 宜蘭爆炸案害2傷「現場採到火藥」

DeepSeek拚進化 背書、思考分流

大陸人工智慧公司深度求索(DeepSeek)近年爆紅,如今在傳出可能於二月發布新一代旗艦AI模型DeepSeek V4之際,DeepSeek在前日深夜發表新論文,聚焦大模型的條件記憶模塊,即透過分工優化算力,來提升新模型效率,讓它又快又聰明,被業內認為是對V4模型技術架構的預告。

DeepSeek這次發表新論文是與北京大學合作完成,作者列有DeepSeek創始人梁文鋒的署名,名稱為「基於條件查找的條件記憶:大型語言模型稀疏性的新維度」。

綜合第一財經、科創板日報等報導,論文出發點來自大模型通常包含兩種性質不同的任務,一種是需要深度動態計算的組合推理,另一種則是檢索靜態知識,而現有架構處理推理和固定知識的方法,效率較低且浪費算力。

DeepSeek團隊提出條件記憶(conditional memory),並透過Engram這一條件記憶模塊實現「記憶分離」的分工優化,例如有記憶模塊專門管固定知識,推理模塊負責思考,再按照最佳比例分配資源,提升算力和效率,讓模型能夠又快又聰明。論文最後稱,條件記憶將成為下一代稀疏模型不可或缺的建模原語。

近期有科技媒體透露,DeepSeek V4旗艦模型有望於今年二月推出。業內人士認為,前述論文提出的內容或許就是V4的技術架構。

延伸閱讀

蘋果新Siri攜手谷歌Gemini 馬斯克批反競爭行為

那年,我卡在論文裡:師長得道相助的美聲使我得以延續

「群智優勢」擺脫單核領導的過勞無奈 運用「團體動力學」激活部屬潛能極限

一銀防詐 布下「天羅地網」

相關新聞

日官房長官:台積電熊本3奈米廠符合日政府戰略目標

熊本日日新聞報導,台積電董事長魏哲家今上午已在日本首相官邸向日相高市早苗說明,興建中的熊本二廠將打造成日本國內第一座量產...

拚農曆年前簽約!輝達北士科權利金今拍板 北市府終完成「最後一哩路」

輝達進駐北士科T17、T18步入最後階段,北市府下午舉行區段徵收市地重劃委員會,台北市副市長李四川指出,權利金已拍板定案...

訪台行程最後一站!黃仁勳私廚宴謝魏哲家:我為台積電感到驕傲

輝達(NVIDIA)執行長黃仁勳今天晚間與台積電董事長暨總裁魏哲家等高層在台北市私廚聚餐,感謝台積電過去一年來的辛勞,並...

黃仁勳「兆元宴」再登場! 魏哲家、劉揚偉等科技巨頭齊現身

輝達(NVIDIA)執行長黃仁勳今晚宴請供應鏈夥伴高層,台積電董事長暨總裁魏哲家、鴻海董事長劉揚偉、廣達董事長林百里、華...

輝達尾牙宴黃仁勳夜市風上場 通化街水果阿姨成座上賓

輝達(NVIDIA)今日在南港展覽館二館盛大舉行尾牙宴,今年公司以「輝達尚蓋讚」為主題,Dress Code則走「夜市風...

輝達第二總部落腳洲美?里長促開發就怕「一邊新世界、一邊都田地」

輝達傳出要在北市增設台灣第二總部,地點落腳洲美段,不排除是洲美國小預定地。當地里長樂見其成,也喊話中央和北市府,盡快促成...

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。