闕志克/DeepSeek技術突破的含金量

一月二十日川普上任,DeepSeek發表了DeepSeek-R1,並宣稱其效能可媲美OpenAI最先進的大語言模型,而訓練成本則可壓到低於六百萬美元,約當其他公司的十分之一以下。隔一天,川普政府宣布投資額高達五千億美元、專為AI運算設計的超大型資料中心建置計畫,名為Stargate。一星期後,美國股市半導體相關股票包括台積電都慘遭血洗,輝達第一天損失的市值,就約當可口可樂、迪士尼和耐吉市值的總和。

DeepSeek的橫空出世為什麼這麼震撼?首先,一個之前毫不見經傳、本業為量化金融交易的小公司在不到兩年間,就做出了性能名列前茅的大語言模型,打破了只有財大氣粗的公司才能研發大語言模型的迷思。其次,如果DeepSeek有關模型訓練資源的說法屬實,則建造像Stargate之類的超級資料中心是不是AI時代最迫切甚至最明智的投資,就很有待商榷。尤其近兩年來AI運算基礎設施的投資景況像極了兩千年初的網際網路泡沫,股市投資人現下對AI硬體股的縮手,正反映了這種潛藏的疑慮。

大多數研發大型語言模型的中國公司其實比其美國同業更擁護開源模式,DeepSeek也不例外,甚至將關鍵技術寫成兩篇研究報告公開發表。那麼,DeepSeek究竟發明了什麼必殺秘技,才掀起滔天波瀾?

大語言模型在訓練時,給定一個輸入單元及其相對應的輸出,經由梯度計算,動態調整語言模型上的權重;訓練最先進的語言模型通常需要超過一兆個以上的輸入單元。在推論時,給定一串輸入單元(如用戶的問題),透過語言模型的權重計算就能一個單元一個單元地產生輸出(如回應問題的答案)。

大型語言模型訓練和推理計算的主要效能瓶頸其實不是運算量太大,而是每處理一個輸入單元就需要將模型搬進搬出處理器一次所需的時間太長。專家協作(MOE)架構的理念是設計N個小專家模型使其能夠與總量體相當的單一大通才模型有相同的能力,但處理每個單元只需存取其中幾個小模型,藉以減少記憶體存取量。這個想法不算創新,法國的大語言模型公司Mistral就是使用MOE架構。然而,如何盡量加大N而不破壞語言模型訓練的穩定性仍是待解決的挑戰。Mistral約只能將動態模型存取量降低三倍左右,DeepSeek最重要的突破是它能夠做到十八倍:DeepSeek-V3總共含六七一○億個參數,但處理每個單元所需要的參數量卻只有三七○億。

DeepSeek還發明了一種可以大幅縮小訓練時中間計算結果的壓縮方案,以及在推論時可以產出多個輸出單元的預測機制,更有效地攤銷掉模型存取所造成的效能損失。至於DeepSeek為增強推理能力所用的強化學習策略,以及製作等效模型的知識蒸餾手法,在業界都很常見。

雖然DeepSeek的技術突破並非一騎絕塵,但它帶出的產業意涵卻很深遠。其一,美國在AI領先中國的幅度不會超過十二個月,而且不像台積電在半導體製程的領先,這個差距縮小的速度只會愈來愈快。再來,現在與其說是AI的史普尼克時刻,不如說是AI的安卓時刻,因為安卓作業系統的出現造成了中國智慧手機業的百花齊放,終成一方之霸。中國公司從1變N的量產擴張能力有可能在語言模型領域重現嗎?第三,DeepSeek的技術勢將大幅降低語言模型訓練所需的運算資源,但這個演變預期將推升語言模型的總體訓練量及推論量,反而提高AI計算資源的整體需求。(作者為清華大學合聘教授)

DeepSeek 美國 語言

延伸閱讀

DeepSeek掀熱潮 公司急發布徵才!「這職位」年薪最高近7百萬

DeepSeek有資安疑慮? 學者:下載風險不高

整理包/DeepSeek紅什麼?黃仁勳因它身價暴跌!影響、爭議一文看懂

「全球走紅」DeepSeek橫空出世 韓媒:在韓使用者僅次於ChatGPT

相關新聞

陳亮恭/折枝何辜?病梅鏡世

被譽為三百年來第一人的龔自珍,生於清代步向衰敗的時刻,作為清代思想家、詩人、文學家、改革先驅者,受後世梁啟超高度推崇。龔...

張延廷/台灣避免成為美、中灰色地帶陷阱

成功「二進宮」的川普稱上任後考慮要求北約各國增加國防預算至GDP的百分之五,讓歐洲「盟友們」紛紛察覺川普將明顯改變對烏克...

盛治仁/調整人生優先順序 戒掉成功癮

最近出書整理了近幾年的生命反省。隨著職涯歷練和馬齒徒長,不知不覺間,已經要從中壯年逐步邁入老年階段了。雖主觀上自覺身心都...

魏國彥/西南台灣地震備忘錄

一月二十一日凌晨零時十七分,嘉義大埔發生芮氏規模六點四的大地震,開啟了一連串地震,先有台南楠西的地震群,然後又在台南東山...

陳冲/南下牧馬的地緣新政治

對老一輩的人而言,《蘇俄在中國》可是傳世經典之作,探究蘇維埃共黨在中國的發展,相傳是陶希聖執筆,初稿僅四萬字,蔣總統閱後...

闕志克/DeepSeek技術突破的含金量

一月二十日川普上任,DeepSeek發表了DeepSeek-R1,並宣稱其效能可媲美OpenAI最先進的大語言模型,而訓...

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。