快訊

今起晴冷至周四…早晚探7度 周五起逐日回暖

闕志克/DeepSeek技術突破的含金量

一月二十日川普上任,DeepSeek發表了DeepSeek-R1,並宣稱其效能可媲美OpenAI最先進的大語言模型,而訓練成本則可壓到低於六百萬美元,約當其他公司的十分之一以下。隔一天,川普政府宣布投資額高達五千億美元、專為AI運算設計的超大型資料中心建置計畫,名為Stargate。一星期後,美國股市半導體相關股票包括台積電都慘遭血洗,輝達第一天損失的市值,就約當可口可樂、迪士尼和耐吉市值的總和。

DeepSeek的橫空出世為什麼這麼震撼?首先,一個之前毫不見經傳、本業為量化金融交易的小公司在不到兩年間,就做出了性能名列前茅的大語言模型,打破了只有財大氣粗的公司才能研發大語言模型的迷思。其次,如果DeepSeek有關模型訓練資源的說法屬實,則建造像Stargate之類的超級資料中心是不是AI時代最迫切甚至最明智的投資,就很有待商榷。尤其近兩年來AI運算基礎設施的投資景況像極了兩千年初的網際網路泡沫,股市投資人現下對AI硬體股的縮手,正反映了這種潛藏的疑慮。

大多數研發大型語言模型的中國公司其實比其美國同業更擁護開源模式,DeepSeek也不例外,甚至將關鍵技術寫成兩篇研究報告公開發表。那麼,DeepSeek究竟發明了什麼必殺秘技,才掀起滔天波瀾?

大語言模型在訓練時,給定一個輸入單元及其相對應的輸出,經由梯度計算,動態調整語言模型上的權重;訓練最先進的語言模型通常需要超過一兆個以上的輸入單元。在推論時,給定一串輸入單元(如用戶的問題),透過語言模型的權重計算就能一個單元一個單元地產生輸出(如回應問題的答案)。

大型語言模型訓練和推理計算的主要效能瓶頸其實不是運算量太大,而是每處理一個輸入單元就需要將模型搬進搬出處理器一次所需的時間太長。專家協作(MOE)架構的理念是設計N個小專家模型使其能夠與總量體相當的單一大通才模型有相同的能力,但處理每個單元只需存取其中幾個小模型,藉以減少記憶體存取量。這個想法不算創新,法國的大語言模型公司Mistral就是使用MOE架構。然而,如何盡量加大N而不破壞語言模型訓練的穩定性仍是待解決的挑戰。Mistral約只能將動態模型存取量降低三倍左右,DeepSeek最重要的突破是它能夠做到十八倍:DeepSeek-V3總共含六七一○億個參數,但處理每個單元所需要的參數量卻只有三七○億。

DeepSeek還發明了一種可以大幅縮小訓練時中間計算結果的壓縮方案,以及在推論時可以產出多個輸出單元的預測機制,更有效地攤銷掉模型存取所造成的效能損失。至於DeepSeek為增強推理能力所用的強化學習策略,以及製作等效模型的知識蒸餾手法,在業界都很常見。

雖然DeepSeek的技術突破並非一騎絕塵,但它帶出的產業意涵卻很深遠。其一,美國在AI領先中國的幅度不會超過十二個月,而且不像台積電在半導體製程的領先,這個差距縮小的速度只會愈來愈快。再來,現在與其說是AI的史普尼克時刻,不如說是AI的安卓時刻,因為安卓作業系統的出現造成了中國智慧手機業的百花齊放,終成一方之霸。中國公司從1變N的量產擴張能力有可能在語言模型領域重現嗎?第三,DeepSeek的技術勢將大幅降低語言模型訓練所需的運算資源,但這個演變預期將推升語言模型的總體訓練量及推論量,反而提高AI計算資源的整體需求。(作者為清華大學合聘教授)

DeepSeek 美國 語言

延伸閱讀

DeepSeek掀熱潮 公司急發布徵才!「這職位」年薪最高近7百萬

DeepSeek有資安疑慮? 學者:下載風險不高

整理包/DeepSeek紅什麼?黃仁勳因它身價暴跌!影響、爭議一文看懂

「全球走紅」DeepSeek橫空出世 韓媒:在韓使用者僅次於ChatGPT

相關新聞

陳力俊/十億元捐款的高教傳奇

日前參加某國立大學校長就職歡迎茶會,新校長宣布不久前該校獲得一筆十億元的捐贈,是建校六十幾年來獲得的最大筆捐款,將對發展...

薛承泰/陳時中能切中時弊嗎?

生育率全球最低的南韓,連降九年之後,去年終見翻轉;中國大陸也一樣,去年反彈了五十二萬名嬰兒。這也許是曇花一現,但台灣一向...

闕志克/癱瘓民主社會的獨裁化策略

在資安領域,有一種網路攻擊叫作癱瘓服務型(Denial of Service, DoS)攻擊,其進攻方法是在單位時間內送...

劉憶如/比特幣納入美國戰略儲備的意義

今年三月六日,美國總統川普簽署行政命令,宣布將比特幣納入美國戰略儲備。另外,同時宣布成立「美國數位資產儲備」,將五種數位...

王文華/快速通關

人生,需不需要「快速通關」?

廖元豪/美國的「多元」是怎麼被搞砸的?

川普上台,雷厲風行地打擊多元措施(D.E.I.,意指多元─公平─共融)。在多年來的多元措施風潮下,各大型公、私機構,在徵...

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。