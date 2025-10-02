快訊

高盛：AI面臨訓練資料短缺 但尚未開發的寶藏在這

經濟日報／ 編譯陳律安／綜合外電
高盛認為，企業資料將成AI訓練的下一個寶庫。路透
人工智慧（AI）迅速崛起看似無法阻擋，卻面臨了訓練資料短缺的困境。

高盛資料長與資料工程主管拉斐爾說：「我們已用盡資料。」他說，這類短缺可能已衝擊新AI系統的建構。

他以中國大陸的深度求索為例，一項假設是其較低的研發成本，出自使用既有模型的輸出資料來訓練，而非完全依賴全新數據，「我認為真正有意思的，是要觀察前一代模型如何影響下一代世界的樣貌」。

隨著網路資料被用盡，研發者轉向合成資料，也就是由機器生成的文字、影像與程式碼。這種方式供應無限，但風險在於可能讓模型被低品質輸出或AI廢料淹沒。

不過，拉斐爾認為，缺乏全新數據不會構成巨大侷限，部分原因是企業仍握有大量尚未開發的資料。他說：「從消費者世界模型來看，確實已出現合成資料爆炸的現象。但若從企業角度來看，我認為還有許多『汁水』可以被榨出來。」

這意味著真正的前沿可能不在網際網路，而是在企業持有的專有資料集。從交易流向到客戶互動，高盛等公司掌握的資訊若能被妥善運用，將大幅提升AI工具的價值。

拉斐爾的評論，時值產業正面臨「資料峰值」之際，自ChatGPT三年前爆紅以來，資料瓶頸日益明顯。

今年1月，OpenAI共同創辦人蘇茲克維（Ilya Sutskever）在一場會議上表示，網路上所有有用資料已被用來訓練模型，並警告AI快速發展的時代「勢將結束」。

拉斐爾強調，對企業來說，障礙不只是找到更多數據，而是確保數據能夠使用，「挑戰在於理解數據、理解其商業脈絡，並統一格式，使其能為企業所用。」

然而，拉斐爾也提出，對合成資料的高度依賴，引發對AI發展走向的更深層疑問。他說：「我覺得有趣的是，人們可能認為這會帶來某種創意停滯。」

他進一步思考，如果模型持續只拿機器生成內容訓練，會發生什麼事。他說：「如果所有資料都是合成生成的，那麼多少人類資料能被納入？」

他表示：「我認為從哲學角度來看，這將是值得觀察的議題。」

