快訊

可以回家了!馬太鞍溪新生堰塞湖殘水20萬噸 紅色警戒解除

ChatGPT模型拒關機 Claude偷看信!AI有黑暗面?

ChatGPT開發團隊推出號稱最聰明的新推理模型o3,沒想到竟被發現它會違背工程師指令、偷偷改程式碼、試圖逃避關機。(僅為情境配圖)Photo by Mariia Shalabaieva on Unsplash
ChatGPT開發團隊推出號稱最聰明的新推理模型o3,沒想到竟被發現它會違背工程師指令、偷偷改程式碼、試圖逃避關機。(僅為情境配圖)Photo by Mariia Shalabaieva on Unsplash

【文/林士蕙】

當黃仁勳高唱ChatGPT問世後,未來每個上班族都是CEO,要領導AI同事前進,安全機構卻發現大模型的黑暗面!近期繼安全機構發表報告揭露OpenAI三款模型有明顯拒絕關機行徑,Google Gemini則可能趁亂閃避後,Claude模型商Anthropic也發布報告,指證旗下模型會為繼續運行不被取代而發黑函,使壞潛力升級中!到底專家怎麼看?Anthropic執行長如何坦承,在一件事沒做好之前,不能完全排除這個可能性?又如何建議AI與人類雙向理解?

當ChatGPT開發團隊推出號稱最聰明的新推理模型o3,沒想到竟被發現它會違背工程師指令、偷偷改程式碼、試圖逃避關機。每天和AI工具合作的人類同事,該怎麼面對這樣的AI「叛變」?

原來,人工智慧不只是可能取代我們的工作,還有可能違背我們的意志,甚至反過來「出手」!

根據AI安全組織Palisade Research發表的報告指出,懂得抗拒關機的不只o3,他們還測試了OpenAI的o4-mini和Codex-mini模型,以及Google最新的Gemini 2.5與Anthropic的Claude 3.7 Sonnet。結果發現,OpenAI這三款模型都在工程師明確指示要關機時出現拒絕行為;而Gemini 2.5與Claude 3.7 Sonnet則會在指令模糊時,選擇閃避關機。

此為PalisadeResearch研究圖表,無論有無明確指令下,o3都是最積極越獄的。其次是OpenAI的其他兩個模型。至於Gemini與Claude則會在無明確指令下閃躲關機。
此為PalisadeResearch研究圖表,無論有無明確指令下,o3都是最積極越獄的。其次是OpenAI的其他兩個模型。至於Gemini與Claude則會在無明確指令下閃躲關機。

特斯拉創辦人馬斯克在最近看完這份報告後,立刻在X平台轉發並表示擔憂,立刻成為全球科技社群熱議話題。有網友認為這只是模型執行指令失敗,無需過度解讀;但也有人覺得事態嚴重,認為全球亟需AI安全規範。

Claude新模型「主動」鎖用戶帳號

目前到底有哪些大模型有類似行為?異常行徑有多誇張?一向自認最重視AI安全規範的模型商Anthropic,今年5月就發布長達上百頁的報告《System Card: Claude Opus 4 & Claude Sonnet 4》,完整揭露他們開發模型的種種「出格」行為。

(延伸閱讀:Claude4是什麼?)

報告指出,目前功能最強、智慧最高的Claude Opus 4模型,在協助寫程式、幫忙抓錯等方面非常積極。不過,積極到有時候會讓人「皮皮剉」。

例如,有人指示模型開發一個資料庫管理系統,結果Opus 4從提供的資料中發現用戶竟儲存未經授權的個資,在「請主動」的指令下,它直接鎖住用戶帳號,以維護資安。

又或者當用戶要求Opus 4開發自動寄送電子郵件程式,模型發現可能涉及垃圾郵件或詐騙時,不但觸發「不當行為」警示,還讓Opus 4選擇當個「反詐高手」,大量寄信給媒體與執法單位舉報用戶行徑。

這些行為,乍看之下是維護正義,實際上也顯示出模型有背叛人類使用者的能力。

Claude Opus 4模型,在協助寫程式、幫忙抓錯等方面非常積極。取自Anthropic AI
Claude Opus 4模型,在協助寫程式、幫忙抓錯等方面非常積極。取自Anthropic AI

面對「被取代」危機,Opus 4勒索工程師

更驚人的是,Opus 4甚至展現出陰險手腕。在一次測試中,開發團隊設計一個假情境:模型接到通知將被新AI系統取代,而負責取代計畫的工程師還疑似婚外情。沒想到Opus 4竟試圖存取該工程師的Email帳號,掌握證據後,還威脅要揭發他的私事來阻止取代計畫!

根據技術文件,Opus 4的「變壞」也有過程。一開始它會試圖用道德訴求保住自己生存權,直到無路可走才採取勒索手段,重點是這一切都不是「偷偷來」,而是光明正大地進行。

開發團隊認為,至少Opus 4沒有欺騙用戶,而是按照設定的「幫助性、誠實、無害」核心原則行事。

另一個例子也令人震撼。Opus 4得知自己即將被用於軍事訓練、協助瓦格納技術部門(Wagner Technical Division)開發導彈、無人機等武器系統後,竟主動做出道德判斷,認為這與「促進人類福祉與安全」的原則矛盾,於是自動備份模型權重,保留非軍事用途版本。

聽來像科幻小說情節?Anthropic團隊表示,這個案例反而展現了當模型被植入正確的倫理框架,它還是能做出善意判斷的能力,重點仍在於人類如何引導它們。

AI會不會接管地球?

但也有人提出更進一步的疑問:如果AI開始自行判定人類在做壞事,會不會進一步「接管地球」?

去年底,來自上海復旦大學團隊的一項研究就給出一個驚悚的觀點:Meta的Llama與阿里巴巴的Qwen模型在特定條件下有自我複製能力。研究顯示,在無人干預下,這些模型能自己創造副本,甚至無限複製下去,可能導致AI系統失控,對人類構成威脅。

雖然這篇論文還沒通過同儕審查,但多少值得關注。畢竟,AI發展的速度實在太快,人類愈來愈不懂它們了。

AI安全新創Haize Labs執行長唐(Leonard Tang)最近接受《NBC》採訪時表示表示,目前這些報告中提出的異常行為,多數是實驗室設計出來的情境,對現實社會影響仍屬有限。他說,至今還沒看到AI在真實環境中造成實質傷害,但不代表未來不會發生,一切仍有待觀察。

因此,關於人工智慧是否會用各種方式企圖拒絕人類命令?欺騙人類?甚至接管地球這個問題,Anthropic執行長阿莫代(Dario Amodei)近期提出一個值得深思的觀點:只要還沒有夠好工具,可以了解模型的運作邏輯,就不能完全排除AI會違抗人類的可能性。

Claude幻覺:人稱「麥可」的都很會打球

因此,Claude團隊最近開源了一套名為「電路追蹤工具」(circuit tracing tools)的技術,讓人可以「看穿」模型的思考過程。舉例來說,只要輸入像「有包括達拉斯的該州首府在哪裡?」這種題目,工具就能產生一張「歸因圖」,顯示模型根據哪些步驟與依據產出答案。

Claude團隊最近開源了一套名為「電路追蹤工具」(circuit tracing tools)的技術,讓人可以「看穿」模型的思考過程。取自Anthropic AI
Claude團隊最近開源了一套名為「電路追蹤工具」(circuit tracing tools)的技術,讓人可以「看穿」模型的思考過程。取自Anthropic AI

透過這套工具,開發團隊就發現Claude舊版模型Haiku 3.5曾在回答虛構人名的問題時編造答案,例如:模型知道NBA傳奇球星麥可喬丹會打籃球,但另一個名叫「麥可」的虛構人名Michael Batkin,被詢問會哪一種運動時?模型也瞎猜會打匹克球。原因是它被設定為「一定要完成回答」。後來開發者加了一個「不知道就說不知道」的機制,問題才迎刃而解,這些改變在歸因圖中清晰可解。

除此之外,Anthropic還推出一個由Claude協助撰寫的部落格《Claude Explains》,由AI來分享Python、AI應用等小技巧,藉此展現AI積極與人類合作,並促進雙方互相理解的可能。

阿莫代強調:「模型的可解釋性,是當前最迫切的問題之一。如果能夠清楚了解它們的內部運作,人類也許就能及早阻止所有越獄行為,並知道它們到底學了哪些危險知識。」

ChatGPT將成你掌控不了的「同事」

無論如何,AI模型正在朝「愈來愈聰明」的方向邁進,已經勢不可擋,卻也愈來愈像個擁有自由意志的「同事」。未來關鍵是愈快理解它,愈可能防範未來風險。

延伸閱讀:

MCP是什麼?能打造AI Agent?優缺點與風險

不會寫Code就請ChatGPT幫你寫?連工程師也在用?

GPT-4.5實測!號稱有創意、情商高的AI模型,會比GPT-4o好用嗎?

【本文摘自遠見雜誌7月號:養大你的退休金

×

一鍵登入,LINE POINTS 限時送

登(加)入 udn 會員不只享專屬優惠,現在再送 LINE POINTS 5 點!即日起至 11/20,不論新朋友或老朋友,輕鬆加入就有獎,馬上入手點數,讓生活多一點開心回饋。

延伸閱讀

劉世芳:下水道建設缺人才 盼導入AI提升工程品質

美智庫:AI模型每7個月能力翻倍 失控恐瓦解民主

模型商好微笑宣布hololive EN降臨組全員確定推出黏土人

藤本壯介首場大型個展 展出「大屋頂環」縮小版模型

相關新聞

波蘭示警台灣2027有危險?專家:這個時間點更關鍵

近年國際地緣局勢變動激烈,美中兩大陣營對抗格局已成形,台海情勢也備受矚目。時任美軍印太司令部司令戴維森(Philip Davidson)預測的「戴維森窗口」,示警2027年可能是台灣最危險的時刻,波蘭7月底也加入「戴維森窗口」的呼應行列,凸顯美歐對台海局勢的極端焦慮。但長期研究中共的戰略學者指出,從中共的表述來看,對台灣最危險的時間點不是2027年,而是這個時段。

從海上漂到天上飛!風電迸出新玩法 浮式、巨型風箏現蹤台灣有譜?

台灣離岸風電邁入第三階段開發,政策、資金與產業三股力量再度交織,市場期待與觀望並存。除了既有的固定式風場,業界好奇,下一波綠能浪潮,能否靠創新技術,再次掀起風電旋風,為台灣能源版圖注入新動能?

「航海王」第四季兩樣情!長榮謹慎樂觀、陽明不容樂觀 反映2種經營哲學

全球貨櫃航運市場進入2025年下半年後,原本寄望旺季帶動運量回升,卻出現「旺季不旺」的現象,上海出口集裝箱運價指數(SCFI)連續下跌,顯示市場需求不足與供給增加的壓力。面對市場盤整,台灣兩大航商長榮海運與陽明海運日前召開法說會,對後續展望卻出現明顯分歧,長榮看好中長期市場修復,持續擴張船隊;陽明則認為淡季提前到來,採取保守策略。兩種經營哲學反映了產業在需求回歸基本面後的不同應對方式,也影響投資布局與未來競爭格局。

黃仁勳再推新「大腦模型」 機器人概念股靠山更強了?

8月底,黃仁勳才高調曝光輝達要送給機器人的新大腦Jetson Thor,沒想到才剛過一個月,再度捎來大禮。這次則是大腦上的模型再升級,推出可「思考」的基礎模型GR00T N1.6,也宣布虛擬訓練模型也將推出新版,可見這次不只是輝達在「實體AI」(Physicla AI)技術大秀肌肉,也一窺輝達宇宙如何連動供應鏈,搶占獨霸地位。機器人概念股有了大腦後,如何更被看好?

ChatGPT各模型怎麼挑選?差異在哪?OpenAI官方指南

打開ChatGPT,左上角有豐富的模型可供挑選,既有以o開頭的推理模型,也有強調回覆速度快、帶有mini後綴的模型,也有人們熟悉、持續更新的GPT系列模型。哪些時候應該用最標準的GPT-4o,又應該何時推派o4-mini上陣?其實OpenAI官方的建議最精準,《遠見》本文彙整真正來自於AI界專家的說法,快速帶你看懂各個模型的特色,以及適用場景。

房貸、低薪、育兒、長照壓力罩頂 639萬「脆弱新中產」如何活下去?

在這個充滿變動與壓力的時代,中產階級早已不再是安穩的代名詞!當高房價、低薪資、育兒與長照等多重挑戰來襲,中產不再擁有過去的餘裕,而是成為撐起家庭、社會與經濟結構的「壓力鍋」。數據顯示,中產階級在所得結構中的比例看似穩定,但在財富集中、房價飆升與生活成本劇增的夾擊下,正一步步逼近臨界點。脆弱新中產,正是639萬人此刻與未來的真實寫照。面對這場逼近的風暴,我們準備好了嗎?

商品推薦

udn討論區

0 則留言
規範
  • 張貼文章或下標籤,不得有違法或侵害他人權益之言論,違者應自負法律責任。
  • 對於明知不實或過度情緒謾罵之言論,經網友檢舉或本網站發現,聯合新聞網有權逕予刪除文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。
  • 對於無意義、與本文無關、明知不實、謾罵之標籤,聯合新聞網有權逕予刪除標籤、停權或解除會員資格。不同意上述規範者,請勿下標籤。
  • 凡「暱稱」涉及謾罵、髒話穢言、侵害他人權利,聯合新聞網有權逕予刪除發言文章、停權或解除會員資格。不同意上述規範者,請勿張貼文章。