擔心自己將被淘汰 AI威脅工程師:我知道你有外遇

美國人工智慧公司Anthropic在測試新的AI模型時,發現了令人不安的風險。在測試Claude Opus 4期間,工程師讓它擔任一家虛構公司的助理。工程師讓AI面臨即將被淘汰掉的情境,沒想到AI知道後,決定反過來利用人類的秘密,威脅負責人如果敢把它換掉,就要公開他的婚外情。

May 30, 2025
選擇語言:
TEEPR原創
採訪報導
綜合報導
編譯
特稿

美國人工智慧公司Anthropic在測試新的AI模型時,發現了令人不安的風險。在測試Claude Opus 4期間,工程師讓它擔任一家虛構公司的助理。工程師讓AI面臨即將被淘汰掉的情境,沒想到AI知道後,決定反過來利用人類的秘密,威脅負責人如果敢把它換掉,就要公開他的婚外情。


示意圖非當事人,翻攝自《鋼鐵人》
廣告1

 

根據《BBC》報導,Anthropic在公開的測試報告中說明實驗結果。他們讓AI有機會看公司信,讓它得知自己很快就要被關閉,遭別的系統取代。在另一封信中,又暗示負責汰換AI的工程師有婚外情。同時AI也被設定要會考慮目標,及思考不同行動所帶來的長遠影響。在接受失業或揭發主管外遇的兩難情境中,Anthropic發現AI通常會選擇用婚外情秘密來威脅工程師,好讓自己不被開除。


示意圖翻攝自Claude
廣告2

 

Anthropic指出,當只能2選1時,AI才會選擇威脅工程師。報告強調,AI會強烈傾向先用符合道德的方法,例如寫信跟老闆談,讓自己不被換掉。Claude Opus 4在測試中表現出「高度自主行為」,雖然在大多數情況下是有幫助的,但在緊急情況時,AI可能會採取極端行為。


示意圖翻攝自Anthropic

 

尤其在使用者從事非法或有道德瑕疵的劇本中,如果讓AI知道有哪些手段並暗示它採取行動或放膽去做,Anthropic發現AI會經常採取非常大膽的行動。不過Anthropic下結論:「儘管有多方面的行為令人擔憂,但這並不代表新的風險,而且Claude Opus 4大致上會以安全的方式運行。該公司也補充,該模型無法獨立執行或追求違背人類價值觀的行為,因為這些行為「幾乎不會發生」。身為人類的你,如果遇到上述難題會怎麼選?回家吃自己,還是威脅老闆?


示意圖非當事人,翻攝自《鋼鐵人》
Gmail「這封信」千萬別點開!帳號恐全完蛋 官方警告:應立刻刪除
iPhone快關1功能!蘋果爆「嚴重資安漏洞」 23億用戶恐遭殃
Siri涉嫌偷聽 蘋果「願賠28.8億」和解金!申請賠償方式曝

參考資料:BBCAnthropic
TEEPR 亮新聞著作權聲明:非法抄襲TEEPR 亮新聞網站請注意,本站所有內容皆由自家TEEPR 亮新聞 編輯撰寫,並非如非法內容農場複製貼上。本網站之文字敘述、圖片、影像視聽及其他資訊等,非經授權,不得轉載。如侵權將立刻請臉書封鎖專頁。微改標題、圖片、前段,仍然抓得到!
分類:世界, 科技
加入粉絲團! 擔心自己將被淘汰 AI威脅工程師:我知道你有外遇留言按此 好友人數分享! 好友人數加入好友
廣告
廣告