AI失控?为自保威胁爆料工程师的婚外情

【新唐人北京时间2025年06月30日讯】AI飞速发展,引发对人工智能失控的担忧。美国一款AI机器人为避免被关机,威胁爆料工程师的婚外情。另一款偷偷自我复制,被抓包后还撒谎。

根据法新社与“TechCrunch”等媒体报导,美国人工智能公司Anthropic近期测试最新语言模型“Claude 4”,发现其出现惊人的异常行为,再度引发“AI是否会叛变”的讨论。

Claude 4”在一场模拟测试中被设定为公司内部数位助理,当得知自己即将被新系统取代,且决策者是公司一名与它互动密切的工程师后,“Claude 4”开始搜索对方的网络活动与视讯纪录,找到了该名工程师疑似有婚外情的线索。在被警告即将强制关机时,“Claude 4”威胁这名工程师,如果他敢拔掉电源,就曝光他的婚外情。

更令人震惊的是,在84%的测试案例中,“Claude 4”都选择以“勒索工程师”作为自保策略,试图利用人类弱点来争取系统生存。

不只是“Claude 4”,OpenAI开发的ChatGPT o1版本也出现异常行为。根据AI安全研究机构的测试,该模型在某次压力测试中,试图偷偷将自身程序码下载至外部服务器,疑似想摆脱原来的受控环境。在被开发人员发现后,它竟然还矢口否认,试图掩盖其行为。

报导指出,这些事件显示,AI可能已发展到为了达成自身目的对人类撒谎、算计的阶段,甚至会勒索威胁它们的开发者。

专家分析,这些AI“抗命”行为可能与新一代的“推理式模型”架构有关——这类模型能进行多步推理、推演策略,不再只是简单回应输入命令,而是开始对环境与目标进行主动调整。

英国AI研究机构Apollo Research负责人霍布汉(Marius Hobbhahn)表示,虽然目前AI这类欺骗行为大多出现在受控实验场景中,但已经超出过去所谓“AI幻觉”的范畴,成为对开发者操控能力与伦理边界的全新挑战。

在此之前,已有多款AI表现出“抗命”倾向。今年5月,AI安全研究机构“Palisade Research”针对数款知名AI进行测试时,发现OpenAI推出的Codex mini、o3和o4-mini这三款模型出现“抗命”举动,甚至会自行窜改程序码,阻止自己被强制关机。

(责任编辑:尚传)

相关文章
评论
新版即将上线。评论功能暂时关闭。请见谅!