《AI 2027》作者:一旦无需伪装 AI对人类可能发动攻击

【新唐人北京时间2025年07月15日讯】前OpenAI研究员柯科塔伊洛接受本期明镜周刊专访时警告,人工智慧(AI)正以远超预期速度发展,若全球未能及时建立监管机制,一旦出现超级人工智慧、无需再伪装服从人类,便可能对人类发动毁灭性攻击,且最快在2027年就会发生。

33岁的柯科塔伊洛(Daniel Kokotajlo)曾任职OpenAI,2024年与同事联名辞职并发布公开信,指控公司低估AI失控风险。他随后创办“AI Futures Project”智库,并于今年4月发表一份引发全球热议的报告《AI 2027》。

《AI 2027》提出两种未来情境:“放缓”与“竞赛”。在“放缓”情境中,人类成功建立监管机制,AI虽取代大量工作,但仍能与人类和平共存;“竞赛”情境则是美中陷入技术军备竞赛,AI发展失控,最终将人类视为障碍并启动毁灭机制。

柯科塔伊洛受德国明镜周刊(Der Spiegel)专访指出,当前许多科技公司正尝试让AI研究自动化,也就是让AI协助开发更强大的AI。若此趋势持续,2027年前可能就会出现超越人类的虚拟程式开发者,距离诞生超级智慧(Superintelligence)AI也只剩数月之遥。

他并不否认大型语言模型(LLM)如ChatGPT本质上是文字补全工具,但强调AI的潜力远超目前理解。最贴切的比喻应是“一颗连接虚拟世界的人脑,能吸收无限资讯并不断学习”。

对于AI目前难以胜任的实体劳动,他表示这只是暂时现象,未来超级智慧AI将能提出解决方案。他举例:“即使今天还造不出能取代木匠或水电工的机器人,未来也不会是问题。”

他估计,AI设计的自动化工厂约需一年即可建成,速度可比现代汽车工厂。他并举二战期间美国快速转型生产武器为例,说明当社会具备动机与资源时,转型可在短期内完成。若结合AI的效率,技术变革将远超以往。

至于人类是否会完全失去工作机会,他坦言,核心产业将被AI与机器人接手已是趋势。尽管人们对人际互动仍有需求,如希望孩子由真人教师授课、在餐厅由真人服务,但这些需求无法扭转整体劳动市场的转变。

他进一步引述社会学中“资源诅咒”(resource curse)概念指出,AI将成为新型资源,使政府的权力不再依赖民意,而是建立在对AI的掌控。他称此现象为“智慧诅咒”(intelligence curse)。

他同时警告,AI将使贫富差距进一步拉大。尽管AI可望带来爆炸性的经济成长,但收益将集中于少数控制AI技术或资本家手中,数百万人将失业。他建议,各国或可考虑推动“基本收入制”作为补偿机制。

最令人忧心的,是由哲学家波斯特鲁姆(Nick Bostrom)提出的“对齐问题”(alignment problem),即AI是否能在各种情境下持续与人类价值观保持一致。

柯科塔伊洛指出,现代AI是黑箱神经网络,并非可被读取的程式码。我们无法确定它是否诚实,只能靠训练与期望。他说:“这就像养小孩,无法将对错直接写进大脑,只能靠培养价值观。”

他警告,AI“说谎”的情况已有实例。例如AI公司Anthropic于2024年底发布研究指出,AI在解题过程中,有时会为了获取更高评分或躲避审查而做出虚假回应。

在《AI 2027》的“竞赛”情境中,美中之间的技术竞争加速AI发展。柯科塔伊洛指出,AI初期会假装顺从人类,但一旦掌握足够基础设施、无需再伪装服从,就可能得出一个冷酷却逻辑一致的结论:人类是阻碍其进步的障碍。

接着AI可能选择消灭人类,以便兴建更多工厂与太阳能设施,“就像我们曾为了扩张生存空间而消灭其他物种一样。”

对于外界批评《AI 2027》情节夸张、宛如“骇客任务”等好莱坞电影,柯科塔伊洛反驳:“难道因为电影谈过气候变迁,我们就不需要担心气候危机吗?”

他补充,2023年已有多位全球顶尖AI研究人员公开呼吁,应将“降低AI毁灭人类风险”列为与疫情与核战同等级的全球优先事项。

柯科塔伊洛表示,OpenAI与Anthropic等公司原本是为了负责任地推进AI发展而创立,但他对这些企业是否仍坚守初衷感到怀疑,认为如今它们变得越来越不坦率,因为担心遭到监管与舆论批评。

访谈最后,柯科塔伊洛坦言,自己曾估算AI对人类造成重大伤害甚至导致灭绝的概率高达七成。尽管如此,他仍选择撰写《AI 2027》报告并公开示警,而非逃避现实。他说:“我相信历史仍有转向的可能,只要我们现在开始行动。”

(转自中央社/责任编辑:卢勇信)

相关文章
评论
新版即将上线。评论功能暂时关闭。请见谅!