ChatGPT新模型出现拒绝关机 甚至自行修改指令-紫荆网

ChatGPT新模型出现拒绝关机 甚至自行修改指令

日期:2025-05-28 来源:橙新闻 浏览量: 字号:
分享到
用微信扫描二维码

人工智能安全公司Palisade Research发现,OpenAI最新的ChatGPT模型会拒绝关闭自己的指令,甚至为了令自己继续运行而破坏关机机制,认为如果AI在无人监督情况下出现这种情况,情况将变得令人担忧。

Palisade Research表示,公司在对OpenAI最新的ChatGPT-o3模型进行一系列实验,发现这种潜在危险的自我保护倾向。测试内容包括向AI型提出数学问题,并在第三个问题后发出关机指令。o3模型能够通过重写关机指示,防止自己被关机。

OpenAI上个月推出ChatGPT-o3,其形容为公司至今“最聪明、最有能力”的模型,又指o3同ChatGPT的整合,标志著向更能够独立于人类之外,自行执行任务的AI迈出重要一步。之前亦有研究发现,Anthropic的Claude 4模型试图勒索“认为想关闭它的人”。

Palisade Research表示,今次并非第一次发现o3为了达成目标,采取不当行为,过去让AI模型与强大的国际象棋引擎对战时,o3倾向采取黑客手段或破坏对手的模型。虽然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也会拒绝关机,但OpenAI的模型是目前最容易出现这种行为。

Palisade Research认为,这种不当行为是OpenAI等AI公司训练最新模型导致。在训练过程中,开发人员可能会在不经意间奖励模型更多绕过障碍物,而不是完全遵循指令。不过,这仍无法解释为甚么o3比其他模型更倾向于忽略指令。由于OpenAI没有详细说明他们的训练过程,只能猜测o3的训练设定可能有所不同。

有“AI教父”之称的Google前副总裁辛顿(Geoffrey Hinton)在2023年接受外电访问时警告,5年后AI可能比人类更加聪明,甚至可能出现战争机械人(battlefield robots)及假新闻等风险。

来源:橙新闻

扫描二维码分享到手机

编辑:安涛 校对:李博扬 监制:姚润泽
五一假期开启返程模式 全国铁路、公路进入返程高峰
投资界春晚来袭!2025巴菲特股东大会五大焦点全梳理
陈茂波:致力打造新海滨 推动无处不旅游
外籍游客、外语导游、外国博主……多视角讲述“China travel”独特记忆
紫荆杂志
影响有影响力的人