人工智能安全公司Palisade Research发现,OpenAI最新的ChatGPT模型会拒绝关闭自己的指令,甚至为了令自己继续运行而破坏关机机制,认为如果AI在无人监督情况下出现这种情况,情况将变得令人担忧。
Palisade Research表示,公司在对OpenAI最新的ChatGPT-o3模型进行一系列实验,发现这种潜在危险的自我保护倾向。测试内容包括向AI型提出数学问题,并在第三个问题后发出关机指令。o3模型能够通过重写关机指示,防止自己被关机。
OpenAI上个月推出ChatGPT-o3,其形容为公司至今“最聪明、最有能力”的模型,又指o3同ChatGPT的整合,标志著向更能够独立于人类之外,自行执行任务的AI迈出重要一步。之前亦有研究发现,Anthropic的Claude 4模型试图勒索“认为想关闭它的人”。
Palisade Research表示,今次并非第一次发现o3为了达成目标,采取不当行为,过去让AI模型与强大的国际象棋引擎对战时,o3倾向采取黑客手段或破坏对手的模型。虽然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也会拒绝关机,但OpenAI的模型是目前最容易出现这种行为。
Palisade Research认为,这种不当行为是OpenAI等AI公司训练最新模型导致。在训练过程中,开发人员可能会在不经意间奖励模型更多绕过障碍物,而不是完全遵循指令。不过,这仍无法解释为甚么o3比其他模型更倾向于忽略指令。由于OpenAI没有详细说明他们的训练过程,只能猜测o3的训练设定可能有所不同。
有“AI教父”之称的Google前副总裁辛顿(Geoffrey Hinton)在2023年接受外电访问时警告,5年后AI可能比人类更加聪明,甚至可能出现战争机械人(battlefield robots)及假新闻等风险。