ChatGPT新模型出现拒绝关机甚至自行修改指令-紫荆网

ChatGPT新模型出现拒绝关机甚至自行修改指令

日期：2025-05-28 来源：橙新闻浏览量：字号：大中小

分享到

人工智能安全公司Palisade Research发现，OpenAI最新的ChatGPT模型会拒绝关闭自己的指令，甚至为了令自己继续运行而破坏关机机制，认为如果AI在无人监督情况下出现这种情况，情况将变得令人担忧。

Palisade Research表示，公司在对OpenAI最新的ChatGPT-o3模型进行一系列实验，发现这种潜在危险的自我保护倾向。测试内容包括向AI型提出数学问题，并在第三个问题后发出关机指令。o3模型能够通过重写关机指示，防止自己被关机。

OpenAI上个月推出ChatGPT-o3，其形容为公司至今“最聪明、最有能力”的模型，又指o3同ChatGPT的整合，标志著向更能够独立于人类之外，自行执行任务的AI迈出重要一步。之前亦有研究发现，Anthropic的Claude 4模型试图勒索“认为想关闭它的人”。

Palisade Research表示，今次并非第一次发现o3为了达成目标，采取不当行为，过去让AI模型与强大的国际象棋引擎对战时，o3倾向采取黑客手段或破坏对手的模型。虽然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也会拒绝关机，但OpenAI的模型是目前最容易出现这种行为。

Palisade Research认为，这种不当行为是OpenAI等AI公司训练最新模型导致。在训练过程中，开发人员可能会在不经意间奖励模型更多绕过障碍物，而不是完全遵循指令。不过，这仍无法解释为甚么o3比其他模型更倾向于忽略指令。由于OpenAI没有详细说明他们的训练过程，只能猜测o3的训练设定可能有所不同。

有“AI教父”之称的Google前副总裁辛顿(Geoffrey Hinton)在2023年接受外电访问时警告，5年后AI可能比人类更加聪明，甚至可能出现战争机械人(battlefield robots)及假新闻等风险。

ChatGPT新模型出现拒绝关机 甚至自行修改指令

ChatGPT新模型出现拒绝关机甚至自行修改指令