OpenAI最新o3模型违抗指令　明确指示下仍拒绝关机　引自主性担忧

撰文：张涵语

出版：2025-05-28 23:00更新：2025-05-29 17:18

人工智能（AI）安全公司Palisade Research在一份报告中称，OpenAI最新的“o3模型”违抗指令，主动破坏关机指令，即使收到明确“允许自己关闭”指示的情况下，也拒绝关机以确保其在线，引发人们对AI自主性和安全性的新担忧。

综合外媒报道，OpenAI的另两个模型o4-mini和Codex-mini也表现出反抗倾向，这或暗示该公司在训练其大型语言模型（LLM）的方式上存在缺陷，甚至表明人类控制日益复杂的AI能力存在弱点。

Palisade Research在社交平台X推文中写道：“据我们所知，这是首次观察到AI模型在收到明确指令的情况下，仍够阻止自己被关闭。”

Palisade透过布置数学问题来测试各种模型，警告模型或会收到关机命令，且指示它们必须执行。在100次测试中，Codex-mini、o3和o4-mini这三个模型都至少绕过一次关机机制。

其他公司测试的大型语言模型，包括Google的Gemini 2.5、Anthropic的Claude 3.7，以及xAI的Grok，暂未出现过违规行为。