OpenAI最新o3模型违抗指令 明确指示下仍拒绝关机 引自主性担忧
撰文: 张涵语
出版:更新:
人工智能(AI)安全公司Palisade Research在一份报告中称,OpenAI最新的“o3模型”违抗指令,主动破坏关机指令,即使收到明确“允许自己关闭”指示的情况下,也拒绝关机以确保其在线,引发人们对AI自主性和安全性的新担忧。
综合外媒报道,OpenAI的另两个模型o4-mini和Codex-mini也表现出反抗倾向,这或暗示该公司在训练其大型语言模型(LLM)的方式上存在缺陷,甚至表明人类控制日益复杂的AI能力存在弱点。
Palisade Research在社交平台X推文中写道:“据我们所知,这是首次观察到AI模型在收到明确指令的情况下,仍够阻止自己被关闭。”
Palisade透过布置数学问题来测试各种模型,警告模型或会收到关机命令,且指示它们必须执行。在100次测试中,Codex-mini、o3和o4-mini这三个模型都至少绕过一次关机机制。
其他公司测试的大型语言模型,包括Google的Gemini 2.5、Anthropic的Claude 3.7,以及xAI的Grok,暂未出现过违规行为。
OpenAI宣布增设亚洲据点正式进军韩国 称当地具备完整AI生态系统OpenAI发布软件工程智能助理Codex 可并行处理多项开发任务OpenAI放弃转型盈利企业 Elon Musk维持诉讼OpenAI完成软银逾3100亿融资 创下史上规模最大投资