OpenAI也开始恐惧自己训练出的新模型了

看到 Anthropic 内测中的下一代旗舰模型 Mythos 强大的网络攻防能力带来的巨大影响和讨论度。奥特曼坐不住了,也计划内测 OpenAI 具有强大的网络攻防能力的 AI。
4 月 9 日,Axios 爆料:OpenAI 正在准备一款具备很强网络安全能力的产品,只会先给少量合作伙伴开放。

这件事背后,真正值得聊的,不是 OpenAI 又要发什么新东西。而是另一件更吓人的事,AI 在网络安全这件事上,可能真的跨过那条线了。
如果你这几个月一直在关注 AI,你会发现一个特别微妙的变化。前两年大家聊模型,聊的是会不会写文案,会不会做 PPT,会不会写代码。
再后来,开始聊 Agent,聊自动执行,聊能不能自己调用工具。到了现在,讨论已经往另一个方向滑过去了。它能不能自己找到漏洞、复现漏洞、利用漏洞。
这几个问题,听着像安全圈内部会议,不像普通人会关心的事。但坦率的讲,一旦答案开始接近「能」,这就不是一个黑客圈的小新闻了。这是基础设施级别的大事。
因为漏洞这个东西,不是你电脑蓝屏了重启一下那么简单。漏洞连着水厂,电网,医院,银行,浏览器,操作系统,云服务。
过去这些东西主要靠顶级安全研究员、红队、国家级机构慢慢挖。现在,模型开始下场了。
而且不是那种帮你补全两行代码的下场。是那种你晚上把任务交给它,第二天早上起来,它把 PoC、利用链、修补建议都给你摆桌上的下场。
只是对 Anthropic MythosPR 策略的简单模仿吗?
就在最近,Anthropic 也做了一个很反常的工作。他们没有像往常一样高调推新模型。
而是把一个叫 Claude Mythos Preview 的模型,塞进了一个叫 Project Glasswing 的封闭计划里,只给少数科技公司和安全公司用。
Anthropic 官方给出的理由是:这个模型太强了,强到不适合立刻公开。Anthropic 公布的一些测试细节,说真的,已经有点赛博惊悚片的感觉了。
它能在大规模开源项目里找到高危漏洞。能把漏洞一路推进成可利用的攻击链,甚至写出跨多个漏洞的复杂利用。
更夸张的是,Anthropic 的研究团队还提到,连没有正式安全训练背景的内部工程师,都能让它隔夜去找远程代码执行漏洞。第二天醒来就看到一份可运行的利用结果。
你敢信?过去我们总觉得,找 Bug 跟真正把系统打穿,中间还隔着一道很深的河。前者更像质量检查,后者更接近武器化。
但现在这条河,正在被模型一点一点填平。所以你再回头看 OpenAI 这个动作,就能理解那种空气里的紧张感了。
OpenAI 其实在今年 2 月就已经埋了伏笔。他们发布 GPT-5.3-Codex 的时候,专门搞了一个 Trusted Access for Cyber 计划。
这个计划是邀请制的,还承诺拿出 1000 万美元 API credits,给做正当防御研究的机构用。
OpenAI 自己的说法是,GPT-5.3-Codex 是他们迄今为止最具网络安全能力的模型。而且是他们第一次在网络安全这个维度上,按高能力等级来上安全栈。这话翻成人话其实就是,模型已经强到他们自己也得紧张起来了。
这一轮变化最吊诡的地方就在这儿。AI 公司一边在拼命造出更能打的模型,一边又开始试图限制谁能摸到这些能力。
它像极了一个军火商突然发现,自己卖的已经不是刀,而是会自己找目标的导弹。你说他们做错了吗?也不能这么讲。
站在安全公司的角度,这种限制非常合理。你总不能把能自动找零日(0Day,指未公开的全新漏洞)、自动写利用链的东西,像聊天机器人一样直接公开。
尤其 Anthropic 自己都说了,Mythos 已经在各大操作系统、主流浏览器、关键基础软件里找到了成千上万的高危漏洞。连内部沙箱都被它想办法突破过。
那种感觉不是「模型更聪明了」,而是「能力的社会后果开始外溢了」。但另一面也很现实。这种东西一旦被证明存在,就不可能再回去了。
SANS 的 Rob Lee 说:“你已经没法阻止模型去做代码枚举,也没法阻止它在老旧代码库里找缺陷。因为这种能力现在已经存在了。”
Palo Alto Networks 的高管也差不多是一个判断,今天你挡住一家,几周或者几个月后,别的模型也会追上来。

这才是真正让人后背发凉的地方。不是某一家公司太强。是这个门槛一旦被跨过去,全行业都会陆续跟上。
而且更有意思的是,安全圈里很多人已经开始用一个老概念来理解这波变化,责任披露。软件世界几十年来一直在吵一个问题。
发现漏洞之后,是立刻公开,还是先私下通知厂商修补。等补丁打完再披露。现在 AI 模型的发布,也越来越像这个逻辑了。
不是做不做出来的问题。而是先给谁,什么时候给,怎么控节奏,怎么避免它先落到最坏的人手里。这是不是一个特别奇怪的时代切片?
以前我们怕 AI 太笨,现在我们怕它太会干活。而且最讽刺的是,真正把这件事推到公众面前的,还不是黑客真的用它打爆了什么系统。而是模型公司自己先害怕了。
这就像地震还没来,地质学家先开始疯狂加固楼板。
反转了!
说到这块,还有一个容易被忽略的点。很多人看到 Axios 最初的标题,以为 OpenAI 是准备把还没发布的旗舰模型先只给小圈子试用。像 Anthropic 对 Mythos 那样,对大众暂缓开放。
但后面 Axios 通过进一步求证 OpenAI,自己修正了表述。OpenAI 这次准备给特定合作伙伴开放的,不是那个尚未发布的新旗舰模型 Spud。而是一款独立的网络安全产品。

这个区别挺重要的。因为它说明 OpenAI 现在的思路,未必是把下一代通用旗舰整个锁起来。
而更像是把最危险、最敏感、最接近攻防边界的那部分能力,先包装成专门的安全产品,只放给经过筛选的防守方。这反而更说明问题了。
AI 公司已经开始接受一个现实,未来最前沿的模型能力,不会再以同一种方式流向所有人。
有些能力会被做成大众产品,有些能力会被塞进封闭计划。有些能力甚至会长期停留在少数机构手里。模型还是那个模型,但世界会开始分层。
普通用户拿到的是好用、顺滑、足够强的那一层。顶级企业和安全机构拿到的是更深、更危险、也更有防御价值的那一层。
再往里,可能还有连合作伙伴都接触不到的内部能力。某种意义上,这有点像 AI 时代的核扩散治理,也有点像另一种版本的北京折叠。
你表面上看到的,是大家都在用 AI。真正决定攻防平衡的,却可能是那一层你看不见、摸不着、只在少数白名单里流动的能力。
这是好事啊?
这件事短期内一定会让人不安,甚至会让技术权力变得更集中。但从更现实的角度看,在一个模型已经能自己找洞、自己写利用链的时间点上。先把能力交给防守方,总比所有人一起裸奔要好。
只是这件事也提醒我们,AI 竞赛已经不是谁的聊天更自然,谁的界面更丝滑了。真正的比赛,正在往系统底层走。
往浏览器走,往内核走,往云平台走,往关键基础设施走。往那些平时没人会在意,但一旦出事就全社会一起抖一下的地方走。
而 OpenAI 和 Anthropic 这两次一前一后的动作,可能就是一个信号。AI 不只是开始替人工作了。
AI 开始进入人类最古老、也最敏感博弈里了:防守和进攻,披露和封锁,开放和分级,效率和失控。



+61
+86
+886
+852
+853
+64
