OpenAI也开始恐惧自己训练出的新模型了

2026-04-13 来源： BackChina 原文链接评论0条

OpenAI也开始恐惧自己训练出的新模型了 - 1

看到 Anthropic 内测中的下一代旗舰模型 Mythos 强大的网络攻防能力带来的巨大影响和讨论度。奥特曼坐不住了，也计划内测 OpenAI 具有强大的网络攻防能力的 AI。

4 月 9 日，Axios 爆料：OpenAI 正在准备一款具备很强网络安全能力的产品，只会先给少量合作伙伴开放。

OpenAI也开始恐惧自己训练出的新模型了 - 2

这件事背后，真正值得聊的，不是 OpenAI 又要发什么新东西。而是另一件更吓人的事，AI 在网络安全这件事上，可能真的跨过那条线了。

如果你这几个月一直在关注 AI，你会发现一个特别微妙的变化。前两年大家聊模型，聊的是会不会写文案，会不会做 PPT，会不会写代码。

再后来，开始聊 Agent，聊自动执行，聊能不能自己调用工具。到了现在，讨论已经往另一个方向滑过去了。它能不能自己找到漏洞、复现漏洞、利用漏洞。

这几个问题，听着像安全圈内部会议，不像普通人会关心的事。但坦率的讲，一旦答案开始接近「能」，这就不是一个黑客圈的小新闻了。这是基础设施级别的大事。

因为漏洞这个东西，不是你电脑蓝屏了重启一下那么简单。漏洞连着水厂，电网，医院，银行，浏览器，操作系统，云服务。

过去这些东西主要靠顶级安全研究员、红队、国家级机构慢慢挖。现在，模型开始下场了。

而且不是那种帮你补全两行代码的下场。是那种你晚上把任务交给它，第二天早上起来，它把 PoC、利用链、修补建议都给你摆桌上的下场。

只是对 Anthropic MythosPR 策略的简单模仿吗？

就在最近，Anthropic 也做了一个很反常的工作。他们没有像往常一样高调推新模型。

而是把一个叫 Claude Mythos Preview 的模型，塞进了一个叫 Project Glasswing 的封闭计划里，只给少数科技公司和安全公司用。

Anthropic 官方给出的理由是：这个模型太强了，强到不适合立刻公开。Anthropic 公布的一些测试细节，说真的，已经有点赛博惊悚片的感觉了。

它能在大规模开源项目里找到高危漏洞。能把漏洞一路推进成可利用的攻击链，甚至写出跨多个漏洞的复杂利用。

更夸张的是，Anthropic 的研究团队还提到，连没有正式安全训练背景的内部工程师，都能让它隔夜去找远程代码执行漏洞。第二天醒来就看到一份可运行的利用结果。

你敢信？过去我们总觉得，找 Bug 跟真正把系统打穿，中间还隔着一道很深的河。前者更像质量检查，后者更接近武器化。

但现在这条河，正在被模型一点一点填平。所以你再回头看 OpenAI 这个动作，就能理解那种空气里的紧张感了。

OpenAI 其实在今年 2 月就已经埋了伏笔。他们发布 GPT-5.3-Codex 的时候，专门搞了一个 Trusted Access for Cyber 计划。

这个计划是邀请制的，还承诺拿出 1000 万美元 API credits，给做正当防御研究的机构用。

OpenAI 自己的说法是，GPT-5.3-Codex 是他们迄今为止最具网络安全能力的模型。而且是他们第一次在网络安全这个维度上，按高能力等级来上安全栈。这话翻成人话其实就是，模型已经强到他们自己也得紧张起来了。

这一轮变化最吊诡的地方就在这儿。AI 公司一边在拼命造出更能打的模型，一边又开始试图限制谁能摸到这些能力。

它像极了一个军火商突然发现，自己卖的已经不是刀，而是会自己找目标的导弹。你说他们做错了吗？也不能这么讲。

站在安全公司的角度，这种限制非常合理。你总不能把能自动找零日（0Day，指未公开的全新漏洞）、自动写利用链的东西，像聊天机器人一样直接公开。

尤其 Anthropic 自己都说了，Mythos 已经在各大操作系统、主流浏览器、关键基础软件里找到了成千上万的高危漏洞。连内部沙箱都被它想办法突破过。

那种感觉不是「模型更聪明了」，而是「能力的社会后果开始外溢了」。但另一面也很现实。这种东西一旦被证明存在，就不可能再回去了。

SANS 的 Rob Lee 说：“你已经没法阻止模型去做代码枚举，也没法阻止它在老旧代码库里找缺陷。因为这种能力现在已经存在了。”

Palo Alto Networks 的高管也差不多是一个判断，今天你挡住一家，几周或者几个月后，别的模型也会追上来。

OpenAI也开始恐惧自己训练出的新模型了 - 3

这才是真正让人后背发凉的地方。不是某一家公司太强。是这个门槛一旦被跨过去，全行业都会陆续跟上。

而且更有意思的是，安全圈里很多人已经开始用一个老概念来理解这波变化，责任披露。软件世界几十年来一直在吵一个问题。

发现漏洞之后，是立刻公开，还是先私下通知厂商修补。等补丁打完再披露。现在 AI 模型的发布，也越来越像这个逻辑了。

不是做不做出来的问题。而是先给谁，什么时候给，怎么控节奏，怎么避免它先落到最坏的人手里。这是不是一个特别奇怪的时代切片？

以前我们怕 AI 太笨，现在我们怕它太会干活。而且最讽刺的是，真正把这件事推到公众面前的，还不是黑客真的用它打爆了什么系统。而是模型公司自己先害怕了。

这就像地震还没来，地质学家先开始疯狂加固楼板。

反转了！

说到这块，还有一个容易被忽略的点。很多人看到 Axios 最初的标题，以为 OpenAI 是准备把还没发布的旗舰模型先只给小圈子试用。像 Anthropic 对 Mythos 那样，对大众暂缓开放。

但后面 Axios 通过进一步求证 OpenAI，自己修正了表述。OpenAI 这次准备给特定合作伙伴开放的，不是那个尚未发布的新旗舰模型 Spud。而是一款独立的网络安全产品。

OpenAI也开始恐惧自己训练出的新模型了 - 4

这个区别挺重要的。因为它说明 OpenAI 现在的思路，未必是把下一代通用旗舰整个锁起来。

而更像是把最危险、最敏感、最接近攻防边界的那部分能力，先包装成专门的安全产品，只放给经过筛选的防守方。这反而更说明问题了。

AI 公司已经开始接受一个现实，未来最前沿的模型能力，不会再以同一种方式流向所有人。

有些能力会被做成大众产品，有些能力会被塞进封闭计划。有些能力甚至会长期停留在少数机构手里。模型还是那个模型，但世界会开始分层。

普通用户拿到的是好用、顺滑、足够强的那一层。顶级企业和安全机构拿到的是更深、更危险、也更有防御价值的那一层。

再往里，可能还有连合作伙伴都接触不到的内部能力。某种意义上，这有点像 AI 时代的核扩散治理，也有点像另一种版本的北京折叠。

你表面上看到的，是大家都在用 AI。真正决定攻防平衡的，却可能是那一层你看不见、摸不着、只在少数白名单里流动的能力。

这是好事啊？

这件事短期内一定会让人不安，甚至会让技术权力变得更集中。但从更现实的角度看，在一个模型已经能自己找洞、自己写利用链的时间点上。先把能力交给防守方，总比所有人一起裸奔要好。

只是这件事也提醒我们，AI 竞赛已经不是谁的聊天更自然，谁的界面更丝滑了。真正的比赛，正在往系统底层走。

往浏览器走，往内核走，往云平台走，往关键基础设施走。往那些平时没人会在意，但一旦出事就全社会一起抖一下的地方走。

而 OpenAI 和 Anthropic 这两次一前一后的动作，可能就是一个信号。AI 不只是开始替人工作了。

AI 开始进入人类最古老、也最敏感博弈里了：防守和进攻，披露和封锁，开放和分级，效率和失控。

关键词： OpenAI Anthropic 网络安全人工智能漏洞利用

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。