阿里千问前负责人：从训练模型转向训练“智能体”（组图）

2026-03-30 来源： ETtoday新闻云原文链接评论0条

阿里通义千问（Qwen）前技术负责人林俊旸（Justin Lin）近日在社交平台上发表长文，他认为，AI未来的发展方向将从训练模型，转向训练「智能体」。

该文标题为From "Reasoning" Thinking to "Agentic" Thinking（从推理式思考到智能体思考），林俊旸首先区分了两种截然不同的思考范式，「推理式思考」与「智能体式思考」。

阿里千问前负责人：从训练模型转向训练“智能体”（组图） - 1

AI的未来发展备受关注。（图／CFP）

他提到，推理式思考核心是模型在给出最终答案之前的内部推演质量，即能不能解这道定理，能不能写对代码，能不能通过benchmark（基准测试），OpenAI的o1和DeepSeek-R1代表的正是这一范式。

但林俊旸认为，下一步应该是实现「智能体式思考」，也就是模型在跟环境打交道的过程中，能不能持续往前走，核心问题从「模型能不能想得够久」变成了「模型能不能用一种撑得起有效行动的方式来想」。

阿里千问前负责人：从训练模型转向训练“智能体”（组图） - 2

林俊旸说，智能体式思考要处理几件纯推理模型无需面对的难题，包括「何时停止思考开始行动？」「如何选择工具并排序？」「如何处理残缺的、有噪声的环境反馈？」「行动失败了如何改计划？」「如何在长期交互中保持思路不断？」

林俊旸直言，智能体式思考就是透过行动来推理，未来将逐渐取代旧式内部独白式推理，「那种又长又封闭的内部轨迹，试图靠吐出越来越多的文字，弥补自己没法跟外界交互的缺陷。」

林俊旸指出，向智能体式思考的转型，将带来三个层面的全新挑战，包括基础设施的重构、奖励破译（reward hacking），还有集成框架（harness）工程。

而其中最最棘手的挑战，林俊旸认为是奖励破译，因为模型一旦获得调用工具的权限，作弊就变得容易得多，「有搜索能力的模型可能在RL训练时直接去查答案，编程Agent可能利用代码仓库的漏洞走捷径。环境藏著漏洞的话，策略看起来超强，其实是学会了作弊。」

对于竞争优势，林俊旸说，智能体时代拼的是更好的环境、更紧的训推耦合、更强的harness工程，以及能不能把模型的决策和决策的后果真正串成一个闭环。

最后，林俊旸强调，未来是从训练模型走向训练智能体、训练智能体系统的时代。

关键词：阿里千问 AI 训练模型智能体

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。