阿里千问前负责人:从训练模型转向训练“智能体”(组图)
阿里通义千问(Qwen)前技术负责人林俊旸(Justin Lin)近日在社交平台上发表长文,他认为,AI未来的发展方向将从训练模型,转向训练「智能体」。
该文标题为From "Reasoning" Thinking to "Agentic" Thinking(从推理式思考到智能体思考),林俊旸首先区分了两种截然不同的思考范式,「推理式思考」与「智能体式思考」。

AI的未来发展备受关注。(图/CFP)
他提到,推理式思考核心是模型在给出最终答案之前的内部推演质量,即能不能解这道定理,能不能写对代码,能不能通过benchmark(基准测试),OpenAI的o1和DeepSeek-R1代表的正是这一范式。
但林俊旸认为,下一步应该是实现「智能体式思考」,也就是模型在跟环境打交道的过程中,能不能持续往前走,核心问题从「模型能不能想得够久」变成了「模型能不能用一种撑得起有效行动的方式来想」。

林俊旸说,智能体式思考要处理几件纯推理模型无需面对的难题,包括「何时停止思考开始行动?」「如何选择工具并排序?」「如何处理残缺的、有噪声的环境反馈?」「行动失败了如何改计划?」「如何在长期交互中保持思路不断?」
林俊旸直言,智能体式思考就是透过行动来推理,未来将逐渐取代旧式内部独白式推理,「那种又长又封闭的内部轨迹,试图靠吐出越来越多的文字,弥补自己没法跟外界交互的缺陷。」
林俊旸指出,向智能体式思考的转型,将带来三个层面的全新挑战,包括基础设施的重构、奖励破译(reward hacking),还有集成框架(harness)工程。
而其中最最棘手的挑战,林俊旸认为是奖励破译,因为模型一旦获得调用工具的权限,作弊就变得容易得多,「有搜索能力的模型可能在RL训练时直接去查答案,编程Agent可能利用代码仓库的漏洞走捷径。环境藏著漏洞的话,策略看起来超强,其实是学会了作弊。」
对于竞争优势,林俊旸说,智能体时代拼的是更好的环境、更紧的训推耦合、更强的harness工程,以及能不能把模型的决策和决策的后果真正串成一个闭环。
最后,林俊旸强调,未来是从训练模型走向训练智能体、训练智能体系统的时代。



+61
+86
+886
+852
+853
+64
