近日,世界人工智能大会(WAIC)热潮正酣,一场以「强化学习新范式探索之夜」为名的深度交流活动,在别具一格的氛围中拉开序幕。这里没有传统会议的紧绷节奏,取而代之的是16位产学研技术人围坐暖光下的从容畅谈,大家暂且摆脱既定议程的桎梏,让关于强化学习与大模型智能体的前沿思考,在轻松自在的交流中自然碰撞、自由生长,成为WAIC期间一抹独特的风景。
观点速递
活动围绕「强化学习与大模型智能体」、「智能体的探索与决策」、「如何进化出超级智能体」三大核心议题展开,嘉宾们从各自领域出发,贡献了极具针对性的观点。
中国电信人工智能研究院(TeleAI)研究科学家白辰甲认为,强化学习驱动的大模型Agent必须与特定的专业领域结合,结合领域知识构造相应的问题形式和奖惩机制,但走向更加通用的Agent系统是未来的发展方向。
国家地方共建具身智能机器人创新中心世界模型算法负责人池晓威指出,在具身智能领域,多模态智能体若要在模拟器与真实世界中实现长程任务规划,强化学习为核心支撑。这类RL算法依赖于数据与算法的协同迭代:数据层面需通过搜索算法拓展规划深度,模型训练层面则需结合GRPO等策略优化方法提升性能。通过这种融合范式,具身智能体能够在复杂动态环境中实现自主的长时推理与交互。
香港大学计算机系助理教授黄超认为,对于大模型的Agent来说,数据是“粮草”,算法是“兵法”,系统是“战场”——缺了哪样,智能活儿都干不漂亮。
中科院自动化所博士李鸿鑫提出,超级智能的关键里程碑是智能体拥有元认知--即认清自身知识边界,这将驱动其主动探索填补知识空白,实现自我进化。
华为AI开源生态总监黄之鹏谈及,Multi-Agent RL很多时候看起来不太实际:协同几个Agent完成一项任务似乎跟前AI时代的普通分布式任务没有太大区别。但实际上无论是通过一个Central Critic来真正让几个Agent RL到同一个Reward目标,还是更为激进的Attention Level的跨Agent训练,MARL都逐渐在成为智能体时代越来越重要的关键技术。分布式纯异步的架构、对Non-verifiable Reward的支持,都会是最吸引人的发展方向。
浙江大学计算机创新技术研究院研究员刘晨强调,可通过强化学习将资深员工的隐性经验转化为数字化资产。RL模型在模拟或实际环境中试错、互动、接收反馈,像老师傅一样学习并内化企业独有策略,发现人难察觉的规律。这使得企业内部模型比通用大模型更懂业务、更智慧,成为定制化的强大决策引擎。
香港中文大学(深圳)助理教授刘桂良认为,强化学习下一步将推动智能体“挑战真实物理世界”,成为具身智能体进行推理与学习的重要驱动力。在“生成式仿真—真实世界部署”的新范式下,强化学习将有力促进多模态运控大模型在复杂操作环境中的实际应用与落地。
AIGCode CEO兼联合创始人宿文指出,AI-coding产品存在反馈长、调试难等瓶颈。新兴强化学习范式通过多奖励机制与算法,让模型在线迭代,减少数据依赖,形成优化闭环。未来,强化学习或成其从 “辅助生成” 走向 “自主交付” 的核心引擎。
伦敦大学学院计算机系教授汪军在训练高质量智能体是否需要调参这一问题上,认为尽管智能体需要训练以提升任务性能,但全量调参往往会限制智能体背后大模型的参数量,牺牲智能体的通用能力,而可以考虑一种外挂记忆系统来实现不调参的智能体训练。上海交通大学计算机系教授张伟楠亦持相同观点。
清华大学交叉信息研究院助理教授吴翼强调,强化学习从推理RL逐渐走向Agentic RL,需要更灵活更适配Agent任务的训练框架和更好的适用于Agent探索的Scaling方式。AReaL项目就是围绕Agentic RL为目标开发的开源强化学习系统,可以让用户灵活设置复杂的Agent Workflow同时保持最高的训练效率。希望AReaL可以让大家都能更容易的用RL训练Agent。
布里斯托大学助理教授杨梦月认为,智能体策略提升面临数据量有限瓶颈,需具备自我挑战式提问能力和主动环境探索能力,以拓展数据外知识边界如Alpha Evolve、以及实现跨场景泛化。另外,智能体需具备探索与信息整合能力,应对观察窗口动态变化导致的知识缺失,降低上下文变化引发的认知偏差和风险。
上海交通大学计算机系教授张伟楠表明,多智能体系统会是胜任通用任务和专业任务的一种关键方案。根据机器学习领域经典的无免费午餐理论,没有一个单独模型可以在所有任务上达到最优。因此只有把多个能力分布不同的智能体联合在一起,才能实现广泛而深入的任务求解效果。最近几个月全球发布的不少智能体产品背后皆为多智能体系统。
上海人工智能实验室青年科学家张文蔚认为,多智能体架构是突破基础模型和单智能体能力边界、构建高能高效应用的关键。以其团队研发的AI搜索框架MindSearch为例,MindSearch通过多智能体架构可以基于7B的InternLM2.5在领域内首次实现3分钟完成超300网页的信息整理,约等于3小时人类专家任务,效果略优于当时的Perplexity。框架于2024年7月发布并开源。
北京大学在读博士生、斯坦福大学访问学者张雨泽提及,在具身智能领域,多模态智能体若要在模拟器与真实世界中实现长程任务规划,强化学习为核心支撑。这类RL算法依赖于数据与算法的协同迭代:数据层面需通过搜索算法拓展规划深度,模型训练层面则需结合GRPO等策略优化方法提升性能。通过这种融合范式,具身智能体能够在复杂动态环境中实现自主的长时推理与交互。
OPPO AI个性化业务技术负责人周王春澍认为,通过强化学习优化的端到端的智能体基础模型会是未来通用智能体能力不断进化的重要路径,并且在智能体强化学习中Long-Horizon的智能体任务自动合成的方式,以及在Unverifiable的通用任务当中高效进行强化学习的能力会是关键的技术突破方向。
Pokee ai创始人朱哲清提出,对于下一步RL优化的大模型,不论是何种架构,核心瓶颈都将是如何建立一个可以规模化的检验器(Verifier),在非数学和代码领域,在低数据情况下让模型自我迭代和优化。这样的检验器,目前的LLM还无法直接胜任,而且很有可能需要探索Non-numerical Reward。
这场打破传统会议单向输出模式的「技术深聊局」,以无壁垒的交流形式促成了多元视角的融合。学术圈的理论洞见、创业圈的落地焦虑、产业界的实战经验在轻松互动中自然交织,既有对技术卡点的较真辩论,也有对未来方向的大胆畅想。未来,随着产学研协同的深化,这些在松弛中碰撞出的思考,终将转化为智能体进阶的清晰路径,让强化学习在大模型时代真正实现从「技术探索」到「价值落地」的跨越。
2025-08-13 09:24
2025-08-05 15:11
2025-08-05 15:11
2025-08-05 14:54
2025-08-05 14:54
2025-08-05 10:58
2025-08-04 17:27
2025-08-04 17:26
2025-08-04 11:29
2025-07-28 12:02