强化学习之父「Richard Sutton」:释放RL潜力必须开发更好的算法!不能止步于反向传播
要实现真正通用的AI智能体,Richard Sutton首先指出:
大规模语言模型虽是“世界知识的可定制接口”,却依赖一次性收集、静态冻结的人类数据;
这些数据无法覆盖未来的新事实,也无法让模型在陌生境况中持续自我改进。当模型脱离训练分布时,其推理与规划能力就会暴露上限。
因此,若要突破瓶颈,智能体必须像人类一样通过与环境互动不断积累“流式经验”。
数据的主角将从“人类提供”转向“智能体亲历”,而经验规模最终会远超现有文本语料。
在线学习:
https://www.bilibili.com/video/BV17jMYzFEXA
Sutton把强化学习视为这一“体验时代”的技术基座:该框架让智能体在试错中收集“状态–动作–奖励”轨迹,从而形成可用于规划的世界模型并追求长期目标最大化。
不过,要“充分发挥强化学习的力量”,单纯依赖反向传播远远不够;
我们仍缺少高效的探索策略、分层决策机制、元学习方法,以及能直接把所学模型用于演算和推理的算法组合。
未来算法必须同时兼顾计算可扩展性、样本效率与训练稳定性,并在持续在线学习中避免灾难性遗忘。
因此,这番话既是对LLM时代“静态知识路线”的告别,也勾勒出下一阶段的路线图:
**** Hidden Message *****
算法层面则必须融合模型化规划、世界模型、自主探索与安全约束,让AI在真实或高逼真模拟环境中像生物体那样成长。
只有在数据生成、算法设计和具身交互三条战线上同步推进,才有望跨过仅靠参数规模无法逾越的门槛,迈向真正自学习、自进化的智能体。
人物简介
Richard S. Sutton被誉为“强化学习之父”,1957年生于美国俄亥俄州,斯坦福大学与马萨诸塞大学阿默斯特分校毕业,1984年博士论文奠定了时序差分学习(TD)的理论基础;
他先后在AT&T等工业实验室从事AI研究,1998年加入加拿大阿尔伯塔大学,创建并领导RL & AI实验室,同时担任Alberta Machine Intelligence Institute首席科学顾问。
并于2017年共同创办DeepMind埃德蒙顿研究院,现兼任Keen Technologies研究员。
Sutton提出TD(λ)、Dyna框架和Options分层策略,与Andrew Barto合著《Reinforcement Learning: An Introduction》。
这些工作支撑了AlphaGo等里程碑系统,推动强化学习在机器人控制、推荐算法与LLM决策微调中的广泛应用;
2024年,他与Barto因“奠定体验式机器学习的理论与实践基础”共同获得图灵奖,并持续倡导开放研究、经验驱动与可解释的长期智能体路线。
评论区聊聊你的想法吧{:10_330:}
https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png
>>万能兑换C币许愿池<<
如果有收获,别忘了评分{:10_281:} :
https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif 感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕很喜欢这里{:10_254:} 快速收敛 发表于 2025-6-16 11:16
感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕很喜欢这里
第一! 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:} 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:} 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:} 感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
页:
[1]