不二如是 发表于 2025-6-16 11:00:00

强化学习之父「Richard Sutton」:释放RL潜力必须开发更好的算法!不能止步于反向传播



要实现真正通用的AI智能体,Richard Sutton首先指出:

大规模语言模型虽是“世界知识的可定制接口”,却依赖一次性收集、静态冻结的人类数据;
这些数据无法覆盖未来的新事实,也无法让模型在陌生境况中持续自我改进。当模型脱离训练分布时,其推理与规划能力就会暴露上限。

因此,若要突破瓶颈,智能体必须像人类一样通过与环境互动不断积累“流式经验”。

数据的主角将从“人类提供”转向“智能体亲历”,而经验规模最终会远超现有文本语料。

在线学习:

https://www.bilibili.com/video/BV17jMYzFEXA

Sutton把强化学习视为这一“体验时代”的技术基座:该框架让智能体在试错中收集“状态–动作–奖励”轨迹,从而形成可用于规划的世界模型并追求长期目标最大化。

不过,要“充分发挥强化学习的力量”,单纯依赖反向传播远远不够;

我们仍缺少高效的探索策略、分层决策机制、元学习方法,以及能直接把所学模型用于演算和推理的算法组合。

未来算法必须同时兼顾计算可扩展性、样本效率与训练稳定性,并在持续在线学习中避免灾难性遗忘。

因此,这番话既是对LLM时代“静态知识路线”的告别,也勾勒出下一阶段的路线图:

**** Hidden Message *****

算法层面则必须融合模型化规划、世界模型、自主探索与安全约束,让AI在真实或高逼真模拟环境中像生物体那样成长。

只有在数据生成、算法设计和具身交互三条战线上同步推进,才有望跨过仅靠参数规模无法逾越的门槛,迈向真正自学习、自进化的智能体。


人物简介

Richard S. Sutton被誉为“强化学习之父”,1957年生于美国俄亥俄州,斯坦福大学与马萨诸塞大学阿默斯特分校毕业,1984年博士论文奠定了时序差分学习(TD)的理论基础;

他先后在AT&T等工业实验室从事AI研究,1998年加入加拿大阿尔伯塔大学,创建并领导RL & AI实验室,同时担任Alberta Machine Intelligence Institute首席科学顾问。

并于2017年共同创办DeepMind埃德蒙顿研究院,现兼任Keen Technologies研究员。

Sutton提出TD(λ)、Dyna框架和Options分层策略,与Andrew Barto合著《Reinforcement Learning: An Introduction》。

这些工作支撑了AlphaGo等里程碑系统,推动强化学习在机器人控制、推荐算法与LLM决策微调中的广泛应用;

2024年,他与Barto因“奠定体验式机器学习的理论与实践基础”共同获得图灵奖,并持续倡导开放研究、经验驱动与可解释的长期智能体路线。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

快速收敛 发表于 2025-6-16 11:16:38

感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕很喜欢这里{:10_254:}

不二如是 发表于 2025-6-16 11:24:37

快速收敛 发表于 2025-6-16 11:16
感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕很喜欢这里

第一!

不二如是 发表于 2025-6-16 11:25:02

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}

爬虫121 发表于 2025-6-16 22:55:55

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}

画风华 发表于 2025-6-17 10:03:01

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}

不二如是 发表于 2025-7-14 12:05:42

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
页: [1]
查看完整版本: 强化学习之父「Richard Sutton」:释放RL潜力必须开发更好的算法!不能止步于反向传播