鱼C论坛

 找回密码
 立即注册
查看: 78|回复: 5

[基础知识] 强化学习之父「Richard Sutton」:释放RL潜力必须开发更好的算法!不能止步于反向传播

[复制链接]
发表于 5 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
d6c36afe5f9456b051f6f138d75ab98aba3afba3.jpg@308w_174h.jpeg

要实现真正通用的AI智能体,Richard Sutton首先指出:

大规模语言模型虽是“世界知识的可定制接口”,却依赖一次性收集、静态冻结的人类数据;

这些数据无法覆盖未来的新事实,也无法让模型在陌生境况中持续自我改进。当模型脱离训练分布时,其推理与规划能力就会暴露上限。

因此,若要突破瓶颈,智能体必须像人类一样通过与环境互动不断积累“流式经验”。

数据的主角将从“人类提供”转向“智能体亲历”,而经验规模最终会远超现有文本语料。

在线学习:



Sutton把强化学习视为这一“体验时代”的技术基座:该框架让智能体在试错中收集“状态–动作–奖励”轨迹,从而形成可用于规划的世界模型并追求长期目标最大化。

不过,要“充分发挥强化学习的力量”,单纯依赖反向传播远远不够;

我们仍缺少高效的探索策略、分层决策机制、元学习方法,以及能直接把所学模型用于演算和推理的算法组合。

未来算法必须同时兼顾计算可扩展性、样本效率与训练稳定性,并在持续在线学习中避免灾难性遗忘。

因此,这番话既是对LLM时代“静态知识路线”的告别,也勾勒出下一阶段的路线图:

游客,如果您要查看本帖隐藏内容请回复


算法层面则必须融合模型化规划、世界模型、自主探索与安全约束,让AI在真实或高逼真模拟环境中像生物体那样成长。

只有在数据生成、算法设计和具身交互三条战线上同步推进,才有望跨过仅靠参数规模无法逾越的门槛,迈向真正自学习、自进化的智能体。


人物简介

Richard S. Sutton被誉为“强化学习之父”,1957年生于美国俄亥俄州,斯坦福大学与马萨诸塞大学阿默斯特分校毕业,1984年博士论文奠定了时序差分学习(TD)的理论基础;

他先后在AT&T等工业实验室从事AI研究,1998年加入加拿大阿尔伯塔大学,创建并领导RL & AI实验室,同时担任Alberta Machine Intelligence Institute首席科学顾问。

并于2017年共同创办DeepMind埃德蒙顿研究院,现兼任Keen Technologies研究员。

Sutton提出TD(λ)、Dyna框架和Options分层策略,与Andrew Barto合著《Reinforcement Learning: An Introduction》。

这些工作支撑了AlphaGo等里程碑系统,推动强化学习在机器人控制、推荐算法与LLM决策微调中的广泛应用;

2024年,他与Barto因“奠定体验式机器学习的理论与实践基础”共同获得图灵奖,并持续倡导开放研究、经验驱动与可解释的长期智能体路线。

评论区聊聊你的想法



                               
登录/注册后可看大图




如果有收获,别忘了评分


                               
登录/注册后可看大图


                               
登录/注册后可看大图
                                                                    

评分

参与人数 1荣誉 +2 鱼币 +3 贡献 +3 收起 理由
鱼C-小师妹 + 2 + 3 + 3 鱼C有你更精彩^_^

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 5 天前 | 显示全部楼层
感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕很喜欢这里

评分

参与人数 1C币 +1 收起 理由
不二如是 + 1 鱼C有你更精彩^_^

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 5 天前 | 显示全部楼层
快速收敛 发表于 2025-6-16 11:16
感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕很喜欢这里

第一!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 5 天前 | 显示全部楼层
感谢分享 朕又在鱼C学到东西啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 5 天前 From FishC Mobile | 显示全部楼层
感谢分享 朕又在鱼C学到东西啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 4 天前 | 显示全部楼层
感谢分享 朕又在鱼C学到东西啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-21 10:49

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表