鱼C论坛

 找回密码
 立即注册
查看: 15|回复: 1

[最新资讯] AI跑酷练成怕死软蛋!摔死几次后直接在起点摆烂,卷疯40万局后,直接拿捏

[复制链接]
发表于 2 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
33dd7e38fb91644a382f6cc46b5c85db3ec3d679.jpg@308w_174h.jpeg

训练AI通关跑酷游戏,本来以为它会越练越“猛”,结果却先被调教成了一个怕死软蛋。

在线感受:



研究人员告诉它:

在规定时间内跑到终点就能得1分,没跑到就扣1分。按理说这规则够简单,但AI在跑动中摔死几次后,竟然直接被吓破胆,开始赖在起点不动了——宁可扣分,也不愿意冒险。

这个现象在强化学习里并不稀奇:当“死亡惩罚”在训练中被放大,智能体就容易学到“最安全的策略=什么也不做”,典型的摆烂式最优解。

为了防止它继续当缩头乌龟,研究人员加入淘汰赛机制,让两个AI同场竞技,只有先到终点的才能活下去。

开局两位选手都卷得飞起,拼命抢先,但随着地图越刷越险,通关概率越来越低,摔死的风险远远高于获胜收益,于是两个AI突然统一战线:

游客,如果您要查看本帖隐藏内容请回复

眼看“对抗赛”也救不了它,研究人员干脆切换到更典型的强化学习套路:

重做奖惩机制,给它一个更明确的方向感。规则变成“离终点越近分越多,远离终点就扣分”,让奖励从稀疏的“通关一次才给分”,变成密集的“每一步都算进度”。

这类Reward Shaping思路很常见,因为稀疏奖励往往会让智能体陷入瞎试、摆烂、收敛慢的问题,而更细腻的反馈能显著提升探索效率。

结果这套机制一上,AI直接从摆烂废物秒变冲刺狂魔,疯狂往终点跑,甚至开始基于历史通关数据,总结更高效的跑步动作组合。

随后研究人员又升级玩法,把原本“固定奖励”改成“动态奖励”:

关卡越难,跑到终点的奖励越高;输掉扣分也越少。

这样做的本质就是让收益跟难度同步增长,避免AI在高难关卡里认为“怎么跑都亏”,从而继续挂机。

于是AI在接下来的5小时里狂刷40万盘跑酷,每一局都奔着终点冲,动作能力肉眼可见发生质变。

强化学习最魔幻的地方就在这:当难度继续堆高,比如过了第100关之后,AI“摔死的概率”又开始明显高于动态奖励带来的回报,于是它再一次进化出终极摆烂策略——停滞不前。

为了打破它的性能天花板,研究人员不再只改规则,而是直接换脑子:

把原本老旧的多层感知机升级为卷积神经网络,让它能更好理解画面特征、地形信息和动作时机。

卷积神经网络在视觉强化学习领域属于经典配置,像ViZDoom这类3D环境任务就证明过,用CNN接Q-learning能让智能体从像素输入里学到更接近“人类直觉”的行为模式。

换上CNN后,AI开始能自主组合旧关卡里学到的动作,创造出更复杂的技巧,比如跳跃时抓住悬崖攀爬、下坠时连续抓墙缓冲,最终在50多种地形里随意跑动,面对复杂环境还能临场想新策略。

更离谱的是,这一整套训练据说只靠一张A6000显卡完成——虽然规模听起来夸张!

但从“RL能在短时间刷几十万甚至更多局”的特性来看,确实符合强化学习在模拟环境里疯狂堆数据、快速迭代的常见训练方式。

评论区聊聊你的想法



                               
登录/注册后可看大图




如果有收获,别忘了评分


                               
登录/注册后可看大图


                               
登录/注册后可看大图
                                                                    
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2 小时前 | 显示全部楼层
感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕超喜欢这里
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-31 13:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表