不二如是 发表于 2026-1-31 11:00:00

AI跑酷练成怕死软蛋!摔死几次后直接在起点摆烂,卷疯40万局后,直接拿捏



训练AI通关跑酷游戏,本来以为它会越练越“猛”,结果却先被调教成了一个怕死软蛋。

在线感受:

https://www.bilibili.com/video/BV14J6iB2EaD

研究人员告诉它:

在规定时间内跑到终点就能得1分,没跑到就扣1分。按理说这规则够简单,但AI在跑动中摔死几次后,竟然直接被吓破胆,开始赖在起点不动了——宁可扣分,也不愿意冒险。
这个现象在强化学习里并不稀奇:当“死亡惩罚”在训练中被放大,智能体就容易学到“最安全的策略=什么也不做”,典型的摆烂式最优解。

为了防止它继续当缩头乌龟,研究人员加入淘汰赛机制,让两个AI同场竞技,只有先到终点的才能活下去。

开局两位选手都卷得飞起,拼命抢先,但随着地图越刷越险,通关概率越来越低,摔死的风险远远高于获胜收益,于是两个AI突然统一战线:

**** Hidden Message *****
眼看“对抗赛”也救不了它,研究人员干脆切换到更典型的强化学习套路:

重做奖惩机制,给它一个更明确的方向感。规则变成“离终点越近分越多,远离终点就扣分”,让奖励从稀疏的“通关一次才给分”,变成密集的“每一步都算进度”。
这类Reward Shaping思路很常见,因为稀疏奖励往往会让智能体陷入瞎试、摆烂、收敛慢的问题,而更细腻的反馈能显著提升探索效率。

结果这套机制一上,AI直接从摆烂废物秒变冲刺狂魔,疯狂往终点跑,甚至开始基于历史通关数据,总结更高效的跑步动作组合。

随后研究人员又升级玩法,把原本“固定奖励”改成“动态奖励”:

关卡越难,跑到终点的奖励越高;输掉扣分也越少。
这样做的本质就是让收益跟难度同步增长,避免AI在高难关卡里认为“怎么跑都亏”,从而继续挂机。

于是AI在接下来的5小时里狂刷40万盘跑酷,每一局都奔着终点冲,动作能力肉眼可见发生质变。

强化学习最魔幻的地方就在这:当难度继续堆高,比如过了第100关之后,AI“摔死的概率”又开始明显高于动态奖励带来的回报,于是它再一次进化出终极摆烂策略——停滞不前。

为了打破它的性能天花板,研究人员不再只改规则,而是直接换脑子:

把原本老旧的多层感知机升级为卷积神经网络,让它能更好理解画面特征、地形信息和动作时机。
卷积神经网络在视觉强化学习领域属于经典配置,像ViZDoom这类3D环境任务就证明过,用CNN接Q-learning能让智能体从像素输入里学到更接近“人类直觉”的行为模式。

换上CNN后,AI开始能自主组合旧关卡里学到的动作,创造出更复杂的技巧,比如跳跃时抓住悬崖攀爬、下坠时连续抓墙缓冲,最终在50多种地形里随意跑动,面对复杂环境还能临场想新策略。

更离谱的是,这一整套训练据说只靠一张A6000显卡完成——虽然规模听起来夸张!

但从“RL能在短时间刷几十万甚至更多局”的特性来看,确实符合强化学习在模拟环境里疯狂堆数据、快速迭代的常见训练方式。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

不二如是 发表于 2026-1-31 11:18:24

感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕超喜欢这里{:13_438:}

不二如是 发表于 2026-2-3 08:50:50

感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕超喜欢这里{:13_438:}

不二如是 发表于 2026-2-5 08:54:02

感谢分享!!鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛!朕超喜欢这里{:13_438:}
页: [1]
查看完整版本: AI跑酷练成怕死软蛋!摔死几次后直接在起点摆烂,卷疯40万局后,直接拿捏