AI跑酷练成怕死软蛋！摔死几次后直接在起点摆烂，卷疯40万局后，直接拿捏,科技·AI·新纪元,前沿与探索,鱼C论坛

不二如是 发表于 2026-1-31 11:00:00

AI跑酷练成怕死软蛋！摔死几次后直接在起点摆烂，卷疯40万局后，直接拿捏

训练AI通关跑酷游戏，本来以为它会越练越“猛”，结果却先被调教成了一个怕死软蛋。

在线感受：

https://www.bilibili.com/video/BV14J6iB2EaD

研究人员告诉它：

在规定时间内跑到终点就能得1分，没跑到就扣1分。按理说这规则够简单，但AI在跑动中摔死几次后，竟然直接被吓破胆，开始赖在起点不动了——宁可扣分，也不愿意冒险。
这个现象在强化学习里并不稀奇：当“死亡惩罚”在训练中被放大，智能体就容易学到“最安全的策略=什么也不做”，典型的摆烂式最优解。

为了防止它继续当缩头乌龟，研究人员加入淘汰赛机制，让两个AI同场竞技，只有先到终点的才能活下去。

开局两位选手都卷得飞起，拼命抢先，但随着地图越刷越险，通关概率越来越低，摔死的风险远远高于获胜收益，于是两个AI突然统一战线：

**** Hidden Message *****
眼看“对抗赛”也救不了它，研究人员干脆切换到更典型的强化学习套路：

重做奖惩机制，给它一个更明确的方向感。规则变成“离终点越近分越多，远离终点就扣分”，让奖励从稀疏的“通关一次才给分”，变成密集的“每一步都算进度”。
这类Reward Shaping思路很常见，因为稀疏奖励往往会让智能体陷入瞎试、摆烂、收敛慢的问题，而更细腻的反馈能显著提升探索效率。

结果这套机制一上，AI直接从摆烂废物秒变冲刺狂魔，疯狂往终点跑，甚至开始基于历史通关数据，总结更高效的跑步动作组合。

随后研究人员又升级玩法，把原本“固定奖励”改成“动态奖励”：

关卡越难，跑到终点的奖励越高；输掉扣分也越少。
这样做的本质就是让收益跟难度同步增长，避免AI在高难关卡里认为“怎么跑都亏”，从而继续挂机。

于是AI在接下来的5小时里狂刷40万盘跑酷，每一局都奔着终点冲，动作能力肉眼可见发生质变。

强化学习最魔幻的地方就在这：当难度继续堆高，比如过了第100关之后，AI“摔死的概率”又开始明显高于动态奖励带来的回报，于是它再一次进化出终极摆烂策略——停滞不前。

为了打破它的性能天花板，研究人员不再只改规则，而是直接换脑子：

把原本老旧的多层感知机升级为卷积神经网络，让它能更好理解画面特征、地形信息和动作时机。
卷积神经网络在视觉强化学习领域属于经典配置，像ViZDoom这类3D环境任务就证明过，用CNN接Q-learning能让智能体从像素输入里学到更接近“人类直觉”的行为模式。

换上CNN后，AI开始能自主组合旧关卡里学到的动作，创造出更复杂的技巧，比如跳跃时抓住悬崖攀爬、下坠时连续抓墙缓冲，最终在50多种地形里随意跑动，面对复杂环境还能临场想新策略。

更离谱的是，这一整套训练据说只靠一张A6000显卡完成——虽然规模听起来夸张！

但从“RL能在短时间刷几十万甚至更多局”的特性来看，确实符合强化学习在模拟环境里疯狂堆数据、快速迭代的常见训练方式。

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获，别忘了评分{:10_281:} ：

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif

不二如是 发表于 2026-1-31 11:18:24

感谢分享！！鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛！朕超喜欢这里{:13_438:}

不二如是 发表于 2026-2-3 08:50:50

感谢分享！！鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛！朕超喜欢这里{:13_438:}

不二如是 发表于 2026-2-5 08:54:02

感谢分享！！鱼C论坛不愧是全国最大的「编程/AI/科技/新闻/娱乐」学习论坛！朕超喜欢这里{:13_438:}

页: [1]

鱼C论坛's Archiver

AI跑酷练成怕死软蛋！摔死几次后直接在起点摆烂，卷疯40万局后，直接拿捏