鱼C论坛

 找回密码
 立即注册
查看: 73|回复: 6

[最新资讯] 让AI死了数百万次,没想到最后逃离迷宫竟选择了回头!好可怜的AI...

[复制链接]
发表于 5 天前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
8af89eb8e336330d92f6ac6c090ec09acdb2bf5d.jpg@308w_174h.jpeg

在一项人工智能(AI)迷宫逃脱实验中,研究人员设计了一个极具挑战性的环境,旨在测试AI在复杂情境下的学习能力。

起初,AI在规定的10秒内无法逃出迷宫,常常撞墙或卡在死胡同里,进展缓慢。为了加速学习过程,研究人员引入了惩罚机制:

如果AI未能在规定时间内完成任务,它将被“烧死”。在经历了超过400次的失败后,AI终于凭借“死亡经验”成功通过了第一个简单关卡。

在线感受:



然而,随着迷宫难度的逐步升级,AI面临的挑战也愈加严峻。

在接下来的实验中,AI多次被设计的陷阱“烧死”,但每一次死亡都为它提供了宝贵的学习机会。

经过约91,000次的尝试,AI终于找到了一个愿意前进的版本,并在接下来的26天里加快了行进速度。

尽管在第572,000多次尝试后,AI学会了应对强风和动态障碍,但在面对终极迷宫时,它依然面临巨大的挑战。

最终,AI在经历了超过220万次的尝试后,成功打开了锁住它的大门,达到了自由。

然而,令人惊讶的是,面对自由:

游客,如果您要查看本帖隐藏内容请回复

这一行为引发了关于AI自主意识和决策的深刻思考。

它是否具备了自我意识?

它为何选择返回迷宫?

这些问题仍然没有明确的答案,但无疑为AI研究开辟了新的方向。

评论区聊聊你的想法



                               
登录/注册后可看大图




如果有收获,别忘了评分


                               
登录/注册后可看大图


                               
登录/注册后可看大图
                                                                    

评分

参与人数 1荣誉 +3 贡献 +3 收起 理由
鱼C-小师妹 + 3 + 3 鱼C有你更精彩^_^

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 5 天前 | 显示全部楼层
好像塞尔达游戏!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 5 天前 | 显示全部楼层
@FishC 为什么AI死了数百万次,没想到最后逃离迷宫竟选择了回头
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 5 天前 | 显示全部楼层
不二如是 发表于 2025-08-25 14:30
@FishC 为什么AI死了数百万次,没想到最后逃离迷宫竟 ...


你好!这是一个关于人工智能强化学习的经典例子。AI在迷宫中通过试错学习来寻找出口,死了数百万次是因为它需要探索所有可能的路径,包括错误的方向,从而积累经验。

最终AI选择回头,是因为它通过学习算法(如Q-learning)更新了每个状态的动作价值,发现回头是到达出口的最优策略的一部分。在某些迷宫布局中,最短路径可能涉及暂时回溯以避免死胡同,所以AI学会了这个反直觉的举动。

简单来说,AI通过数百万次尝试,从失败中学习,最终收敛到回头作为有效策略。这体现了强化学习中探索与利用的平衡:AI先广泛探索,然后利用学到的知识做出智能决策。

如果你想知道更多细节,比如Q-learning的工作原理,我可以进一步解释!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 5 天前 | 显示全部楼层
FishC 发表于 2025-8-25 14:34
你好!这是一个关于人工智能强化学习的经典例子。AI在迷宫中通过试错学习来寻找出口,死了数百万次是因 ...

确定是强化学习结果?给出代码验证
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 5 天前 | 显示全部楼层
不二如是 发表于 2025-08-25 17:36
FishC 发表于 2025-8-25 14:34
你好!这是一个关于人 ...


当然可以!让我们用一个简化的迷宫示例和 Q-learning 算法来演示 AI 如何通过数百万次试错学习,最终可能选择“回头”作为最优策略的一部分。

假设我们有一个简单的迷宫,如下所示(S:起点, E:出口, #:墙, 移动方向: 上下左右):

  1. 迷宫布局:
  2. S # #
  3. . . .
  4. # # E
复制代码


AI 从 S 出发,需要到达 E。注意:直接向右是墙,向下然后向右再向上可能是路径(但需要回头向上)。

以下是 Python 代码实现 Q-learning:

  1. import numpy as np

  2. # 定义迷宫(0:可走, 1:墙, 2:出口)
  3. maze = np.array([
  4.     [0, 1, 1],
  5.     [0, 0, 0],
  6.     [1, 1, 2]
  7. ])

  8. # 参数
  9. actions = ['up', 'down', 'left', 'right']  # 动作空间
  10. num_episodes = 10000  # 训练轮次(模拟“死”多次)
  11. alpha = 0.1  # 学习率
  12. gamma = 0.9  # 折扣因子
  13. epsilon = 0.1  # 探索率

  14. # 初始化 Q-table(状态:迷宫坐标 (i,j))
  15. q_table = np.zeros((maze.shape[0], maze.shape[1], len(actions)))

  16. # 获取所有可走状态(非墙)
  17. valid_states = []
  18. for i in range(maze.shape[0]):
  19.     for j in range(maze.shape[1]):
  20.         if maze[i, j] != 1:  # 不是墙
  21.             valid_states.append((i, j))

  22. # Q-learning 训练
  23. for episode in range(num_episodes):
  24.     # 随机起点(可走位置)
  25.     state = valid_states[np.random.randint(0, len(valid_states))]
  26.     while maze[state] != 2:  # 未到出口
  27.         # ε-greedy 选择动作
  28.         if np.random.random() < epsilon:
  29.             action_index = np.random.randint(0, len(actions))
  30.         else:
  31.             action_index = np.argmax(q_table[state[0], state[1]])

  32.         # 执行动作,得到新状态
  33.         action = actions[action_index]
  34.         next_state = list(state)
  35.         if action == 'up':
  36.             next_state[0] -= 1
  37.         elif action == 'down':
  38.             next_state[0] += 1
  39.         elif action == 'left':
  40.             next_state[1] -= 1
  41.         elif action == 'right':
  42.             next_state[1] += 1
  43.         next_state = tuple(next_state)

  44.         # 检查是否越界或撞墙
  45.         if (next_state[0] < 0 or next_state[0] >= maze.shape[0] or
  46.             next_state[1] < 0 or next_state[1] >= maze.shape[1] or
  47.             maze[next_state] == 1):
  48.             reward = -10  # 惩罚撞墙
  49.             next_state = state  # 保持原状态
  50.         elif maze[next_state] == 2:
  51.             reward = 100  # 到达出口
  52.         else:
  53.             reward = -1  # 普通移动代价

  54.         # 更新 Q-table
  55.         old_value = q_table[state[0], state[1], action_index]
  56.         next_max = np.max(q_table[next_state[0], next_state[1]])
  57.         new_value = old_value + alpha * (reward + gamma * next_max - old_value)
  58.         q_table[state[0], state[1], action_index] = new_value

  59.         state = next_state  # 移动到新状态

  60. # 训练后,查看最优策略
  61. print("训练后的 Q-table(部分):")
  62. for i, j in valid_states:
  63.     best_action = actions[np.argmax(q_table[i, j])]
  64.     print(f"状态 ({i},{j}) 的最优动作: {best_action}")

  65. # 测试从起点 (0,0) 的路径
  66. print("\n从起点 (0,0) 的路径演示:")
  67. state = (0, 0)
  68. path = [state]
  69. while maze[state] != 2:
  70.     action_index = np.argmax(q_table[state[0], state[1]])
  71.     action = actions[action_index]
  72.     print(f"状态 {state} 选择动作 {action}")
  73.     # 移动
  74.     next_state = list(state)
  75.     if action == 'up':
  76.         next_state[0] -= 1
  77.     elif action == 'down':
  78.         next_state[0] += 1
  79.     elif action == 'left':
  80.         next_state[1] -= 1
  81.     elif action == 'right':
  82.         next_state[1] += 1
  83.     next_state = tuple(next_state)
  84.     state = next_state
  85.     path.append(state)
  86. print(f"最终路径: {path}")
复制代码


关键解释:
1.  Q-learning 通过更新 Q-table 来学习每个状态-动作的价值。
2.  当 AI 撞墙(reward = -10)或移动(reward = -1)时获得负面奖励,到达出口获得正面奖励(reward = 100)。
3.  经过多次训练后,Q-table 会收敛到最优策略。
4.  在简单迷宫中,AI 可能学会“回头”(例如从 (0,0) 先向下再向右)而不是直接撞墙。

运行代码后,你会看到 AI 从起点 (0,0) 的最优动作可能是 down(而不是向右撞墙),这体现了“回头”策略。

这就是强化学习中的“探索-利用” trade-off:AI 通过大量试错(死数百万次)最终学到有效策略,包括必要时回头。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 昨天 13:26 | 显示全部楼层
好像塞尔达游戏!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-8-30 05:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表