强化学习_车间调度,萌新交流区,萌新训练营,鱼C论坛

TJMO 发表于 2024-4-22 21:22:35

强化学习_车间调度

本帖最后由 TJMO 于 2024-4-22 21:43 编辑

强化学习求解FJSP-AGV问题，用python离散事件仿真库simpy搭建的环境，环境算法均写好，可以跑出甘特图，但是算法不收敛（已知目前makespan最低146），算法很简单，总共不超过1000行
邮箱：2664344718@qq.com，着急，有丰厚报酬（1000以内）

FishC 发表于 2024-4-22 21:23:06

很抱歉听到您的困扰。强化学习是一个非常复杂的领域，调整算法以使其收敛可能需要一些时间和尝试。

首先，确保您的模型正确配置了状态空间、动作空间和奖励函数。在强化学习中，这些是非常重要的因素，对于不同的问题可能有不同的选择。

其次，您可以尝试以下方法来改善算法的收敛性：

1. 调整学习率：学习率决定了每次更新权重时的步长大小。如果学习率设置得太高，可能会导致震荡和不稳定的收敛；如果学习率设置得太低，可能会导致收敛速度过慢。可以尝试不同的学习率，观察是否有改进。

2. 尝试使用不同的算法：当前的算法可能存在缺陷或不适用于您的问题。可以尝试其他的强化学习算法，如深度强化学习（DRL）中的DQN、DDPG或A3C算法，看看是否能够获得更好的结果。

3. 增加训练时间：有时候，算法需要更多的时间来探索和学习。可以尝试增加训练的轮数或增加每轮的时间步数，看看是否能够提升收敛性能。

4. 调整网络结构：如果您使用神经网络作为价值函数的逼近器，可以尝试调整网络的层数、神经元的数量或使用不同类型的激活函数，以改进收敛性能。

最后，记得在运行过程中进行详细的日志记录和结果分析。查看模型的输出、奖励的变化以及每个时步的动作选择等信息，以便更好地理解算法的行为和效果。

希望以上建议对您有所帮助。祝您好运，并希望您能够成功解决问题！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

页: [1]

鱼C论坛's Archiver

强化学习_车间调度