对比Mean 和 Max
如果某些动作路径(从神经网络的策略输出中采样)比平均动作路径好得多,那么通过调整策略就有增加奖励的空间。相反,当这个差距缩小时,模型就收敛了;
原文地址:https://www.cnblogs.com/twodoge/p/12080024.html
时间: 2024-11-05 21:52:13
如果某些动作路径(从神经网络的策略输出中采样)比平均动作路径好得多,那么通过调整策略就有增加奖励的空间。相反,当这个差距缩小时,模型就收敛了;
原文地址:https://www.cnblogs.com/twodoge/p/12080024.html