Ng的机器学习课,课程资源:cs229-课件 网易公开课-视频
问题数学模型:
五元组{S、a、Psa、γ、R},分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。
优化目标:
选择一个policy以获得最佳报酬:E[R(s0)+γR(s1)+γ2R(s2)+......],常数γ的存在可以保证尽量快地获得收益。
优化函数:
根据贝尔曼方程,
R(s)表示执行此策略获得的直接收益,后面那一堆是执行了此策略以后再后面的行为获得的收益。
最优策略满足:
那么在s状态下的最有策略是满足以下等式的行为:
这样,就可以迭代计算了。
求解方法:
但实际操作中Psa是未知的,所以需要先统计次数,针对课上举的机器人移动的例子,Ng解释说可以先让机器人随便走,统计到达每个状态的次数。
所以强化学习的完整实现过程是这样:
时间: 2024-10-04 08:16:53