现有的机器学习算法根据模型的学习过程大致可以分为四类:监督式学习,无监督式学习,半监督式学习和增强学习. ① 监督式学习:从标记好的训练数据中进行模型的训练,常用来做分类和回归,例如逻辑回归.反向神经网络: ② 无监督式学习:根据数据的特征直接对数据的结构和数值进行归纳,常用来做聚类,例如周知的K-均值,谱聚类: ③ 半监督式学习:根据部分标记的和部分没有标记的训练数据进行模型的学习,常用来做回归和分类: ④ 增强式学习:作为今天要讨论的主角,是机器学习中最酷的分支之一,其通过不断的试错.反馈进
MDP:马尔科夫决策过程(Markov Decision Process) 定义: 一个马尔可夫模型包括如下部分 状态集 S (States) 动作集 A (Actions) 奖惩函数 R (reward function) 在状态 s 下,执行 a 动作的影响函数 T 我们假设执行动作 a 的效果只与当前状态有关,与之前历史状态无关. 动作表示:分为 确定性动作(Determinstic Actions) 和 随机性动作(Stochastic Actions) 确定性动作:T