A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

 
      本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料。

第一部分:中文翻译

第二部分:英文原文

作者: peghoty

出处: http://blog.csdn.net/peghoty/article/details/9361915

欢迎转载/分享, 但请务必声明文章出处.

时间: 2024-12-26 07:52:49

A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)的相关文章

一个 Q-learning 算法的简明教程

本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文.翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正.这篇教程通俗易懂,是一份很不错的学习理解 Q-learning 算法工作原理的材料. 第一部分:中文翻译   第二部分:英文原文   作者: peghoty 出处: http://blog.csdn.net/pegho

Deep Learning Tutorial - Classifying MNIST digits using Logistic Regression

Deep Learning Tutorial 由 Montreal大学的LISA实验室所作,基于Theano的深度学习材料.Theano是一个python库,使得写深度模型更容易些,也可以在GPU上训练深度模型.所以首先得了解python和numpy.其次,阅读Theano basic tutorial. Deep Learning Tutorial 包括: 监督学习算法: Logistic Regression - using Theano for something simple Multi

Pytorch tutorial 之Transfer Learning

引自官方:  Transfer Learning tutorial Ng在Deeplearning.ai中讲过迁移学习适用于任务A.B有相同输入.任务B比任务A有更少的数据.A任务的低级特征有助于任务B.对于迁移学习,经验规则是如果任务B的数据很小,那可能只需训练最后一层的权重.若有足够多的数据则可以重新训练网络中的所有层.如果重新训练网络中的所有参数,这个在训练初期称为预训练(pre-training),因为事先利用任务A的权重初始化.在预训练的基础上更新权重,那么这个过程叫微调(fine t

机器学习(Machine Learning)&深度学习(Deep Learning)资料

机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本

机器学习(Machine Learning)&amp;深入学习(Deep Learning)资料

<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost 到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室 Jurgen Schmidhuber 写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从 1940 年开始讲起,到

Advice for Applying Machine Learning &amp; Machine Learning System Design----- Stanford Machine Learning(by Andrew NG)Course Notes

Adviceforapplyingmachinelearning Deciding what to try next 现在我们已学习了线性回归.逻辑回归.神经网络等机器学习算法,接下来我们要做的是高效地利用这些算法去解决实际问题,尽量不要把时间浪费在没有多大意义的尝试上,Advice for applying machine learning & Machinelearning system design 这两课介绍的就是在设计机器学习系统的时候,我们该怎么做? 假设我们实现了一个正则化的线性回

Preference Learning——Object Ranking:Learning to Order Things

这篇论文是Cohen1999年发表在Artificial Intelligence(A类)上的一篇文章,针对的是object ranking问题. Abstract 在归纳学习(inductive learning)中最受关注的是分类学习问题,而其实还有一类排名学习问题也很重要.可以基于概率分类器模型或者回归模型进行排名模型的构建.排名任务较分类任务更容易,因为偏好信息比标签更容易获取.举几个例子,根据用户特征对邮件中未读邮件进行个性化排名,等待用户阅读.根据用户对电影的评分信息,将电影进行排名

Decision Boundaries for Deep Learning and other Machine Learning classifiers

Decision Boundaries for Deep Learning and other Machine Learning classifiers H2O, one of the leading deep learning framework in python, is now available in R. We will show how to get started with H2O, its working, plotting of decision boundaries and

一个由IsPrime算法引发的细节问题

//******************************* // //    2014年9月18日星期四,于宿舍撰写 //    作者:夏华林 // //******************************** 好久没有没有更新博客了,最近确实烦心事儿挺多,已经大三了,真的静下心来好好看看书了. 今天要说的,就是一个由IsPrime算法引发的细节问题,我这里说的细节,是我所认为的,若有不妥,望指正! 一个简单的IsPrime算法的实现如下: 1 bool IsPrime(int