声明:
开个新坑,督促自己坚持学习。这个系列同样是学习心得以及总结,用到的资料都是从吴恩达大神在Coursera上的课程中摘下来的。另外,依照Coursera的要求,保证学员的学习质量,在这一系列心得中不会出现与Coursera习题答案有关的代码。
为了帮助自己更深刻的理解,除了一些人名、引用或者算法的缩写,比如‘BFGS’、‘L-BFGS’等等之外,尽量使用中文。这一系列的文章结构都是按照大神的课程来的,理解成翻译其实也没毛病。
什么是机器学习?
有很多种说法,大致意思都是:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”
下面是一种较常见的引用,不明觉厉,仅是应用的话并不用纠结于定义。
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
通常来说,机器学习主要分为监督学习(Supervised Learning)和非监督学习(Unsupervised Learning)。事实上最近我还看到的半监督学习(Semi-supervised Learning),等以后确实了解了再总结一下。
监督学习
监督学习应具备几个特点,即有一个用于训练(Training)的数据集合,并且明确的知道正确的输出结果应该是怎样的形势,而且清楚的知道训练集的数据与输出结果之间的关系。简而言之,当涉及到“训练”的时候八九不离十就是监督学习了。
监督学习又进一步被分为两类问题,分别是“回归问题(Regression)”和“分类问题(Classification)”。这两类问题主要是由输出的结果进行区分:“回归问题”的输出结果应该是一个连续的函数,比如,根据房屋面积预测房价(实际上和房价有关的特征并不仅仅是面积);“分类问题”的输出结果应该是离散,比如,根据肿瘤的大小预测该肿瘤是恶性的还是良性的。
非监督学习
通过非监督学习我们可以解决一些我们并不清楚其结果应该是怎想的问题。通过聚类(Clustering)或者说是归纳的方法,我们可以发现特征变量(Variables)和数据集之间的某些关系。
例:对于基因序列的研究,通过非监督学习,我们可以发现某些基因片段与生命延长、遗传疾病、性格特征……等表现形式之间关系。
模型表示
概念讲完了,接下来首先学习“监督学习”。开始具体的学习之前需要对符号做一些规定和说明。对于接下来的课程我们做如下规定,以根据房屋面积预测房价为例:
x(i):输入变量(输入特征),可以是一个向量。
X:表示输入特征的集合。
y(i):输出变量(目标变量),在此例中我们用y(i)表示x(i)对应的预期房价。
Y:表示输出集合。
(x(i),y(i)):表示一个训练实例。
m:表示训练实例的总数。
h(x):要拟合(Fitting)的函数,由于历史的原因我们称h(x)为假设(Hypothesis),由于我不清楚最标准的翻译是什么,以后只用符号来表示好了。
J(θ0,θ1,...,θn):成本函数,或者说时损失函数。
α:学习速率。
为了更好的理解监督学习,我们可以说,实际上监督学习的目的就是通过学习大量经验数据找到一个“合适”的预测函数进行预测,即h:x→y来表示这个函数。学习的过程可由下图大致表示:
当我们用h(x)来预测y时,若y为连续型变量,那么这就是一个“回归问题”;若y为离散变量,则这是一个“分类问题”。
成本函数
成本函数的功能是用于表示h(x)的合适程度,也就是预测的精确度。在当前的例子中,表示为:
J(θ0,θ1)=12m∑i=1m(y^i?yi)2=12m∑i=1m(h(xi)?yi)2
容易看出,这个公式和“方差”很像,仅仅多了一个(12)而已。实际上,此处有没有(12)都不影响成本函数所表示的意义,可以直接把成本函数当成方差看待。加上(12)的目的是为了让后文所讲的“梯度下降”算法更容易计算而已。通过下图可以更加直观的理解:
“x”表示训练实例,J(θ0,θ1)即可以理解为图中所有红色垂直线段长度之和。由此很容易理解,拟合度最高的h(x),其(θ0,θ1)对应的J(θ0,θ1)必然是minJ(θ)。
更加直观的理解成本函数
最理想的情况,所有的训练实例都在一条直线上,如图,此时θ1=1,θ0=0,J(θ0,θ1)=0。
假设θ0并不做变化,仅θ1变化时,我们可以很容易的得到这样一个规律:当θ1越大时,J(θ0,θ1)越大;当θ1越小时,J(θ0,θ1)越小,如下图。可以看出,当θ1取1时,J(θ1)为0,对应的h(x)就是我们所期望的结果。
当θ0,θ1一起变化时,我们可以做一个三维的图来表示,或者做一个二维的等高线图进行表示:以θ0为x轴,θ1为y轴,J(θ0,θ1)的值用不同的颜色进行表示,如下右图。在此前提下来理解有两个特征变量的情况下的最佳h(x)。
左图中的斜线为右图中点(θ0,θ1)=(800,?0.15)对应的h(x),很明显h(x)与训练集拟合的效果并不好。
上图更进一步,选择的点距中心更近了一步(θ0,θ1)=(360,0),事实上拟合的效果也很差,即使严格意义上来说进步了。
这一次,我们选到了中心,可以看到中心点对应的h(x)拟合效果较好,与训练集的分布趋势大致相同。那么,计算机是怎么实现逐渐向中心点靠拢的呢?
梯度下降算法
注:这一部分如果有微积分相关的知识就很容易理解了,如果没有相关知识也没关系,并不会影响实际得应用。
根据前文的内容,我们知道最合适的h(x)其对应的J(θ0,θ1)的值最小,即J(θ0,θ1)=minJ(θ0,θ1)。梯度下降算法的目的是使J(θ0,θ1)能够按下降最快的方向(即梯度方向)收敛于极小值。如下图:
注:上图所示的情况得到的极小值和其初始状态有关,不一定就是minJ(θ,θ),只有凸函数(convex function)得到的极小值才是全局的最小值,。
核心算法
重复做如下动作至J(θ0,θ1)收敛 :
θj:=θj?α??θjJ(θ0,θ1)
“:=”表示赋值的意思。
由于这一章只讨论单一变量的线性回归问题,所以 j∈0,1。需要注意的是,θj需要同时更新。如果没有同时更新,结果即使正确,也只是因为运气。
α为前文介绍的学习速率,所以当α越大下降的幅度越大,反之则越小。确定α并不是一个容易的事情,如果α的值过小,虽然一定可以收敛,但是消耗的时间将会很长;如果α的值过大,则很有可能无法收敛,通过下图就可以直观的理解这两种情况。
梯度下降算法在单一变量线性回归中的应用
确定特征(θ0,θ1)并不复杂:
- hθ(x)=θ0+θ1x1
- 重复至收敛 {
?????????????θ0:=θ0?α1m∑i=1m(hθ(xi)?yi)θ1:=θ1?α1m∑i=1m((hθ(xi)?yi)xi)}
θj推导:
在括号中θ0,θ1已经分开,如果我们假设x0=1那么θ0也可以写成θ1的形势,这其实就是下一篇多重变量回归问题的公式了。
另外,需要提一下,这种同一时间同时更新所有的特征变量θi的方式叫做批量梯度下降(Batch Gradient Descent)。下面是一张实际运行的结果图,帮助直观的理解梯度下降算法。