Logistic回归Cost函数和J(θ)的推导----Andrew Ng【machine learning】公开课

最近翻Peter Harrington的《机器学习实战》，看到Logistic回归那一章有点小的疑问。

作者在简单介绍Logistic回归的原理后，立即给出了梯度上升算法的code：从算法到代码跳跃的幅度有点大，作者本人也说了，这里略去了一个简单的数学推导。

那么其实这个过程在Andrew Ng的机器学习公开课里也有讲到。现在回忆起来，大二看Andrew的视频的时候心里是有这么一个疙瘩（Andrew也是跳过了一步推导）

那么这里就来讲一下作者略去了怎样的数学推导，以及，怎么推导。

在此之前，先回顾一下Logistic回归。

Logistic回归

　　基本原理：《实战》这本书上是这么讲的，“回归”就是用一条直线对一堆数据点进行拟合，这个拟合过程就称为“回归”。利用Logistic回归进行分类的主要思想是，根据现有数据对分类边界线建立回归公式，以此进行分类。

　　以Andrew公开课的例子说明：

　　圆（蓝色）和叉（红色）是两类数据点，我们需要找到一个决策边界将其划分开，如图所示的边界形式显然是线性的形式，如图中所描述的：

　　我们记为：

　　其中，g是一个函数，能够接受所有的输入，然后能计算出值，并且进行分类。这里我们使用经典的Sigmoid函数

　　然而有时候，决策边界用一维直线无法区分，也就是这里的θ参数个数是变数，比如下面这堆数据

　　这是一种非线性关系。

　　那么可以看到这里，将x1,x2参数全部平方处理，找得一个圆形边界。

公式推导

　　那么讲到这里，我们可以把边界形式做如下推广：

　　边界的最后一项是向量相乘的形式，即：

　　那么将其输入到sigmoid函数去判断其所属类别，就有了我们的预测函数，记为：

　　根据sigmoid图像，这个预测函数输出值大于0，那么代表x（数据点）所属类别为1，否则是0（对于二分类问题）。

　　但是别忘了我们的最初的目标，这里的θ向量未知。我们的目的是：

　　　　确定θ的参数值，使得我们这个决策边界能更好地划分数据集。

　　那么这个过程，在Andrew的课程里，被略过了，他直接给出了cost函数和J(θ)函数，然后通过梯度下降求得最优的θ参数。其中，J(θ)函数是这样的：

　　利用上面的公式以及梯度下降算法，我们就能求出θ的值。

　　那么接下来就要讲讲这个公式是怎么被推导出来的。

　　我们先来看看现在我们已经知道什么：

　　　　　　1、一堆数据点+它们的类别（2类）

　　　　　　2、它们的概率分布hθ(x)：虽然目前θ仍然是未知参数

　　我们的目标是求出未知参数，使得每个样本数据点属于它当前所标记的类别的概率最大。

　　于是就引出了Fisher的极大似然估计。

　　这里就不讲极大似然估计的具体概念和公式推导了，不过还是用个例子来形象的说明极大似然估计的作用吧：

　　　　　　一个猎人和一个学生一起走在山路上，突然从山间跑出一只兔子，啪一声枪响，兔子倒地而亡。问：谁最有可能是杀死兔子的？

　　答案显而易见：猎人。那么这里，猎人就是那个参数θ。极大似然估计的目标就是预测出待估参数，使得样本事件发生的概率最大。

　　对于一个连续性的分布，我们需要它的概率密度函数，在本例中，其实就是那个sigmoid函数（取值范围0-1刚好表示的是发生概率），我们重新写在这里：

　　把这两个式子写在一起：

　　可以验证一下，当y=1或者y=0的时候，上式分别满足上上式。对每个样本数据点，满足上式，所以对于群体（实际上这里的样本事件就是：所有样本数据点属于它们自己所在的分类），我们接下来继续。

　　根据极大似然估计的求解步骤，取似然函数：

　　要求L(θ)的最大值对应的θ参数。

　　连乘不容易求解，同时又容易造成下溢出。这里由于x和ln(x)单调性相同，两边取对数

　　那么这个就是Andrew给的那个J(θ)了，唯一的区别就是，Andrew在前面乘了一个负系数，使得这里求最大值变成了最小值，从而可以使用梯度下降算法。

　　不过其实用本式也可以完成任务，只是用的算法就变成梯度上升了，其实没有区别。

结语

　　这里安利一下《机器学习实战》这本书，真的蛮不错的，实践性很强，既入门了ML，又锻炼了动手能力。

时间： 2024-12-23 20:59:52

Logistic回归Cost函数和J(θ)的推导----Andrew Ng【machine learning】公开课的相关文章

Andrew Ng Machine Learning - Week 3：Logistic Regression & Regularization

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 1: Introduction 笔记:http://blog.csdn.net/ironyoung/article/details/46845233 We

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3

本文主要讲解局部加权(线性)回归.在讲解局部加权线性回归之前,先讲解两个概念:欠拟合.过拟合,由此引出局部加权线性回归算法. 欠拟合.过拟合如下图中三个拟合模型.第一个是一个线性模型,对训练数据拟合不够好,损失函数取值较大.如图中第二个模型,如果我们在线性模型上加一个新特征项,拟合结果就会好一些.图中第三个是一个包含5阶多项式的模型,对训练数据几乎完美拟合. 模型一没有很好的拟合训练数据,在训练数据以及在测试数据上都存在较大误差,这种情况称之为欠拟合(underfitting). 模型三对训练

局部加权回归、欠拟合、过拟合-Andrew Ng机器学习公开课笔记1.3

【机器学习算法实现】logistic回归__基于Python和Numpy函数库

[机器学习算法实现]系列文章将记录个人阅读机器学习论文.书籍过程中所碰到的算法,每篇文章描述一个具体的算法.算法的编程实现.算法的具体应用实例.争取每个算法都用多种语言编程实现.所有代码共享至github:https://github.com/wepe/MachineLearning-Demo 欢迎交流指正! (2)logistic回归__基于Python和Numpy函数库 1.算法简介本文的重点放在算法的工程实现上,关于算法的原理不具体展开,logistic回归算法很简单,可以看看A

Logistic回归

Logistic回归主要思想: 根据训练集找到一个适合的预测函数(线性函数),一般用h表示,该函数就是我们需要找的分类函数,用它来预测输入数据的分类. 构造一个Cost(损失函数),该函数为每个输入数据的预测类别(h)与真实数据的类别(y)之间的偏差,可以以二者间的差值,即(h-y)或其他形式来计算偏差.由于需要综合考虑所有训练数据的损失,需要将数据的损失求和或求平均,表示所有训练数据预测出的类别与实际类别的偏差,将Cost求和或者求平均,记为J(θ),表示所有训练数据预测值与实际值得偏差.

logistic回归与手写识别例子的实现

本文主要介绍logistic回归相关知识点和一个手写识别的例子实现一.logistic回归介绍: logistic回归算法很简单,这里简单介绍一下: 1.和线性回归做一个简单的对比下图就是一个简单的线性回归实例,简单一点就是一个线性方程表示 (就是用来描述自变量和因变量已经偏差的方程) 2.logistic回归可以看到下图,很难找到一条线性方程能将他们很好的分开.这里也需要用到logistic回归来处理了. logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,

机器学习与数据挖掘-logistic回归及手写识别实例的实现

Logistic回归总结

转自:http://blog.csdn.net/dongtingzhizi/article/details/15962797 Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing (2013年11月) PDF下载地址:http://download.csdn.net/detail/lewsn2008/6547463 1.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了<机器学习实战>中的Logisti

机器学习 —— 基础整理（五）：线性回归；二项Logistic回归；Softmax回归；广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号