2. Supervised Learning - Logistic Regression

Logistic Regression
逻辑回归

解决问题类型


二分类问题(classification)

Notation

给定一个样本集T

样本总数为m

每个样本记做

其中为输入变量,也称为特征变量;为我们要预测的输出变量,也称为目标变量

表示第个样本。


Hypothesis

的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性

也就是

最终,当大于等于0.5时,预测y=1,当小于0.5时,预测y=0

假设是一下形式:

其中称为Logistic函数或者sigmoid函数,函数图象如下

为什么选择

Logistic函数见下节广义线性模型(Generlized Linear Models)

Logistic函数有如下有趣性质:

下面情况怎么办?

试一下这个:(模型选择一节将进一步研究)

Maximum Likehood Estimate极大似然估计

之后要做的就是

最大化?(θ),?(θ)是凸函数

#1 Gradient descent algorithm 梯度下降算法

梯度下降是解决这种优化问题的通用解法

使用更新策略

偶偶,得到和线性回归一样的结果。。别得意,是不一样的

最终的更新策略如下:

#2 直接解法。。

对?(θ)求导,令导数等于0。。。。这个式子太复杂了,貌似没有直接解法

#3 Newton‘s method牛顿法

牛顿法是用来求方程的解的方法,即求f(x)=0

使用如下更新方法

过程看下图自行脑补:

在Logistic
Regression中,最大化

?(θ)的过程可以看做寻找?(θ)一阶导数为零的点,这样就转换成牛顿法可以求解的问题:

注意到

Logistic
Regression中θ是一个向量,需要对牛顿法做拓广,叫Newton-Raphson method

H是

Hessian矩阵,在Logistic
Regression中:

牛顿法在接近收敛时,有平方的收敛效果,即原来有0.01的误差,一次迭代后只有0.0001的误差

这使得牛顿法相比梯度下降法只需要少量的迭代就能达到相同的精度

牛顿法收敛速度虽然很快,但求
Hessian 矩阵的逆的时候比较耗费时间

牛顿法的初始化参数只有靠近收敛点才回高效,如果远离收敛点,甚至不会收敛,因为导数方向没有指示收敛点的方向

用牛顿法求解Logistic
Regression叫Fisher‘s scoring

#高级优化算法

什么Conjugate
Gradient,BFGS,LBFGS。。。。将开辟一节

单独研究

多分类问题

可规约为:

这种方法叫做一对多(One-vs-All)方法

更高级的方法会开辟一节单独研究

参考资料

[1] CS229

Lecture
notes 1 (ps) 
(pdf)  Supervised
Learning, Discriminative Algorithms Andrew Ng

[2]
Coursera Machine
Learning Andrew Ng

未完待续
2. Supervised Learning - Logistic Regression,布布扣,bubuko.com

时间: 2024-08-07 13:34:04

2. Supervised Learning - Logistic Regression的相关文章

1. Supervised Learning - Linear Regression

Linear Regression线性回归 Notation 给定一个样本集T 样本总数为m 每个样本记做 其中为输入变量,也称为特征变量:为我们要预测的输出变量,也称为目标变量 表示第个样本. 问题描述 给定一个样本集,学习一个函数 使得是对相应y的一个好的预测. 因为某些历史原因,h被称为假设(hypothesis). 整个过程如下图所示: 如果我们想要预测的目标变量是连续值,称为回归问题(regression): 当目标变量是少数离散值时,称为分类问题(classification). 如

机器学习---逻辑回归(二)(Machine Learning Logistic Regression II)

在<机器学习---逻辑回归(一)(Machine Learning Logistic Regression I)>一文中,我们讨论了如何用逻辑回归解决二分类问题以及逻辑回归算法的本质.现在来看一下多分类的情况. 现实中相对于二分类问题,我们更常遇到的是多分类问题.多分类问题如何求解呢?有两种方式.一种是方式是修改原有模型,另一种方式是将多分类问题拆分成一个个二分类问题解决. 先来看一下第一种方式:修改原有模型.即:把二分类逻辑回归模型变为多分类逻辑回归模型. (二分类逻辑回归称为binary

ML_Gradient ascent algorithm for learning logistic regression classifier

参看博文http://www.tuicool.com/articles/2qYjuy 逻辑回归的输出范围是[0,1],根据概率值来判断因变量属于0还是属于1 实现过程分三步: 拟合函数(对线性回归做sigmod函数) 代价函数 梯度下降 indicated function指示函数

Deep Learning Tutorial - Classifying MNIST digits using Logistic Regression

Deep Learning Tutorial 由 Montreal大学的LISA实验室所作,基于Theano的深度学习材料.Theano是一个python库,使得写深度模型更容易些,也可以在GPU上训练深度模型.所以首先得了解python和numpy.其次,阅读Theano basic tutorial. Deep Learning Tutorial 包括: 监督学习算法: Logistic Regression - using Theano for something simple Multi

Andrew Ng Machine Learning - Week 3:Logistic Regression &amp; Regularization

此文是斯坦福大学,机器学习界 superstar - Andrew Ng 所开设的 Coursera 课程:Machine Learning 的课程笔记.力求简洁,仅代表本人观点,不足之处希望大家探讨. 课程网址:https://www.coursera.org/learn/machine-learning/home/welcome Week 1: Introduction 笔记:http://blog.csdn.net/ironyoung/article/details/46845233 We

Logistic Regression &amp; Regularization ----- Stanford Machine Learning(by Andrew NG)Course Notes

coursera上面Andrew NG的Machine learning课程地址为:https://www.coursera.org/course/ml 我曾经使用Logistic Regression方法进行ctr的预测工作,因为当时主要使用的是成型的工具,对该算法本身并没有什么比较深入的认识,不过可以客观的感受到Logistic Regression的商用价值. Logistic Regression Model A. objective function       其中z的定义域是(-I

CheeseZH: Stanford University: Machine Learning Ex2:Logistic Regression

1. Sigmoid Function In Logisttic Regression, the hypothesis is defined as: where function g is the sigmoid function. The sigmoid function is defined as: 2.Cost function and gradient The cost function in logistic regression is: the gradient of the cos

Machine Learning—Classification and logistic regression

印象笔记同步分享:Machine Learning-Classification and logistic regression

More 3D Graphics (rgl) for Classification with Local Logistic Regression and Kernel Density Estimates (from The Elements of Statistical Learning)(转)

This post builds on a previous post, but can be read and understood independently. As part of my course on statistical learning, we created 3D graphics to foster a more intuitive understanding of the various methods that are used to relax the assumpt