逻辑回归学习笔记

本讲大纲:

1.局部加权线性回归(locally weighted linear regression)

给定一个数据集,根据x预测y.

最左边的函数为,并不能很好的拟合数据;

中间的加了一个额外的特性,函数为,稍微更好地拟合了数据;

似乎我们增加越多的特性,拟合程度越好;但是增加太多的特性是很危险的,最右边的图是一个五阶的多项式,虽然很好的拟合了给定的数据集,但是这个并不是一个很好的预测函数。

欠拟合(underfitting):很明显有一些没有被模型捕获的结构,比如说最左边的图.

过拟合(overfitting):最右边的就是一个过拟合的例子.

因此说,特性的选择对于学习算法的性能来说是很重要的!!!

在原先的线性回归算法中,对查询点x做预测,我们:

而局部加权线性回归算法是:

其中,是非负值的权重。

对权重的一个标准选择是:

很小时,权重接近于1;当很大时,权重很小,接近于0. 因此,的选择是训练集中越接近查询点的样本权重越大.
参数控制着样本集离查询点距离权重下降的快慢,称为波长参数.

非参数化学习算法(non-parametric learning algorithm):

为了更好的展现假设,我们需要考虑的东西的数量随着训练集而线性增长(局部权重加权回归算法是我们学习的非参数学习算法的第一个例子).

参数化学习算法(parametric learning algorithm):

拟合数据只需要固定的、有限的参数(线性回归算法).

2.概率解释(probabilistic interpretation)

在回归问题中,为什么选择最小二乘法,是否合理?

假设目标变量和输入的关系如下:

表示误差项,不管是建模过程中没有考虑进来的因素,还是一些随机的因素;

根据高斯分布(Gaussian distribution)或者叫做正态分布(Normal distribution),再假设是IID(independently and identically distributed), 也就是说,

等价于:

注意,的意思是在参数的情况下,给定x,y的分布,并不是随机变量.

似然函数(likelihood function):

注意到误差项的独立假设,对所有给定的X,有:

根据最大似然估计原则,我们应该最大化.

为了计算方便,对极大似然函数取对数,

问题转化为最小化这也就是我们最初的最小二乘法的代价函数.

注意到我们的最终结果与无关.

3.逻辑回归(logistic regression)

分类(classification):也类似于回归(regression)问题,只是y的取值是一小部分的离散值.这边我们暂时先考虑二元的分类问题(binary classification,也就是说y只有两个取值,0和1.

为了了解分类问题,先忽略y是一个离散值,使用线性回归算法来预测y. 但是很容易发现的问题是y有可能出现大于1或者小于0的值,因此我们改变假设函数为:

称为逻辑函数(logistic function)或者s型函数(sigmoid function).

下面是g(z)的图像:

logistic 函数一个有用的求导特性:

假设:

等价于:

假设m个训练样本是单独产生的,于是

取对数得:

类似于在线性回归中的求导,可以使用梯度上升(gradient ascent)(因为是正号,因此是最大化不是最小化).

考虑一个样本,根据梯度上升原则求偏导:

因此

4.感知器算法(the perceptron learning algorithm)

如果需要改变logistic回归方法使得输出是0或1,定义临界函数(threshold function):

,但是用这个函数定义g,因此:

这就是感知器学习算法.

时间: 2024-08-25 22:23:10

逻辑回归学习笔记的相关文章

Linux LVM逻辑卷学习笔记

在生产环境上经常遇到诸如/dev/mapper/VolGroup-lv_root./dev/mapper/VolGroup-lv_home等字样的磁盘卷标,这实际上是逻辑卷(虚拟磁盘) 今天刚好学习了这块,总结了一下分享给大家,以免日后遇到这种逻辑卷管理起来遇到问题. 先说几个名词: LVM(Logical Volume Manager),逻辑卷管理器 PV(Physical Volume),物理卷 VG(Volume Group),卷组 PE(Physical Extend),逻辑卷,默认大小

ARM逻辑驱动学习笔记

arm程序:RO:只读段(代码段+只读数据段.text .rodata)RW:可读可写段(数据段.data)ZI:未初始化全局变量(.bss) 模板代码分析:头文件1.2440addr.h :        s3c2440寄存器变量和地址2.mmu.h,2440slib.h: MMU函数3.2440lib.h:         常用函数 代码:1.init.s    初始化程序2.mmu.c   ,2440slib.s   MMU函数3.2440lib.c    常用函数4.Main.c    

Andrew Ng机器学习课程笔记(二)之逻辑回归

Andrew Ng机器学习课程笔记(二)之逻辑回归 版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言 学习了Andrew Ng课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客中,后面的内容会陆续更新! 这篇博客主要记录了Andrew Ng课程第二章逻辑回归的笔记,主要介绍了梯度下降法,逻辑回归的损失函数,多类别分类等等 简要介绍:逻辑回归算法是分类算法,我们将它作为分类算法使用.

统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵模型 逻辑回归(logistic regression)是统计学习中的经典分类方法.最大嫡是概率模型学习的一个准则将其推广到分类问题得到最大熵模型(maximum entropy model).逻辑回归模型与最大熵模型都属于对数线性模型. 6.1 逻辑回归模型 定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指 X具有下列分布函数和密度函数 式中,u为位置参数,r>0为形状参数. 逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示.分布函数属于逻辑

逻辑回归-4.添加多项式特征

逻辑回归解决二分类问题,但是像下图所示的非线性数据集,是没办法用一条直线分割为两部分的. 对于此数据集,用一个圆形或者椭圆形分割是比较合理的,圆形的表达式:\(X_1^2 + X_2^2 - R^2 = 0\) 为了让逻辑回归学习到这样的决策边界,我们需要引入多项式项,\(X_1^2,X_2^2\)分别是\(X_1,X_2\)的二次多项式.使用多项式后,可以定义任意圆心位置的圆.椭圆或不规则形状的决策边界. 代码实现 构造数据集 import numpy import matplotlib.py

ufldl学习笔记与编程作业:Logistic Regression(逻辑回归)

ufldl出了新教程,感觉比之前的好,从基础讲起,系统清晰,又有编程实践. 在deep learning高质量群里面听一些前辈说,不必深究其他机器学习的算法,可以直接来学dl. 于是最近就开始搞这个了,教程加上matlab编程,就是完美啊. 新教程的地址是:http://ufldl.stanford.edu/tutorial/ 本节学习链接:http://ufldl.stanford.edu/tutorial/supervised/LogisticRegression/ 有了线性回归的基础再来学

Machine Learning 学习笔记 (1) —— 线性回归与逻辑回归

[总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 梯度下降法 梯度下降法是一种用来寻找函数最小值的算法.算法的思想非常简单:每次沿与当前梯度方向相反的方向走一小步,并不断重复这一过程.举例如下: [例]使用梯度下降法,求的最小值. 第一步:求解迭代格式.根据“每次沿与当前梯度方向相反的方向走一小步”的思想,可知 第二步:选择迭代的初始值.初始值一般可以随意选择,但恰当的初始值有助于提升收敛速度.本例中选择 第三步:根据迭代格式和初始值进行

统计学习笔记之逻辑回归

在分类的问题中,要预测的变量y经常是离散的,如需要预测是正确还是错误,这是一种最基本的二分类.当然,逻辑回归也可以进行多分类,有一种简单的方法是,将其中一类标记为正类,剩余类标记为负类,可以得到正类,再讲另外一个类标记为正类,重复进行既可得到多分类的结果. LR的常规步骤: 1.寻找假设函数 2.构造损失函数 3.使损失函数最小,并求得回归参数 对于二分类,输出标记为,而线性回归模型产生的预测值是实值,于是我们要将转换为0/1值.最理想的是单位阶跃函数,但是单位阶跃函数不连续不可微,于是,利用的

机器学习笔记04:逻辑回归(Logistic regression)、分类(Classification)

之前我们已经大概学习了用线性回归(Linear Regression)来解决一些预测问题,详见: 1.<机器学习笔记01:线性回归(Linear Regression)和梯度下降(Gradient Decent)> 2.<机器学习笔记02:多元线性回归.梯度下降和Normal equation> 3.<机器学习笔记03:Normal equation及其与梯度下降的比较> 说明:本文章所有图片均属于Stanford机器学课程,转载请注明出处 面对一些类似回归问题,我们可