(转)统计学习-2 感知机知识准备(模型类型、超平面与梯度下降法)

判别模型与生成模型

前面也有过介绍,回顾一下,判别模型的意思就是它不关心数据是怎么产生的,不关心数据之间有何概率关系,它只关心数据之间有什么不同,这种不同会造成什么结果。比如说给你一堆水果,让你把它们中相同种类的放在一个篮子里,判别模型的话,我们直接通过分辨两个果子之间的差别,是黄的还是红的,是大的还是小的来分类,而如果是生成模型,那么我们就需要学习水果的品种,认识水果,那么就可以这样,哦,这个果子看上去更像苹果,那么它就是苹果啦来分类。

从数学的角度来讲,判别模型直接学习条件概率模型 P(Y|X),不关心数据本身的特征,如果P(Y|X的值越大,说明X更属于这个Y,那么就分类了。而生成模型先要求联合概率分布P(X,Y),讨论数据间的关系,然后由公式P(X,Y)=P(Y|X)·P(X)得出P(Y|X),这个过程中,我们是可以得到联合概率分布P(X,Y)的。

超平面

数学中超平面是n维欧氏空间中余维度等于一的线性子空间。这是平面中的直线、空间中的平面之推广(百度百科)。比如所,在三维空间里,满足3元一次函数ax+by+cz=m的所有点的全体就是该三维空间里的一个超平面,在二维空间里满足二元一次方程ax+by=n的点的全体也构成该二维空间的一个超平面。

梯度下降法

梯度下降法也叫最速下降法(steepest descend method),它是沿附体度方向寻找最小值。在向量微积分中,标量场中某一点的梯度指向标量场中增长最快的方向,梯度的值就是这个变化率的大小,所以下降法要沿着梯度的负方向来求最小值。求梯度就是求函数的一阶导数,比如一个函数f=x^2+y^2,求梯度得:

从截面上看,某点的负梯度指向圆心。梯度下降法第一步就是先求函数的梯度,然后规定一个步长r,按照这个式子迭代:

倒三角表示每次迭代的点的梯度。这样每次就能像减小的最快方向进一步,但是如果初始值选择不恰当,那么有可能得到的是一个局部极小值的点,而不是全局最小值。另外,步长的选择很重要,如果太小,则收敛速度过慢,如果大了,有可能不收敛,越过了极小值,来回震荡。具体采用什么方法取步长我查了查有很多啊,先不研究这个。那么到什么时候迭代可以停止呢?就是如果连续两次迭代的结果相差非常小时,就可以近似得到了。

在感知机算法中,我们要求的模型分类器(y=a·x+b)要能尽可能完全分开正负实例点,这就要求模型的经验风险最小化,我们得出经验损失函数后,就可以通过梯度下降法来求得达到损失函数的最小值时,参数(a,b)的值,这样就能得出分类器模型了。

时间: 2024-11-10 19:07:50

(转)统计学习-2 感知机知识准备(模型类型、超平面与梯度下降法)的相关文章

统计学习基本理论知识(一)

本篇将依据<统计自然语言处理>(宗成庆),重新梳理统计学习相关理论知识,相关概率论与梳理统计的课本不再列出来,可以找任意相关的课本复(预)习. 概率 概率是表示事件发生的可能性,将随机试验中的事件映射到实数域.用$P(A)$表示事件A的概率,$\Omega$表示试验的样本空间(所有可能发生的事件),则概率满足: 非负性:$P(A) \geq 0$ 规范性:$P(\Omega) = 1$ 可列可加性:对于可列个事件$A_1,A_2,...$,如果事件两两互不相容($A_i \bigcap A_j

《统计学习》——感知机

<统计学习>--感知机 本文不是像网上大多数的博文那样,洋洋洒洒的写一大篇文章,只是记录下学习机器学习的一些总结与心得,志在总结与和同道中人一起讨论,分享各自的想法. 1.何为感知机? 我们在学习机器学习的时候,基本都是从感知机开始的,为什么?因为它的思想较为易懂和容易实现,而且对于一般的问题(如二分类问题),效果也很好.感知机是神经网络和支持向量机SVM的基础,也被称为"单层神经网络". 感知机是二分类分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,定义为+1

统计学习中感知机的C++代码

感知机是古老的统计学习方法,主要应用于二类线性可分数据,策略是在给定的超平面上对误差点进行纠正,从而保证所有的点都是正确可分的. 用到的方法是随机梯度下降法,由于是线性可分的,可保证最终在有限步内收敛.具体可参考李航的<统计学习方法> #include<iostream> #include<algorithm> #include<vector> #include<fstream> using namespace std; typedef vect

(八)从零开始学人工智能--统计学习:统计学习基础知识

目录 统计学习基础知识 1. 统计学习种类 1.1 监督学习 1.2 非监督学习 2. 统计学习中的基本概念 2.1 统计学习三要素:模型,策略,算法 2.2 欠拟合和过拟合 2.3 如何避免过拟合 2.4 过拟合产生的原因 2.5 最大似然估计和贝叶斯估计 3. 线性回归 3.1 经典线性回归 3.2 岭回归(ridge regression) 3.3 lasso回归和ElasticNet 4. 线性分类 4.1 感知机 4.2 逻辑回归(logistic regression) 4.3 So

【统计学习】随机梯度下降法求解感知机模型

1. 感知机学习模型 感知机是一个二分类的线性分类问题,求解是使误分类点到超平面距离总和的损失函数最小化问题.采用的是随机梯度下降法,首先任意选取一个超平面w0和b0,然后用梯度下降法不断地极小化目标损失函数,极小化过程中不是一次使所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降.假设误分类点集合M是固定的,那么损失函数L(w,b)的梯度: 随机选取一个误分类点,对w和b进行更新: 其中n是步长,又称为学习率(learning rate),这样通过迭代可以使损失函数L(w,b)不

统计学习六:2.对数线性模型之最大熵模型

全文引用自<统计学习方法>(李航) 最大熵模型(maximum entropy model)同样是一类对数线性模型,主要由最大熵原理推导得出.本文主要介绍最大熵原理的基本概念.最大熵模型的推导过程以及模型的学习形式. 1.最大熵原理 最大熵原理是概率模型学习的一个准则.具体表现为,在给定多个约束条件之后,对于所有满足约束条件的概率模型所组成的集合,熵最大的模型一定是最好的模型,此时应选择该模型为最终模型. 假定离散随机变量X的概率分布为P(X),则其熵为: \[ H(P)=-\sum_xP(x

统计学习方法:感知机

作者:桂. 时间:2017-04-16  11:53:22 链接:http://www.cnblogs.com/xingshansi/p/6718503.html 前言 今天开始学习李航的<统计学习方法>,考虑到之前看<自适应滤波>,写的过于琐碎,拓展也略显啰嗦,这次的学习笔记只记录书籍有关的内容.前段时间朋友送了一本<机器学习实战>,想着借此增加点文中算法的代码实现,以加深对内容的理解.本文梳理书本第二章:感知机(Perceptron). 1)原理介绍 2)代码实现

?统计学习精要(The Elements of Statistical Learning)?课堂笔记(一)

前两天微博上转出来的,复旦计算机学院的吴立德吴老师在开?统计学习精要(The Elements of Statistical Learning)?这门课,还在张江...大牛的课怎能错过,果断请假去蹭课...为了减轻心理压力,还拉了一帮同事一起去听,eBay浩浩荡荡的十几人杀过去好不壮观!总感觉我们的人有超过复旦本身学生的阵势,五六十人的教室坐的满满当当,壮观啊. 这本书正好前阵子一直在看,所以才会屁颠屁颠的跑过去听.确实是一本深入浅出讲data mining models的好书.作者网站上提供免

统计学习方法一:基础

对统计学习方法中的基础概念和理论做一个总结.逐步更新. 内容摘自<统计学习方法>第一章,第一章内容基本全是重要内容,因此此篇部落格算是一个加入了自己理解思路的读书笔记. 一.统计学习方法包含哪几种? 监督学习:用于学习的数据集都是输入\输出数据对(有标记的样本),学习的任务是找到输入与输出的对应规则.主要用于分类.标注.回归分析. 非监督学习:用于学习的数据集只有输入(未标记的样本),学习的任务是对于数据进行分析,找到输出.主要用于聚类. 半监督学习:是监督学习和非监督学习的结合,它主要考虑如