统计学习方法(感知器)

感知机 

假设:输入空间是 x?Rn 输出空间是 y={+1,-1}

由如下2.1函数进行分类称之为感知器

其中,w为权值向量,b为偏置

sign(.)是符号函数,记为如下所示:

感知机是一种线性分类模型,属于判别模型。

感知机模型的假设空间是定义在特征空间中的

所有线性分类模型(linear classification model)或 线性分类器(linear classifier)

即函数集合{f|f(x) = wx +b}

求感知机模型2.1,即求得模型参数w,b。

感知机预测,通过学习得到的感知机模型,对于新的输入实例给出其对应的输出类别。

?

?

?

感知器学习策略

假设训练数据集线性可分,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。

为了确定感知机模型参数w, b 需要确定一个学习策略,即定义(经验)损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数。这样的损失函数不是参数w,b的连续可导函数,不易优化。

损失函数的另一个选择是误分类点到超平面S的总距离,这是感知机所采用的。

距离S定义如下:


||w||是w的L2范数。

不考虑1/||w||,感知器的损失函数定义如下:

????????????

其中M为误分类点的集合。

这个损失函数就是感知机学习的经验风险函数。

损失函数L(w,b)是非负的。

没有误分类点,损失函数值是0。

误分类点越少,误分类点离超平面越近,损失函数值就越小。

特定的样本点的损失函数:在误分类时是参数w,b的线性函数,在正确分类时是0。

因此,给定训练数据集T,损失函数L(w,b)是w,b的连续可导函数。

感知机学习的策略是在假设空间中选取使损失函数式2.4最小的模型参数w,b,即感知机模型。

?

?

感知器学习算法

感知机学习算法是误分类驱动

具体采用随机梯度下降法(stochastic gradient descent)

首先,任意选取一个超平面,w0,b0,然后用梯度下降法不断地极小化目标函数。

极小化过程中一次随机选取一个误分类点使其梯度下降。

那么损失函数L(w,b)的梯度由:

?

随机选取一个误分类点(xi,yi),对w,b进行更新:

?

式中η (0< η ≤1)是步长,在统计学习中又称为学习率(learning rate)。

这样,通过迭代可以期待损失函数L(w,b)不断减小,直到为0。

感知器算法原始形式

输入:训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)},

其中xi?x=Rn,yi? y={-1,+1},i=1,2,…,N;

学习率η (0<η ≤1);

输出:w,b;感知机模型f(x)=sign(w·x+b)。

(1)选取初值w0,b0

(2)在训练集中选取数据(xi,yi)

(3)如果yi(w·xi+b)≤0

?

(4)转至(2),直至训练集中没有误分类点。

?

感知器的对偶形式,可以通过预先将训练集中的内积计算出来并以矩阵形式存储,

即为Gram矩阵

????????????

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

时间: 2024-10-28 19:44:49

统计学习方法(感知器)的相关文章

每月学习数理统计--《统计学习方法—李航》(2): 感知器

1. 感知器的介绍 2.感知器的算法 3.感知器的更新规则 4.感知器的收敛性 5.感知器的局限性 1. 感知器的介绍 首先 2. 感知器的算法 3. 感知器的更新规则 4. 感知器的收敛性 5. 感知器的局限性 原文地址:https://www.cnblogs.com/tjpeng/p/10326100.html

机器学习 —— 基础整理(六):线性判别函数——感知器、松弛算法、Ho-Kashyap算法

本文简单整理了以下内容: (一)线性判别函数与广义线性判别函数 (二)感知器 (三)松弛算法 (四)Ho-Kashyap算法 (一)线性判别函数与广义线性判别函数 一.线性判别函数 这篇总结继续关注分类问题.假设判别函数(Discriminant function)的参数形式已知,用训练的方法直接根据样本估计判别函数的参数.线性判别函数的形式为: $$g(\textbf x)=\textbf w^{\top}\textbf x+w_0$$ $\textbf x\in \mathbb R^d$ 是

统计学习方法:感知机

作者:桂. 时间:2017-04-16  11:53:22 链接:http://www.cnblogs.com/xingshansi/p/6718503.html 前言 今天开始学习李航的<统计学习方法>,考虑到之前看<自适应滤波>,写的过于琐碎,拓展也略显啰嗦,这次的学习笔记只记录书籍有关的内容.前段时间朋友送了一本<机器学习实战>,想着借此增加点文中算法的代码实现,以加深对内容的理解.本文梳理书本第二章:感知机(Perceptron). 1)原理介绍 2)代码实现

从感知器到SVM

这篇文章主要是分析感知器和SVM处理分类问题的原理,不涉及求解 感知器: 感知器要解决的是这样的一个二分类问题:给定了一个线性可分的数据集,我们需要找到一个超平面,将该数据集分开.这个超平面的描述如下: $w*x+b=0$ 而感知器的决策函数是: $f(x)=sign(w*x+b)$ 其中     $z=w*x+b$ 是数据集的一个线性回归. 而 $sign$则是一个简单的符号函数. 所以,我们可以这样理解.感知器是在线性回归的基础上,加了一个阈值,将: $w * x_i + b\geq 0$

统计学习方法:罗杰斯特回归及Tensorflow入门

作者:桂. 时间:2017-04-21  21:11:23 链接:http://www.cnblogs.com/xingshansi/p/6743780.html 前言 看到最近大家都在用Tensorflow,一查才发现火的不行.想着入门看一看,Tensorflow使用手册第一篇是基于MNIST的手写数字识别的,用到softmax regression,而这个恰好与我正在看的<统计信号处理>相关.本文借此梳理一下: 1)罗杰斯特回归 2)Softmax Regression 3)基于Tenso

感知器算法--python实现

写在前面: 参考: 1  <统计学习方法>第二章感知机[感知机的概念.误分类的判断]   http://pan.baidu.com/s/1hrTscza 2   点到面的距离 3   梯度下降 4   NumPy-快速处理数据    属性shape:表示几行几列:   dot(a,b) 计算数组.矩阵的乘积 感知器算法: Python实现: #coding:utf-8 import numpy as np class Perceptron(object): def __init__(self)

ML(2)——感知器

感知器(PLA--Perceptron Learning Algorithm),也叫感知机,处理的是机器学习中的分类问题,通过学习得到感知器模型来对新实例进行预测,因此属于判别模型.感知器于1957年提出,是神经网络的基础. 感知器模型 以最简单的二分类为例,假设医院需要根据肿瘤患者的病患特x1肿瘤大小,x2肿瘤颜色,判断肿瘤是良性(+1)还是恶性(-1),那么所有数据集都可以在一个二维空间表示:如果能找到一条直线将所有1和-1分开,这个数据集就是线性可分的,否则就是线性不可分.将两个特征向量分

Stanford大学机器学习公开课(三):局部加权回归、最小二乘的概率解释、逻辑回归、感知器算法

(一)局部加权回归 通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的 过拟合(overfitting),不符合数据真实的模型.如下图的右图. 下面来讲一种非参数学习方法——局部加权回归(LWR).为什么局部加权回归叫做非参数学习方法呢?首先,参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖

感知器的训练算法

 1.感知器算法来源和基本思想 “感知器”一词出自于20世纪50年代中期到60年代中期人们对一种分类学习机模型的称呼,它是属于有关动物和机器学习的仿生学领域中的问题.当时的一些研究者认为感知器是一种学习机的强有力模型,后来发现估计过高了,但发展感知器的一些相关概念仍然沿用下来. 采用感知器算法(Perception Approach)能通过对训练模式样本集的“学习”得到判别函数的系数.由于该算法不需要对各类别中模式的统计性质做任何假设,因此称为确定性的方法. 感知器算法实质上是一种赏罚过程: –