感知机学习算法(PLA)

Perception Learning Algorithm, PLA

1.感知机

感知机是一种线性分类模型,属于判别模型。

感知机模型给出了由输入空间到输出空间的映射:

  f(X) = sign(WTX + b)

简单来说,就是找到一个分类超平面 WTX + b =0,将数据集中的正例和反例完全分开。

2.感知机学习算法(PLA)

感知机学习算法是为了找到 Wb  以确定分类超平面。为了减少符号,令 W = [b, W1, W2, ..., Wn]X = [1, X1, X2, ..., Xn],则 f(X) = sign(WTX )

感知机学习算法是由误分类驱动的:

  • 对于实际为正例(y=1)的误分类点,则对 W 进行如下修正:

    W = W + X

    从而使得 WTX 变大更接近大于 0, 即更接近正确分类;  (W+X)TX = WTX + ||X||2

  • 对于实际为正例(y=1)的误分类点,则对 W 进行如下修正:    

    W = W - X    

    从而使得 WT变小,更接近小于 0, 即更接近正确分类;  (W-X)TX = WTX - ||X||2

综上,令 初值 W0=0,然后每次选取一个误分类点,更新 W = W + y X ,直到所有点都被正确分类。

PS:不同的初值或者选取不同的误分类点,解可以不同。

具体算法如下:

3. PLA算法的收敛性

首先,确定数据集是 线性可分 的,否则,PLA永远不收敛。

假设数据集线性可分,则一定存在一个分类超平面可以将正例负例完全区分。

设最优的参数为 Wf,则:

  yWfTX≥ minn(ynWfTXn) > 0

已知 WfT越大,则 WWf 越接近。(联想协方差)

  WfTWWfT (WT-1+ yT-1 XT-1 

                    = WfT WT-1 yT-1WfTXT-1

                    ≥  WfT WT-1 minn(ynWfTXn)                                                                         (1)

                    > WfT WT-1 + 0

然而,WfTW 越大,也有可能只是 W  的元素值放大,但是W 与 Wf 的角度却没有接近。

所以,我们要讨论 $\frac{W_{f}^{T}W_{T}}{\left \| W_{f} \right \|\left \| W_{T} \right \|}$ 是否越来越大,若是,则 W 越来越接近最优值 Wf 。(联想 SVM 中 函数间隔 和 集合间隔 的概念)

我们知道,PLA 是误分类点驱动,所以有:

  yWTXi  ≤ 0

又有:

  W= WT-1 yT-1 XT-1

则:

  || WT ||2|| WT-1 ||2 + yT-12 || XT-1 ||2 + 2 yT-1 WT-1T XT-1

                    ≤ || WT-1 ||2 + yT-12 || XT-1 ||2  = || WT-1 ||2 + || XT-1 ||2 

                     ≤ || WT-1 ||2 + minn|| X||2                                                                             (2)

W0 = 0

令 ρ = minn(ynWfTXn) ,代入式 (1):

  WfTWT   ≥  WfT WT-1 ρ  ≥  WfT WT-2 + 2ρ  ≥  ...    WfT W0 + Tρ = Tρ                     (3)       

R = minn|| X||2 ,代入式 (2):

  || W||2  ≤  || WT-1 ||2 + R2  ≤  || WT-2 ||2 + 2R2  ≤  ...  ≤  || W||2 + TR2  = TR2            (4)

由 (4), 则:

  $\left \| W_{f} \right \|\left \| W_{T} \right \|\leq \left \| W_{f} \right \|\sqrt{T}R$                                                                                   (5)

由 (3) (5):

  $\frac{W_{f}^{T}W_{T}}{\left \| W_{f} \right \|\left \| W_{T} \right \|}\geq \frac{T\rho }{\left \| w_{f} \right \|\sqrt{T}R}=\frac{\sqrt{T}\rho }{\left \| W_{f} \right \|R}$                                                                              (6)

可以看到,$\frac{W_{f}^{T}W_{T}}{\left \| W_{f} \right \|\left \| W_{T} \right \|}$ 随着迭代次数 T 的增加而增加, 说明 W 在向着最优值 Wf 逐渐靠近。

由 (6) :

  $\frac{\sqrt{T}\rho}{\left \| W_{f} \right \|R}\leq 1$     向量点积,当 WT = Wf 时 cosθ = cos0 = 1

  => $T\leq \frac{\left \| W_{f} \right \|^{2}R^{2}}{\rho ^{2}}$

令 $\gamma =\frac{\rho }{\left \| W_{f} \right \|}$:

  => $T\leq \frac{R^{2}}{\gamma ^{2}} $                                                                                                                   (7)

式 (7) 表明,迭代次数(误分类的次数) 有上界,经过有限次迭代可以找到将训练数据完全正确分开的分类超平面。

这就说明,当训练数据集线性可分时,PLA 迭代是收敛的。

PS:PLA 可以有许多解,当选择不同的初值或者选择的误分类点的顺序不同时,解可以不同。

4.线性不可分时的PLA(Pocket 算法)

5.PLA的对偶形式

2018-09-03

原文地址:https://www.cnblogs.com/dyj-ng/p/9577807.html

时间: 2024-08-23 01:22:04

感知机学习算法(PLA)的相关文章

感知机学习算法 python实现

参考李航<统计学习方法> 一开始的感知机章节,看着不太复杂就实现一下... 1 """ 2 感知机学习算法的原始形式 3 例2.1 4 """ 5 import numpy as np 6 7 class Perceptron: 8 def __init__(self,w,b,alpha): 9 self.w = w 10 self.b = b 11 self.alpha = alpha 12 13 def loss(self,x,y

机器学习(二):感知机学习算法

感知机是一种线性分类模型,属于判别模型 f(x)  = sign(wx+b) ;  f(x)∈{+1,-1}; 其中M为错分类点的集合M. 感知机学习算法是误分类驱动的,采用随机梯度下降法进行参数更新. w<-----w + γyixi b<-----b + γyi γ为学习率,反复迭代直到所有样本均分类正确. 总结: 输入:训练数据集T={(x1,y1),(x2,y2).....(xn,yn)},学习率γ∈[0,1] 输出:w,b 感知模型f(x) = sign(wx+b) (1)选取初值

感知机学习算法Java实现

感知机学习算法Java实现. Perceptron类用于实现感知机, 其中的perceptronOriginal()方法用于实现感知机学习算法的原始形式: perceptronAnother()方法用于实现感知机学习算法的对偶形式(此处仍有bug). import java.util.Scanner; public class Perceptron { private static final int maxn = 1010; private static final int maxm = 10

《统计学习方法》之二:感知机学习算法

只有亲自用代码实现才算真正理解算法,有时候也要在不断的修改调试中理解,更何况只看不敲代码呢? 代码: % date : 2019/01/02 % author: Dufy % 关于感知机算法 % 输入: x1, x2数据点 % y 为分类,1为正,-1为负 close all; clc clear format compact i=0; a = -1; x1=[3 4 1]; x2= [3 3 1]; y = [1 1 -1]; n = length(x1); alpha = 1; w= [0

感知机学习算法

感知机原始形式 1 # coding:utf-8 2 import matplotlib.pyplot as plt 3 import numpy as np 4 5 def dataN(length):#生成数据 6 x=[[1,x/100.0,x/100.0+ (x%2)*1.5 + np.random.uniform(0,1.2)] for x in range(length)] 7 y=[(-1)**(y%2-1) for y in range(length)] 8 x=np.mat(x

吴裕雄 python 机器学习——人工神经网络感知机学习算法的应用

import numpy as np from matplotlib import pyplot as plt from sklearn import neighbors, datasets from matplotlib.colors import ListedColormap from sklearn.neural_network import MLPClassifier ## 加载数据集 np.random.seed(0) # 使用 scikit-learn 自带的 iris 数据集 ir

统计学习方法(第2章)感知机 学习笔记

第2章 感知机 感知机是二类分类的线性分类模型,其输入为实例的特征向量,感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型.导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型.感知机学习算法分为原始形式和对偶形式,是神经网络和支持向量机的基础. 1.感知机模型 感知机定义: 假设输入空间(特征空间)是X,输出空间是Y,Y的取值为+1和-1,输入x表示实例的特征向量,对应于输入空间(特征空间)的:输入y表示实例的类别.由输入空间到输出空间的如

生成学习算法(Generative Learning algorithms)

一:引言 在前面我们谈论到的算法都是在给定x的情况下直接对p(y|x;Θ)进行建模.例如,逻辑回归利用hθ(x) = g(θTx)对p(y|x;Θ)建模. 现在考虑这样一个分类问题,我们想根据一些特征来区别动物是大象(y=1)还是狗(y=0).给定了这样一个训练集,逻辑回归或感知机算法要做的就是去找到一个决策边界,将大象和狗的样本分开来.但是如果换个思路,首先根据大象的特征来学习出一个大象的模型,然后根据狗的特征学习出狗的模型,最后对于一个新的样本,提取它的特征先放到大象的模型中求得是大象的概率

参数/非参数学习算法

一.参数学习算法(parametric learning algorithm) 定义:假设可以最大程度地简化学习过程,与此同时也限制可以学习到是什么,这种算法简化成一个已知的函数形式,即通过固定数目的参数来拟合数据的算法.    参数学习算法包括两个步骤: 选择一种目标函数的形式 从训练数据中学习目标函数的系数   参数学习算法的一些常见例子包括: Logistic Regression LDA(线性判别分析) 感知机 朴素贝叶斯 简单的神经网络 ?   参数机器学习算法的优点: 简单:这些算法