哈尔滨工业大学计算机学院-模式识别-课程总结（三）-线性判别函数

1. 线性判别函数

本章介绍的线性判别函数都归属于判别式模型，即对于分类问题，根据判别函数\(g(x)\)的取值进行判断，比如正数归为第一类，负数与零归为第二类。关于判别式模版与生成式模型的区别可以阅读我以前的[博客])(https://www.cnblogs.com/szxspark/p/8426850.html)，最典型的生成式模型是贝叶斯分类器，这个在之前的博客中也有介绍。
在介绍具体算法之前，先了解一下线性判别函数的基本概念。

1.2 线性判别函数基本概念
对于线性可分情况，线性判别函数\(g(x)\)与判别界面\(H\)如下图所示：
-
对于线性不可分情况：
线性判别函数的形式化形式为：
\[g ( \mathbf { x } ) = \mathbf { w } ^ { t } \mathbf { x } + w _ { 0 }\]
- \(\mathbf { x } = \left( x _ { 1 } , x _ { 2 } , \ldots , x _ { d } \right) ^ { t }\)，是特征矢量，\(d\)是特征维度的大小。
- \(\mathbf { w } = \left( w _ { 1 } , W _ { 2 } , \dots , W _ { d } \right) ^ { t }\)，是权矢量。
- \(W _ { 0 }\) 是偏置。
线性判别函数的增广形式（便于书写，便于设计目标函数）：
\[g ( \mathbf { y } ) = \mathbf { a } ^ { t } \mathbf { y }\]
- \(\mathbf { y } = \left( 1 , x _ { 1 } , x _ { 2 } , \ldots , x _ { d } \right) ^ { t }\)，是增广的特征矢量，在原始向量前插\(1\)即可。
- \(\mathbf { a } = \left( w _ { 0 } , w _ { 1 } , W _ { 2 } \dots , W _ { d } \right) ^ { t }\)，是增广的权矢量。
  
  在学习该增广形式的时候，我曾思考过，既然可以将将线性函数转化为两个向量的点乘，那在深度学习中(以pytorch为例)，设计线性层(nn.Linear)时为什么还要令参数bias=True，直接不需要偏置，在输入向量中拼接一个维度(值为1)岂不是更加方便。答案当然是否定，我仔细思考后发现，如果这么做的话，对于每一个输入对会有一个独立的bias，因为新拼接的“1”值会随着反向传播进行迭代更新（每个输入的更新结果不同），此时bias便失去了意义，不再是与线性函数函数绑定，而是变成了输入的一个特征。
两类问题的线性判别准则：
\[g ( \mathbf { x } ) = \mathbf { w } ^ { t } \mathbf { x } + w _ { 0 } \left\{ \begin{array} { l l } { > 0 , } & { \mathbf { x } \in \omega _ { 1 } } \\ { < 0 , } & { \mathbf { x } \in \omega _ { 2 } } \\ { = 0 } & {拒识 } \end{array} \right.\]
线性分类器的分类界面三维空间可视化：
该界面有几个特点：

1.线性分类界面\(H\)是\(d\)维空间中的一个超平面；

2.分类界面将\(d\)维空间分成两部分，\(R_1\)，\(R_2\)分别属于两个类别；

3.判别函数的权矢量\(w\)是一个垂直于分类界面\(H\)的矢量，其方向指向区域\(R_1\) ；

4.偏置\(w_0\)与原点到分类界面\(H\)的距离\(r_0\)有关：

\[r _ { 0 } = \frac { w _ { 0 } } { \| \mathbf { w } \| }\]

1.3 线性判别函数的学习

以下内容全部采用增广形式的写法进行介绍。
线性判别函数的学习目的，其实就是想通过\(n\)个训练样本\(\mathbf { y } _ { 1 } , \mathbf { y } _ { 2 } , \dots , \mathbf { y } _ { n }\)，来确定一个判别函数\(g ( \mathbf { y } ) = \mathbf { a } ^ { t } \mathbf { y }\)的权矢量\(a\)。其中n个样本集合来源于两个不同类别。
- 在线性可分的情况下，希望得到的判别函数能够将所有的训练样本正确分类。
- 线性不可分的情况下，判别函数产生错误的概率最小。
判别函数的非规范化形式：
\[\left\{ \begin{array} { l l } { \mathbf { a } ^ { t } \mathbf { y } _ { i } > 0 , } & { \mathbf { y } _ { i } \in \omega _ { 1 } } \\ { \mathbf { a } ^ { t } \mathbf { y } _ { i } < 0 , } & { \mathbf { y } _ { i } \in \omega _ { 2 } } \end{array} \right.\]
判别函数的规范化i形式：
\[\left\{ \begin{array} { c l } { \mathbf { a } ^ { t } \mathbf { y } _ { i } > 0 , } & { \mathbf { y } _ { i } \in \omega _ { 1 } } \\ { - \mathbf { a } ^ { t } \mathbf { y } _ { i } > 0 , } & { \mathbf { y } _ { i } \in \omega _ { 2 } } \end{array} \right.\]
- 在之后的感知器算法于LMSE算法中，均依据规范化的形式进行介绍，规范化后会使得目标函数形式比较简单。
- 规范化是在输入数据上进行，将属于第二个类别的数据乘上\(-1\)即可。
- 需要注意，因为本节内容是在函数的增广形式下进行介绍，因此在规范化之前需要对于每个类别的数据都拼接一个特征“1”。

2. 二分类问题

2.1 感知器算法Perception

2.2 最小平方误差算法LMSE

3. 多类问题

3.1 处理方式

3.2 扩展的感知器算法

其他算法

原文地址：https://www.cnblogs.com/szxspark/p/9928370.html

时间： 2024-08-29 16:36:38

哈尔滨工业大学计算机学院-模式识别-课程总结（三）-线性判别函数的相关文章

哈尔滨工业大学计算机学院-模式识别-课程总结-贝叶斯决策理论（一）

一.贝叶斯决策理论贝叶斯决策理论是解决分类问题的一种基本统计途径,其出发点是利用概率的不同分类决策,与相应决策所付出的代价进行折中,它假设决策问题可以用概率的形式描述,并且假设所有有关的概率结构均已知. 二.各种概率及其关系先验概率: \[P(\omega_i)\] 后验概率: \[P(\omega_i | x)\] 类条件概率: \[P(x |\omega_i )\] 贝叶斯公式: \[P \left( \omega _ { i } | \mathbf { x } \right) = \f

哈尔滨工业大学计算机学院-模式识别-课程总结（二）-概率密度函数的参数估计

1. 概率密度函数的参数估计前文讲到了利用贝叶斯决策理论构建贝叶斯分类器,初学者难免会有疑问,既然已经可以通过构建贝叶斯分类器的方法处理分类问题,那为什么还要学习本章节内容? 事实上,贝叶斯分类器的缺可以通过计算先验概率与类条件概率来设计最优分类器.但是对于大多数实际问题,我们往往无法知道这两个概率的具体信息,其中先验概率往往比较容易计算,类条件概率很难获取.如何计算类条件概率,便是本章要进行讲述的内容, 这里举一个例子,解释为什么先验概率比较容易获取.如果100万个人中有60万男40万女,可

判断三角形类型-2009年哈尔滨工业大学计算机研究生机试真题

题目描述: 给定三角形的三条边,a,b,c.判断该三角形类型. 输入: 测试数据有多组,每组输入三角形的三条边. 输出: 对于每组输入,输出直角三角形.锐角三角形.或是钝角三角形. 样例输入: 3 4 5 样例输出: 直角三角形解题代码: #include <stdio.h> int main(){ int arr[3]; int temp; while (scanf("%d%d%d",&arr[0],&arr[1],&arr[2] ) != EO

南理工计算机学院研究生课程的评价和反思（研一上）

机器学习(英文):很坑,课程安排不合理.应该把5/6的时间用于讲各种模型,1/6的时间用于展示,否则根本学不到啥东西.容量方面差太多了,svm,决策树,gmm 根本就没讲到. 数据挖掘:大作业不能用python很恶心.缺少工程方面的讲解.其他还好. 人工智能:过度拘泥于课本,讲了一些曾经有用但现在被推翻的东西.讲了强化学习的模型的很多侧面,但不成体系,看完之后并不能亲手做一个强化学习项目. 神经计算:讲了微分流形,这玩意儿不属于神经网络,难以理解,效果还没rbm好.其它还好. 形式语言:缺少工程

字符串去特定字符-2009年哈尔滨工业大学计算机研究生机试真题

题目描述: 输入字符串s和字符c,要求去掉s中所有的c字符,并输出结果. 输入: 测试数据有多组,每组输入字符串s和字符c. 输出: 对于每组输入,输出去除c字符后的结果. 样例输入: heallo a 样例输出: hello 解题代码: 解法1:使用两个数组, 第二个数组存储去掉特定字符的字符串 #include <stdio.h> int main(){ char arr[200]; char arrNew[200]; char focus; while (scanf("%

找x-2010年哈尔滨工业大学计算机研究生机试真题

题目描述: 输入一个数n,然后输入n个数值各不相同,再输入一个值x,输出这个值在这个数组中的下标(从0开始,若不在数组中则输出-1). 输入: 测试数据有多组,输入n(1<=n<=200),接着输入n个数,然后输入x. 输出: 对于每组输入,请输出结果. 样例输入: 2 1 3 0 样例输出: -1 解题代码: #include <stdio.h> int main(){ int n; int array[200]; while (scanf("%d"

2010年哈尔滨工业大学计算机研究生机试真题

题目连接:点击打开链接解题思路: 简单暴力完整代码: #include <iostream> #include <cstdio> #include <algorithm> #include <cstring> #include <set> using namespace std; int n; int a[300]; bool check(int key) { set<int> s; s.clear(); for(int i =

2011年哈尔滨工业大学计算机研究生机试真题

题目连接:点击打开链接解题思路: 暴力完整代码: #include <iostream> #include <cstdio> #include <algorithm> #include <cstring> #include <set> using namespace std; const int INF = 1000000000; string s; int main() { #ifdef DoubleQ freopen("in.t

2012年哈尔滨工业大学计算机研究生机试真题

题目连接:点击打开链接解题思路: 模拟完整代码: #include <iostream> #include <cstdio> #include <algorithm> #include <cstring> #include <set> using namespace std; const int INF = 1000000000; const int maxn = 10001; char a[maxn] , b[maxn]; void MyS