模式识别原理(Pattern Recognition)、概念、系统、特征选择和特征

§1.1 模式识别的基本概念

一、广义定义

1、模式:一个客观事物的描述,一个可用来仿效的完善的例子。

2、模式识别:按哲学的定义是一个“外部信息到达感觉器官,并被转换成有意义的感觉经验”的过程。

例:识别热水、字迹等

二、狭义的定义

1、模式:对某些感兴趣的客体的定量的或结构的描述。模式类是具有某些共同特性的模式的集合。

2、模式识别:研究一种自动技术,依靠这种技术,计算机将自动地(或人尽量少地干涉)把待别识模式分配到各自的模式类中去。注意: 狭义的“模式”概念——是对客体的描述,不论是待识别客体,还是已知的客体。 广义的“模式”概念——是指“用于效仿的完善例子

三、相关的计算机技术

1、目前的计算机建立在诺依曼体系基础之上。

1946年:美籍匈牙利数学家冯·诺依曼提出了关 于计算机组成和工作方式的基本设想:数字计算机 的数制采用二进制;计算机按照程序顺序执行,即 “程序存储”的概念。

1949年:研制出第一台冯·诺依曼式计算机 。

1956年:第一次人工智能(artificial intelligence) 研讨会在美国召开。

2、第五代人工智能型计算机

本质区别:主要功能将从信息处理上升为知识处理(学习、联想、推理、解释问题),使计算机具有人类的某些智能。研制工作从80年代开始,目前尚未形成一致结论 。

几种可能的发展方向: 神经网络计算机--模拟人的大脑思维。 生物计算机--运用生物工程技术、蛋白分子作芯片。 光计算机--用光作为信息载体,通过对光的处理来完成对信息的处理。

四、研究和发展模式识别的目的

提高计算机的感知能力,从而大大开拓计算机的应用。

§1.2 模式识别系统一、

简例:建立感性认识

以癌细胞识别为例,了解机器识别的全过程。

1、信息输入与数据获取

将显微细胞图像转换成数字化细胞图像,像素的 值反映光密度的 大小,又称灰度 数字图像。数字 化细胞图像是计 算机分析的原始 数据基础。

2、数字化细胞图像的预处理与区域划分

预处理的目的:

(1)去除在数据获取时引入的噪声与干扰。

(2)去除所有夹杂在背景上的次要图像,突出主要的待识别的细胞图像。

例:平滑、图像增强等数字图像处理技术。

区域划分的目的:找出边界,划分出三个区域,为特征抽取做准备。

3、细胞特征的抽取、选择和提取

目的:为了建立各种特征的数学模型,以用于分类。① 抽取特征 :原始采集数据,第一手资料,特征数据 量大。是特征选择和提取的依据。

例:对一个细胞抽取33个特征 ,建立一个33维的空间X,每个细胞可通过一个33维随机向量表示,即把一个物理实体“细胞”变成了一个数学模型“33 维随机向量”,也即33维空间中的一点。

② 特征选择:在原始特征基础上选择一些主要特征作为判别用的特征。 ③ 特征提取:采用某种变换技术,得出数目上比原来少的综合性特征作为分类用,称为特征维数压缩,习惯上亦称特征提取。

§1.3 模式识别概况

一、模试识别发展简介

二十世纪五十年代开始、六十年代兴起并迅速发 展,七十年代初奠定理论基础 。

二、模式识别分类

1、从理论上分类 ① 统计模式识别 以模式集在特征空间中分布的类概率密度函数为基础,对总体特征进行研究。包括判决函数法和聚类分析法。

② 结构模式识别(句法模式识别)

把复杂模式分化为较简单的子模式乃至基元,各 层次之间的关系 通过“结构法”来描述,相当于语言 中的语法。用小而简单的基元与语法规则来描述大而 复杂的模式。

③ 模糊模式识别

以隶属度为基础,运用模糊数学中的“关系”概念和运算进行分类。隶属度反映的是某一元素属于某集合的程度。

④ 智能模式识别

人工智能与模式识别相结合的产物,有二个分支: a) 与人工神经网络相结合:接近于生理性模拟,从而 达到对形象思维的模拟。 b) 基于知识的逻辑性推理:源于对人类逻辑思维的模 拟,是抽象思维的范畴。

2、从实现方法来分: ① 有监督(有导师)识别:利用判别函数进行分类判 别。需要有足够的先验知识。 ② 无监督(无导师)识别:用于没有先验知识的情况 下,采用聚类分析的方法。

§1.4 特征选择和特征提取

一、概述:两种数据测量情况

① 由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。 ② 能获得的性质测量值很多。如果全部直接作为分类特征,耗费机时,且分类效果不一定好。有人称之为“特征维数灾难”。

特征选择和提取的目的:经过选择或变换,组成识别特征,尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作即快又准确。

§1.5 模式识别的应用

一、高速公路上的汽车收费系统:按车型收费方式

1、提取车辆外形几何参数进行处理分析,实现分类。如视频检测方法、红外检测方法。

2、测量车辆的其他物理参数(噪声、振动、压重等)来实现分类。如动态称重、电磁感应等。

3、直接识别车辆身份的方法实现分类。如电子标签、视频牌照识别等。

二、生物识别

根据每个人独有的可以采样和测量的生物学特征(生理特征)和行为学特征进行身份识别的技术。

1 指纹识别:最早、最成熟的识别技术。

2 掌纹识别:研究纹线上某几个点的幅值(灰度值)、线长与线所对应的角之比等特征。

3 脸谱识别:

4 视网膜识别:

5 根据动力学特征进行识别:

原文地址:https://www.cnblogs.com/blogpro/p/11426762.html

时间: 2024-10-21 05:29:01

模式识别原理(Pattern Recognition)、概念、系统、特征选择和特征的相关文章

模式识别(Pattern Recognition)学习笔记(二十八)-- 决策树

1.数值特征与非数值特征 学习分类这么久,不知道大家有没有注意一个问题,那就是我们的输入样本数据都是基于数值计算的,因此在近邻法中才可以计算距离这一说,这种可以用数值来描述的对象特征,我们称之为数值特征,但是在我们生活中所涉及的分类问题并非都是用数值特征来描述某个研究对象的,因此与数值特征对应的就是非数值特征,比如男生和女生比较喜欢什么样的颜色等等. 关于非数值特征,主要有以下几种: 1)名词特征:像性别.职业等,这类特征不能比较大小,也不能比较相似性,只能比较相同或不相同: 2)序数特征:像序

模式识别(Pattern Recognition)学习笔记(三十)--随机森林(Random Forest)

引言 模式识别是一门基于数据的学科,因此所有的模式识别问题都会面临的同一个问题就是数据的随机性问题.模式识别中每个方法的实现都是基于一个特定的数据样本集的,但是这个样本集只是所有可能的样本中的一次随机抽样,毕竟在我们的生活实际中存在着万物众生,多到我们数也数不清,甚至计算机都无法统计的清,而我们搜集到的充其量只是其中很小很小的一部分,这也是为什么机器学习中缺少的只是数据,只要有足够多的学习数据,就一定能取得惊人的结果,因此模式识别和机器学习中的很多方法的实现结果都无疑会受到这种随机性的影响,我们

模式识别(Pattern Recognition)学习笔记(三十一)-- 线性回归

1.监督学习 回归算法通常用在监督学习中的学习算法,所以在讲回归之前,先来说说监督学习. 我们已经学习了很多的分类器设计方方法,如感知器.SVM等,他们的共同特点都是,根据给定的带有类别标签的样本,训练学习机器,然后使得机器能够对新来的无标签样本进行正确分类,像这种就属于监督模式识别,对学习机器来说就是监督学习. 举个栗子,就拿吴恩达老师讲课最喜欢用的预测房价的例子,图形表示监督学习的过程如下: 在房价栗子中,由于我们要回归或预测的变量(房价)是连续的,所以我们把这种学习问题称为回归问题,反之如

模式识别(Pattern Recognition)学习笔记(三十五)-- K-L变换与PCA

K-L变换的理论知识 K-L变换是除了PCA外的另一种常用的特征提取方法,它有很多种形式,最基本的形式跟PCA类似,它跟PCA的不同在于,PCA是一种无监督的特征变换,而K-L变换能够考虑到不同的分类信息,实现有监督的特征提取. 根据随机过程中的KL展开理论,将随机过程描述为无数个正交函数的线性组合,而在模式识别问题中,通常可以将一个样本看成是随机向量的某一次实现结果,所以假设有一d维随机向量x,可以写成一组正交基的线性组合,且它们的模为1: 对上式变形得到:                  

模式识别(Pattern Recognition)学习笔记(二十四)--总结:SVM学习资源

本篇文章对不同阶段的SVM进行一个梳理和总结,不管是初级版的SVM,还是升级版的SVM,你都会发现其实在SVM中一直是有两个核心在贯穿其中的,相信看完本篇的学习,你就会对SVM这个重要级的分类器有个全面的了解,或者有自己的体会,好吧,开始吧,Good luck.. 1.核心思想 对于任何非线性方法,如果对特征进行适当的变换,那么久总可以得到相应的线性方法,但是这种变换有时会带来两个方面的问题: 1)变换后特征空间维数必定变大,而且大多数情况下是随着样本原特征维数的增加以及非线性程度的增加而呈指数

模式识别(Pattern Recognition)学习笔记(二十九)--决策树的剪枝

在有限的样本下,如果决策树生长得很大,树枝很多,那么就有可能导致有限样本中对采样的偶然性或噪声比较敏感,导致过学习,从而范化能力差. 首先来看一幅图,如图: 上图是一次测试中用ID3算法得到的有关决策树的大小与在训练数据和测试数据上的正确率的关系,不难看出,出现了过学习,如果样本不足够多,随着决策树达到一定规模大小,训练数据上的正确率会不断增加,而在测试数据上的正确率不增反降,因此像这种只要生长到叶节点只包含单一类样本的方法来构建决策树的算法是存在瑕疵的,我们的目标是要兼顾训练数据上的正确率和测

模式识别(Pattern Recognition)学习笔记(七)——线性分类器及线性判别函数

1.为什么要设计分类器? 回顾下前面学习的统计决策,也就是贝叶斯决策,它可以简单被划分为两步,首先根据样本进行PDF估计,然后根据估计出的PDF来求分类面,因此又经常被叫做两步贝叶斯决策.如果我们能够很好地估计出PDF模型,也总可以利用贝叶斯来实现两类甚至多类的最优分类,但是很多实际情形中,想要精准的估计出PDF模型,并非易事,尤其当样本存在高维特征空间,以及样本数量并不足够多的情况,本质上来说,模式识别的真正目的并非估计PDF模型,而是在特征空间中想方设法找到各类的分界线或分界面.因此,如果可

模式识别(Pattern Recognition)学习笔记(六)——概率密度函数的非参估计

上篇学习了PDF的参数估计方法,主要有最大似然估计和贝叶斯估计,他们主要对有确定形式的PDF进行参数估计,而在实际情况下,并不能知道PDF的确切形式,只能通过利用所有样本对整个PDF进行估计,而且这种估计只能是利用数值方法求解.通俗的说,如果参数估计是从指定的某一类函数中选择一个作为目标估计,那么非参数估计就是从所有可能的函数中找到一个合适的选择. 非参数估计主要有三种方法:直方图法.kn近邻法.核函数法,其中核函数法又叫Parzen窗法或核密度法. 1.直方图法 这是一种最简单也最直观的一种非

模式识别(Pattern Recognition)学习笔记(二十七)-- 基于树搜索算法的快速近邻法

近邻法中计算距离需要遍历,带来很大的计算量和存储量,为了改善这两方面的性能,有人提出采用分枝界定算法(Branch-Bound  Algorithm)来改进近邻法,主要分为两个阶段:1)利用人工划分或K-means聚类算法或其他动态聚类算法将样本集X划分成层级形式,形成一个树结构:2)利用树搜索算法找出与未知样本的最近邻. 1.层级划分 1)将样本集X划分成l个子集,每个子集再分成l个子集,不断这样划分下去,形成一个树状结构,如图: 这样划分完后,每个节点上都会有一部分样本; 2)将节点记作p,

模式识别(Pattern Recognition)书单

Recommended Books Here is a list of books which I have read and feel it is worth recommending to friends who are interested in computer science. Machine Learning Pattern Recognition and Machine Learning Christopher M. Bishop A new treatment of classi