PCANet: A Simple Deep Learning Baseline for Image Classification?--名词解释

1 上采样与下采样

缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:

  1. 使得图像符合显示区域的大小
  2. 生成对应图像的缩略图

下采样原理:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像,当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。

放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。
上采样原理:图像放大几乎都是采用内插值方法,即在原图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

2 LDA介绍
LDA(Latent Dirichlet Allocation)是一种文档生成模型。它认为一篇文章是有多个主题的,而每个主题又对应着不同的词。一篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文章的第一个词。不断重复这个过程,就生成了整片文章。当然这里假定词与词之间是没顺序的。LDA的使用是上述文档生成的逆过程,它将根据一篇得到的文章,去寻找出这篇文章的主题,以及这些主题对应的词。
3  Gabor features

在机器视觉中,gabor feature是一种比较常见的特征,因为其可以很好地模拟人类的视觉冲击响应而被广泛应用于图像处理, gabor feature 一般是通过对图像与gabor filter做卷积而得到,gabor filter定义为高斯函数与正弦函数的乘积,其表达式如下:

上面的式子可以通过三角函数展开:

实数部分:

虚数部分:

其中原始数据x,y与x‘,y‘满足如下关系:

表示波长,表示旋转角度,表示相位偏移量,是高斯函数里的标准差,表示空间比率。当为 1 的时候,表示在x-y 平面的投影是一个圆,如果不为1,则投影是一个椭圆。越大,椭圆在 x 方向的轴越长,反之,越小,椭圆在 y 方向的轴越长。

 4 LBP特征原理

4.1 LBP特征背景的介绍

LBP指局部二值模式,英文全称:Local Binary Pattern,是一种用来描述图像局部特征的算子,LBP特征具有灰度不变性和旋转不变性等显著优点。它是由T. Ojala, M.Pietik?inen, 和 D. Harwood [1][2]在1994年提出,由于LBP特征计算简单、效果较好,因此LBP特征在计算机视觉的许多领域都得到了广泛的应用,LBP特征比较出名的应用是用在人脸识别和目标检测中,在计算机视觉开源库OpenCV中有使用LBP特征进行人脸识别的接口,也有用LBP特征训练目标检测分类器的方法,Opencv实现了LBP特征的计算,但没有提供一个单独的计算LBP特征的接口。

4.2 LBP特征的原理

原始的LBP算子定义在像素3*3的邻域内,以邻域中心像素为阈值,相邻的8个像素的灰度值与邻域中心的像素值进行比较,若周围像素大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经过比较可产生8位二进制数,将这8位二进制数依次排列形成一个二进制数字,这个二进制数字就是中心像素的LBP值,LBP值共有28种可能,因此LBP值有256种。中心像素的LBP值反映了该像素周围区域的纹理信息。

备注:计算LBP特征的图像必须是灰度图,如果是彩色图,需要先转换成灰度图。

上述过程用图像表示为:

以后针对LBP有很多改进的版本,这里就不一一赘述。

5 SIFT特征

SIFT(Scale-Invariant Feature Transform)特征,即尺度不变特征变换,是一种计算机视觉的特征提取算法,常用来进行物体辨识和图像匹配。所谓的尺度不变特征是指每个检测到的特征点都伴随着对应的尺寸因子(特征点的局部尺寸参数与特征的尺度成正比)。它在尺度空间中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David Lowe在1999年所发表,2004年完善总结。
SIFT 特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。
SIFT算法的特点有:

  • SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性;
  • 独特性(Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配;
  • 多量性,即使少数的几个物体也可以产生大量的SIFT特征向量;
  • 高速性,经优化的SIFT匹配算法甚至可以达到实时的要求;
  • 可扩展性,可以很方便的与其他形式的特征向量进行联合。

SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。

6 HOG特征

方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。
HOG特征的核心思想是在一幅图像中,局部目标的表象和形状(appearance and shape)能够被梯度和边缘的方向密度(梯度的统计信息,而梯度主要存在于边缘地方)很好地描述。通过将整幅图像分为多个小的连通区域(cells),并计算每个cell的梯度或边缘方向直方图,这些直方图的组合可用于构成特征描述子,为了提高准确率,可以将局部直方图在图像更大范围内(称为block)进行对比度归一化(constrast-normalized)。所采用的方法是:先计算各直方图在对应的block中的密度,然后根据这个密度对block中的所有cell做归一化(normalize)。归一化操作对光照变化和阴影具有更好的鲁棒性。

算法特点:

  • HOG特征是在图像的局部操作,对图像几何和光学的变化有较好的稳健性,这两种变化只会出现在更大的空域上。
  • 在粗粒度的空域抽样、细粒度的方向抽样,以及较强的局部光学归一化条件下,只要行人大体保持直立的姿势,可以容许行人有一些细微的肢体动作,而不影响检测效果。

注:(1) 空域,即所说的像素域,在空域的处理就是在像素级的处理,如在像素级的图像叠加。

(2) 在机器视觉研究中,图像分类任务主要包括粗粒度图像分类和细粒度图像分类两种。其中,粗粒度图像分类的对象属性差异较大,例如汽车、人、树等;而细粒度图像分类的对象通常属于同一个大类,例如细粒度图像库CUB200[1]中的200种鸟类和Flower102[2]中的102种花类等。由于细粒度类别属于同一个大类,所以各类别之间的差距很小,这些细微的差距容易被光照、颜色、背景、形状和位置等变化因素覆盖,导致细粒度图像分类相对困难。

原文地址:https://www.cnblogs.com/Terrypython/p/10113406.html

时间: 2024-11-09 00:33:38

PCANet: A Simple Deep Learning Baseline for Image Classification?--名词解释的相关文章

《PCANet: A Simple Deep Learning Baseline for Image Classification》中文翻译总结

PCANet可谓是国内技术大牛新提出的一种新的深度学习框架,为了方便大家研究,在此将其摘要.引言.基本原理介绍等三部分的内容进行了翻译,不过并非原文直译,会加上一点我自己的理解,次要部分也会一笔带过.如果大家不介意,可以去阅读原版的英文文档. 摘要 在这篇文章中,我们提出了一个很简洁的关于图像分类的深度学习框架,这个框架主要依赖几个基本的数据处理方法:1)主成分分析PCA.2)二值化哈希编码.3)分块直方图.在这个框架中,首先通过PCA方法来学习多层滤波器核,然后使用二值化哈希编码以及块直方图特

Review of Semantic Segmentation with Deep Learning

In this post, I review the literature on semantic segmentation. Most research on semantic segmentation use natural/real world image datasets. Although the results are not directly applicable to medical images, I review these papers because research o

【CS-4476-project 6】Deep Learning

AlexNet / VGG-F network visualized by mNeuron. Project 6: Deep LearningIntroduction to Computer Vision Brief Due date: Tuesday, December 6th, 11:55pm Project materials including starter code, training and testing data, and html writeup template: proj

Applied Deep Learning Resources

Applied Deep Learning Resources A collection of research articles, blog posts, slides and code snippets about deep learning in applied settings. Including trained models and simple methods that can be used out of the box. Mainly focusing on Convoluti

Open Data for Deep Learning

Open Data for Deep Learning Here you'll find an organized list of interesting, high-quality datasets for machine learning research. We welcome your contributions for curating this list! You can find other lists of such datasets on Wikipedia, for exam

26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL

26 THINGS I LEARNED IN THE DEEP LEARNING SUMMER SCHOOL In the beginning of August I got the chance to attend the Deep Learning Summer School in Montreal. It consisted of 10 days of talks from some of the most well-known neural network researchers. Du

如何选择分类器?LR、SVM、Ensemble、Deep learning

转自:https://www.quora.com/What-are-the-advantages-of-different-classification-algorithms There are a number of dimensions you can look at to give you a sense of what will be a reasonable algorithm to start with, namely: Number of training examples Dim

IJCAI_论文-深度学习-Deep Learning for Event-Driven Stock Prediction

Deep Learning for Event-Driven Stock Prediction Reading time:2019/3/30-2019/4/12  Theme:Deep learning; CNN; NLP Abstract: We propose a deep learning method for eventdriven stock market prediction. First, events are extracted from news text, and repre

Deep Learning Enables You to Hide Screen when Your Boss is Approaching

https://github.com/Hironsan/BossSensor/ 背景介绍 学生时代,老师站在窗外的阴影挥之不去.大家在玩手机,看漫画,看小说的时候,总是会找同桌帮忙看着班主任有没有来. 一转眼,曾经的翩翩少年毕业了,新的烦恼来了,在你刷知乎,看视频,玩手机的时候,老板来了! 不用担心,不用着急,基于最新的人脸识别+手机推送做出的BossComing.老板站起来的时候,BossComing会通过人脸识别发现老板已经站起来,然后通过手机推送发送通知“BossComing”,并且震动告