特征,特征不变性,尺度空间与图像金字塔

博客:blog.shinelee.me | 博客园 | CSDN

特征

在计算机视觉领域,特征是为了完成某一特定任务需要的相关信息。比如,人脸检测中,我们需要在图像中提取特征来判断哪些区域是人脸、哪些区域不是人脸,人脸验证中,我们需要在两个人脸区域分别提取特征,来判断他们是不是同一个人,如下图所示,深度神经网络最终得到一个128维的特征用于识别等任务,图片来自Openface

常用的特征包括:图像灰度or灰度、直方图、梯度、边缘、纹理、矩、SIFT、深度学习特征等等。以关键点特征为例,关键点指的是可以稳定出现的特殊点,如角点、局部极值点等,如上图中人脸中眼鼻口处的关键点,先检测图像中的关键点,然后在以该点为中心的邻域范围内提取信息,作为该点的特征描述。关键点特征的好处在于,关键点可以稳定复现同时其特征描述聚焦在关键点邻域内,对遮挡、形变等有很好鲁棒性。以SIFT描述子为例,其将关键点周围的梯度统计直方图作为该点的特征,如下图所示,图片来自链接

不同的特征适用范围也不同,有些特征对光照敏感,有些特征对形变敏感,需要根据任务场景选择适合的特征——适合的才是最好的,不是什么时候都要上牛刀。如果任务场景简单,比如明确知道光照条件不变、人脸基本正面且表情妆容没有变化,可能直接使用灰度或梯度进行模板匹配就可以识别了,但如果场景复杂,光照可能变化、表情可能变化、人脸角度也不确定,那么为了完成任务,选取的特征就需要有较好的适应性,这就要谈到特征不变性

特征不变性

以上图为例,左右两图中玩具车的姿态不同、大小不同、图像亮度不同,对应局部(图中黄色小块)在各自图中的绝对位置不同、大小不同、方向不同、灰度不同,为了实现配准,就需要在局部提取的特征具有某些不变性,才能够匹配上。

  • 几何不变性(geometric invariance):平移,旋转,尺度……
  • 光度不变性(photometric invariance):亮度,曝光……

图像预处理通过对输入图像进行归一化(最大最小值归一化、均值方差归一化、直方图均衡化等),能在一定程度上做到对亮度或光照鲁棒。此外,在设计特征提取算法时,通过考虑相对信息和统计信息(比如梯度、直方图等),降低对灰度(颜色)绝对值的敏感度,可以进一步做到对亮度或光照鲁棒

通过使用局部窗口内的像素信息和相对位置信息局部特征一般都能做到平移无关。要做到旋转无关,则需要将窗口以某个主方向对齐后再提取局部特征,如图中倾斜的黄色小块,主方向可以是窗口内最集中的梯度方向。

接下来,讲述一下如何做到尺度无关

尺度空间

尺度,可以通过地图的比例尺来理解,如下图所示,如果以100米为单位进行观测(称为图100),箭头处有一个角点A,如果以5米为单位进行观测(成为图5),则A附近多了一个凹陷B,而这个凹陷B在图100中是看不见的,为什么呢?尺度空间理论认为是被平滑掉了,即低尺度下可以看清细节,高尺度下细节会被平滑掉只剩下更“宏观”的特征,因此可知

  • 特征是有尺度的,在某个尺度下B是关键点(图5中),但在更大的尺度下可能就不是了(图100中)
  • 需要在对应的尺度下提取特征,既然B仅在图5的尺度下是关键点,其特征自然需要在图5的尺度下提取

如果两幅图像的尺度不同该如何匹配?图100和图5中的A是同一个点,但因为尺度不同,邻域差异很大,在各自的邻域中提取的特征自然不同,为了让它们能匹配上,需要对图5构建尺度空间,获得不同尺度下的表达,具体怎么做呢?保持图5图像尺寸不变,不断(高斯)平滑,直到B处的凹陷平滑没了(与图100相似),达到与图100相近的尺度,图100中在A邻域内(比如\(10 \times 10\))提取特征(比如SIFT),图5中在A邻域内(\(200 \times 200\))提取特征,两者在各自图像中提取的SIFT特征长度相同(将领域划分成同样数量的子区域,然后在子区域中统计梯度直方图,某种程度上讲是对邻域窗口的归一化后再提取特征),这样就可以匹配上了。

平滑类似如下过程,最下面一行为原始信号,每一行对应一个尺度:

一般来讲,在没有先验知识的情况下,对两幅图像分别在每个尺度上检测关键点并提取特征,总有某些关键点及其特征正好来自相同的尺度,如果它们恰好可以匹配上,则图像1和图像2匹配,反之,如果所有关键点都配不上,则图像1和图像2不匹配。

小结一下:尺度空间,是在信号长度不变的情况下(如上图\(f(x)\)到\(f^t(x)\)),通过(高斯)平滑,获得信号在不同尺度下的表达,然后使用尺度对应大小的窗口进行观测和提取特征。因为获得了原始信号在所有尺度下的特征,这些特征在整体上做到了尺度无关——因为原始信号各种尺度的特征都有了。

图像金字塔

尺度空间中,不同尺度下观测窗口的像素尺寸是不同,还有另外一种情况,保持观测窗口大小不变,让图像尺寸发生变化。以人脸检测为例,通常训练结束后,方法中用到的滤波器、卷积核的参数和尺寸就固定了,因此提取到的特征只适用于检测像素大小在某个范围内的人脸,超出这个范围的人脸就检测不出来了。但是,在没有先验知识的情况下,输入图像中人脸的像素大小是未知的,不同输入图像中人脸的像素尺寸也可能不同,怎么办?这是就要用到图像金字塔,如下图所示,使用RCNN检测人脸,图像中的人脸有大有小,通过构建图像金字塔来检测,图片来自链接

构建图像金字塔,是为了获得图像在不同尺寸(不同分辨率)下的表达,通过不断重复 平滑+下采样 的过程(也有通过插值Resize),获得了不同像素尺寸的人脸图像,其中只要有与网络适配的人脸就可以被检测出来。

小结一下:图像金字塔,是在保持观测窗口不变的情况下,获得输入图像在不同尺寸(分辨率)下的表达,在不同尺寸上提取到的特征在整体上做到了尺寸(分辨率)无关。实际使用中,一般采用2倍下采样,即金字塔中图像长宽逐层折半。

细心的读者可能已经发现,尺度空间和图像金字塔存在着某种关联,有种一体两面的感觉,实际上两者可以联合在一起使用,我们以后再谈。

总结

本文的重点在于讲述 几种特征不变性以及实现特征不变性的途径,对尺度空间和图像金字塔只是做了直观的介绍,后面会单独写文章详细讲解。

参考

原文地址:https://www.cnblogs.com/shine-lee/p/10037463.html

时间: 2024-11-06 13:56:56

特征,特征不变性,尺度空间与图像金字塔的相关文章

特征、特征不变性、尺度空间、图像金字塔

特征 在计算机视觉领域,特征是为了完成某一特定任务需要的相关信息.比如,人脸检测中,我们需要在图像中提取特征来判断哪些区域是人脸.哪些区域不是人脸,人脸验证中,我们需要在两个人脸区域分别提取特征,来判断他们是不是同一个人,如下图所示,深度神经网络最终得到一个128维的特征用于识别等任务. 常用的特征:图像灰度or灰度.直方图.梯度.边缘.纹理.矩.SIFT.深度学习特征等等. 以关键点特征为例,关键点指的是可以稳定出现的特殊点,如角点.局部极值点等,如上图中人脸中眼鼻口处的关键点,先检测图像中的

Atitit 图像金字塔原理与概率 attilax的理解总结qb23

1.1. 高斯金字塔  (  Gaussianpyramid): 拉普拉斯金字塔 (Laplacianpyramid):1 1.2. 图像金字塔 高斯金字塔 采样金字塔1 1.3. 尺度空间的目的是『见森林又能见树木』,墨迹一点的解释就是,在低尺度下可以看清楚很多细节,在高尺度下可以看到轮廓 2 1.4. 在一幅图像中,要想描述真实世界的结构与信息,多尺度描述至关重要.2 1.5. 图像金字塔这种结构在图像处理中有广泛的用途.最著名的特征匹配算子SIFT就是通过构造图像金字塔来完成的. 3 1.

OpenCV2马拉松第7圈——图像金字塔

收入囊中 高斯金字塔 拉普拉斯金字塔 葵花宝典 图像金字塔是一系列的图像集合,都是从单张图片获得的,连续做下采样(downsample)直到预设停止条件.最常用的是两种,高斯金字塔和拉普拉斯金字塔.[当然还有其他的金字塔,比如小波金字塔] 高斯金字塔 对一张图像不断的模糊之后向下采样,得到不同分辨率的图像,同时每次得到的新的图像宽与高是原来图像的1/2, 最常见就是基于高斯的模糊之后采样,得到的 一系列图像称为高斯金字塔. 原图来自http://blog.csdn.net/jia20003/ar

Python图像处理(16):图像金字塔

快乐虾 http://blog.csdn.net/lights_joy/ 欢迎转载,但请保留作者信息 图像金字塔是图像中多尺度表达的一种,最初用于机器视觉和图像压缩.一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合.其通过梯次向下采样获得,直到达到某个终止条件才停止采样.金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似.层级越高,则图像越小,分辨率越低. 一般情况下有两种类型的图像金字塔常常出现在文献和以及实际运用中.他们分别是: 高斯金字塔

【转】图像金字塔PyrDown,PyrUP

原文链接:http://blog.csdn.net/davebobo/article/details/51885043 [图像金字塔] 图像金字塔这个词,我们经常在很多地方可以看到.它是图像多尺度表达的一种,最主要的是用于图像的分割.同时,图像金字塔也被广泛用于各种视觉应用中. 图像金字塔是一个图像集合,集合中所有的图像都源于同一个原始图像,而是通过对原始图像连续降采样获得,直到达到某个终止条件才停止降采样.我们可以通过下图来形象的说明图像金字塔的概念.在金字塔的底部是待处理图像的高分辨率表示,

图像金字塔

      图像金字塔被广泛用于各种视觉应用中.图像金字塔是一个图像集合,集合中所有的图像都源于同一个原始图像,而且是通过对原始图像连续降采样获得,直到达到某个中止条件才停止降采样.(当然,降为一个像素肯定是中止条件.) 有两种类型的图像金字塔常常出现在文献和应用中:高斯金字塔用来向下降采样图像,而拉普拉斯金字塔则用来从金字塔低层图像中向上采样重建一个图像. 要从金字塔第 i 层生成第i+1 层,我们先要用高斯核对第i 层进行卷积,然后删除所有偶数行和偶数列.当然,新得到的图像面积会变为源图像的

OpenCV笔记(十)——图像金字塔

图像金字塔(Image Pyramids)可以用来处理图像的缩放. 有两种广为使用的图像金字塔:高斯金字塔和拉普拉斯金字塔. 这里介绍高斯金字塔. 高斯金字塔有两种操作:upsample和downsample,可以理解为图像的放大和缩小. 以下图为例: 图像如果downsample,则col和row均变成之前的1/2,图像的面积也为之前的1/4.等价于金字塔的层数升高一层,面积为先前的四分之一. 如果是upsample,则col和row均是之前的2倍,则图像面积为之前的4倍.等价于金字塔下降一层

OpenCV图像金字塔

图像金字塔 目标 本文档尝试解答如下问题: 如何使用OpenCV函数 pyrUp 和 pyrDown 对图像进行向上和向下采样. 原理 Note 以下内容来自于Bradski和Kaehler的大作: Learning OpenCV . 当我们需要将图像转换到另一个尺寸的时候, 有两种可能: 放大 图像 或者 缩小 图像. 尽管OpenCV 几何变换 部分提供了一个真正意义上的图像缩放函数(resize, 在以后的教程中会学到),不过在本篇我们首先学习一下使用 图像金字塔来做图像缩放, 图像金字塔

[转]OpenCV图像金字塔:高斯金字塔、拉普拉斯金字塔与图片尺寸缩放

[OpenCV入门教程之十三]OpenCV图像金字塔:高斯金字塔.拉普拉斯金字塔与图片尺寸缩放 2014-05-18 18:58 36007人阅读 评论(54) 收藏 举报 本文章已收录于:  OpenCV知识库 本系列文章由@浅墨_毛星云 出品,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/26157633 作者:毛星云(浅墨)    微博:http://weibo.com/u/1723155442 知乎:http