【Tadeas】图片特征

特征提取

直方图

  • 用于计算图片的特征(Feature) 和表达(representation)
  • 对图片数据/特征分别的一种统计
    ** 灰度、颜色
    ** 梯度/边缘、形状、纹理
    ** 局部特征点、视觉词汇
  • 区间(bin)
    ** 均有一定的统计或者物理意义
    ** 一种数据或者特征的代表
    ** 需要预定义或者基于数据进行学习
    ** 数值是一种统计量: 概率、频数、特定积累
  • 维度小于原始数据

对数据空间(Bin)进行量化

  • 人工分割

人工分割:简单高效,但是存在量化问题,量化过宽容易造成精度的损失或者量化过窄容易过拟合

  • 聚类算法进行无监督学习
    常用方法:Kmeans、 EM算法、Mean shift、谱聚类、层次聚类等
  • Kmeans 容易受到类中心书K的选择和初始点的选取的影响-->容易陷入局部最优
    ** 改进:多次全随机取最优;Kmeans++ 半随机

几何特征

  • 边缘(Edge)
    ** 像素明显变化的区域
    ** 具有丰富的语义信息
    用于物体识别和几何、视角变化
    一般边缘定义为:像素值函数快速变化的区域-->一阶导数(灰度值函数)的极值区域
  • 边缘提取:
    ** 先高斯去噪,在使用一阶导数获取极值(导数对噪声敏感)
    ** 梯度幅值/强度:

$ h_{x}{{(x,y)}^{2}}+h_{y}{{(x,y)}^{2}} $

** 梯度(增加最快)方向

$ \arctan (\frac{h_{y}(x,y)}{h_{x}(x,y)}) $

其中:$ h_{y}(x,y)=\frac{\partial h(x,y)}{\partial y}$, \(h(x,y)\)为二维高斯函数

  • Harris 角点(corner)

** 一种显著点,在任意方向上移动一个小的观察窗,会导致大的像素变动
** 数学模型:取偏移\((u, v)\)后窗内图像变化,取\(E(u, v)\)大的patch:
\(E\left( u,v \right)=\sum\limits_{x,y}{w\left( x,y \right){{[I\left( x+u,y+v \right)-I\left( x,y \right)]}^{2}}}\)
其中,\(w(x,y)\)为窗函数,e.g., 高斯或者矩形函数

  • 斑点(Blob)
    ** 拉普拉斯梯度:一阶导极值点-->二阶导数零点 : 对噪声很敏感,先做高斯平滑
    ** 二阶高斯导数滤波(Laplacian of Gaussian, LOG)
    \({{\nabla }^{2}}\left( f\left( x,y \right)\otimes G\left( x,y \right) \right)={{\nabla }^{2}}G\left( x,y \right)\otimes G\left( x,y \right)\)
    即:先高斯滤波在拉普拉斯滤波--> 直接二阶高斯导数滤波

局部特征

  • SIFT(Scale-Invariant Feature Transform)关键点
    ** 基于尺度空间的不变的特征,
    ** 具有良好的不变特性(旋转、尺度缩放、平移、亮度变化、遮挡和噪声)
    ** 独特良好,信息量丰富
    *** 适用于在海量数据库中进行快速、准确的匹配
    ** 多量性
    *** 即使少数物体也可以产生大量的SIFT特征

** 尺度空间
*** 使用不同标准差 \(\sigma\)的LOG对图片进行滤波
\({{\nabla }^{2}}L\left( x,y,\sigma \right)={{\nabla }^{2}}G\left( x,y,\sigma \right)*I\left( x,y \right)\)

*** DOG(difference of Gaussian)
**** LOG近似等于两个不同尺度\(\sigma\)的高斯差分
\(D\left( x,y,\sigma \right)=\left( G\left( x,y,k\sigma \right)-G\left( x,y,\sigma \right) \right)*I\left( x,y \right)\approx \left( k-1 \right){{\sigma }^{2}}{{\nabla }^{2}}L\left( x,y,\sigma \right)\)

** 应用
*** 计算高斯差分(LOG)尺度空间,获取极值点
*** 特征电处理
**** 位置插值
**** 去除低对比度点
**** 去除边缘点
*** 方向估计
*** 描述子提取

纹理特征

  • HOG (方向梯度直方图)
    ** 梯度计算
    *** 分别计算水平和垂直梯度
    **** 梯度幅值和方向
    *** 对于彩色图片,选取梯度幅值最大的通道
    ** Block拆分
  • LBP(局部二值模式)
  • Gabar 滤波器组
    ** 该滤波器组类似于人类的视觉系统
    ** 频域:属于加窗傅里叶变换
    ** 空域: 一个高斯函数和正弦平面波的乘积
    \(g\left( x,y;\lambda ,\theta ,\psi ,\sigma ,\gamma \right)=\exp \left( -\frac{{{{{x}'}}^{2}}+{{\gamma }^{2}}{{{{y}'}}^{2}}}{2{{\sigma }^{2}}} \right)\exp \left( i\left( 2\pi \frac{{{x}'}}{\lambda }+\psi \right) \right)\)
    其中:\(x'=x\cos \theta + y\sin\theta\), \(y'=-x\sin \theta + y\cos\theta\)

原文地址:https://www.cnblogs.com/tadeas/p/11450482.html

时间: 2024-10-18 09:53:30

【Tadeas】图片特征的相关文章

任务5 图像的读取及表示 图像的特征 图片特征的降维

任务目的: 知道图像的表示以及读取方法 了解图像的特征 对图像特征进行降维 一.图像的读取及表示 图像要进行处理才能进行模型输入. python自带的库将图像存在矩阵或者张量里面. 图像由像素组成,一个像素点一般油RGB三维数组构成. 二.图像的特征 图像的识别should环境因素约束. 常见的图像颜色特征有:SIFT尺度不变特征变换 和 HOG方向梯度直方图 颜色特征就是对RGB做一个统计,统计有各颜色的分布百分比. 前者具有尺度不变性,即使改变旋转角度,图像亮度或拍摄视角依然能够很好地识别.

字符型图片验证码识别完整过程及Python实现

1   摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻.本文介绍了一套字符验证码识别的完整流程,对于验证码安全和OCR识别技术都有一定的借鉴意义. 2   关键词 关键词:安全,字符图片,验证码识别,OCR,Python,SVM,PIL 3   免责声明 本文研究所用素材来自于某旧Web框架的网站 完全对外公开 的公共图片资源. 本文只做了该网站对外公开的公共图片资源进行了爬取, 并未越权 

【Python图像特征的音乐序列生成】深度卷积网络,以及网络核心

这个项目主要涉及到两个网络,其中卷积神经网络用来提取图片表达的情绪,提取出一个二维向量. 网络结构如图: 词向量采用预训练的glove模型,d=50,其他信息包括了图片的"空旷程度".亮度.对比度等信息,用来更好地描述图片特征. 对于图中的卷积神经网络,需要讲解的地方是:卷积核是一个一维卷积核,每一层卷积层之后都连接了池化层,做的是最大值池化,每一层之间有固定的dropout层,最后输出的向量与我们预先设定的label进行计算,损失函数定义为 \[J(\theta)=-\sum_iy'

用图片搜索相似图片(视觉单词)

代码地址 代码GitHub地址 准备文件 vlfeat(SIFT的开源实现):下载地址 解压后将vlfeat-0.9.20\bin\win32加到系统的Path路径中,以便在命令行用sift命令 安装pysqlite:pip install pysqlite 安装matplotlib:pip isntall matplotlib 安装cherryPy(轻量级网页服务器):pip install cherrypy 图片库(猫猫):10000张猫猫图片 流程 用vlfeat(SIFT特征模型)提取每

一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

一.第一步是创建一个scrapy项目 sh-3.2# scrapy startproject liuyifeiImage sh-3.2# chmod -R 777 liuyifeiImage/ 二.分析图片特征 1.解决分页url部分: 我们爬虫的start_url是"http://movie.douban.com/celebrity/1049732/photos/?type=C&start=0&sortby=vote&size=a&subtype=a"

【Python图像特征的音乐序列生成】关于小样本的一些思考

我之前就注意到,深度学习和音乐结合,尤其是从乐理出发进行结合(而不是纯粹的进行音乐生成),是一个尚未被深度挖掘的全新领域.可想而知,这个方向符合我要求的数据肯定是要自己搜集了. 自己搜集的数据,在量上就已经输了,只是考虑到我们要做的任务并不复杂,准确的说只是一个分类器,再加一个LSTM而已.对于这个分类器,甚至不需要用卷积神经网络,可以使用一些其他的网络:而LSTM的样本本来就蕴含了很明确的规律,变化并不是很大. 那么我们就要开始思考,除了一些常规的训练方法,还有什么训练适合小样本数据吗? 1.

Opencv得到HOG特征(HOGDescriptor 的使用)

个人觉得很多的博客都是从这里抄的:http://www.cnblogs.com/justany/archive/2012/12/03/2790548.html 直接说怎么用吧. 包含头文件:和一般的opencv程序无特殊的区别 需要加入的库:opencv_objdetect244.lib(realease中的 debug加一个d,配置的人应该都懂) 基本的使用:(两行代码) HOGDescriptor *desc=new HOGDescriptor(cvSize(40,80),cvSize(10

katalon系列八:Katalon Studio图片识别

Katalon Studio自带集成了图片识别功能,有2个比较有用的图片识别相关的命令:Wait For Image Present和Click Image.这里重点讲下Click Image命令: 当你需要在浏览器里去操作非浏览器元素,比如IE的保存调的就是Windows的控件了: 当你无法定位某个元素,但其却有比较明显的图片特征时:   1.先截取你要定位的元素,比如我这里截图的是百度的LOGO     2.创建一个图片对象元素:右击左侧文件管理的Object Repository--New

原来CNN是这样提取图像特征的。。。

对于即将到来的人工智能时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的领域,会不会感觉马上就out了?作为机器学习的一个分支,深度学习同样需要计算机获得强大的学习能力,那么问题来了,我们究竟要计算机学习什么东西?答案当然是图像特征了.将一张图像看做是一个个像素值组成的矩阵,那么对图像的分析就是对矩阵的数字进行分析,而图像的特征,就隐藏在这些数字规律中.深度学习对外推荐自己的一个很重要的点--深度学习能够自动提取特征.本文主要介绍卷积层提取特征的原理过程,文