图像稀疏编码表示

注:本文学习自CVPR《Linear Spatial Pyramid Matching Using Sparse Coding

for Image Classification》、《Image classification By non-negative sparse coding, low-rank and sparse decomposition》及《基于稀疏编码的图像视觉特征提取及应用》

本文学习笔记是自己的理解,如有不正确的地方,请大家指正批评。共同进步!

在提取全然部训练图像的SIFT特征后。须要对每幅图像进行视觉特征编码。

视觉特征编码的目的在于对原始特征向量进行选择和变换,得到图像中最具表现力和区分度的视觉特征向量。使得计算机能够更高效的进行处理。一般编码方式是向量量化,还有一种视觉编码方式稀疏编码能更好的表示图像。

1、向量量化

向量量化的基本思想是在基向量空间中寻找目标向量的近期邻,然后用该基向量的编号表示原目标向量:

当中x为某个SIFT特征向量,di为基向量空间中的第i个向量。

事实上基向量就是对全部训练图像的全部SIFT特征向量进行聚类,得到的K个聚类中心。这K个特征向量最后作为基向量。然后对于每一幅图像,寻找每一个SIFT特征向量属于哪个基向量。来进行映射。

在向量量化的过程中,基本过程例如以下:

1) 将所有的训练样本进行归一化;

2) 对训练样本进行聚类。得到若干个类中心,构成基向量空间:

3) 在全部类中心中为目标向量寻找近期邻。

在BOW模型中,先聚类产生视觉关键词,然后进行向量量化编码。对于用SIFT特征

就是这幅图像的稀疏编码。

向量量化的长处在于计算简单,数据压缩率高。缺点在于精度损失比較大,在某些应用中难以满足要求。

2、稀疏编码

稀疏编码的本质是一个目标向量能够由少量的基向量经线性拟合而成,且基向量空间存在一定的冗余。

与向量量化的差别是向量量化的每一个目标向量仅仅能由一个基向量表示。也就是说向量量化方式的约束条件太严格。会引起重构误差。二者差别可表演示样例如以下:

对图像的稀疏编码一般分为两个过程:

一是基向量的训练过程,也称为字典的学习。在这个过程中,我们利用大量的训练样本。通过无监督学习方法学习获得一组冗余的基向量。这组基向量通常反映了训练样本中一些带有本质特性的基元。如图像中的边界、角点,实验表明,字典的学习过程模拟了人类视觉皮层对信息的处理过程。

最优化问题(1)变成了二次约束的最小二乘问题。即:

这个最优化问题,在给定X情况下,交替固定一个变量,训练还有一个变量。如此迭代。

二是线性拟合的求解过程。即随意目标向量xn都能够由字典V内的若干个条目经线性组合拟合而成,该过程依据不同的约束条件,能够得到不同的拟合系数un。然后用该系数向量表示图像特征。

此时V已知。对图像X稀疏编码得到U,问题变为例如以下求解:

3、实验过程:

1、从每张图像中随机提取一个特征点向量,凑出一个初始训练样本X。

(128*2600)

for ii = 1:2600

fpath = training.path{ii};

load(fpath);

num_fea = size(feaSet.feaArr, 2);

rndidx = randperm(num_fea);

X(:, ii) = feaSet.feaArr(:, rndidx(ii));

end;

2、视觉字典V的学习

a、初始视觉字典V通过随机函数给出,先随机产生一个128*300的矩阵作为初始视觉 字典

V = rand(128, 300)-0.5;%先随机生成一个视觉词典V

V = V - repmat(mean(V,1), size(V,1),1);

V = V*diag(1./sqrt(sum(V.*V)));

b、使用刚刚得到的V,对样本X计算得到U

U = L1QP_FeatureSign_Set(X, V, lambda);

此函数在已知训练样本X和给出的视觉字典V的前提下,学习得到此时样本的稀

c、使用刚刚得到的U,再训练得到V

V = l2ls_learn_basis_dual(X, U, pars.VAR_basis);

此函数在已知训练样本X和样本稀疏编码U的前提下,学习得到V。在条件

d、迭代50次b和c过程,终于得到视觉词典V及训练样本X的稀疏编码U。

3、对每张图像,应用得到的视觉字典V,得到其稀疏编码U

4、例如以下代码用某种方式(sc_approx_pooling)对每幅图像的稀疏编码进行了处理,然后用21*300(300是视觉关键词的个数)维向量来表示这幅图像。

曾经是对向量量化编码U按关键词出现的频次计算直方图来表示这幅图像,如今改用最大池处理,即对于稀疏编码得到的U,Uij表示了第i块SIFT特征区域对第j个关键词的归属程度,取每一个关键词中归属程度的最大值来表示这个关键词,得到K维特征向量来表示这幅图像。

sc_fea = zeros(6300, 2600);%%全部训练图像的稀疏编码

sc_label = zeros(2600, 1);

for iter1 = 1:2600,

fpath = database.path{iter1};

load(fpath);

%%对每张图像给出一个稀疏编码矩阵(这里须要对每张图片每金字塔层每一个网格给出一个300*N的
稀疏编码矩阵,最后按 权值串联该幅图的全部稀疏编码作为终于稀疏编码来表示这幅图像)

sc_fea(:, iter1) = sc_approx_pooling(feaSet, V, pyramid, gamma);

sc_label(iter1) = database.label(iter1);

end;

总结一下,稀疏编码事实上就是先对全部图像的全部SIFT特征进行训练,得到基向量也即视觉关键词V。之后对于每一幅图像,计算其每一个特征点所属的基向量索引u。u中含有多个非零系数用来拟合多个基向量。得到一幅图像的系数编码U。

用U乘以基向量V就能表示一幅图像X。之后再用方法(sc_approx_pooling)对每幅图像的稀疏表示U进行了处理,得到300(视觉关键词的个数)维向量来表示这幅图像。

时间: 2024-10-09 21:19:01

图像稀疏编码表示的相关文章

转图像偏微分方程不适定问题

图 像处理作为一种预处理的手段,几乎成为所有图像处理方法的前奏.在许多情况下,图像滤波作为图像识别的一种预处理手段,它需要满足两个限制条件:对比度不 变和仿射不便.而仿射不变性可以被分解为平移不变.旋转不变.欧式不变.伸缩不变等.满足对比度不变和仿射不变的偏微分方程只有一个,即 AMSS(Affine Morphological Scale Space)方程.L.Alvarez,F.Guichard,P.L.Lions和J.M.Morel等在文献:Axioms and fundamental e

paper 119:[转]图像处理中不适定问题-图像建模与反问题处理

图像处理中不适定问题 作者:肖亮博士 发布时间:09-10-25 图像处理中不适定问题(ill posed problem)或称为反问题(inverse Problem)的研究从20世纪末成为国际上的热点问题,成为现代数学家.计算机视觉和图像处理学者广为关注的研究领域.数学和物理上的反问题的研究由来已久,法国数学家阿达马早在19世纪就提出了不适定问题的概念:称一个数学物理定解问题的解存在.唯一并且稳定的则称该问题是适定的(Well Posed).如果不满足适定性概念中的上述判据中的一条或几条,称

稀疏表示 过完备 字典

2基于局部时窄特征的动作识别模哩2.1 动作识别的基本思想实现了基于时空兴趣点和时空单词的动作表示和识别方法,该方法首先通过训练从样本中提取出准确的时空兴趣点,建立基于兴趣点特征的时空码本,并构造出动作分类器.在动作识别过程中,计算待分类视频中的兴趣点特征和时空码本的距离对兴趣点进行分类,生成对视频动作进行表征的时空单词,最后通过动作分类器进行分类识别. 目前已有很多方法和技术用于构造分类模型,如决策树.神经网络.贝叶斯方法.Fisher线性分析(Fld)以及支持向量机(Support Vect

[读书笔记] 计算机视觉与算法应用 Chapter 4.2 边缘

4.2  边缘 尽管特征点对于寻找2D中能够精确匹配的图像位置非常有用,但是边缘点更为丰富且常常包含重要的语义关联. 4.2.1 边缘检测 边缘出现在颜色.亮度或者纹理不一样的区域之间. 通常只使用局部信息来检测边缘更为合适 一个表面的斜率和方向通过它的梯度来实现 局部梯度向量J指向亮度函数的极速上升(steepest ascent)方向,它的幅值是其斜率或者变化强度的一个指示,它的方向指向了与其局部轮廓垂直的方向. 因为高频部分噪声和信号的比例较大,所以求取图像的导数强调了高频率的部分因而放大

标注工具

一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理.利用该工具可以方便的获得各项NLP任务需要的标注语料.以下是利用该工具进行命名实体识别任务的标注例子. WeTest舆情团队在使用:http://wetest.qq.com/bee/ 使用案例:http://blog.csdn.net/owengbs/article/details/49780225 . . 二.VS标注工具--La

计算机视觉常见技术

记录一下平时看到的一些关于CV方向的发展,拓展自己的思维,有很多好玩的技术方向: 贾佳亚2018/5.29:被誉为“一键卸妆”的论文<Makeup-Go: Blind Reversion of Portrait Edit>在社会各界引起了强烈反响,卸妆玩法引爆社交媒体.另一篇超分辨率的论文<细节还原深度视频超分辨率>,其相关技术也已经在QQ空间成功落地,各项性能指标均处于国际领先水平 有趣的事情:人脸美化的回复( debeautification): 我们希望能够通过AI技术,去退

傅里叶叠层成像FP(Fourier Ptychographic Imaging)查资料

傅里叶叠层成像FP(Fourier Ptychographic Imaging) 傅里叶叠层显微术(FPM)是一种新型的计算显微成像技术,FPM与传统显微术照明方式不同,常采用可编程LED阵列进行不同角度照明,而LED灯珠发射光强与角度有关,随角度增大光强迅速减弱,不同角度照明光强不能保证一致,导致重建图像质量下降. 因此,在进行相位迭代反演计算过程中,需要对不同角度照明拍摄的图像进行光强校正. 高分辨率是光学显微技术发展至今不断追求的目标之一. 南京理工大学陈钱教授课题组从基本原理.实验系统与

图像检索(5):基于OpenCV实现小型的图像数据库检索

本文对前面的几篇文章进行个总结,实现一个小型的图像检索应用. 一个小型的图像检索应用可以分为两部分: train,构建图像集的特征数据库. retrieval,检索,给定图像,从图像库中返回最类似的图像 构建图像数据库的过程如下: 生成图像集的视觉词汇表(Vocabulary) 提取图像集所有图像的sift特征 对得到的sifte特征集合进行聚类,聚类中心就是Vocabulary 对图像集中的图像重新编码表示,可使用BoW或者VLAD,这里选择VLAD. 将图像集中所有图像的VLAD表示组合到一

图像的稀疏表示——ScSPM和LLC的总结

图像的稀疏表示——ScSPM和LLC的总结 稀疏编码系列: (一)----Spatial Pyramid 小结 (二)----图像的稀疏表示——ScSPM和LLC的总结 (三)----理解sparse coding (四)----稀疏模型与结构性稀疏模型 --------------------------------------------------------------------------- 前言 上一篇提到了SPM.这篇博客打算把ScSPM和LLC一起总结了.ScSPM和LLC其实