视觉显著性顶尖论文总结

https://www.cnblogs.com/mlblog/p/4368062.html

1、A model of saliency-based visual attention for rapid scene analysis

受早期灵长类动物早期视觉系统的神经结构和行为所启发的视觉注意系统。,他将图像特征组合成显著性图。

模型:

*采用二进高斯金字塔产生9个空间比例:S0~S8;

*由灵长类动物的视觉特征:对中心敏感,对周围不敏感,由此实现

中心是尺度c={2,3,4}中的像素,周围(surround)是在尺度s=c+d,d={3,4}中相关位置的像素。两者先插值,再点对点相减

*用r,g,b三个颜色通道得到5个高斯金字塔,从而得到42张特征图(通过金字塔相减得到),特征图结合成3张显著性图,3张图归一化得到得到最后的输入S(显著性图SM),FOA指向显著性图的最大值处。

*把SM模拟为神经元,有阈值电流;SM为胜者为王神经网络提供输入

*胜者为王,注意焦点FOA转移:

a)   SM中的神经元接受来自S的刺激输入

b)   显著性区域的神经元电势上升快

c)   每个神经元激发相应的WTA神经元

d)   直到胜者为王WTA达到阈值激发

3个同时机制:

  1. FOA转移到获胜的神经炎区域
  2. 所有WTA神经元抑制
  3. 在新的WTA位置,抑制被取消

*原程序的代码在http://www.saliencytoolbox.net/可以下载

*注意焦点转移示意图:

2、Salient region detection and segmentation

Salient region detection:应用文中的原话就是:saliency is determined as the local contrast of an image region with respect to its neighborhood at various scales. 我自己的理解为:在一个给定的尺度图上,通过每个像素的特征向量来获取一个特征融合的特征图,再将这些尺度不同的显著性图结合为一个显著性图;而不是像其他的一样,将一些不同特征的显著性图进行组合。而这些不同的尺度指的是外围区域R2的尺度。R2一般为1个像素,也可以是N x N像素。若图像的宽是w,则R2的宽在w/2和w/8之间

在一个给定的尺度,各个像素的显著性值为

再将不同尺度的显著性图逐像素相加

得最终的显著性图。

Salient region detection and segmentation:通过爬山算法用K—means算法过分割,爬山算法可以看做是在多维直方图空间中寻找最大的一种搜索窗体

代码粘贴:

%    author      = {Achanta, Radhakrishna and Extrada, Francisco and Süsstrunk, Sabine},

%    booktitle   = {{I}nternational {C}onference on {C}omputer

%                  {V}ision {S}ystems},

%    year        = 2008

% }

%---------------------------------------------------------

%

%

%---------------------------------------------------------

% Read image

%---------------------------------------------------------

img = imread(‘C:\Users\dell\Desktop\±?òμéè??\êμ?é??2?\100070.jpg‘);%Provide input image path

tic;%?aê???ê±

dim = size(img);

width = dim(2);height = dim(1);

md = min(width, height);%minimum dimension

%---------------------------------------------------------

% Perform sRGB to CIE Lab color space conversion (using D65)

%---------------------------------------------------------

cform = makecform(‘srgb2lab‘, ‘AdaptedWhitePoint‘, whitepoint(‘d65‘));%′′?¨??é?×a???á11

lab = applycform(img,cform);

l = double(lab(:,:,1));%μ?μ?3ì??÷

a = double(lab(:,:,2));

b = double(lab(:,:,3));

%If you have your own RGB2Lab function...

%[l a b] = RGB2Lab(gfrgb(:,:,1),gfrgb(:,:,2), gfrgb(:,:,3));

%---------------------------------------------------------

%Saliency map computation

%---------------------------------------------------------

sm = zeros(height, width);

off1 = int32(md/2); off2 = int32(md/4); off3 = int32(md/8);%R2μ?3?D3??è

for j = 1:height

y11 = max(1,j-off1); y12 = min(j+off1,height);

y21 = max(1,j-off2); y22 = min(j+off2,height);

y31 = max(1,j-off3); y32 = min(j+off3,height);

for k = 1:width

x11 = max(1,k-off1); x12 = min(k+off1,width);

x21 = max(1,k-off2); x22 = min(k+off2,width);

x31 = max(1,k-off3); x32 = min(k+off3,width);

lm1 = mean2(l(y11:y12,x11:x12));am1 = mean2(a(y11:y12,x11:x12));bm1 = mean2(b(y11:y12,x11:x12));

lm2 = mean2(l(y21:y22,x21:x22));am2 = mean2(a(y21:y22,x21:x22));bm2 = mean2(b(y21:y22,x21:x22));

lm3 = mean2(l(y31:y32,x31:x32));am3 = mean2(a(y31:y32,x31:x32));bm3 = mean2(b(y31:y32,x31:x32));

%---------------------------------------------------------

% Compute conspicuity values and add to get saliency value.

%---------------------------------------------------------

cv1 = (l(j,k)-lm1).^2 + (a(j,k)-am1).^2 + (b(j,k)-bm1).^2;%í?ò?????μ?2?í?ì??÷èúo?

cv2 = (l(j,k)-lm2).^2 + (a(j,k)-am2).^2 + (b(j,k)-bm2).^2;

cv3 = (l(j,k)-lm3).^2 + (a(j,k)-am3).^2 + (b(j,k)-bm3).^2;

sm(j,k) = cv1 + cv2 + cv3;%2?í?3??èμ?ì??÷2??áo?

end

end

toc

imshow(sm,[]);

3、Frequency-tuned Salient Region Detection

原文为:In our case we use the entire image as the neighborhood. This allows us to exploit more spatial frequencies than state-of-the-art methods (please refer to the paper for details) resulting in uniformly highlighted salient regions with well-defined borders. 将整个图像作为邻域

In simple words, our method find the Euclidean distance between the Lab pixel vector in a Gaussian filtered image with the average Lab vector for the input image.

原文代码:

%---------------------------------------------------------

% Copyright (c) 2009 Radhakrishna Achanta [EPFL]

% Contact: [email protected]

%---------------------------------------------------------

% Citation:

% @InProceedings{LCAV-CONF-2009-012,

%    author      = {Achanta, Radhakrishna and Hemami, Sheila and Estrada,

%                  Francisco and S?sstrunk, Sabine},

%    booktitle   = {{IEEE} {I}nternational {C}onference on {C}omputer

%                  {V}ision and {P}attern {R}ecognition},

%    year        = 2009

% }

%---------------------------------------------------------

% Please note that the saliency maps generated using this

% code may be slightly different from those of the paper.

% This seems to be because the RGB to Lab conversion is

% different from the one used for the results in the C++ code.

% The C++ code is available on the same page as this matlab

% code (http://ivrg.epfl.ch/supplementary_material/RK_CVPR09/index.html)

% One should preferably use the C++ as reference and use

% this matlab implementation mostly as proof of concept

% demo code.

%---------------------------------------------------------

%

%

%---------------------------------------------------------

% Read image and blur it with a 3x3 or 5x5 Gaussian filter

%---------------------------------------------------------

img = imread(‘C:\Users\dell\Desktop\±?òμéè??\êμ?é??2?\100070.jpg‘);%Provide input image path

tic;%?aê???ê±

gfrgb = imfilter(img, fspecial(‘gaussian‘, 3, 3), ‘symmetric‘, ‘conv‘);

%---------------------------------------------------------

% Perform sRGB to CIE Lab color space conversion (using D65)

%---------------------------------------------------------

cform = makecform(‘srgb2lab‘, ‘AdaptedWhitePoint‘, whitepoint(‘d65‘));

lab = applycform(gfrgb,cform);

%---------------------------------------------------------

% Compute Lab average values (note that in the paper this

% average is found from the unblurred original image, but

% the results are quite similar)

%---------------------------------------------------------

l = double(lab(:,:,1)); lm = mean(mean(l));

a = double(lab(:,:,2)); am = mean(mean(a));

b = double(lab(:,:,3)); bm = mean(mean(b));

%---------------------------------------------------------

% Finally compute the saliency map and display it.

%---------------------------------------------------------

sm = (l-lm).^2 + (a-am).^2 + (b-bm).^2;

toc

imshow(sm,[]);

%---------------------------------------------------------

4、HC方法:基于直方图对比度的图像像素显著性检测方法(MingMingChen)

像素显著性 ==颜色显著性(通过颜色距离计算)——》基于直方图的加速(减少颜色数从而减少复杂度)——》色彩空间平滑操作(减少量化瑕疵使相似颜色有相近的显著性)

HC方法忽略了空间细节————》RC

RC方法:基于区域对比度的视觉显著性检测方法

1)        区域分割

2)        计算区域对比度(颜色距离)

3)        空间加权区域对比度(空间距离)

5、Saliency FiltersFrequency-tuned Salient Region Detection

1) 基本思想:显著性一直以来都被认为应该是一个滤波器,该文作者想到了将其使用滤波器的方法进行加速。这篇文章主要是对局部和全局两种显著特征的公式进行了分析,提出了一种可以再线性时间内计算的方法。

2) 方法流程:

① 图像分割:采用略微修改的超像素分割,根据CIElab空间的测地线图像距离进行K-means聚类,产生大体上均匀尺寸,并且可以保持颜色边界的超像素分割。

② 颜色独立性:

其中的权重与超像素空间位置的距离有关,如果这个值给予长距离很低的权重,这个颜色独立性就类似于中央周边的对比度,即距离远的像素对其显著性贡献较低;如果这个权重为常数,这个颜色权重就类似于Mingming Cheng论文里面的区域对比度。

这个公式也可以写成:

第一项的Σ结果是1,第二和第三项都可以看做是以ω为核的滤波器,分别对cj 和cj2滤波。本文将这个核写成了高斯的形式,并且借助Adams提出的permutohedral lattice embedding 滤波器来实现线性时间的计算。

③ 空间颜色分布:

权重是颜色的差距,前面是空间距离。根据ω(ci,cj)定义,颜色越接近近权重越大,即距离远但颜色相近的像素分布值大,和前一个特征刚好是相反,这个特征可以表示某种颜色在空间分布的广度。例如某种颜色分散在图像中,但是面积都很小,那么第一个特征计算出来这个颜色的独立性就比较高,但是第二个特征会告诉你这个颜色的分布很广,并不显著。

通过类似的推导,这个公式也可以写成高斯滤波的形式,借助Adams提出的permutohedral lattice embedding 滤波器来实现线性时间的计算,具体参考论文Fast High-Dimensional Filtering Using thePermutohedral Lattice。

④ 显著性融合:

由于空间颜色分布的区分度更大,因此作者将其放在了指数的位置,并加了一个权重调节。Di越大即颜色分布越广,对应显著性值越小;Ui越大对应颜色独立性越高,对应显著性值越大。

最后,特征被从超像素级映射到像素级。每个像素的显著性是通过其所在超像素以及周围的超像素进行高斯线性加权,权重取决于和颜色,位置的距离。最终的归一化也很重要,要求显著图至少包含10%的显著像素,这种归一化方式也会提升算法最终的评价指标。

3) 论文评价:考虑到颜色自身独立性与颜色分布对显著度的贡献结合,算法均在时域进行,并采用高斯滤波加速,得到很不错的效果。实际测试结果saliency map较均匀,但公布的代码缺少一些实验细节,没有论文的公布结果好。

6、SR方法

频域的显著性检测方法,将原图进行傅里叶变化,提取他的幅度谱和相位谱,保留相位谱,对幅度谱进行变化

作者发现大量图像的log幅度频谱的平均值是和频率呈现正比关系的

然后作者又提出了既然大量图像的log振幅谱都差不多趋近一条直线,那么一幅图像的log振幅谱减去平均log振幅谱不就是显著性部分了

L(f)是log振幅谱。h是一个n*n均值滤波的卷积核,作者设n=3,用来得到平均谱,R(f)就是显著性谱

代码:关键部分5行

clear

clc

%% Read image from file

inImg = im2double(rgb2gray(imread(‘102831.jpg‘)));

%%inImg = imresize(inImg, 64/size(inImg, 2));

%% Spectral Residual

myFFT = fft2(inImg);

myLogAmplitude = log(abs(myFFT));%abs()求振幅谱angle£()求相位谱

myPhase = angle(myFFT);

mySpectralResidual = myLogAmplitude - imfilter(myLogAmplitude, fspecial(‘average‘, 3), ‘replicate‘);

saliencyMap = abs(ifft2(exp(mySpectralResidual + i*myPhase))).^2;

%% After Effect

saliencyMap = mat2gray(imfilter(saliencyMap, fspecial(‘gaussian‘, [10, 10], 2.5)));%mat2grayêμ?????óμ?1éò??ˉ2ù×÷

imshow(saliencyMap);

效果图:

原文地址:https://www.cnblogs.com/jukan/p/9225354.html

时间: 2024-11-13 10:27:10

视觉显著性顶尖论文总结的相关文章

视觉显著性简介 Saliency Detection

1.简介 视觉显著性包括从下而上和从上往下两种机制.从下而上也可以认为是数据驱动,即图像本身对人的吸引,从上而下则是在人意识控制下对图像进行注意.科研主要做的是从下而上的视觉显著性,而从上而下的视觉显著性由于对人的大脑结构作用了解还很肤浅,无法深刻的揭示作用原理所以做研究的人也相对较少. 2. 方法 显著性检测一般分为空域和频域. 空域的方法比如:特征提取类似ltti的做法:使用图论知识,显著图建立引入了马尔科夫链:分层提取,并训练SVM用作检测:分析上下文,并模拟返回抑制:分局部,区域,全局,

paper 27 :图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)

1. 早期C. Koch与S. Ullman的研究工作. 他们提出了非常有影响力的生物启发模型. C. Koch and S. Ullman . Shifts in selective visual attention: Towards the underlying neural circuitry. Human Neurobiology, 4(4):219-227, 1985. C. Koch and T. Poggio. Predicting the Visual World: Silenc

显著性检测:'Saliency Detection via Graph-Based Manifold Ranking'论文总结

对显著性检测的一些了解: 一般认为,良好的显著性检测模型应至少满足以下三个标准: 1)良好的检测:丢失实际显著区域的可能性以及将背景错误地标记为显著区域应该是低的: 2)高分辨率:显著图应该具有高分辨率或全分辨率以准确定位突出物体并保留原始图像信息: 3)计算效率:作为其他复杂过程的前端,这些模型应该快速检测显著区域. 最早在心里学和神经科学等多个学科上,就开始进行显著物体的检测.在计算机视觉领域,已经在人类关注机制的建模方面做出了努力,特别是自下而上的注意机制. 这种过程也称为视觉显著性检测.

【论文学习记录】PTAM:Parallel Tracking and Mapping for Small AR Workspaces

论文地址:链接: http://pan.baidu.com/s/1kTAcP8r 密码: djm4 这是一篇可手持单目相机进行定位与制图方法的文章.它与传统slam的方法不一致的地方在于将定位跟踪与制图分离出了两个单独过程. 双线程机制: 一个线程用于鲁棒跟踪手持相机运动,另一个线程用于从之前观测到的视频帧中产生三维地图点特征 .  系统允许batch techniques复杂的计算,但不在实时操作下.. 这篇文章的研究目的是:  不需要任何模板与初始目标,跟踪校正的手持相机,并且绘制环境地图.

时空上下文视觉跟踪(STC)算法的解读与代码复现(转)

本文转载自zouxy09博客,原文地址为http://blog.csdn.net/zouxy09/article/details/16889905:在此,仅当笔记mark一下及给大家分享一下. 时空上下文视觉跟踪(STC)算法的解读与代码复现 [email protected] http://blog.csdn.net/zouxy09 本博文主要是关注一篇视觉跟踪的论文.这篇论文是Kaihua Zhang等人今年投稿到一个会议的文章,因为会议还没有出结果,所以作者还没有发布他的Matlab源代码

SCI论文从入门到精通

第一部分 经验谈 一.先想先写最后做 做研究之前,必须想清楚:结果能不能发表?发表在哪里? 先把文章大框写好,空出数据,等做完实验填完空就可以发了:正所谓心中有沟壑! 在未搞清“写什么.发哪里.自己研究与同类研究有何出色之处”之前,就不要动手做! 继续去看文献,去想:想不清楚就做还不如不做! 要想这样做,就得先看文献!要知道如何把文章架起来.要知道别人是如何讨论的.要知道自己的数据是不是说明了与别人不同的东东或别人没有做过……这个过程就是阅读文献及思考的过程,这些搞清楚了,写就简单了! 要是先做

2018年6月8日论文阅读

Title:<视觉显著性预测综述>---孙夏 本文针对视觉显著性预测这一热点问题,通过介绍和对比了基于认知型,基于图论模型.基于频谱模型.和基于模式识别模型等视觉显著性预测算法的优缺点,得出基于模式识别模型在现有数据库效果的最好结论.同时,本文探究了已有的数据库特色以及适用范围. 除此之外,本文分析了Auc.NSS 和 EMD 等性能评估方法对于评估各种视觉显著性预测算法性能的优势和劣势 .文章最后针对已有视觉显著性预测方法和数据库的问题,对现有的视觉显著性预测方面的研究做了总结和展望. 1

论文阅读:Review of Visual Saliency Detection with Comprehensive Information

这篇文章目前发表在arxiv,日期:20180309. 这是一篇针对多种综合性信息的视觉显著性检测的综述文章. 注:有些名词直接贴原文,是因为不翻译更容易理解.也不会逐字逐句都翻译,重要的肯定不会错过^_^.我们的目的是理解文章思想,而不是为了翻译而纯粹翻译.翻译得不好,敬请包涵O(∩_∩)O~ 欢迎同道中人QQ交流:1505543113 abstract: 随着采集技术( acquisition technology)的发展,许多综合性信息(comprehensive information)

语音识别技术如何突围?搜狗走了一条音视觉结合之路

有一个像科幻电影<Her>中的虚拟助理(女友),大概是人们对人工智能美好的憧憬,尽管这一天可能还很遥远. 为了实现这一技术突破,前几年行业更多聚焦语音交互各个难题,而近两年,一些技术先行者开始尝试将语音.视觉.文本等信息结合的方式(即多模态)来推动人机交互技术的升级,多模态交互也成为学界.业界热议的话题. 搜狗也是多模态交互技术的先行者,2017年就开始探索唇语识别技术,2018年推出合成虚拟主播,近期搜狗与清华大学天工研究院联合发表了一篇<基于模态注意力的端到端音视觉语音识别>论