Efficient Graph-Based Image Segmentation

转:http://blog.csdn.net/asongoficeandfire/article/details/8434799

Efficient Graph-Based Image Segmentation 是2004年由Felzenszwalb发表在IJCV上的一篇文章。主要介绍了基于图表示的图像分割。并且提出了一种基于贪心选择的图像分割方法,此方法能够考虑到全局特征。根据距离度量方式的不同,此算法有两种具体的实现形式。结果表明算法的运行时间接近于线性(相对于图中边的个数来说)。此算法的更重要的特性在于,在特征变化较小的情况下,对细节的重视性大于特征变化较大时的情况。

论文开头提到了一个分割算法要想达到广泛应用(broad utility),应该具备的两个性质:

1.应该能提取在感知上重要的区域(perceptually important regions)

2.高效的,即最好能以线性于图像像素数的时间运行

就像Urquhart 1982 所用的方法类似,文章的算法基于用图表示图像:图像中的每个像素表示图上的一个节点,每一条连接节点的无向边都具有一个权重(weights),以衡量其连接的两个节点之间的不相似度(dissimilarity)。与传统方法不同的是,本文会根据相邻区域在特征值上变化速度的大小动态调整分割阈值(adaptively adjusts the segmentation criterion based on the degree of variability in neighboring regions of the image)。

上图这个例子说明,图像分割算法既不能单一的使用像素强度值的变化作为分割依据,也不能使用单一的分割阈值来决定分割与否。所以文章中提到的算法基于两个特征来判断两个区域是否应该合并:区域间间距和区域内间距。如果两个区域的区域间间距明显大于其中任意一个区域的区域内间距,那么就认为这两个区域之间存在明显的界限(即不可以merge两个区域)。

区域对比较断言(pairwise region comparison predicate)

定义区域内间距如下:即区域对应MST(minimum spanning treee最小生成树)中权重最大的边的权重值。

定义区域间间距如下:即在所有分别属于两个区域且有边连接的点对中,寻找权重最小的那对(若两个区域内的点没有边相连,则定义间距为正无穷大)。

(在此提到如果利用最大和最小这两个极端的度量方式,可能对有些结果造成误差,为了更好的鲁棒性,建议选择使用quantile点的方式。但实际实验中,使用最值方式效果相当好(works quite well),而且复杂度明显要比使用qualtile点方式小很多(Appendix中有关于quantile点方式复杂度的证明))。

有了区域内间距和区域间间距的定义之后,通过比较两者之间的关系,就可以得出断言函数的形式:,其中,。注意,此处的τ是一个阈值函数,用来控制两个区域的区域间间距要在多大程度上大于他们的区域内间距才能被认定为两个区域间有明显的分割界限。举个例子来说,当其中一个区域很小时,Int(C)并不能很好的反应其区域内间距(极端的情况是当C只含一个节点时,Int(C)=0)。本文在此处对τ的定义为|C|的负相关函数:,其中k是一个常数。k要根据实验的具体情况来确定其值,但当k越大时,我们界定的可以区分两个区域的界限就越明显。

更重要的是,只要不与实验目的相悖,任何非负函数都可以用来表示τ。比如:如果我们需要将图像分割成为特定形状的区域,则可以将τ定义为与复合这个特定形状正相关的函数。而且τ对特定形状的倾向性可强可弱。这确保了开头提到的第一条性质的实现。

分割算法

输入是一个有n个节点和m条边的图G,输出是一系列区域。步骤如下:

0.将边按照权重值以非递减方式排序

1.最初的分割记为S(0),即每一个节点属于一个区域

2.按照以下的方式由S(q-1)构造S(q):记第q条边连接的两个节点为vi和vj,如果在S(q-1)中vi和vj是分别属于两个区域并且第q条边的权重小于两个区域的区域内间距,则合并两个区域。否则令S(q) = S(q-1)。

3.从q=1到q=m,重复步骤2

4.返回S(m)即为所求分割区域集合

算法过程保证了开头提到的第二条性质。

接下来论文具体实现了两种算法:基于Grid Graphs的和基于Nearest Neighber Graphs的方法。

两者的区别在于graph中节点和边的选取方式的不同:GG方法将图像中的每个元素视为一个节点,只要两个像素相邻,则认为其对应的节点之间有边连接(一般来说,每个节点有8条边)。边的权重值为对应两个节点的像素值差值的绝对值。(细节方面,1预处理过程使用σ=0.8的高斯函数来对图像进行平滑以减少噪声。2当图像为三通道图像时,将算法应用于全部三个通道,只有当三个通道全部给出合并区域的建议时才合并区域。3文章中使用的k值,当图片是128*128时k=150,当图片是320*240时k=300,即k值大概与图片尺寸成正比)。NNG方法先将图像的每个像素映射到特征空间形成图的节点,然后利用特征空间中的距离选取与其距离最近的点作为他们的邻居(有多种方法来选择邻居节点,即可以选择与其最近的k个邻居点,也可以选择与其距离不超过d的所有点作为邻居点),连接邻居点的边权重为两个对应节点在特征空间内的距离。

结果说明,NNG算法比GG算法在保证算法第一条性质的效果上要更好一些。

论文中还有涉及到related works和一些定理的证明,以及results部分,在此暂不做讨论。

时间: 2024-10-15 15:00:14

Efficient Graph-Based Image Segmentation的相关文章

Patchwork: A Patch-wise Attention Network for Efficient Object Detection and Segmentation in Video Streams

简介 受人类视觉注意力系统的启发,文章提出了一个叫Patchwork的模型,利用了记忆和注意力之间的微妙的相互作用来进行高效的视频处理. 图1:a) 视频流中的每个时间步,我们的方法仅仅处理当前帧的一个小的局部窗,但由于一系列有状态的Patchwork cells,仍然能解释整张输入帧. b) 状态patchwork cell的放大视图,通过之前状态的时间上下文特征来对当前特征进行调整. 图1a列出了Patchwork的概览.在每一个时间步,patchwork从输入帧上裁剪一个小窗送入一个特殊的

《Segment-Tree based Cost Aggregation for Stereo Matching》读后感~

前段时间整理博客发现,自己关于立体匹配部分的介绍太少了,这可是自己花了一个季度研究的东西啊!读了自认为大量的文章,基本上有源码的都自己跑了一遍,还改进了多个算法.不写写会留下遗憾的,所以打算在立体匹配这一块多谢谢博客,一来用于分享,二来用于请教,三来用于备忘.本文介绍的文章就是CVPR2013的<Segment-Tree based Cost Aggregation for Stereo Matching>一文,介绍它原因有以下几点: 1.它是NLCA的变种. 2.它是CVPR的文章. 本文还

Awesome Deep Vision

Awesome Deep Vision  A curated list of deep learning resources for computer vision, inspired by awesome-php and awesome-computer-vision. Maintainers - Jiwon Kim, Heesoo Myeong, Myungsub Choi, Jung Kwon Lee, Taeksoo Kim We are looking for a maintainer

【重要邮件整理】音乐结构分割相关实验邮件[MUSIC-IR] Re: Structural Segmentation Implementations

看一下下边这个邮件,音频分割,看题目用到机器学习,不太设计乐理知识,还有公开数据库,应该比较适合你. 你研究一下,如果可以就仿造这个文章开始研究. MUSIC-IR列表你看看下边好像有说明怎么加入,再群发一下告诉大家,这里边老多高手. > -----原始邮件-----> 发件人: "Steve Hargreaves" <[email protected]>> 发送时间: 2013-11-28 23:54:32 (星期四)> 收件人: [email p

Chinese Segmentation Introduction

1. Chinese Segmentation Introduction 最近两天系统的研究了一下中文分词算法,在这里做个简单的总结. 中文分词可以分为(1)基于词典的分词 和(2)非基于词典的分词. 基于词典的分词包括: * MMSEG * Forward/Backward matching * 最小切分 非基于词典的分词主要是通过统计学计算概率的方法进行中文分词,例如CRF, is probability based. And some other machine learning base

6D姿态估计从0单排——看论文的小鸡篇——Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects in Heavily Cluttered Scenes

这是linemod的第二篇,这一篇把训练从online learning 变成了 使用3D model, 并且对于检测结果用 3种方法: color.Pose.Depth来确保不会有false positive.感觉有种不忘初心的感觉(笑 基于linemod,是前一篇的改良 initial version of LINEMOD has some disadvantages. First, templates are learnede online, which is difficule to c

图像处理与计算机视觉基础,经典以及最近发展

*************************************************************************************************************** 在这里,我特别声明:本文章的源作者是   杨晓冬  (个人邮箱:[email protected]).原文的链接是 http://www.iask.sina.com.cn/u/2252291285/ish.版权归 杨晓冬 朋友所有. 我非常感谢原作者辛勤地编写本文章,并愿意共

图像处理与计算机视觉:图像处理与分析

1. Bilateral Filter Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器,由Tomasi等在1998年提出.它现在已经发挥着重大作用,尤其是在HDR领域. [1998 ICCV] BilateralFiltering for Gray and Color Images [2008 TIP] AdaptiveBilateral Filter for Sharpness Enhancement and Noise Removal 2. Col

KDD2015,Accepted Papers

Accepted Papers by Session Research Session RT01: Social and Graphs 1Tuesday 10:20 am–12:00 pm | Level 3 – Ballroom AChair: Tanya Berger-Wolf Efficient Algorithms for Public-Private Social NetworksFlavio Chierichetti,Sapienza University of Rome; Ales

CVPR2013总结

前不久CVPR的结果出来了,首先恭喜我一个已经毕业工作的师弟中了一篇文章.完整的文章列表已经在CVPR的主页上公布了(链接),今天把其中一些感兴趣的整理一下,虽然论文下载的链接大部分还都没出来,不过可以follow最新动态.等下载链接出来的时候一一补上. 由于没有下载链接,所以只能通过题目和作者估计一下论文的内容.难免有偏差,等看了论文以后再修正. 显著性 Saliency Aggregation: A Data-driven Approach Long Mai, Yuzhen Niu, Fen