图像检索的本质是对图像特征的提取与基于特征的匹配技术,图像的特征包括图像的文本特征、视觉特征,所谓图像的文本特征是指与图像相关的文本信息,比如图像的名称、对图像的注解文字等,而目前比较成熟应用于网络环境下的图像检索系统比如Google、百度等均属于这类。图像的视觉特征是指图像本身所拥有的视觉信息,又可以进一步分为通用的视觉特征和领域特征,如颜色、纹理、形状等属于图像通用特征,而光谱特征则属于地理科学中遥感影像独有的特征。
从发展演变历程来看,根据图像检索系统所提取图像特征可分为两类,第一类即基于图像文本特征的检索,TBIR,第二类即基于图像视觉特征的内容检索,CBIR。
传统的TBIR技术应用于早期的图像检索,其研究主要在数据库领域中进行,首先对图像用文本进行手工注解,然后用基于文本的数据库管理系统进行检索。这种方法实现容易被广泛应用,但是它依赖于人对图像的注解,当图像数量急剧增大时,人工注解的方法所需工作量太大,而且不同人对同一幅图像的理解角度也是不同的,注解的主观性导致检索的查全率偏低。
基于内容的检索成为一个研究热点,它是直接根据图像内部的各种物理特征,在数据库中检索具有相似特征的图像。
基于内容图像检索与传统的基于文本检索方式相比,具有如下特点:
(1)突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索。
(2)检索方式多种多样。基于内容的图像检索可以提供浏览方式、基于实例的检索方式以及基于草图的检索方式等等。
(3)人机交互式检索。基于内容的图像检索系统通常采用参数调整方法、聚类分析方法、概率学习方法和神经网络方法等,通过人机交互的方式来捕捉和建立图像低层特征和高层语义之间的关联,即相关反馈技术。
(4)相似性匹配检索:基于内容的检索是按照一定的匹配算法将输入图像的特征与特征库中的特征元数据进行相似性匹配,将满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。
尽管CBIR相对于TBIR有了很大进步,但是这种基于机器对图像各种特征的理解在某些场景中不能替代基于文本的描述,比如一幅图像下面可能蕴含着某种寓意或者一个事件,但是单纯从内容是无法获取这一切的,如果能将对图像的注解应用于基于内容的检索,无疑将极大的提高检索查准率。
基于内容的图像检索
图像的内容包括图像的视觉信息等物理特征,还包括视觉特征所带来的高层语义特征。物理特征属于低层视觉信息,主要包括颜色、纹理、形状;语义信息属于图像的高层视觉信息,主要包括对象、空间关系、场景、行为、情感等图像内容。
基于内容的图像检索的目的一般可为三类:(1)准确查询,找出一致的复制件;(2)范围查询,找出与输入图像特征相差在一定范围内的图像;(3)K-最近邻查询,根据输入图像与待检测图像的相似度对检索结果进行排序。
CBIR的基本原理
CBIR的基本原理形式化定义:任给定一个检索图像示例P,计算其特征向量F=(F1,F2,F3,…Fn),其中Fi为图像的第i种特征;根据F检索图像特征索引库,得到与F距离最小的特征向量F’,则F’所对应的图像P’即为与P最相似的检索结果。CBIR系统典型的架构如下所示。
系统主要包括用户界面、检索和存储系统三部分,其中图像特征索引技术和相似度匹配技术是系统的核心部分,直接影响着系统检索的查全率和查准率。其中检索和存储系统都要对原始图像进行特征向量计算,不同之处在于索引库的生成采用离线方式,而查询检索部分需要实时在线计算。匹配度的计算将决定检索结果的产生以及结果的排序,因此也具有十分重要的意义。
图像内容的索引表示方法
1 低层图像特征
颜色特征
颜色是图像最显著的特征,具有稳定,旋转、平移、尺度变化无关性,而且颜色特征计算简单,表现出很强的鲁棒性,因此基于颜色的检索成为现有图像检索系统中应用最基本的方法。
颜色特征索引的相似度匹配算法根据其颜色索引内容和算法的不同而不同,主要包括直方图相交法、Manhattan距离、绝对距离(L1)、二次距离(L2)、欧几里德距离等。
纹理特征
纹理是指图像像素灰度集或颜色的某种规律性变化,可认为是灰度(颜色)在空间以一定的形式变化而产生的图案。一般纹理图像中灰度分布具有某种周期性,具有一定的统计特性,而且通常和图像频谱中的高频分量是密切联系的。图像的基本纹理特征主要有六方面:粗糙度(coarseness) 、对比度(contrast ) 、方向度( directionality) 、线像度( line-likeness) 、规整度( regularity) 和粗略度( rough-ness),其中最重要的特征主要是纹理的粗糙度、对比度和方向度。
形状特征
形状是图像的一个显著特征,形状通常被认为是一条封闭的轮廓曲线所包围的区域,对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。描述的结果是对图像区域边界的逼近表示。
多特征综合检索
基于颜色、纹理、形状特征的图像检索都各有优、缺点,分别从不同角度反映图像的某个特征,为了更完整的描述图像内容,有效地提高检索的准确率,人们经常将不同类型的综合特征来检索图像,以取长补短。如综合颜色和纹理特征进行检索,综合颜色和形状特征进行检索,综合纹理和形状特征的检索,综合颜色和空间关系特征的检索等。
高层语义特征
无论是基于颜色、纹理、形状的检索方法,还是多特征综合的检索方法,都是属于对图像低层视觉内容表示的方法。基于颜色特征的图像检索技术将图像从计算机的角度看成一个个离散的像元点,像元之间是孤立的,只能表示图像在整体上所呈现的颜色一致性,而无法区分图像内部特征;基于纹理特征的检索是在颜色的基础上,考虑了相邻像元之间的关系,提出了规整度、粗糙度、方向度等来衡量图像的线性特征;基于形状的检索则将图像分割成封闭的区域,屏蔽图像中的诸如背景等细节元素,更加逼近人对图像的认知。
实际上图像是人对世界认知的间接表示,一幅图像充满了丰富语义信息,而不仅仅是颜色、纹理、形状,除此之外,图像上充满了一个个实体对象,对象之间在空间上存在某种关系,一幅或一系列图像可以表示一个具体的场景和动作,甚至某些图像蕴含了著作者丰富的感情色彩和寓意。
对象类别与空间关系
用图像中的对象及对象间的空间关系特征来进行图像检索一直是图像数据库检索的重要研究方向,Tanimoto提出了用图元方法来表示图像中的实体,并提出了用图元来作为图像对象索引。随后被Chang采纳,并提出用二维符号串(2D-String)的表示方法来进行图像空间关系的检索,该方法简单并且对于部分图像来说可以从2D-String重构它们的符号图,因此被许多人采用和改进:Jungert根据图像对象的最小包围盒分别在x轴上和y轴上的投影区间之间的交叠关系来表示对象之间的空间关系;Lee和Hsu等人提出了2DC-String的方法;Nabil综合2D-String方法和二维平面中对象之间的点集拓扑关系,提出了2D-PIR检索方法。
对 图像内容的理解上升到了对象及其空间关系的理解,弥补了前面提到的方法中缺少空间信息约束的缺陷,如下是空间关系语义提取的结构图:
情感语义
图像表达的情感语义相对其他特征而言,具有更多的主观成分,它涉及到人的认知模型、文化背景以及美学标准。
目前只是在艺术图像这个特定领域对于图像的情感语义有了一定程度的研究。
除了颜色之外,纹理的疏密、线条的倾斜度、光滑度不同所表达的情感语意也截然不同,光滑的纹理给人细腻感,粗糙的纹理给人苍老感,坚硬的纹理给人以刚强感。正方形易给人庄重感, 三角形的锐角易产生好斗和进取的感觉, 而圆形则容易产生松弛平易的运动感。
基于情感的图像检索系统框架图如下所示:
以用户情感为线索检索图像,其目标是以图像可能激发的人的主观体验(即情感语义特征,或者感性特征)为中间桥梁,实现用户检索需求与图像之间的匹配。其检索流程包括感性提问的接收和转化、检索匹配、检索结果的反馈、相关反馈等几个过程。
国内外系统实例简介
QBIC
http://wwwqbic.almaden.ibm.com
IBM 的QBIC(Query ByImage Content) 是第一个商业性的CBIR 系统。它提供了基于颜色、纹理、形状和手绘草图的图像索引方法。颜色特征的表达采用了平均色和颜色直方图两种方法;纹理特征的表达采用了纹理的粗糙度、对比度和方向性三者的综合。目前,QBIC 系统的基于内容检索技术已经在IBM数字图书馆中得到了应用,实现了自动索引、归并、对比、特征抽取和翻译功能。
VisualSeek & Web Seek
http://www.ee.columbia.edu/~afchang/demos.html
Columbia 大学的Visual SEEK 提供了基于色彩和纹理的索引方法。在Visual SEEK 中,整幅图像色彩的分布使用了全局色彩直方图,区域色彩的索引采用二进制色彩集表达方法. 它采用基于小波变换的方法来表示图像的纹理特征。 为加快检索速度,还开发出了基于二叉树的索引算法. 该系统具有Java 浏览器,可以在SGL 、SUN 和IBM PC平台上运行。
PhotoBook
http://vismod.media.mit.edu/vismod/demos/photobook
PhotoBook 是麻省理工学院(MIT) 媒体实验室开发的一套检索、浏览图像的交互式工具,它包含三个子系统分别提取形状、纹理和人脸特征,用户可以分别做基于上述一种特征的检索. 由于目前还没有一种特征可以很好地对图像建模,在PhotoBook的最新版本FourEyes 中,Picard 等提出将人也包括在图像的标注和检索过程中,实验结果显示这种方法对图像的自动标注很有效。
MARS
http://jadzia.ifp.uiuc.edu:8080
MARS (multimedia analysis and retrieval system)系统由美国UIUC 大学开发,其不同之处在于用到了很多领域的知识:计算机视觉、数据库管理系统和信息检索. MARS 系统的注重点不在于单个的最佳特征表示,而在于如何将不同的视觉特征组织成有意义的检索体系,以动态适应不同的用户及应用场合。MARS 系统是正式提出相关反馈的系统,它将相关反馈技术集成到检索的不同层次过程中。
CBIR面临的挑战和问题
综合检索手段
一幅图像的特征多种多样,而且某些特征的索引无法用一个量化值来表示,必须应用多维矢量,导致在综合多特征的检索中,特征矢量更是高达102 量级,大大多于常规数据库的索引能力,因此,需要研究新的索引结构和算法,以高效地支持多特征、异构特征、权重、主键特征方面的查询要求。
计算机视觉、模式识别技术
在上述提到的基于形状和基于对象及其空间关系等高层语义检索中,如何识别图像上的各个对象是检索的基础,这涉及到图像处理、图像理解等计算机视觉和人工智能领域的模式识别技术,由于这些技术本身仍然不成熟,导致检索陷入尴尬的境地,无法深入开展下去。
Web环境下的通用检索方法
网络环境下,图像文件的自动获取与普通HTML文档的抓取没有什么本质区别,不同之处在于网络环境下存在着不同格式、大小、类型及不同领域内的海量多元图像,这决定了CBIR系统中索引过程的复杂性,同时从用户体验的角度讲,网络环境下用户对响应时间的要求比较苛刻。寻找一个高效、通用的检索方法,以及符合用户交互习惯的检索流程,是Web环境下CBIR系统必须解决的问题。
缺乏客观的评价标准
目前基于内容检索结果的评价方法采用的是传统信息检索领域的查全率和查准率。人在使用系统时采取的检索手段十分有限,人对图像内容认知上的主观性使得很难定义一个客观的标准,因而很难定义一个好的评价方法。同时,对于检索效率的评价也将是今后研究中需要解决的问题。
总结
基于内容的图像检索是一门交叉学科,其研究涉及计算机图形学、图像处理、图像理解、模式识别、人工智能、神经网络及数据库技术以及艺术、认知学、心理学等。基于低层图像视觉特征的内容检索已经取得了一定的成果,但是基于高层语义内容的检索都处于实验阶段;同时,在网络环境下的基于在线方式的图像检索具有十分重要的意义和巨大的挑战性。
转载请注明出处:http://blog.csdn.net/lsh_2013/article/details/47300315
版权声明:本文为博主原创文章,未经博主允许不得转载。