基于内容的图像检索技术

图像检索的本质是对图像特征的提取与基于特征的匹配技术,图像的特征包括图像的文本特征、视觉特征,所谓图像的文本特征是指与图像相关的文本信息,比如图像的名称、对图像的注解文字等,而目前比较成熟应用于网络环境下的图像检索系统比如Google、百度等均属于这类。图像的视觉特征是指图像本身所拥有的视觉信息,又可以进一步分为通用的视觉特征和领域特征,如颜色、纹理、形状等属于图像通用特征,而光谱特征则属于地理科学中遥感影像独有的特征。

从发展演变历程来看,根据图像检索系统所提取图像特征可分为两类,第一类即基于图像文本特征的检索,TBIR,第二类即基于图像视觉特征的内容检索,CBIR。

传统的TBIR技术应用于早期的图像检索,其研究主要在数据库领域中进行,首先对图像用文本进行手工注解,然后用基于文本的数据库管理系统进行检索。这种方法实现容易被广泛应用,但是它依赖于人对图像的注解,当图像数量急剧增大时,人工注解的方法所需工作量太大,而且不同人对同一幅图像的理解角度也是不同的,注解的主观性导致检索的查全率偏低。

基于内容的检索成为一个研究热点,它是直接根据图像内部的各种物理特征,在数据库中检索具有相似特征的图像。

基于内容图像检索与传统的基于文本检索方式相比,具有如下特点:

(1)突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索。

(2)检索方式多种多样。基于内容的图像检索可以提供浏览方式、基于实例的检索方式以及基于草图的检索方式等等。

(3)人机交互式检索。基于内容的图像检索系统通常采用参数调整方法、聚类分析方法、概率学习方法和神经网络方法等,通过人机交互的方式来捕捉和建立图像低层特征和高层语义之间的关联,即相关反馈技术。

(4)相似性匹配检索:基于内容的检索是按照一定的匹配算法将输入图像的特征与特征库中的特征元数据进行相似性匹配,将满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。

尽管CBIR相对于TBIR有了很大进步,但是这种基于机器对图像各种特征的理解在某些场景中不能替代基于文本的描述,比如一幅图像下面可能蕴含着某种寓意或者一个事件,但是单纯从内容是无法获取这一切的,如果能将对图像的注解应用于基于内容的检索,无疑将极大的提高检索查准率。

基于内容的图像检索

图像的内容包括图像的视觉信息等物理特征,还包括视觉特征所带来的高层语义特征。物理特征属于低层视觉信息,主要包括颜色、纹理、形状;语义信息属于图像的高层视觉信息,主要包括对象、空间关系、场景、行为、情感等图像内容。

基于内容的图像检索的目的一般可为三类:(1)准确查询,找出一致的复制件;(2)范围查询,找出与输入图像特征相差在一定范围内的图像;(3)K-最近邻查询,根据输入图像与待检测图像的相似度对检索结果进行排序。

CBIR的基本原理

CBIR的基本原理形式化定义:任给定一个检索图像示例P,计算其特征向量F=(F1,F2,F3,…Fn),其中Fi为图像的第i种特征;根据F检索图像特征索引库,得到与F距离最小的特征向量F’,则F’所对应的图像P’即为与P最相似的检索结果。CBIR系统典型的架构如下所示。

系统主要包括用户界面、检索和存储系统三部分,其中图像特征索引技术和相似度匹配技术是系统的核心部分,直接影响着系统检索的查全率和查准率。其中检索和存储系统都要对原始图像进行特征向量计算,不同之处在于索引库的生成采用离线方式,而查询检索部分需要实时在线计算。匹配度的计算将决定检索结果的产生以及结果的排序,因此也具有十分重要的意义。

图像内容的索引表示方法

1 低层图像特征

颜色特征

颜色是图像最显著的特征,具有稳定,旋转、平移、尺度变化无关性,而且颜色特征计算简单,表现出很强的鲁棒性,因此基于颜色的检索成为现有图像检索系统中应用最基本的方法。

颜色特征索引的相似度匹配算法根据其颜色索引内容和算法的不同而不同,主要包括直方图相交法、Manhattan距离、绝对距离(L1)、二次距离(L2)、欧几里德距离等。

纹理特征

纹理是指图像像素灰度集或颜色的某种规律性变化,可认为是灰度(颜色)在空间以一定的形式变化而产生的图案。一般纹理图像中灰度分布具有某种周期性,具有一定的统计特性,而且通常和图像频谱中的高频分量是密切联系的。图像的基本纹理特征主要有六方面:粗糙度(coarseness) 、对比度(contrast ) 、方向度( directionality) 、线像度( line-likeness) 、规整度( regularity) 和粗略度( rough-ness),其中最重要的特征主要是纹理的粗糙度、对比度和方向度。

形状特征

形状是图像的一个显著特征,形状通常被认为是一条封闭的轮廓曲线所包围的区域,对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。描述的结果是对图像区域边界的逼近表示。

多特征综合检索

基于颜色、纹理、形状特征的图像检索都各有优、缺点,分别从不同角度反映图像的某个特征,为了更完整的描述图像内容,有效地提高检索的准确率,人们经常将不同类型的综合特征来检索图像,以取长补短。如综合颜色和纹理特征进行检索,综合颜色和形状特征进行检索,综合纹理和形状特征的检索,综合颜色和空间关系特征的检索等。

高层语义特征

无论是基于颜色、纹理、形状的检索方法,还是多特征综合的检索方法,都是属于对图像低层视觉内容表示的方法。基于颜色特征的图像检索技术将图像从计算机的角度看成一个个离散的像元点,像元之间是孤立的,只能表示图像在整体上所呈现的颜色一致性,而无法区分图像内部特征;基于纹理特征的检索是在颜色的基础上,考虑了相邻像元之间的关系,提出了规整度、粗糙度、方向度等来衡量图像的线性特征;基于形状的检索则将图像分割成封闭的区域,屏蔽图像中的诸如背景等细节元素,更加逼近人对图像的认知。

实际上图像是人对世界认知的间接表示,一幅图像充满了丰富语义信息,而不仅仅是颜色、纹理、形状,除此之外,图像上充满了一个个实体对象,对象之间在空间上存在某种关系,一幅或一系列图像可以表示一个具体的场景和动作,甚至某些图像蕴含了著作者丰富的感情色彩和寓意。

对象类别与空间关系

用图像中的对象及对象间的空间关系特征来进行图像检索一直是图像数据库检索的重要研究方向,Tanimoto提出了用图元方法来表示图像中的实体,并提出了用图元来作为图像对象索引。随后被Chang采纳,并提出用二维符号串(2D-String)的表示方法来进行图像空间关系的检索,该方法简单并且对于部分图像来说可以从2D-String重构它们的符号图,因此被许多人采用和改进:Jungert根据图像对象的最小包围盒分别在x轴上和y轴上的投影区间之间的交叠关系来表示对象之间的空间关系;Lee和Hsu等人提出了2DC-String的方法;Nabil综合2D-String方法和二维平面中对象之间的点集拓扑关系,提出了2D-PIR检索方法。

对    图像内容的理解上升到了对象及其空间关系的理解,弥补了前面提到的方法中缺少空间信息约束的缺陷,如下是空间关系语义提取的结构图:

情感语义

图像表达的情感语义相对其他特征而言,具有更多的主观成分,它涉及到人的认知模型、文化背景以及美学标准。

目前只是在艺术图像这个特定领域对于图像的情感语义有了一定程度的研究。

除了颜色之外,纹理的疏密、线条的倾斜度、光滑度不同所表达的情感语意也截然不同,光滑的纹理给人细腻感,粗糙的纹理给人苍老感,坚硬的纹理给人以刚强感。正方形易给人庄重感, 三角形的锐角易产生好斗和进取的感觉, 而圆形则容易产生松弛平易的运动感。

基于情感的图像检索系统框架图如下所示:

以用户情感为线索检索图像,其目标是以图像可能激发的人的主观体验(即情感语义特征,或者感性特征)为中间桥梁,实现用户检索需求与图像之间的匹配。其检索流程包括感性提问的接收和转化、检索匹配、检索结果的反馈、相关反馈等几个过程。

国内外系统实例简介

QBIC

http://wwwqbic.almaden.ibm.com

IBM 的QBIC(Query ByImage Content) 是第一个商业性的CBIR 系统。它提供了基于颜色、纹理、形状和手绘草图的图像索引方法。颜色特征的表达采用了平均色和颜色直方图两种方法;纹理特征的表达采用了纹理的粗糙度、对比度和方向性三者的综合。目前,QBIC 系统的基于内容检索技术已经在IBM数字图书馆中得到了应用,实现了自动索引、归并、对比、特征抽取和翻译功能。

VisualSeek & Web Seek

http://www.ee.columbia.edu/~afchang/demos.html

Columbia 大学的Visual SEEK 提供了基于色彩和纹理的索引方法。在Visual SEEK 中,整幅图像色彩的分布使用了全局色彩直方图,区域色彩的索引采用二进制色彩集表达方法. 它采用基于小波变换的方法来表示图像的纹理特征。 为加快检索速度,还开发出了基于二叉树的索引算法. 该系统具有Java 浏览器,可以在SGL 、SUN 和IBM PC平台上运行。

PhotoBook

http://vismod.media.mit.edu/vismod/demos/photobook

PhotoBook 是麻省理工学院(MIT) 媒体实验室开发的一套检索、浏览图像的交互式工具,它包含三个子系统分别提取形状、纹理和人脸特征,用户可以分别做基于上述一种特征的检索. 由于目前还没有一种特征可以很好地对图像建模,在PhotoBook的最新版本FourEyes 中,Picard 等提出将人也包括在图像的标注和检索过程中,实验结果显示这种方法对图像的自动标注很有效。

MARS

http://jadzia.ifp.uiuc.edu:8080

MARS (multimedia analysis and retrieval system)系统由美国UIUC 大学开发,其不同之处在于用到了很多领域的知识:计算机视觉、数据库管理系统和信息检索. MARS 系统的注重点不在于单个的最佳特征表示,而在于如何将不同的视觉特征组织成有意义的检索体系,以动态适应不同的用户及应用场合。MARS 系统是正式提出相关反馈的系统,它将相关反馈技术集成到检索的不同层次过程中。

CBIR面临的挑战和问题

综合检索手段

一幅图像的特征多种多样,而且某些特征的索引无法用一个量化值来表示,必须应用多维矢量,导致在综合多特征的检索中,特征矢量更是高达102 量级,大大多于常规数据库的索引能力,因此,需要研究新的索引结构和算法,以高效地支持多特征、异构特征、权重、主键特征方面的查询要求。

计算机视觉、模式识别技术

在上述提到的基于形状和基于对象及其空间关系等高层语义检索中,如何识别图像上的各个对象是检索的基础,这涉及到图像处理、图像理解等计算机视觉和人工智能领域的模式识别技术,由于这些技术本身仍然不成熟,导致检索陷入尴尬的境地,无法深入开展下去。

Web环境下的通用检索方法

网络环境下,图像文件的自动获取与普通HTML文档的抓取没有什么本质区别,不同之处在于网络环境下存在着不同格式、大小、类型及不同领域内的海量多元图像,这决定了CBIR系统中索引过程的复杂性,同时从用户体验的角度讲,网络环境下用户对响应时间的要求比较苛刻。寻找一个高效、通用的检索方法,以及符合用户交互习惯的检索流程,是Web环境下CBIR系统必须解决的问题。

缺乏客观的评价标准

目前基于内容检索结果的评价方法采用的是传统信息检索领域的查全率和查准率。人在使用系统时采取的检索手段十分有限,人对图像内容认知上的主观性使得很难定义一个客观的标准,因而很难定义一个好的评价方法。同时,对于检索效率的评价也将是今后研究中需要解决的问题。

总结

基于内容的图像检索是一门交叉学科,其研究涉及计算机图形学、图像处理、图像理解、模式识别、人工智能、神经网络及数据库技术以及艺术、认知学、心理学等。基于低层图像视觉特征的内容检索已经取得了一定的成果,但是基于高层语义内容的检索都处于实验阶段;同时,在网络环境下的基于在线方式的图像检索具有十分重要的意义和巨大的挑战性。

转载请注明出处:http://blog.csdn.net/lsh_2013/article/details/47300315

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-12 22:57:45

基于内容的图像检索技术的相关文章

转:基于内容的视频分析与检索

摘要 文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况,并简要介绍了现阶段在这方面的研究热点及以后要做的工作. 一.问题的提出: 互联网的出现给人类带来了很大的便利,特别是实现资源共享之后的互联网,但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢?而90年代以来,多媒体技术和网络技术的突飞猛进,人们正快速的进入一个信息化社会.现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据,出现了数字图书馆.数字博物馆.数字电影.可视电话.交互电视.会议电视

【读书笔记】《推荐系统(recommender systems An introduction)》第三章 基于内容的推荐

基于内容的推荐的基本推荐思路是:用户喜欢幻想小说,这本书是幻想小说,则用户有可能喜欢这本小说 两方面要求:(1)知道用户的喜好:(2)知道物品的属性 基于内容的推荐相比协同过滤方法(个人观点):协同过滤用到了大量用户的群体行为特征,两个特点,(1)要大量用户,(2)除了用户的行为之外,不需要其他信息:基于内容的推荐,需要用户和物品的额外信息,如:用户喜好.物品属性等等,但是不需要存储.处理大量的用户数据. 基于内容的推荐和基于知识的推荐没有明确界限,两者区别:前者更侧重于提取物品属性,后者更侧重

Recommender Systems基于内容的推荐

基于内容的推荐的基本推荐思路是:用户喜欢幻想小说,这本书是幻想小说,则用户有可能喜欢这本小说 两方面要求:(1)知道用户的喜好:(2)知道物品的属性 基于内容的推荐相比协同过滤方法(个人观点):协同过滤用到了大量用户的群体行为特征,两个特点,(1)要大量用户,(2)除了用户的行为之外,不需要其他信息:基于内容的推荐,需要用户和物品的额外信息,如:用户喜好.物品属性等等,但是不需要存储.处理大量的用户数据. 基于内容的推荐和基于知识的推荐没有明确界限,两者区别:前者更侧重于提取物品属性,后者更侧重

基于哈希的图像检索技术

为什么在图像检索里面使用到哈希(hashing)算法? 基于哈希算法的图像检索方法将图片的高维内容特征映射到汉明空间(二值空间)中,生成一个低维的哈希序列来表示一幅图片,降低了图像检索系统对计算机内存空间的要求,提高了检索速度,能更好的适应海量图片检索的要求. 最近或者最近邻问题在大规模的数据查询中用得非常多.但是他们都会遇到一个问题,就是"维数灾难".也就是说当数据的维数太大的时候,之前的那些索引方法(如KD树)就不能起到作用,这时候新的方法就很有必要,哈希算法满足了这个要求. ?

Orchard 基于 ASP.NET MVC 技术的免费开源内容管理系统

Orchard 是由微软公司创建,基于 ASP.NET MVC 技术的免费开源内容管理系统: 可用于建设博客.新闻门户.企业门户.行业网站门户等各种网站 简单易用的后台界面 性能稳定,功能齐全 热拔插模块化架构提供超强可扩展性 BSD 协议授权,可用于商业闭源项目 下载地址:https://orchard.codeplex.com/releases/view/119931 相关博客:http://www.orchardch.com/Blog 一个基于Orchard的开源CRM --coevery

个性化推荐系统原理介绍(基于内容过滤/协同过滤/关联规则/序列模式)

个性化推荐根据用户兴趣和行为特点,向用户推荐所需的信息或商品,帮助用户在海量信息中快速发现真正所需的商品,提高用户黏性,促进信息点击和商品销售.推荐系统是基于海量数据挖掘分析的商业智能平台,推荐主要基于以下信息: 热点信息或商品 用户信息,如性别.年龄.职业.收入以及所在城市等等 用户历史浏览或行为记录 社会化关系 基于人口统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相

用VC++实现图像检索技术(转)

一. 理论和方法介绍 a) 采用颜色检索方法的目的: 对多媒体数据的检索,早期的方法是用文本将多媒体数据进行标识,这显然不是基于多媒体信息本身内容的检索,对多媒体数据中包含的信息是一中及大的浪费: 基于内容的检索是多媒体数据库的关键技术,如何实现这块技术,是值得商榷的,而最好的方法是使用无需领域知识的检索方法,因此,基于颜色的方法就是实现的关键: 本文介绍了颜色直方图和颜色对方法在基于内容检索时的实现思路和理论: 其实颜色直方图简单来说,就是统计图像中具有某一特定颜色的象素点数目而形成的各颜色的

两项基于网络的“黑客”技术

两项基于网络的“黑客”技术 软件开发和测试中网络环境迁移和数据分析 1   导读 关于智能路由器的这两项技术的介绍,想想还是搞个比较有噱头的标题才能吸引人进来细看的.本文确实是介绍的两个关于智能路由器的hack技术,但是却是将这两项技术用于软件开发过程中的正途中的.当然如果有悟性,也可以将此技术用于不违法的恶作剧玩一下也无妨. 本文提到的两个基于网络的hack技术: DNS劫持 数据抓包 基本本质上就是路由器设备的两个主要网络功能: 网关配置功能 网关数据中转功能 但是用于软件开发的正途,就变换

基于内容的视频搜索引擎

项目介绍:随着视频类型的增加和数据量的日益庞大,如何有效地组织和管理这些数据,使人们能够方便地从大量视频数据中找到自己感兴趣的相关视频片段已成为一种迫切的需求,而能够满足这一需求的技术便是目前人们普遍关注的基于内容的视频检索技术(CBVR, Content-Based Video Retrieval).CBVR相对于传统的检索系统而言有很大的不同.一方面,CBVR中检索的对象不再是视频数据本身,而是从视频数据中提取出的“内容”描述数据:另一方面,检索的方式也更加多样化,可以像文本检索系统一样,通