读《中国工程院院士高文:多媒体大数据分析与搜索》总结

原文网址:http://www.csdn.net/article/1970-01-01/2826441

1.中国工程院院士高文带来了名为“多媒体大数据分析与搜索”的主题演讲,深度剖析媒体大数据的存不下、看不清、找不到的三大技术挑战问题,以及解决方案,分别为:超高效视频编码解决压缩问题,在视频编码工具中引入场景模型,获取更好的编码效率;以面向对象检测、跟踪与识别解决模式识别问题,支持ROI、GPS和多摄像机关联;以大规模视觉搜索解决跨摄像头搜索问题,制订新视觉描述子标准来支持有效搜索。

2.现代社会中,大数据来源丰富,更直接让交通、医疗卫生、教育、安全等发生变化,而在智慧城体系中,监控视频是体量最大的大数据。基于此,今天,我主要分享媒体大数据的三个挑战问题。第一,存不下,24小时产生的数据量积累得很大。第二,看不清,用眼睛看,横看竖看,还是看不清楚,可能有时候都要猜来猜去,还需要很有经验的人才能看出来大概。为什么?存的时候做了压缩,压缩时不知将来作何用,为了节省存储量,压得太狠了,再把它解开时基本看不清。第三,找不到。现在摄像头到处都是,摄像头拍到了,但是不是想要找的?不知道,即使看清楚了,一跨摄像头也就找不到了。所以摄像机网络跨摄像头搜索问题也是个难题。

3.刚才说的是从编码的角度,我们有去空间冗余、去时间冗余和去编码冗余三种技术,来把视频流里的冗余去掉,这三种技术包含了许多算法,有变换、滤波、运动补偿、熵编码等等。

4.现在我们提出个支持是ROI,就是编码时候识别出来哪个区域可能是识别要用的区域,把这个区域定义成感兴趣区域,对于感兴趣区域要描绘出来,现在语法里对感兴趣区域有专门的描述,除了这个区域以外还包括其他的,比如你可以放GPS信息、摄像机参数信息。有了这个以后,我在后面编码时候,会针对编码参数进行调整,ROI区域压得轻一点,这样关键的信息丢失的会少一点。

5.现在有一个专门技术是再认证,一个人在一个摄像头里出现过,当你就到第二个摄像头,那么我能够再识别出来你。因为有时候可能不是正脸,靠人脸识别已经不管用了,就要靠颜色、身体、步态、外形等等综合识别就是你。

6.这里面的关键技术,一个是选择特征点,然后选择特征,把这些特征进行聚合、进行压缩、进行点压缩,最后形成个非常小的。举例来说有多小,比如你照了个照片,这个照片有3、4兆大的尺寸,我们从中提出来大概500个bit,连1K都不到,就可以进行搜索了,最高可以到16K,16K检索的效率就更高,我们判断特征好不好是用召回率来判断,我们都希望召回率达到90%,低于90%就认为这个特征没有选好。什么叫召回率90%?我用完整的照片到库里搜出来的东西,和我这用521个去搜,是不是有90%都在我刚才搜的100个里面,如果是的话那你这个特征是可以的,我们是根据这个准则。

7.它后台的技术涉及到,比如数据压缩的技术,涉及到计算机视觉特征提取,涉及到机器学习和视觉挖掘。特征和视觉有关的主要是局部描述子,如果大家对模式识别知道一点的话,里面有个非常好的描述词叫“SIFT特征”,这个特征它有一些特点,它可以保持平移不变、旋转不变、伸缩尺度不变等,有这个特征在识别里面是蛮有用的。但是这个特征有点毛病,一个是专利问题,另外是耗费存储比较大,耗费计算时间比较大。

8.总结一下,对多媒体大数据、对智慧城市或智能城市有三个挑战问题:压缩问题、模式识别问题、视觉搜索问题。针对这些问题,压缩主要是靠提高编码压缩的效率来应对;识别问题我们要想法做好编码,做些ROI的支持,把这些信息尽可能包含进去,使得后面丢失的信息更少一点;视觉搜索的问题可以采用紧缩的描述形式,使得搜索的速度更快,现在这个系统基本上是100万张图片可以在1秒之内完成搜索,这个速度是非常快的。

时间: 2024-11-03 02:02:52

读《中国工程院院士高文:多媒体大数据分析与搜索》总结的相关文章

读《《Hadoop核心技术》作者翟周伟 :我与Hadoop的不解之缘》总结

原文网址:http://www.csdn.net/article/1970-01-01/2824661 1.Hadoop在百度得使用 Hadoop在百度的应用领域主要包括:大数据挖掘与分析,日志分析平台,数据仓库系统,用户行为分析系统,广告平台等存储与计算服务. 目前百度的Hadoop集群规模已经超过数十个至多,单集群节点数目超过5000台,每天处理的数据量超过8000TB.同时百度在Hadoop的基础上还开发了自己的日志分析平台.数据仓库系统,以及统一C++编程接口,并对Hadoop深度改造,

Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable

酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑海,有郁闷抓狂的,有出成果喜极而涕的,有不知前途在哪儿的迷茫与不安……总的来说,近一年来,不白活,不虚度,感触良多,不是一言两语能说得清道的明的,有时间可以做个总结,下面还是言归正传谈技术吧. 上篇在了解了Hadoop的目录和源码结构后,说好的要啃源码的,那就得啃.也感谢一直以来关注我.支持我的网友

Hadoop基础之初识大数据与Hadoop

前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,只有20%写程序! 一.引言(大数据时代) 1.1.从数据中得到信息 我们看一张图片: 我们知道这个图片上的人叫张小妹,年龄20岁,职业模特.但是如果只有数据没有图片的话,就没有意义的数据了.所以数据一定是在特定的环境下才有意义的. 我们再来看一张图片: 从这张图片分析出: 从纵向分析,

Hadoop Illuminated——Chapter3 Why do I Need Hadoop?

2019-11-25 22:13:53 GitHub:https://github.com/elephantscale/HI-labs/tree/master/hadoop-admin 作者Github:https://github.com/markkerzner 作者Github:https://github.com/sujee 英语好句:It is a minuscule token of thanks from both of us to the Hadoop community 这是我们

Hadoop实战视频教程完整版 完整的Hadoop大数据视频教程

分享一套迪伦老师的完整的Hadoop实战视频教程,教程从学习Hadoop需要的数据库.Java和Linux基础讲起,非常适合零基础的学员,课程最后结合了实战项目演练,理论结合实战,深入浅出,绝对是当前最为完整.实战的Hadoop教程. <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询QQ:1337192913(小公子)

Hadoop小文件解决之道之一 Hadoop archive

简介 hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存. hadoop Archives可以有效的处理以上问题,他可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件,并且可以做为mapreduce任务的输入. 用法 hadoop Archives可以使用archive工具创建,同上一篇讲的distcp一样,archive也是一个mapre

Hadoop中WordCount代码-直接加载hadoop的配置文件

Hadoop中WordCount代码-直接加载hadoop的配置文件 在Myeclipse中,直接编写WordCount代码,代码中直接调用core-site.xml,hdfs-site.xml,mapred-site.xml配置文件 package com.apache.hadoop.function; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import 

基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建

能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事. 现将前期手里面的一个项目做一个大致的总结,与大家一起分享.交流.进步.项目现在正在线上运行,项目名--基于Hadoop的数据分析综合管理平台. 项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-->热点话题发现-->报表"实时"展示,使用到的技术也是当今互联网公司常用的技术:Hadoop.Mahout.HBase.Spring Data Had

[Hadoop in Action] 第2章 初识Hadoop

Hadoop的结构组成 安装Hadoop及其3种工作模式:单机.伪分布和全分布 用于监控Hadoop安装的Web工具 1.Hadoop的构造模块 (1)NameNode(名字节点) Hadoop在分布式计算和分布式存储中都采用了主/从结构.NameNode位于HDFS的主端,它指导从端的DataNode执行底层的I/O任务.NameNode是HDFS的书记员,它跟踪文件如何被分割成文件块,而这些块又被哪些节点存储,以及分布式文件系统的整体运行状态是否正常. 运行NameNode消耗大量的内存和I

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院

1.1 Hadoop简介 从Hadoop官网获得Hadoop的介绍:http://hadoop.apache.org/ (1)What Is Apache Hadoop? TheApache Hadoop project develops open-source software for reliable, scalable, distributed computing. TheApache Hadoop software library is a framework that allows f