读《中国工程院院士高文：多媒体大数据分析与搜索》总结

原文网址：http://www.csdn.net/article/1970-01-01/2826441

1.中国工程院院士高文带来了名为“多媒体大数据分析与搜索”的主题演讲，深度剖析媒体大数据的存不下、看不清、找不到的三大技术挑战问题，以及解决方案，分别为：超高效视频编码解决压缩问题，在视频编码工具中引入场景模型，获取更好的编码效率；以面向对象检测、跟踪与识别解决模式识别问题，支持ROI、GPS和多摄像机关联；以大规模视觉搜索解决跨摄像头搜索问题，制订新视觉描述子标准来支持有效搜索。

2.现代社会中，大数据来源丰富，更直接让交通、医疗卫生、教育、安全等发生变化，而在智慧城体系中，监控视频是体量最大的大数据。基于此，今天，我主要分享媒体大数据的三个挑战问题。第一，存不下，24小时产生的数据量积累得很大。第二，看不清，用眼睛看，横看竖看，还是看不清楚，可能有时候都要猜来猜去，还需要很有经验的人才能看出来大概。为什么？存的时候做了压缩，压缩时不知将来作何用，为了节省存储量，压得太狠了，再把它解开时基本看不清。第三，找不到。现在摄像头到处都是，摄像头拍到了，但是不是想要找的？不知道，即使看清楚了，一跨摄像头也就找不到了。所以摄像机网络跨摄像头搜索问题也是个难题。

3.刚才说的是从编码的角度，我们有去空间冗余、去时间冗余和去编码冗余三种技术，来把视频流里的冗余去掉，这三种技术包含了许多算法，有变换、滤波、运动补偿、熵编码等等。

4.现在我们提出个支持是ROI，就是编码时候识别出来哪个区域可能是识别要用的区域，把这个区域定义成感兴趣区域，对于感兴趣区域要描绘出来，现在语法里对感兴趣区域有专门的描述，除了这个区域以外还包括其他的，比如你可以放GPS信息、摄像机参数信息。有了这个以后，我在后面编码时候，会针对编码参数进行调整，ROI区域压得轻一点，这样关键的信息丢失的会少一点。

5.现在有一个专门技术是再认证，一个人在一个摄像头里出现过，当你就到第二个摄像头，那么我能够再识别出来你。因为有时候可能不是正脸，靠人脸识别已经不管用了，就要靠颜色、身体、步态、外形等等综合识别就是你。

6.这里面的关键技术，一个是选择特征点，然后选择特征，把这些特征进行聚合、进行压缩、进行点压缩，最后形成个非常小的。举例来说有多小，比如你照了个照片，这个照片有3、4兆大的尺寸，我们从中提出来大概500个bit，连1K都不到，就可以进行搜索了，最高可以到16K，16K检索的效率就更高，我们判断特征好不好是用召回率来判断，我们都希望召回率达到90%，低于90%就认为这个特征没有选好。什么叫召回率90%？我用完整的照片到库里搜出来的东西，和我这用521个去搜，是不是有90%都在我刚才搜的100个里面，如果是的话那你这个特征是可以的，我们是根据这个准则。

7.它后台的技术涉及到，比如数据压缩的技术，涉及到计算机视觉特征提取，涉及到机器学习和视觉挖掘。特征和视觉有关的主要是局部描述子，如果大家对模式识别知道一点的话，里面有个非常好的描述词叫“SIFT特征”，这个特征它有一些特点，它可以保持平移不变、旋转不变、伸缩尺度不变等，有这个特征在识别里面是蛮有用的。但是这个特征有点毛病，一个是专利问题，另外是耗费存储比较大，耗费计算时间比较大。

8.总结一下，对多媒体大数据、对智慧城市或智能城市有三个挑战问题：压缩问题、模式识别问题、视觉搜索问题。针对这些问题，压缩主要是靠提高编码压缩的效率来应对；识别问题我们要想法做好编码，做些ROI的支持，把这些信息尽可能包含进去，使得后面丢失的信息更少一点；视觉搜索的问题可以采用紧缩的描述形式，使得搜索的速度更快，现在这个系统基本上是100万张图片可以在1秒之内完成搜索，这个速度是非常快的。

时间： 2024-11-03 02:02:52

读《中国工程院院士高文：多媒体大数据分析与搜索》总结

读《中国工程院院士高文：多媒体大数据分析与搜索》总结的相关文章

读《《Hadoop核心技术》作者翟周伟：我与Hadoop的不解之缘》总结

Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable

Hadoop基础之初识大数据与Hadoop

Hadoop Illuminated——Chapter3 Why do I Need Hadoop?

Hadoop实战视频教程完整版完整的Hadoop大数据视频教程

Hadoop小文件解决之道之一 Hadoop archive

Hadoop中WordCount代码-直接加载hadoop的配置文件

基于Hadoop的数据分析综合管理平台之Hadoop、HBase完全分布式集群搭建

[Hadoop in Action] 第2章初识Hadoop

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院