如何用 AI 实现视频结构化管理?

继图片之后,视频结构化成为了深度学习领域又一个热点。相比图片,视频内容无疑具有更大的复杂性。面对不同场景的视频结构化需求,需要采用什么策略才能取得最大化的效果? AI 视频结构化对于互联网、广电等行业的变革又有什么样的价值?

在 4 月 20 日 QCon 全球软件开发大会上,七牛云人工智能实验室首席架构师姚唐仁分享了在深度学习视频结构化的实践经验。

1. 人工视频摘要与 AI 视频结构化的优势

根据哈佛商学院的研究,视觉是人获取信息最主要的方式,占全部感官的 83%。因为通过图片和视频的载体,我们能获得的信息量是最大的。相比静态的图片,动态的视频增加了时间的维度,拥有更丰富的组合性。根据目前网络视频的情况,整个国内视频规模依旧保持高速增长。

其实,视频规模增长不仅限于互联网行业。许多行业可能存有更多视频数据,广电行业就是其中之一。广电行业不仅面临视频数据的爆发式增长,更多情况下还受困于存量视频数据的管理。面对海量的存量和增量视频数据,传统的手工视频摘要方法就会暴露出以下缺陷:

  • 内容不完整:当看到一个视频的时候,每个人都会有自己的关注点。而对于关注点外的内容就会有不同程度的忽视。每个视频忽视一部分累积起来就会造成巨大的信息缺失。
  • 依赖经验:人工视频摘要在很大程度上会依赖审核人员的经验,描述结果往往就是相应人员对于这个视频的理解。而当审核团队中加入了许多新手后,描述可能就不够精准、丰富。
  • 实时性差:人工审核只能在事件发生后很长一段。面对突然爆发的数据增长,人工几乎不可能做到实时审核、标注,造成实时性较低的结果。
  • 时效性差:当某些特定事件(明星丑闻、事件反转)发生时,同一视频在事件前后会带有不同的标签(例如:某当红艺人,在发生涉毒丑闻后,被列为「劣迹艺人」)人工标注很难根据突发情况快速批量上线或下架相关视频。

面对视频处理过程中这么多的问题,用人力结局显然会造成巨大的成本。这个时候,AI 视频结构化就是最好的解决方案。

?
优势 1:识别范围广
人摘要时,关注点非常有限,机器没有这个问题。利用机器学习进行识别的第一个优势在于能够不断增加识别的广度。可能最初的模型识别的内容不够多,但随着机器学习模型的不断迭代,识别的内容和准确性也都会随之大幅提高。

优势 2:效率高
GPU 机器的效率远超过人的效率,而且机器可以持续运行,人摘要视频受限于物理播放的时间,而机器可以随着物理计算能力和模型效率的提高来提升结构化速率。

优势 3:可迭代
我们通过模型的迭代能够不断优化内容识别的准确性。

优势 4:创新基础

有了这样一个高效的方式,而不是差异化对内容的认知,这样的方式可以对业务带来很多的创新。

  • 内容审核:随着图片和视频取代文字成为主流的传播方式,针对图片和视频的内容审核正变得越来越重要。比如说艺人发生了劣迹行为,需要立即对他封禁。如果我们完成了内容视频结构化,就非常容易找到与他相关的视频。另外,还可以对视频的内容进行检索、编目,这些都是广编里面需要的功能。
  • 广告植入:当我们进行广告投放的时候,能够实现广告定向投放。比如在视频中所有易拉罐的罐身上都打上想要的内容,完成广告植入。
  • 热点预测:比如当一些热点事件发生时,我们能分析出这个事件的特征标签,并且把相关标签相关的视频进行关联和推荐。类似的功能对于互联网运营具有极大的价值。

2. AI 视频结构化的实现步骤

2.1 视频的分解

首先,一个视频里面我们首先要分解的不同场景,不同的镜头,再对里面的内容进行识别。 例中是我们的一个视频分类的标注系统,其实这个标注的系统过程,其实也是我们对这个内容的理解,怎么去做结构化的识别方向。

从模型角度讲,我们对内容的识别要做哪些方面?首先第一个我们要进行分割,分割是镜头的拆割。拆割之后要理解一段镜头所表达的主题,进一步根据帧来识别里面的内容,按照人、物、场景的维度来做。

2.2 视频结构化描述

举个例子,当我们要描述一个足球视频的时候,会把它分成三级。

  • 第一级是视频中的基本元素:球员、足球、草坪、文字。同时,草坪不是普通的草坪,是足球场;文字不是无意义的文字,是场边广告牌。
  • 第二级是视频中的场景:巴塞罗那队参加的一场西甲联赛。
  • 第三级是一个完整的故事:体育新闻正在报道一场球赛,巴塞罗那队的梅西率队赢得了比赛。

?

拿到一段棒球视频,可以这么来处理:

  • 第一步是将它截帧,进行帧的内容识别。
  • 第二步要做一些光流,目的是获取运动信息。视频里面运动信息比较复杂,而做了光流之后就更易于描述前后帧之间位置的变化,这样就能描述一个运动。描述出运动之后,通过运动信息场景进行关联,判断这是棒球比赛。
  • 第三步是借助声音辅助判断,可以根据语音中识别到的信息,对画面信息进行补充。
  • 最后是利用视频画面中其他的信息,例如周边广告、字幕、台标等相关信息辅助判断。通过这些信息,我们能知道这个场景属于哪个分类,是综艺还是新闻。

2.3 深度学习训练平台

模型训练是很重要的关节,而且视频的数据量非常大,需要一个高效的深度学习平台来支撑模型训练、视频分析的前提。为了能够提高学习的效率,七牛云深度学习平台从数据的收集、标注、清洗、过滤,到训练、推理、上线,完成了整个流水线的搭建,并且不断进行迭代。

?

?面对数量庞大、格式各异的视频,我们将整个过程进行解耦。以分布式队列的方式进行模型训练,还需要对模型进行融合,取得更好的效果。

我们视频结构化的策略,是先将视频按镜头分拆,并根据主题分类,将视频里面的人、物、场景进行解读之后,与图像、声音和文字进行关联。

?这里讲到特征提取,对于不同数据的提取是有差异的特征是每种网络对数据的提取是有差异的。这时候我们就多端网络进行提取,然后进行融合。可以看到示例中网络提取的特征对狗的运动信息特征表达明显。

在视频做主题分类的时候,我们一开始通过 LSTM,把一帧一帧进行串起来,进行 LSTM 网络模型训练。后来,我们采用了 3D 转接的方式,但是由于它的通道是几何级的运算,就会造成巨大的计算量,第三种方法就是先将图片和光流进行融合,再做模型融合。

在模型融合的时候有两种做法,前融合和后融合,前融合是指不同方法提取的特征进行融合。后融合是指网络连接输出之后进行的融合。

刚才讲到提取它的一些特征,但是如果对一个视频抽帧度过高的话,计算量就会变得非常大。目前,我们通常采用一个场景用前面、中间、后面三段视频的做法。抽帧之后再进行融合,这样从效果和计算量来讲,是一个比较平衡有效的做法。

3. 视频结构化注意点和实践经验

3.1 人物信息结构化

人物的关键是在人脸的识别上。在视频里面我们连续帧的播放,每一帧里面脸是在变化,所以我们不仅要检测到人脸,还要对脸进行评价:包括人脸角度、眼镜等遮挡物。最后就是人脸跟踪。比如转向、点头等。

有时候,当人脸跟踪的时候移动到了后脑勺,或者侧角比较高的时候,往往会很难保证较高的准确率。但是,在人脸跟踪的过程中,其实只要抓到评价点,就能知道整个过程跟踪的是同一个对象数据,就能基于此进行评价。基于评价点完成了评价之后,这一段跟踪的人,就会呈现比较高的特征。另外,如果我们将人脸与场景关联之后再进行比对,效果就会更好。

?

人物信息结构化的实践
在进行人脸关联的时候,还可以借助与之相关的关系图谱。关系图谱是整个视频结构化的过程中,非常重要的一点。

举个例子,假设我们在分析一段梅西的比赛视频,但在视频中他的正脸并未面对镜头,只有侧脸。这个时候,我们通过场景分析得出这是一场球赛,通过队服知道比赛双方是谁。我们可以通过在网上获取的信息,知道梅西的球队、教练、队友是谁,并且建立关系图谱。

这个时候就可以将梅西的侧脸和侧脸库中的数据进行比对,比如Top 10 或者Top 20 相比,有了关系图谱之后,这个准确度就能大幅提高。只是侧脸置信度和误点率非常高。

除此之外,我们还可以根据球衣号识别梅西的队友。所以看似是一个比较简单的人脸描述,但是在不同的场景下,就可以更多的进行深度挖掘去描述它。否则机器只是认脸了之后,由于数据信息量不足,跟真实的结果差距非常大。

实践中的注意点

?

在实践中,我们会发现很多问题。比如这是一个新闻中的投票视频,有许多人在投票箱前依次投票,投票人不停地在更换。这个时候,如果用位置比较跟踪,由于在同位置的识别框中一直有人进行投票,结果很有可能会判断始终是同一个人在投票。如果我们能够先根据人物的动作和周围场景,识别出这是一个投票活动,不采取跟踪而是检测。

?这是我们视频结构化的 demo。在这段视频里,我们可以所有人物出现的时间轴连接起来。这样在搜索人物的时候,通过视频结构化识别很轻易的能找到相关的内容。

3.2 物体信息结构化

?
和人不一样,物体识别的时候没有人脸这样明显的特征。这个时候,就可以直接用模型在不同地方进行检测,检测准确度依赖于模型,模型需要较强的泛化能力,能够检测出物体不同角度。

物体信息结构化的实践

这时候,我们就需要将物体出现的时间进行区间合并。比如视频中有一个歌手,他手中的话筒在视频中反复出现,由于话筒在视频中出现的时段不是连续的,我们就需要找到一个比较好的阀值对他进行识别。在新闻、电影等不同的主题中,不同内容的合并有不同的手段。

?
与人脸一样,物体结构化也需要和场景相关联。就像足球案例一样,检测到草坪后,通用的识别里面就是一个草坪,但是通过这个场景判断是在踢球。这个时候输出物体是输出球场,这就是场景上下文之间的关系。

实践中的注意点
在实践中,我们在决定检测帧密度的时候,做过许多尝试。直观上,我们肯定认为是密度越高效果越好。我们选了几个值进行测试:0.1 秒、0.2 秒、0.5 秒、1 秒和 2 秒。经过实践,1 秒时一个比较合适的值。

虽然理论上说检测帧的密度越高越好,但是会带来一些计算量的代价。检测密度为 0.1 秒的时候,计算量就是 1 秒的 10 倍。我们推测一下 1 秒比较合适的原因:大部分视频描述的时候,场景切换不会特别频繁,1 秒以内快速反复切换场景不会带来太好的观看体验,所以在物体检测的时候,以 1 秒为检测密度即可。

3.3 场景识别

?

?当描述这样一张场景照片时,我们第一眼就能看到这个图片能包含什么的内容,动物海星,海浪、室外,海滩。但是在输出标签的时候,我们会输出两个场景标签。为什么标两个?因为物体本身在不同场景中的时候,场景表现不一样。

在这张图片里可以看到,有山、河流,这些元素构成了一个自然景观,同时自然景观从属于室外的范围。这样构建的原因是在结构化的之后,在你搜索的时候会有会有很多作用。比如搜索开会的场景,也可以搜索室内;搜索一座山的时候,也可能搜索景观。通过不同的标签,都能搜到同一个内容。同一个内容,既属于自然景观,但在更大的范围里属于室外的范畴。

实践中的注意点

?

这是一个体育新闻的案例,我们首先要确定场景的主题,是电视娱乐厅、娱乐室还是游戏厅。确定了主题之后,就切入不同的镜头,之后再进行关联检测到分类的时候,才能更准确地描述。

3.4 声音对于识别的帮助

声音在视频中是有用的信息,对于声音内容,我们要分两类处理。

第一类,是声音转文字,我们可以根据视频中的内容,提取主题。所以声音中提取的文字能够辅助确定这样一个主题的。这是我们一般能想到的。

第二类是声纹特征,比如某些场景是没有文字的,比如一个人在那里尖叫或者一个人在那里痛苦,我们就能通过声纹特征来进行识别场景。

这是整个的视频结构化的视图。最底层我们需要一些基础模型,用来识别我们来识别对每个东西对它的场景是什么,物体是什么,它的人脸是什么,还有相关的属性是什么,这个是最基础的模型。
这个模型实践下来,在视频的维度就会有一些特征,视频的帧,光流,还有持续的关系。再往上走,在利用模型和特征,还有实践的时候,怎么来构建结构化的平台?这个平台就是我们要对事件进行描述,最早是去分割视频,然后也通过知识图谱,这个平台就是这么来利用这些东西。

要分割,建立知识图谱,再后来通过底下的模型描述事件。最上层应用是什么,可能是进行内容审核,当然也可能是广告植入,这是一些应用方式的整合。

我觉得视频这个领域的结构化真正来落地也是刚刚开始,也需要更多的人来实践,更多的人来探索。视频时间维度带来的变化很丰富,比如下面的两个例子,一个是反时序,一个是片段化的视频看不出真正的主题,这些方面的问题需要我们持续探索和实践。

原文地址:http://blog.51cto.com/7741292/2112768

时间: 2024-10-07 16:40:14

如何用 AI 实现视频结构化管理?的相关文章

视频结构化相关调研

视频结构化是一种视频内容信息提取的技术,它对视频内容按照语义关系,采用时空分割.特征提取.对象识别等处理手段,组织成可供计算机和人理解的文本信息的技术. 深度学习为视觉和语言之间搭建了一座桥梁https://weibo.com/ttarticle/p/show?id=2309404128390117477519 NLP注意力模型https://mp.weixin.qq.com/s/5miocWSsDyOtUUwiTaUZdw人脑的注意力模型,说到底是一种资源分配模型,注意力总是集中在画面中的某个

阿里云OTS(开放结构化数据服务)可视化管理工具的设计和功能介绍

设计初衷 最近一段时间,工作中一直用阿里云的服务器ECS以及SLB.OTS(开放结构化数据服务)等相关的服务,特别是OTS刚刚商业化,官方还没出一种可视化的管理工具,而且我曾跟阿里云OTS的架构师深入交谈过,虽然他们有推出可视化管理工具的想法,但是无奈由于种种原因,目前暂时未提上日程,而自己又在开发中负责OTS源码的修改以适合公司相应的业务逻辑并且其他人也需要调用我封装的OTS相关的服务,为了方便.高效的快速应用ots,所以一个可视化.方便快捷的OTS管理工具的需求迫在眉睫..so--我决定自己

什么是结构化数据?什么是半结构化数据?

概述 相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等. 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字.符号等信息)而且更适合处理非结构化数据(全文文本.图象.声音.影视.超媒体等信息). 非结构化WEB数据库主要是针对非结构化

Salesforce开源TransmogrifAI:用于结构化数据的端到端AutoML库

AutoML 即通过自动化的机器学习实现人工智能模型的快速构建,它可以简化机器学习流程,方便更多人利用人工智能技术.近日,软件行业巨头 Salesforce 开源了其 AutoML 库 TransmogrifAI.Salesforce Einstein 数据科学高级总监 Shubha Nabar 在 Medium 上撰文介绍了该 AutoML 库,包括工作流程和设计原则等. GitHub 链接:https://github.com/salesforce/TransmogrifAI Transmo

杉岩数据:对象存储是企业海量非结构化数据存储的最佳选择

海量数据的爆炸式增长,使存储技术近五年的发展速度远超过去n年的发展历程.C端用户一个明显的感觉就是:U盘存储容量从过去物以稀为贵的几十M迅速发展到今天几十G.甚至TB级,家用电脑硬盘容量更是TB级标配. 那么,企业级又迎来了怎样的变化? IDC数据显示,到2020年,企业数据总体将达到44ZB,其中80%的数据将会是非结构化数据(图片.视频.归档以及企业级备份等各种数据).显然,海量数据的产生正在促使企业级存储从需求到产品形态都发生了改变. "相对于NAS.SAN这种传统企业级存储解决方案,对象

海量非结构化数据存储难题 ,杉岩数据对象存储完美解决

"过去几年,大数据产业更多关注的是如何处理海量.多源和异构的数据,但我们必须承认这些只是冰山一角.目前,结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据.伴随非结构化数据呈现爆发之势,对象存储市场近两年保持强劲增长,IDC预计,软件定义存储(SDS)市场未来五年复合增长率将达到28.8%." 传统IT架构渐成"过去式" 非结构化数据倒逼存储变革 今天,许多企业已经意识到,结构化数据仅仅是企业所拥有数据的一小部分.与业务信息系统

结构化与面向对象化之应用比较

结构化与面向对象化之应用比较 引言 软件工程中构建工程经常使用两种方法:结构化方法和面对对象方法.结构化方法由艾兹格.迪杰斯特拉在1967年发表<goto陈述有害论>时提出.面向对象方法在80年代起逐步形成.两种方法各有优点,相伴存在至今.下面我们就来分析.探讨结构化程序设计方法与面向对象的方法的区别,以及在现实应用中如何在两种方法中做出选择. 一.结构化方法 1. 基本思想 结构化方法程序设计的基本思想是: a.自顶向下 b.采用模块化技术 c.分而治之 d.逐步求精地将信息系统按功能分解为

2015第27周一非结构化数据

非结构化数据包括以下几个类型: 文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译.当然,流数据中有一些字段需要更加高级的分析和发掘功能. 交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中.人们表达对人.产品的看法和观点,并以文本字段的方式存储.为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术.你需要将文本数据以实体集合的形式展现,并结合其中的关系属性. 图像:图像识别算法已经逐渐成为了主流.此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加

结构化系统开发和面向对象开发方法

结构化系统开发方法: 系统分析员.软件工程师.程序员以及最终用户按照用户至上的原则,自顶向下分析与设计和自底向上逐步实施的建立计算机信息系统的一个过程,是组织.管理和控制信息系统开发过程的一种基本框架. 三部分:管理策略部分:强调系统开发的规划.进程安排.评估.监控和反馈.开发策略部分:任务分解结构:WBS优先级结构.开发经验.开发标准. 开发过程分为:系统规划阶段.系统分析阶段.系统设计阶段.系统实施阶段.系统运行与维护阶段结构化开发早期的程序开发,如C语言,都是用结构化开发方法. 面向对象开