视频字幕识别的一般流程

视频字幕的介绍

视频字幕一般分为两类:

  1. 标注字幕:这种字幕是通过后期制作合成到视频流中去的,包含了对当前视频内容的语义描述。如:在线视频课程的字幕,新闻联播的字幕等。
  2. 场景字幕:这种字幕是视频中的环境或物体本身带有的文字。如路牌上的路名,服装上的名字,产品的商标等。

我们要介绍的,就是第一类标注字幕

与可以直接进行光学字符识别(Optical Character Recognition)的情况相比,视频字幕的提取面临如下几个问题:

  1. 视频图像的复杂背景使字幕提取和分割变得困难。
  2. 为避免遮挡图像的主体部分,许多视频字幕的字符尺寸都相当小,导致分辨率低。
  3. 数字视频采用有损压缩方式的格式存贮,再次降低了分辨率。

然而,作为标注字幕,也有以下明显的特点:

  1. 字幕的尺寸是限定在一定范围,且大小都基本相等。
  2. 字幕按照水平方向排列形式聚焦在一起。
  3. 采用边影,边影是字幕前景或衬底颜色的补色。

利用这些特性,又可以降低字幕的提取难度,并使提取出来的字幕具有更高的准确度。

视频字幕的识别

视频字幕的识别主要经过以下步骤:字幕检测、字幕定位、字幕抽取和字幕识别。

图示如下:

时间: 2024-08-13 03:20:17

视频字幕识别的一般流程的相关文章

iOS 笔记-SRT视频字幕的解析与同步

srt字幕的格式 1 00:00:31,788 --> 00:00:34,020 {\a3}下面我给大家分享第四个问题 2 00:00:34,412 --> 00:00:35,740 {\a3}如何开办企业 3 00:00:36,140 --> 00:00:37,684 {\a3}如何开办企业呢 4 00:00:37,964 --> 00:00:39,060 {\a3}在这个问题当中 5 00:00:39,268 --> 00:00:41,692 {\a3}我将给大家讲两个方

文通视频文字识别亮相国际广播电影电视设备展览会(BIRTV2015)

 文通视频文字识别亮相国际广播电影电视设备展览会(BIRTV2015) 8月26日,第二十四届北京国际广播电影电视设备展览会(BIRTV2015)在北京盛大开幕,作为"亚洲最具影响力的盛会",4K.媒体融合.制播网络IP化.数字电影等广电领域一大批最新的技术和设备纷纷亮相,国内OCR行业领军企业北京文通科技有限公司的视频文字识别产品全面配装在合作伙伴产品中精彩亮相展览会,不仅解决了视频文字识别的难题,也大幅提高了视频检索效率,引发了广播电台.视频网站及政府舆情监控机构的广泛关注与称

TH-OCR 文通视频文字识别SDK

目前分辨率较低的网页视频截图,网页截图,广告截图,微博截图等是视频文字识别的难题,文通科技特别推出针对视频文字开发的识别引擎——TH-OCR 文通视频文字识别SDK ,完全解决了目前OCR产品对于视频文字无法识别的问题. 文通视频文字识别SDK具有强大的文字定位功能,可以精确定位到视频中的文字位置,定位后,再对所定位文字进行识别,识别结果完全能满足用户需求. TH-OCR 文通视频文字识别SDK功能介绍 支持TIFF.JPEG.PNG.BMP格式图像的读取: 支持avi.rmvb.rm.mp4.

视频文字识别不再难,文通助爱奇艺轻松搞定视频内容检索

互联网在一步一步的改变我们的生活,早期的互联网只有文字,后来发展到了图片+文字的图文时代,而如今我们已经置身于视频时代之中.当微信微博里遍地都是视频的段子,以图片.视频为主的新媒体时代大大丰富了我们的生活,但同时也给视频网站.电视台等行业工作者带来不小的难题,如何在海量视频中检索到想要的视频?国内知名视频网站爱奇艺借助"文通视频文字识别技术"实现了视频检索轻松化,为视频信息检索打开了一扇新的大门. 众所周知,每一个视频网站平台都存在海量视频节目,需要进行分类管理,另外为了应对版权及视频

CCBN2015在京举行视频文字识别产品受关注

 3月26日,以"融合智能网络 畅享数字生活"为主题的第二十三届中国国际广播电视信息网络展览会(CCBN2015)在北京举办,大会汇集了全球范围内数字电视与宽带网络方面的创新成果以及广电新业务的应用.设计与开发技术.国内OCR领军企业文通科技携视频文字识别产品亮相展览会,解决了视频文字识别的大难题,引发了广播电台.视频网站及政府舆情监控机构的广泛关注. 急速更新换代的信息技术加快了广播影视传统媒体的数字化.网络化.智能化进程,同时也给电视台.视频网站等节目制作播出监管机构等带来严峻

Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj

Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj 1. 俩个问题::识别垃圾文件与清理策略1 2. 如何识别垃圾图片1 2.1. 体积过小文件<10kb1 2.2. 增加扩展名对于无扩展名文件1 2.3. 清理非图片(bmp,jpg,jpeg,png)的文件2 2.4. 尺寸过小图片(210*150)2 2.5. 清理广告图片(高度宽度不成比例)超长超宽图片2 2.6. 清理重复图片(此结果不能加入指纹库)2 2.7. 非本类别的图片(人工识别)2

DeepLearning tutorial(5)CNN卷积神经网络应用于人脸识别(详细流程+代码实现)

DeepLearning tutorial(5)CNN卷积神经网络应用于人脸识别(详细流程+代码实现) @author:wepon @blog:http://blog.csdn.net/u012162613/article/details/43277187 本文代码下载地址:我的github 本文主要讲解将CNN应用于人脸识别的流程,程序基于python+numpy+theano+PIL开发,采用类似LeNet5的CNN模型,应用于olivettifaces人脸数据库,实现人脸识别的功能,模型的

陈松松:四步教你轻松添加视频字幕,省时间

每个视频,都是你的金牌业务员 这是我写的第15篇视频营销原创文章 字幕,视频的必杀技! 现在大多数视频都在1-8分钟左右,好像太长的视频很少能看到了. 尤其是原创视频尤为明显! 先解释一下,这里所说的字幕可不是水印,很多朋友经常搞混,字幕是字幕,水印是水印. 你像电视剧,电影,包括你看到的视频栏目,往往演员或主讲人说的什么话,都在视频下方把原话以汉字或者英文等其他语言展现出来,这个就是我们所说的字幕! 有过视频剪辑经验的朋友,都清楚,添加字幕绝对是个细活,很花费时间,我之前并没有重视过这个字幕,

怎样快速下载YouTube视频字幕

八哥Youtube字幕下载使用教程: 八哥YouTube字幕下载网页能做什么? 凡是YouTube上带字幕标签的视频字幕都可以下载成txt文档或者Srt(带时间轴)文档保存下来. (备注说明:点击YouTube右下角字幕图标就可以开启视频字幕,一般为YouTube自带的机器识别字幕,也有用户上传的字幕:) 下载方法: 第一步:打开八哥字幕网页:http://legend.xiantiaokeji.com/shaw/subtitle 第二步:复制你所要下载视频的youtube地址链接: 粘贴到八哥