视频字幕的介绍
视频字幕一般分为两类:
- 标注字幕:这种字幕是通过后期制作合成到视频流中去的,包含了对当前视频内容的语义描述。如:在线视频课程的字幕,新闻联播的字幕等。
- 场景字幕:这种字幕是视频中的环境或物体本身带有的文字。如路牌上的路名,服装上的名字,产品的商标等。
我们要介绍的,就是第一类标注字幕。
与可以直接进行光学字符识别(Optical Character Recognition)的情况相比,视频字幕的提取面临如下几个问题:
- 视频图像的复杂背景使字幕提取和分割变得困难。
- 为避免遮挡图像的主体部分,许多视频字幕的字符尺寸都相当小,导致分辨率低。
- 数字视频采用有损压缩方式的格式存贮,再次降低了分辨率。
然而,作为标注字幕,也有以下明显的特点:
- 字幕的尺寸是限定在一定范围,且大小都基本相等。
- 字幕按照水平方向排列形式聚焦在一起。
- 采用边影,边影是字幕前景或衬底颜色的补色。
利用这些特性,又可以降低字幕的提取难度,并使提取出来的字幕具有更高的准确度。
视频字幕的识别
视频字幕的识别主要经过以下步骤:字幕检测、字幕定位、字幕抽取和字幕识别。
图示如下:
时间: 2024-08-13 03:20:17