avi数据格式

因为要学习ffmpeg,顺面研究了一下avi容器,好了解ffmpeg怎么在容器中读取数据流的。

AVI(Audio Video Interleaved的缩写)是一种RIFF(Resource Interchange File Format的缩写)文件格式,多用于音视频捕捉、编辑、回放等应用程序中。通常情况下,一个AVI文件可以包含多个不同类型的媒体流(典型的情况下有一个音频流和一个视频流),不过含有单一音频流或单一视频流的AVI文件也是合法的。AVI可以算是Windows操作系统上最基本的、也是最常用的一种媒体文件格式。

先来介绍RIFF文件格式。RIFF文件使用四字符码FOURCC(four-character code)来表征数据类型,比如‘RIFF’、‘AVI’、‘LIST’等。注意,Windows操作系统使用的字节顺序是little-endianDWORD类型0xA8B9C0D1在文件(或内存)中存储顺序为:
D1 C0 B9 A8。另外,四字符码中像‘AVI ’一样含有空格也是合法的。

最开始的4个字节是一个四字符码‘RIFF’,表示这是一个RIFF文件;紧跟着后面用4个字节表示此RIFF文件的大小;然后又是一个四字符码说明文件的具体类型(比如AVI、WAVE等);最后就是实际的数据。注意文件大小值的计算方法为:实际数据长度 +4(文件类型域的大小);也就是说,文件大小的值不包括‘RIFF’域和“文件大小”域本身的大小。

RIFF文件的实际数据中,通常还使用了列表(List)和块(Chunk)的形式来组织。列表可以嵌套子列表和块。其中,列表的结构为:‘LIST’ listSize listType listData ——‘LIST’是一个四字符码,表示这是一个列表;listSize占用4字节,记录了整个列表的大小;listType也是一个四字符码,表示本列表的具体类型;listData就是实际的列表数据。注意listSize值的计算方法为:实际的列表数据长度
+4(listType域的大小);也就是说listSize值不包括‘LIST’域和listSize域本身的大小。再来看块的结构:ckID ckSize ckData ——ckID是一个表示块类型的四字符码;ckSize占用4字节,记录了整个块的大小;ckData为实际的块数据。注意ckSize值指的是实际的块数据长度,而不包括ckID域和ckSize域本身的大小。(注意:在下面的内容中,将以LIST (listType (listData))的形式来表示一个列表,以ckID (ckData) 的形式来表示一个块,如[
optional element ]中括号中的元素表示为可选项。)

文件格式

接下来介绍AVI文件格式。AVI文件类型用一个四字符码‘AVI ’来表示。整个AVI文件的结构为:一个RIFF头 + 两个列表(一个用于描述媒体流格式、一个用于保存媒体流数据) + 一个可选的索引块。AVI文件的展开结构大致如下:

/*
* heres the general layout of an AVI riff file (new format)
*
* RIFF (3F??????) AVI <- not more than 1 GB in size
* LIST (size) hdrl
* avih (0038)
* LIST (size) strl
* strh (0038)
* strf (????)
* indx (3ff8) <- size may vary,should be sector sized
* LIST (size) strl
* strh (0038)
* strf (????)
* indx (3ff8) <- size may vary,should be sector sized
* LIST (size) odml
* dmlh (????)
* JUNK (size) <- fill to align to sector - 12
* LIST (7f??????) movi <- aligned on sector - 12
* 00dc (size) <- sector aligned
* 01wb (size) <- sector aligned
* ix00 (size) <- sector aligned
* idx1 (00??????) <- sector aligned
* RIFF (7F??????) AVIX
* JUNK (size) <- fill to align to sector -12
* LIST (size) movi
* 00dc (size) <- sector aligned
* RIFF (7F??????) AVIX <- not more than 2GB in size
* JUNK (size) <- fill to align to sector - 12
* LIST (size) movi
* 00dc (size) <- sector aligned
*
*-===================================================================*/

‘hdrl‘

首先,RIFF (‘AVI‘…)表征了AVI文件类型。然后就是AVI文件必需的第一个列表——‘hdrl‘列表,用于描述AVI文件中各个流的格式信息(AVI文件中的每一路媒体数据都称为一个流)。‘hdrl‘列表嵌套了一系列块和子列表——首先是一个‘avih‘块,用于记录AVI文件的全局信息,比如流的数量、视频图像的宽和高等,可以使用一个AVIMAINHEADER数据结构来操作:

typedef struct _avimainheader {
FOURCC fcc; // 必须为‘avih’
DWORD cb; // 本数据结构的大小,不包括最初的8个字节(fcc和cb两个域)
DWORD dwMicroSecPerFrame; //视频帧间隔时间(以微秒为单位)
DWORD dwMaxBytesPerSec; // 这个AVI文件的最大数据率
DWORD dwPaddingGranularity; // 数据填充的粒度
DWORD dwFlags; // AVI文件的全局标记,比如是否含有索引块等
DWORD dwTotalFrames; // 总帧数
DWORD dwInitialFrames; // 为交互格式指定初始帧数(非交互格式应该指定为0)
DWORD dwStreams; // 本文件包含的流的个数
DWORD dwSuggestedBufferSize; // 建议读取本文件的缓存大小(应能容纳最大的块)
DWORD dwWidth; //视频图像的宽(以像素为单位)
DWORD dwHeight; //视频图像的高(以像素为单位)
DWORD dwReserved[4]; // 保留
} AVIMAINHEADER;

‘strl‘

然后,就是一个或多个‘strl‘子列表。(文件中有多少个流,这里就对应有多少个‘strl‘子列表。)每个‘strl‘子列表至少包含一个‘strh‘块和一个‘strf‘块,而‘strd‘块(保存编解码器需要的一些配置信息)和‘strn‘块(保存流的名字)是可选的。首先是‘strh‘块,用于说明这个流的头信息,可以使用一个AVISTREAMHEADER数据结构来操作:

typedef struct _avistreamheader {
FOURCC fcc; // 必须为‘strh’
FOURCC fccType; // 流的类型:‘auds’(音频流)、‘vids’(视频流)、
//‘mids’(MIDI流)、‘txts’(文字流)
FOURCC fccHandler; // 指定流的处理者,对于音视频来说就是解码器
DWORD dwFlags; // 标记:是否允许这个流输出?调色板是否变化?
WORD wPriority; // 流的优先级(当有多个相同类型的流时优先级最高的为默认流)
WORD wLanguage;
DWORD dwInitialFrames; // 为交互格式指定初始帧数
DWORD dwScale; // 这个流使用的时间尺度
DWORD dwRate;
DWORD dwStart; // 流的开始时间
DWORD dwLength; // 流的长度(单位与dwScale和dwRate的定义有关)
读取这个流数据建议使用的缓存大小
DWORD dwQuality; // 流数据的质量指标(0 ~ 10,000)
DWORD dwSampleSize; // Sample的大小
struct {
short int left;
short int top;
short int right;
short int bottom;
} rcFrame; // 指定这个流(视频流或文字流)在视频主窗口中的显示位置
//视频主窗口由AⅥMAINHEADER结构中的dwWidth和dwHeight决定
} AVISTREAMHEADER;

‘strf‘

然后是‘strf‘块,用于说明流的具体格式。如果是视频流,则使用一个BITMAPINFO数据结构来描述;如果是音频流,则使用一个WAVEFORMATEX数据结构来描述。

当AVI文件中的所有流都使用一个‘strl‘子列表说明了以后(注意:‘strl‘子列表出现的顺序与媒体流的编号是对应的,比如第一个‘strl‘子列表说明的是第一个流(Stream 0),第二个‘strl‘子列表说明的是第二个流(Stream 1),以此类推),‘hdrl‘列表的任务也就完成了,随后跟着的就是AVI文件必需的第二个列表——‘movi‘列表,用于保存真正的媒体流数据(视频图像帧数据或音频采样数据等)。那么,怎么来组织这些数据呢?可以将数据块直接嵌在‘movi‘列表里面,也可以将几个数据块分组成一个‘rec‘列表后再编排进‘movi‘列表。(注意:在读取AVI文件内容时,建议将一个‘rec‘列表中的所有数据块一次性读出。)但是,当AVI文件中包含有多个流的时候,数据块与数据块之间如何来区别呢?于是数据块使用了一个四字符码来表征它的类型,这个四字符码由2个字节的类型码和2个字节的流编号组成。标准的类型码定义如下:‘db‘(非压缩视频帧)、‘dc‘(压缩视频帧)、‘pc‘(改用新的调色板)、‘wb‘(音缩视频)。比如第一个流(Stream
0)是音频,则表征音频数据块的四字符码为‘00wb‘;第二个流(Stream 1)是视频,则表征视频数据块的四字符码为‘01db‘或‘01dc‘。对于视频数据来说,在AVI数据序列中间还可以定义一个新的调色板,每个改变的调色板数据块用‘xxpc’来表征,新的调色板使用一个数据结构AVIPALCHANGE来定义。(注意:如果一个流的调色办中途可能改变,则应在这个流格式的描述中,也就是AVISTREAMHEADER结构的dwFlags中包含一个AVISF_VIDEO_PALCHANGES标记。)另外,文字流数据块可以使用随意的类型码表征。

最后,紧跟在‘hdrl‘列表和‘movi‘列表之后的,就是AVI文件可选的索引块。这个索引块为AVI文件中每一个媒体数据块进行索引,并且记录它们在文件中的偏移(可能相对于‘movi‘列表,也可能相对于AVI文件开头)。索引块使用一个四字符码‘idx1‘来表征,索引信息使用一个数据结构来AVIOLDINDEX定义。

typedef struct _avioldindex {
FOURCC fcc; // 必须为‘idx1’
struct _avioldindex_entry {
DWORD dwChunkId; // 表征本数据块的四字符码
DWORD dwFlags; // 说明本数据块是不是关键帧、是不是‘rec ’列表等信息
DWORD dwOffset; // 本数据块在文件中的偏移量
DWORD dwSize; // 本数据块的大小
} aIndex[]; // 这是一个数组!为每个媒体数据块都定义一个索引信息
} AVIOLDINDEX;

注意:如果一个AVI文件包含有索引块,则应在主AVI信息头的描述中,也就是AVIMAINHEADER结构的dwFlags中包含一个AVIF_HASINDEX标记。

还有一种特殊的数据块,用一个四字符码‘JUNK‘来表征,它用于内部数据的队齐(填充),应用程序应该忽略这些数据块的实际意义。

时间: 2024-08-07 00:06:41

avi数据格式的相关文章

AVI 文件格式分析

************************************************************************ AVI 文件格式分析 --- 2014/8/23 16:40:05 ************************************************************************ avi含三部分:文件头.数据块和索引块. 1.文件头包括文件的通用信息,定义数据格式,所用的压缩算法等参数. 2.数据块包含实际数据流,即图

NeHe OpenGL教程 第三十五课:播放AVI

转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线教程的编写,以及yarn的翻译整理表示感谢. NeHe OpenGL第三十五课:播放AVI 在OpenGL中播放AVI: 在OpenGL中如何播放AVI呢?利用Windows的API把每一帧作为纹理绑定到OpenGL中,虽然很慢,但它的效果不错.你可以试试. 首先我得说我非常喜欢这一章节.Jonat

wave文件(*.wav)格式、PCM数据格式

1. 音频简介 经常见到这样的描述: 44100HZ 16bit stereo 或者 22050HZ 8bit mono 等等. 44100HZ 16bit stereo: 每秒钟有 44100 次采样, 采样数据用 16 位(2字节)记录, 双声道(立体声); 22050HZ 8bit  mono: 每秒钟有 22050 次采样, 采样数据用 8 位(1字节)记录, 单声道; 当然也可以有 16bit 的单声道或 8bit 的立体声, 等等. 采样率是指:声音信号在"模→数"转换过程

avi文件格式详解【转】

AVI是音频视频交错(Audio Video Interleaved)的英文缩写,它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式,原先用于Microsoft Video for Windows (简称VFW)环境,现在已被Windows 95/98.OS/2等多数操作系统直接支持.AVI格式允许视频和音频交错在一起同步播放,支持256色和RLE压缩,但AVI文件并未限定压缩标准, 因此,AVI文件格式只是作为控制界面上的标准,不具有兼容性,用不同压缩算法生成的A

《深入理解计算机系统》3.3数据格式,3.4访问信息

数据格式 字 Intel使用"字"(word)来表示16位数据类型 32位数据类型则为双字(double words) 64位数据类型则为四字(quad words) 汇编指令中有很多指令后带一个自负后缀代表操作数的大小 比如数传送指令: movb(传送字节) movw(传送字) movl(传送双字) 注意 浮点类型的后缀也是l,但是浮点数的运行有另外的寄存器,不会产生歧义 比如 movl  整数运算寄存器,整数运算寄存器 movl  浮点运算寄存器,浮点运算寄存器 访问信息 8个整数

计算机系统之汇编---IA32处理器数据格式及数据操作

计算机系统之汇编---IA32处理器数据格式及数据操作 IA32数据格式: Intel用术语"字"表示16位数据类型,因此,称32位数为"双字",称64位数为"四字". Char*这里指的是所有指针类型,注意:c语言新增加的long long是八字节,但是硬件IA32不支持这个类型. 寄存器(8个32位的寄存器,均以%e开头) %eax.%ecx.%edx:调用者保存(数据)寄存器,当过程p调用q,q可以覆盖这些寄存器,但是不会改变p中的数据.

屏幕录像专家exe视频批量翻录成视频avi格式

笔者下载过一些视频,全部是屏幕录像专家录制的exe视频,这些视频没有密码,可以顺利打开看看. 有一日想把这些视频转换成wmv格式放到手机上查看.一个目录下有那么大exe视频.一个个转特别麻烦. 后来想到用windows api发送消息操作屏幕录像专家菜单来转换视频. 程序使用方法: 1 安装一个破解版的 屏幕录像专家.勾选所有 “是的,以后不再提示” 2 把下面的代码编译成exe放到exe视频当前目录或者放到屏幕录像专家上级目录也可以. 3 打开屏幕录像专家,把文件夹往编译好哦screenrec

libsvm的数据格式及制作

1.libsvm数据格式 libsvm使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] … label  目标值,就是说class(属于哪一类),就是你要分类的种类,通常是一些整数. index 是有顺序的索引,通常是连续的整数.就是指特征编号,必须按照升序排列 value 就是特征值,用来train的数据,通常是一堆实数组成.

webapi中配置返回的时间数据格式

web api返回的是标准格式UTC时间,如果要转成我们需要的格式,可以在WebApiConfig.cs的Register函数中新增以下配置来定义返回的时间类型格式: //配置返回的时间类型数据格式 GlobalConfiguration.Configuration.Formatters.JsonFormatter.SerializerSettings.Converters.Add( new Newtonsoft.Json.Converters.IsoDateTimeConverter() {