视频解码

视频解码

在视频解码前,先了解以下几个基本的概念:

  • 编解码器(CODEC):能够进行视频和音频压缩(CO)与解压缩(DEC),是视频编解码的核心部分。
  • 容器/多媒体文件(Container/File):没有了解视频的编解码之前,总是错误的认为平常下载的电影的文件的后缀(avi,mkv,rmvb等)就是视频的编码方式。事实上,刚才提到的几种文件的后缀
    并不是视频的编码方式,只是其封装的方式。一个视频文件通常有视频数据、音频数据以及字幕等,封装的格式决定这些数据在文件中是如何的存放的,封装在一起音频、视频等数据组成的多媒体文件,也可以叫做容器(其中包含了视音频数据)。所以,只看多媒体文件的后缀名是难以知道视音频的编码方式的。
  • 流数据 Stream,例如视频流(Video Stream),音频流(Audio Stream)。流中的数据元素被称为帧Frame

FFmpeg视频解码过程

通常来说,FFmpeg的视频解码过程有以下几个步骤:

  1. 注册所支持的所有的文件(容器)格式及其对应的CODEC av_register_all()
  2. 打开文件 avformat_open_input()
  3. 从文件中提取流信息 avformat_find_stream_info()
  4. 在多个数据流中找到视频流 video stream(类型为MEDIA_TYPE_VIDEO
  5. 查找video stream 相对应的解码器 avcodec_find_decoder
  6. 打开解码器 avcodec_open2()
  7. 为解码帧分配内存 av_frame_alloc()
  8. 从流中读取读取数据到Packet中 av_read_frame()
  9. 对video 帧进行解码,调用 avcodec_decode_video2()

解码过程的具体说明

1. 注册

av_register_all该函数注册支持的所有的文件格式(容器)及其对应的CODEC,只需要调用一次,故一般放在main函数中。也可以注册某个特定的容器格式,但通常来说不需要这么做。

2. 打开文件

avformat_open_input该函数读取文件的头信息,并将其信息保存到AVFormatContext结构体中。其调用如下

AVFormatContext* pFormatCtx = nullptr;
avformat_open_input(&pFormatCtx, filenName, nullptr, nullptr)  

第一个参数是AVFormatContext结构体的指针,第二个参数为文件路径;第三个参数用来设定输入文件的格式,如果设为null,将自动检测文件格式;第四个参数用来填充AVFormatContext一些字段以及Demuxer的private选项。
AVFormatContext包含有较多的码流信息参数,通常由avformat_open_input创建并填充关键字段。

3. 获取必要的CODEC参数

avformat_open_input通过解析多媒体文件或流的头信息及其他的辅助数据,能够获取到足够多的关于文件、流和CODEC的信息,并将这些信息填充到AVFormatContext结构体中。但任何一种多媒体格式(容器)提供的信息都是有限的,而且不同的多媒体制作软件对头信息的设置也不尽相同,在制作多媒体文件的时候难免会引入一些错误。也就是说,仅仅通过avformat_open_input并不能保证能够获取所需要的信息,所以一般要使用

avformat_find_stream_info(AVFormatContext *ic, AVDictionary **options)

avformat_find_stream_info主要用来获取必要的CODEC参数,设置到ic->streams[i]->codec
在解码的过程中,首先要获取到各个stream所对应的CODEC类型和id,CODEC的类型和id是两个枚举值,其定义如下:

enum AVMediaType {
    AVMEDIA_TYPE_UNKNOWN = -1,
    AVMEDIA_TYPE_VIDEO,
    AVMEDIA_TYPE_AUDIO,
    AVMEDIA_TYPE_DATA,
    AVMEDIA_TYPE_SUBTITLE,
    AVMEDIA_TYPE_ATTACHMENT,
    AVMEDIA_TYPE_NB
 }; 

enum CodecID {
    CODEC_ID_NONE,     /* video codecs */
    CODEC_ID_MPEG1VIDEO,
    CODEC_ID_MPEG2VIDEO, ///< preferred ID for MPEG-1/2 video decoding
    CODEC_ID_MPEG2VIDEO_XVMC,
    CODEC_ID_H261,
    CODEC_ID_H263,
...
}

通常,如果多媒体文件具有完整而正确的头信息,通过avformat_open_input即可用获得这两个参数。

4. 打开解码器

经过上面的步骤,已经将文件格式信息读取到了AVFormatContext中,要打开流数据相应的CODEC需要经过下面几个步骤

  • 找到视频流 video stream
    一个多媒体文件包含有多个原始流,例如 movie.mkv这个多媒体文件可能包含下面的流数据
  • 原始流 1 h.264 video
  • 原始流 2 aac audio for Chinese
  • 原始流 3 aac audio for English
  • 原始流 4 Chinese Subtitle
  • 原始流 5 English Subtitle

要解码视频,首先要在AVFormatContext包含的多个流中找到CODEC类型为AVMEDIA_TYPE_VIDEO,代码如下:

    //查找视频流 video stream
    int videoStream = -1;
    for (int i = 0; i < pFormatCtx->nb_streams; i++)
    {
        if (pFormatCtx->streams[i]->codec->codec_type == AVMEDIA_TYPE_VIDEO)
        {
            videoStream = i;
            break;
        }
    }
    if (videoStream == -1)
        return -1; // 没有找到视频流video stream  

结构体AVFormatContext中的streams字段是一个AVStream指针的数组,包含了文件所有流的描述,上述上述代码在该数组中查找CODEC类型为
AVMEDIA_TYPE_VIDEO的流的下标。

  • 根据codec_id找到相应的CODEC,并打开
    结构体AVCodecContext描述了CODEC上下文,包含了众多CODEC所需要的参数信息。

    AVCodecContext* pCodecCtxOrg = nullptr;
    AVCodec* pCodec = nullptr;
    pCodecCtxOrg = pFormatCtx->streams[videoStream]->codec; // codec context
    // 找到video stream的 decoder
    pCodec = avcodec_find_decoder(pCodecCtxOrg->codec_id);
     // open codec
     if (avcodec_open2(pCodecCtxOrg , pCodec, nullptr) < 0)
     return -1; // Could open codec  

    上述代码,首先通过codec_id找到相应的CODEC,然后调用avcodec_open2打开相应的CODEC。

5. 读取数据帧并解码

已经有了相应的解码器,下面的工作就是将数据从流中读出,并解码为没有压缩的原始数据

AVPacket packet;
while (av_read_frame(pFormatCtx, &packet) >= 0)
{
        if (packet.stream_index == videoStream)
        {
            int frameFinished = 0;
            avcodec_decode_video2(pCodecCtx, pFrame, &frameFinished, &packet);
            if (frameFinished)
            {
                doSomething();
            }
        }

    } 

上述代码调用av_read_frame将数据从流中读取数据到packet中,并调用avcodec_decode_video2对读取的数据进行解码。

6. 关闭

需要关闭avformat_open_input打开的输入流,avcodec_open2打开的CODEC

    avcodec_close(pCodecCtxOrg);
    avformat_close_input(&pFormatCtx);  

补充

在配置好FFmpeg的开发环境后,在C++中使用FFmpeg的库函数,会出现解析不出函数的名称链接错误,这是由于FFmpeg库是C语言实现,要在C++调用C函数需要 extern "C"的声明。

extern "C"
{
    # include <libavcodec\avcodec.h>
    # include <libavformat\avformat.h>
    # include <libswscale\swscale.h>
}

哎,博客园的Markdown用着好不方便啊,不知道怎么画流程图....

代码 FFmpeg0.cpp

分类: Media

时间: 2024-10-09 08:50:48

视频解码的相关文章

基于网络流音视频包的音视频解码思路

本篇文章对自己项目中的网络媒体流解码流程进行了梳理和总结.本文中的方法不同于一般打开文件或流进行读写的流程,不需要通过avformat_open_input,avformat_find_stream_info等操作获取AVFormatContext,然后遍历不同流信息.此处直接通过解析音视频sequence header包,获取相应的参数来初始化对应的AVCodec和AVCodecContext,然后使用AVCodecContext进行后续的解码操作.由于项目中直接获取到了音视频包,所以也省去了

[原]零基础学习视频解码之FFMpeg中比较重要的函数以及数据结构

在正式开始解码练习前先了解下关于FFmpeg中比较重要的函数以及数据结构. 1. 数据结构:  (1) AVFormatContext  AVFormatContext是一个贯穿始终的数据结构,很多函数都要用到它作为参数.FFmpeg代码中对这个数据结构的注释是:format I/O context 此结构包含了一个视频流的格式内容.其中存有了AVInputFormat(or AVOutputFormat同一时间AVFormatContext内只能存在其中一个),和AVStream.AVPack

FFmpeg学习1:视频解码

在视频解码前,先了解以下几个基本的概念: 编解码器(CODEC):能够进行视频和音频压缩(CO)与解压缩(DEC),是视频编解码的核心部分. 容器/多媒体文件(Container/File):没有了解视频的编解码之前,总是错误的认为平常下载的电影的文件的后缀(avi,mkv,rmvb等)就是视频的编码方式.事实上,刚才提到的几种文件的后缀并不是视频的编码方式,只是其封装的方式.一个视频文件通常有视频数据.音频数据以及字幕等,封装的格式决定这些数据在文件中是如何的存放的,封装在一起音频.视频等数据

[原]基础学习视频解码之同步视频

在前面几章,我们了解了视频解码的原理,了解了音频解码的原理,也将视频和音频分别放在了相应的解码线程中去了.所以这整个过程中,我们有一个基本无用的电影播放器.它可以播放视频,它也可以播放音频,但是这个并不完整,因为音频和视频并不同步,我们接下来要做的就是将音频和视频同步起来. 音频流有一个采样率,并且视频流具有每秒值的帧.但是,如果我们只是靠只是计算帧和帧速率乘以同步视频,有的情况下,它会声画不同步的. 当我们从av_read_frame()的数据包,它包含了这个包里面的信息的PTS和DTS值.但

[原]零基础学习视频解码之seek

现在,我们要添加一些功能,当你看不能倒带的电影,是不是很烦? 那么函数av_seek_frame功能看起来是多么赏心悦目. 我们将让左,右箭头来回走在影片中通过一个小的向上和向下箭头很多,其中“三多一少”是10秒,“很多”为60秒.因此,我们需要设置我们的主循环,用来捕获击键.然而,当我们得到一个按键,就不能直接称之为函数av_seek_frame.我们所要做的是在我们的主解码循环中,decode_thread循环做相应的处理. 为了检测按键,我们先来看看,看看我们得到了一个SDL_KEYDOW

[原]基础学习视频解码之同步音频

上一篇文章还有部分没有处理,就是音频同步.方式与视频一样:做一个内部视频时钟保持多长时间的视频线轨道和同步到音频. 但是,为什么强迫自己使用视频时钟?我们不得不去改变我们的视频同步的代码,使音频和视频是不是要同步到对方.试想一下,乱七八糟的.因此,让我们抽象的东西:我们要建立一个新的包装功能,get_master_clock,检查的av_sync_type变量,然后调用get_audio_clock,get_video_clock,或任何其他我们要使用的时钟.我们甚至可以使用电脑的时钟,我们称之

[原]基础学习视频解码之视频线程

在上两篇文章[原]零基础学习视频解码之解码图像和[原]零基础学习视频解码之解码声音我们初步了解如何解码视频图像和视频声音.但是这些都是初步简单的解码出来而已,我们的主要功能是处理非常多:它是通过事件循环中运行,读取数据包,并在视频解码.所以,我们要做的就是拆分这些功能:我们将有一个线程,该线程将负责数据包进行解码;这些数据包将被添加到该队列中,并通过相应的音频和视频解码线程读取. 音频线:我们在上一篇已经建立了我们想要的方式; 视频线:视频线会相对比较麻烦一些,因为我们要自己显示自己的视频画面.

[原]零基础学习视频解码之后记

嘿嘿,在此之前从来没有用c写个一个简单的demo,最多也是用c写写数据结构练习题什么的,通过这个学习了解了很多以前不了解的东西. 本人比较懒,做什么事情都是只有三分钟热度,但是一直对ffmpeg解码向往而入门不得.<零基础学习视频解码>系列文章严格意义上来说不算是原创,我无非是将按照http://dranger.com/ffmpeg/这个介绍在Ubuntu 14.04上面用Eclipse+CDT插件去实现了一遍,原文中的很多接口在ffmpeg2.3上面变了,有些接口甚至被删除了,这导致大多数情

[原]零基础学习视频解码系列文章

注:本系列文章的开发环境:Ubuntu 14.04+Eclipse4.3.2+CDT+FFmpeg2.3+SDL1.25 [原]零基础学习视频解码之安装ffmpeg [原]零基础学习视频解码之FFMpeg中比较重要的函数以及数据结构 [原]零基础学习视频解码之解码图像 [原]SDL开发教程 [原]零基础学习视频解码之解码声音 [原]零基础学习视频解码之视频线程 [原]零基础学习视频解码之同步视频 [原]零基础学习视频解码之同步音频 [原]零基础学习视频解码之seek [原]零基础学习视频解码之后

视频解码之软解与硬解

视频解码之软解与硬解 硬解:从字面意思上理解就是用硬件来进行解码,通过显卡的视频加速功能对高清视频进行解码,很明显就是一个专门的电路板(这样好理解-)来进行视频的解码,是依靠显卡GPU的. 软解:字面上理解就是用软件进行解码,这样理解也对,但是实际最总还是要硬件来支持的,这个硬件就是CPU. 既然有这两种不同的解码方式,我们在开发中该如何进行选择?哪个更好? 硬解优缺点: 显卡核心GPU拥有独特的计算方法,解码效率非常高,而且充当解码核心的模块成本并不高.这样不但能够减轻CPU的负担,还有着低功