【基于libRTMP的流媒体直播之 AAC、H264 推送】

这段时间在捣腾基于 RTMP 协议的流媒体直播框架,其间参考了众多博主的文章,剩下一些细节问题自行琢磨也算摸索出个门道,现将自己认为比较恼人的 AAC 音频帧的推送和解析、H264 码流的推送和解析以及网上没说清楚的地方分享给各位。

RTMP 协议栈的实现,Bill 直接使用的 libRTMP,关于 libRTMP 的编译、基本使用方法,以及简单的流媒体直播框架,请参见博文[C++实现RTMP协议发送H.264编码及AAC编码的音视频],言简意赅,故不再赘述。

言归正传,我们首先来看看 AAC 以及 H264 的推送。

不论向 RTMP 服务器推送音频还是视频,都需要按照 FLV 的格式进行封包。因此,在我们向服务器推送第一个 AAC 或 H264 数据包之前,需要首先推送一个音频 Tag [AAC Sequence Header] 以下简称“音频同步包”,或者视频 Tag [AVC Sequence Header] 以下简称“视频同步包”。

AAC 音频帧的推送

我们首先来看看音频 Tag,根据 FLV 标准 Audio Tags 一节的描述:

我们可以将其简化并得到 AAC 音频同步包的格式如下:

音频同步包大小固定为 4 个字节。前两个字节被称为 [AACDecoderSpecificInfo],用于描述这个音频包应当如何被解析。后两个字节称为 [AudioSpecificConfig],更加详细的指定了音频格式。

[AACDecoderSpecificInfo] 俩字节可以直接使用 FAAC 库的 faacEncGetDecoderSpecificInfo 函数来获取,也可以根据自己的音频源进行计算。一般情况下,双声道,44kHz 采样率的 AAC 音频,其值为 0xAF00,示例代码:

根据 FLV 标准 不难得知,[AACDecoderSpecificInfo] 第 1 个字节高 4 位 |1010| 代表音频数据编码类型为 AAC,接下来 2 位 |11| 表示采样率为 44kHz,接下来 1 位 |1| 表示采样点位数 16bit,最低 1 位 |1| 表示双声道。其第二个字节表示数据包类型,0 则为 AAC 音频同步包,1 则为普通 AAC 数据包。

音频同步包的后两个字节 [AudioSpecificConfig] 的结构,援引其他博主图如下:

我们只需参照上述结构计算出对应的值即可。至此,4 个字节的音频同步包组装完毕,便可推送至 RTMP 服务器,示例代码如下:

网上有博主说音频采样率小于等于 44100 时 SamplingFrequencyIndex 应当选择 3(48kHz),Bill 测试发现采样率等于 44100 时设置标记为 3 或 4 均能正常推送并在客户端播放,不过我们还是应当按照标准规定的行事,故此处的 SamplingFrequencyIndex 选 4。

完成音频同步包的推送后,我们便可向服务器推送普通的 AAC 数据包,推送数据包时,[AACDecoderSpecificInfo] 则变为 0xAF01,向服务器说明这个包是普通 AAC 数据包。后面的数据为 AAC 原始数据去掉前 7 个字节(若存在 CRC 校验,则去掉前 9 个字节),我们同样以一张简化的表格加以阐释:

推送普通 AAC 数据包的示例代码:

至此,我们便完成了 AAC 音频的推送流程。此时可尝试使用 VLC 或其他支持 RTMP 协议的播放器连接到服务器测试正在直播的 AAC 音频流。

H264 码流的推送

前面提到过,向 RTMP 服务器发送 H264 码流,需要按照 FLV 格式进行封包,并且首先需要发送视频同步包 [AVC Sequence Header]。我们依旧先阅读 FLV 标准 Video Tags 一节:

由于视频同步包前半部分比较简单易懂,仔细阅读上述标准便可明白如何操作,故 Bill 不另作图阐释。由上图可知,我们的视频同步包 FrameType == 1,CodecID == 7,VideoData == AVCVIDEOPACKET,继续展开 AVCVIDEOPACKET,我们可以得到 AVCPacketType == 0x00,CompositionTime == 0x000000,Data == AVCDecoderConfigurationRecord。

因此构造视频同步包的关键点便是构造 AVCDecoderConfigurationRecord。同样,我们援引其他博主的图片来阐释这个结构的细节:

其中需要额外计算的是 H264 码流的 Sps 以及 Pps,这两个关键数据可以在开始编码 H264 的时候提取出来并加以保存,在需要时直接使用即可。具体做法请读者自行 Google 或参见 参考博文[2],在此不再赘述。

当我们得到本次 H264 码流的 Sps 以及 Pps 的相关信息后,我们便可以完成视频同步包的组装,示例代码如下:

至此,视频同步包便构造完毕并推送给 RTMP 服务器。接下来只需要将普通 H264 码流稍加封装便可实现 H264 直播,下面我们来看一下普通视频包的组装过程。

回顾 FLV 标准 的 Video Tags 一节,我们可以得到 H264 普通数据包的封包信息,FrameType == (H264 I 帧 ? 1 : 2),CodecID == 7,VideoData == AVCVIDEOPACKET,继续展开,我们可以得到  AVCPacketType == 0x01,CompositionTime 此处仍然设置为 0x000000,具体原因 TODO(billhoo),Data == H264 NALU Size + NALU Raw Data。

构造视频数据包的示例代码如下:

至此 H264 码流的整个推送流程便已完成,我们可以使用 VLC 或其他支持 RTMP 协议的播放器进行测试。

关于 AAC 音频帧及 H264 码流的时间戳

通过前文的步骤我们已经能够将 AAC 音频帧以及 H264 码流正常推送到 RTMP 直播服务器,并能够使用相关播放器进行播放。但播放的效果如何还取决于时间戳的设定。

在网络良好的情况下,自己最开始使用的音频流时间戳为 AAC 编码器刚输出一帧的时间,视频流时间戳为 H264 编码器刚编码出来一帧的时间,VLC 播放端就频繁报异常,要么是重新缓冲,要么直接没声音或花屏。在排除了推送步骤实现有误的问题后,Bill 发现问题出在时间戳上。

之后有网友说直播流的时间戳不论音频还是视频,在整体时间线上应当呈现递增趋势。由于 Bill 最开始的时间戳计算方法是按照音视频分开计算,而音频时戳和视频时戳并不是在一条时间线上,这就有可能出现音频时戳在某一个时间点比对应的视频时戳小, 在某一个时间点又跳变到比对应的视频时戳大,导致播放端无法对齐。

目前采用的时间戳为底层发送 RTMP 包的时间,不区分音频流还是视频流,统一使用即将发送 RTMP 包的系统时间作为该包的时间戳。目前局域网测试播放效果良好,音视频同步且流畅。

参考博文

[1][C++实现RTMP协议发送 H.264 编码及 AAC 编码的音视频]

[2][使用 libRtmp 进行 H264 与 AAC 直播]

[3][RTMP直播到FMS中的AAC音频直播]

时间: 2024-12-28 14:22:17

【基于libRTMP的流媒体直播之 AAC、H264 推送】的相关文章

【基于libRTMP的流媒体直播之 AAC、H264 解析】

前文我们说到如何在基于 libRTMP 库的流媒体直播过程中推送 AAC .H264 音视频流.本文以上文为基础,阐释如何对 RTMP 包进行解析.重组得到原始的 AAC 音频帧以及 H264 码流. 在继续阅读本文之前,我们首先假设读者已经能够使用 libRTMP 库从 RTMP 直播服务器不断地获取 RTMP 包,如前提不成立,请自行阅读 [抛开flash,自己开发实现C++ RTMP直播流播放器] 一文,实现一个简单的 RtmpDownloader 测试用例.这一部分恕 Bill 不再赘述

基于Tomcat7、Java、WebSocket的服务器推送聊天室 (转)

前言 HTML5 WebSocket实现了服务器与浏览器的双向通讯,双向通讯使服务器消息推送开发更加简单,最常见的就是即时通讯和对信息实时性要求比较高的应用.以前 的服务器消息推送大部分采用的都是“轮询”和“长连接”技术,这两中技术都会对服务器产生相当大的开销,而且实时性不是特别高.WebSocket技术对 只会产生很小的开销,并且实时性特别高.下面就开始讲解如何利用WebSocket技术开发聊天室.在这个实例中,采用的是Tomcat7服务器,每个服 务器对于WebSocket的实现都是不一样的

基于Tomcat7、Java、WebSocket的服务器推送聊天室

http://blog.csdn.net/leecho571/article/details/9707497 http://blog.fens.me/java-websocket-intro/ java EE 7 去年刚刚发布了JSR356规范,使得WebSocket的Java API得到了统一,Tomcat从7.0.47开始支持JSR356,这样一来写WebSocket的时候,所用的代码都是可以一样的. HTML5 WebSocket实现了服务器与浏览器的双向通讯,双向通讯使服务器消息推送开发

最简单的基于librtmp的示例:发布(FLV通过RTMP发布)

本文记录一个基于libRTMP的发布流媒体的程序:Simplest libRTMP Send FLV.该程序可以将本地FLV文件发布到RTMP流媒体服务器.是最简单的基于libRTMP的流媒体发布示例. 流程图 使用librtmp发布RTMP流的可以使用两种API:RTMP_SendPacket()和RTMP_Write().使用RTMP_SendPacket()发布流的时候的函数执行流程图如下图所示.使用RTMP_Write()发布流的时候的函数执行流程图相差不大. 流程图中关键函数的作用如下

最简单的基于FFmpeg的推流器(以推送RTMP为例)

本文记录一个最简单的基于FFmpeg的推流器(simplest ffmpeg streamer).推流器的作用就是将本地的视频数据推送至流媒体服务器.本文记录的推流器,可以将本地的 MOV / AVI / MKV / MP4 / FLV 等格式的媒体文件,通过流媒体协议(例如RTMP,HTTP,UDP,TCP,RTP等等)以直播流的形式推送出去.由于流媒体协议种类繁多,不一一记录.在这里记录将本地文件以RTMP直播流的形式推送至RTMP流媒体服务器(例如 Flash Media Server,R

基于Qt移动应用的消息推送服务原理与应用

说到移动应用,大家都觉得移动嘛,当然是Java和Object-c来做啦,什么推送啊,各种系统调用啊,其实不然?如果你了解Qt, 你就知道我说的不然,也有所道理. 说道几点 一.目前Android的移动的消息.通知推送 1)轮询(Pull)方式:应用程序应当阶段性的与服务器进行连接并查询是否有新的消息到达,你必须自己实现与服务器之间的通信,例如消息排队等.而且你还要考虑轮询的频率,如果太慢可能导致某些消息的延迟,如果太快,则会大量消耗网络带宽和电池. 2)SMS(Push)方式:在Android平

基于Websocket+SpringMVC4推送部标Jt808终端报警(转)

原文地址:http://www.jt808.com/?p=1263 在开发部标监控平台的时候,我们要及时的将部标终端报警推送到web界面上,以弹窗的形式提供给用户显示,要将报警显示在界面上,部标808协议文档中规定的报警类型,如下图所示: 表 18     报警标准位定义 位 定义 处理说明 0 1:紧急报警,触动报警开关后触发 收到应答后清零 1 1:超速报警 标志维持至报警条件解除 2 1: 疲劳驾驶 标志维持至报警条件解除 3 1:预警 收到应答后清零 4 1:GNSS模块发生故障 标志维

最简单的基于librtmp的示例:发布H.264(H.264通过RTMP发布)

本文记录一个基于libRTMP的发布H.264码流的程序.该程序可以将H.264数据发布到RTMP流媒体服务器.目前这个例子还不是很稳定,下一步还有待修改. 本程序使用回调函数作为输入,通过自定义的回调函数,可以发送本地的文件或者内存中的数据. 函数调用结构图 本程序的函数调用结构图如下所示. 整个程序包含3个接口函数:RTMP264_Connect():建立RTMP连接.RTMP264_Send():发送数据.RTMP264_Close():关闭RTMP连接.按照顺序调用上述3个接口函数就可以

最简单的基于Flash的流媒体示例:RTMP推送和接收(ActionScript)

本文记录一些基于Flash的流媒体处理的例子.Flash平台最常见的流媒体协议是RTMP.此前记录的一些基于C/C++的RTMP播放器/推流器,但是没有记录过基于Flash中的ActionScript的RTMP播放器/推流器.其实基于Flash的RTMP播放器/推流器才能算得上是RTMP技术中的"正规军".RTMP本身设计出来就是用于Flash平台之间通信的,而且RTMP最大的优势--"无插件直播",也是得益于广泛安装在客户端的Flash Player.因此本文分别