涉江采芙蓉——语音视频采集概说(源码赠送)

采集是第一个环节。所谓“巧妇难为无米之炊”,首先我们要从多媒体设备上拿到第一手材料。对于音频而言,就是要从麦克风、声卡等设备获取到音频信号;对于视频而言,就是要从显示器、摄像头等设备获取到图像信息。如何获取到这些信息呢?于是我们需要采集。

所谓采集又可以拆分成采样集聚两个步骤来理解。这就好比“曹聪称象”,先将大的总体分解成一个个样本,再将分解得到的样本整合起来,其思想无非就是用样本来模拟总体。

 (1)对于视频而言,采集的过程就如同下图所示

我们知道,视频总是连续的,但是我们可以将其分解为一张张的图片,即图片帧,到时候我们再将得到的这些图片按照相应的时序来播放就可以基本还原成原来的视频了。

在这里,有几个重要的量是我们需要关注的。

a.分辨率

首先我们要关注每一个样本的大小,因为样本的大小意味着其所包含的数据量的多少,而一个数据量大的样本比一个数据量小的样本更能够反映总体。就拿图中的例子来说,我们对一只鸽子的起飞过程进行连续的拍照,但是我们用高像素来拍和用低像素来拍,到时候连续翻看的时候,效果肯定是不一样的。因为每个图像帧的数据量的大小将影响到所得视频的清晰度。而这个图像帧的大小是用一个什么量来表示的呢?这个量就是分辨率。图像的分辨率越高,所包含的像素点就越多,所包含的数据量就越大,就越能够反映原始图像的本来面貌。

b.帧频

其次,原始的视频是连续的,我们采集得到的图像都是离散的。那么这个离散的程度肯定也会影响到所得视频的效果。如果图片的离散程度过大,那么所得视频看起来就会显得一卡一卡,而如果离散的程度足够小,那么所得视频就会显得流畅自然。所以样本之间的离散程度,影响到的是视频的流畅性。而这个离散程度是用什么量来表示的呢?这个量就是帧频。帧频对于采集而言就是每秒采集到多少帧图像,自然,帧频越大,画面就越流畅。

 (2)对于音频而言,采集的过程也可以用类似地用下图来说明

类似于视频的采集,音频的采集也需要将连续的总体分解成离散的样本,然后再“曹聪称象”,组装成整体。

同样,音频采集中也有几个重要的量需要我们关注。

a.采样深度

类似于视频采集,我们需要关注每一个样本的数据量的大小。对于音频采集而言,样本的数据量的大小由什么来表示呢?我们用采样深度来表示,所谓采样深度又可称为采样位数,即每次采样声音数据的比特数。同样,采样深度的大小也会影响到所得音频的清晰度。如果采样位数过低,所得到的音频听起来就会含混不清。

b.采样率

类似于视频采集,我们也需要关注样本之间的离散程度。对于音频采集而言,这个离散程度我们用采样率来表示,即每秒钟采集的样本的个数。采样频率的大小会影响到所得音频的流畅程度。如果采样频率过低,则声音听起来就会有卡顿。

总结:

无论是视频采集还是音频采集,说到底都是样本采集,而我们采集的目的,无非就是想用样本来模拟总体,至于这个模拟效果的好坏由两个因素来决定,一是每个样本的数据量的大小,二是样本之间的密集程度。即,样本数据量越大,样本之间的密度越大,就越能够代表总体,就越能够反映出总体的本来面貌。所以,我们可以给出这样一个总公式——

样本反映总体的效果 = 单个样本数据量的大小 X  样本之间的密集程度

   然后,对于视频采集和音频采集而言,可以给出如下两个子公式——

1.所得视频的效果 = 分辨率 X 帧频

2.所得音频的效果 = 采样深度 X 采样率

附:采集示例Demo(含录制)

参考:网络语音视频技术浅议(附多个demo源码下载)

         网络语音视频技术浅议(二)—— 实时性与流畅性如何保障?

时间: 2024-08-25 17:02:22

涉江采芙蓉——语音视频采集概说(源码赠送)的相关文章

涉江采芙蓉——语音视频采集详解(源码赠送)

对于OMCS而言,采集是第一个环节.所谓“巧妇难为无米之炊”,首先我们要从多媒体设备上拿到第一手材料.对于音频而言,就是要从麦克风.声卡等设备获取到音频信号:对于视频而言,就是要从显示器.摄像头等设备获取到图像信息.如何获取到这些信息呢?于是我们需要采集. 所谓采集又可以拆分成采样和集聚两个步骤来理解.这就好比“曹聪称象”,先将大的总体分解成一个个样本,再将分解得到的样本整合起来,其思想无非就是用样本来模拟总体.  (1)对于视频而言,采集的过程就如同下图所示 我们知道,视频总是连续的,但是我们

3D语音天气球(源码分享)——完结篇

开篇废话: 由于这篇文章是本系列最后一篇,有必要进行简单的回顾和思路整理. 这个程序是由两部分组成,Android端和Unity端: 1.Unity端负责3D球的创建,显示和旋转:3D语音天气球(源码分享)--创建可旋转的3D球 2.通过天气服务动态创建3D球:3D语音天气球(源码分享)--通过天气服务动态创建3D球 3.Android端使用第三方的语音服务来进行语音识别:3D语音天气球(源码分享)--在Unity中使用Android语音服务 4.Unity中加入Android项目:Unity中

3D语音天气球(源码分享)——通过天气服务动态创建3D球

转载请注明本文出自大苞米的博客(http://blog.csdn.net/a396901990),谢谢支持! 开篇废话: 这个项目准备分四部分介绍: 一:创建可旋转的"3D球":3D语音天气球(源码分享)--创建可旋转的3D球 二:通过天气服务,从网络获取时实天气信息并动态生成"3D球" 三:Android语音服务和Unity的消息传递 四:Unity3D端和Android端的结合 关于项目的详细介绍和3D球的创建请看上面第一篇文章(重要) 今天主要讲解如何通过获取

计划在CSDN学院推出系列视频课程《源码分析教程5部曲》

?? 计划在CSDN学院推出系列视频课程<源码分析教程5部曲> 源码分析教程5部曲之1--漫游C语言 源码分析教程5部曲之2--C标准库概览 源码分析教程5部曲之3--libevent源码分析 源码分析教程5部曲之4--memcached源码分析 源码分析教程5部曲之5--redis源码分析

高清视频会议 视频聊天室源码下载

高清视频会议.视频聊天室源码简介: "SDK即时通讯平台"是一套跨平台的即时通讯解决方案,基于先进的H.264视频编码标准.AAC音频编码标准与P2P技术,支持高清视频,整合了佰锐在音视频编码.多媒体通讯领域领先的开发技术和丰富的产品经验而设计的高质量.宽适应性.分布式.模块化的网络音视频互动平台 成熟产品可提供全套系统示例源代码(包服务端,客户端)下载地址http://download.csdn.net/detail/little_rui/7969285,同时有完善的开发文档指南,且

解决三星ARM11开发板图片采集程序源码出现的Bug

三星公司提供的图片采集程序源码是这个: /***************** Capture Thread *****************/ void capture_thread(void) { int start, ret; int key; start = 1; ret = ioctl(cam_c_fp, VIDIOC_STREAMON, &start); if (ret < 0) { printf("V4L2 : ioctl on VIDIOC_STREAMON fai

美女图片采集器 (源码+解析)

前言: 有一段时间没写博客了, "持之以恒"徽章都暗了, 实在不该. 前一段确实比较忙, ...小小地给自己的懒找个借口吧. 大二即将结束, 学习iOS也有一段时间了.今天抽点时间, 开源一个前几天刚上传的App里面的一个功能, RT, 美女图片采集器.   美女.. 相信没有人不喜欢吧, 基于此, 这个小Demo应运而生. 效果演示: 看到这里, 如果还有兴趣学习的话, 可以先到我的git中下载源码, 然后配合着源码看我下面的解析.相信, 会让你有所收获的. git下载链接: Bea

吉柚小视频APP现成源码

吉柚小视频APP现成源码,吉柚小视频软件开发找梁经理(153微2202电6891),吉柚小视频定制开发,吉柚小视频现在开发,吉柚小视频系统开发. 在互联网经济时代,经济主体的生产.交换.分配.消费等经济活动,以及金融机构和政府职能部门等主体的经济行为,都越来越多地依赖信息网络,不仅要从网络上获取大量经济信息,依靠网络进行预测和决策,而且许多交易行为也直接在信息网络上进行. [如何玩转吉柚小视频?] (玩法一)0撸 注册账号实名认证扫脸花1元,获得体验金主矿,每天做任务,释放0.5个柚子,一个月释

实现一个简单的语音聊天室(源码)

语音聊天室,或多人语音聊天,是即时通信应用中常见的功能之一,比如,QQ的语音讨论组就是我们用得比较多的. 这篇文章将实现一个简单的语音聊天室,让多个人可以进入同一个房间进行语音沟通.先看运行效果截图:         从左到右的三张图分别是:登录界面.语音聊天室的主界面.标注了各个控件的主界面. (如果觉得界面太丑,没关系,后面下载源码后,你可以自己美化~~) 一. C/S结构 很明显,我这个语音聊天室采用的是C/S结构,整个项目结构相对比较简单,如下所示: 该项目的底层是基于OMCS构建的.这