一文告诉你智能语音中的VAD模块为什么这么重要

计算机交互技术通过几年连续开发,语音信号中包含的情感信息越来越受到关注。通常,语音信号的感情特征多通过语音韵律的变化来表现。例如,当人们生气或惊讶时,演讲速度会增加,音量会增加,音调也会改变,而当你忧郁或伤心时,声音往往很低。因此,振幅的结构、发音的持续时间、说话速度等语音信号的特征是所有重要的研究特征。

在进行语音识别的过程中,系统的处理对象是有效语音信号。尤其在在多人说话的情况下,如果不对输入信号做分离处理而直接进行语音识别的话,识别效果会很差。这时,需要从输入信号中找到语音部分的起止点和终止点,从中抽取语音情感识别所需的信号特征。这样的语音信号“切割”过程被称为语音端点检测(Voice Activity Detection,VAD),是一种驱动性的语音信号处理技术。

简单来说,VAD就是将有效的语音信号和无用的语音信号或者噪音信号进行分离,以使后续的说话人识别、语义识别及语音情感分析等工作更加高效,是语音处理过程非常必要且关键的环节。
1.在存储或传输语音的场景下,从连续的语音流中分离出有效语音可以降低存储或传输的数据量;
2.只针对有效语音信号进行识别工作,在不降低语音信息量的前提下,可大大降低语音识别系统的运算量;
3.由于去除了非语音信号的中噪声的干扰,系统的识别准确率也得到了极大提高;VAD技术的兴起。

在VAD技术应用比较广就是智能电话机器人的开发,很多行业内部人士已经接触过电销机器人,并且我们在生活中也接到过许多机器人打来的电话。比如,一些来自企业招聘、教育培训、电话服务、等企业的销售电话。机器人代替人工作业已经屡见不鲜,但机器人代替人工打电话并且进行推销业务,这样的电话机器人好不好用,行业间一直有此疑问。

其次就是骚扰电话的层出不穷,好在今年3.15整治下,一些使用泛滥技术的企业都得到了应有的惩罚。同时为了整顿行业内部,也出台了相关的规定,在诸多条件的限制下,语音交互市场也慢慢走上了正轨。

回到上面的话题从最早1959年,贝尔实验室率先将VAD技术应用于电话传输,到后来日本、英国、美国等各国专家相继提出基于频域、基于人工神经网络算法、基于倒谱距离等多种语音端点检测方法,语音技术便进入高速发展阶段。

目前,端点检测的方法主要有两大类,一是基于语音特征的检测方法,该方法的关键在于对信号提取其鲁棒性特征,以便能够很好地区分语音/非语音。近几年使用该方法的检测算法主要有:基于能量特征、基于周期特征及基于多特征融合等算法,此方法对多种低信噪比(信噪比越低,混在信号里的噪声越大)的情况有着较好的检测正确率。
第二种是决策规则的检测方法,包括基于统计模型和基于机器学习的检测方法,是近年来的研究热点。其中基于机器学习的端点检测方法是将语音的检测转换成一个二元分类的问题,然后训练其学习其语音和噪声的不同特性。
VAD技术的应用难点和要求
目前,许多VAD算法都需要用到一些假设来保证实现良好的检测性能,如:
· 在比较长的一段时间内,背景噪音是平稳的;
· 语音能量要高于噪音的能量,即信噪比高(混在信号里的噪声小);
· 语音谱比噪音普更加有序;
· 语音信号的周期性要比噪音的周期性好;
如果上述假设都可以满足,我们就可以使用较为简单的检测算法做出正确的检测。但在实际情况中 ,上述假设很难同时满足。因此,一个性能良好的VAD算法需要满足以下要求:
· 在较低信噪比下仍有精准的检测能力;
· 使用多个特征联合进行检测,特别是那些可以充分表征语音信号和噪音信号之间差异的特征;
· 在背景噪音有变化或未知噪音类型的情况下仍能较好的检测,即噪音适应性好;
· 对于与噪音特性相似的清音、爆破音和摩擦音等信号,能够将其正确检测为语音,尽可能的避免丢失。

以欧能智能的产品为例,通过语音情绪识别等情感计算技术为教学“赋能”,帮助企业和用户提供更个性化的指导。对语音信号处理技术VAD的逐步应用和深入研究,这些方面的研发将帮助欧能研发团队大幅缩短数据处理时间,提高语音识别系统准确率,快速驱动更高效的产品落地。

智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,因而具有巨大的市场空间。科技巨头都在打造自己的智能语音生态系统,在语音识别程序中,为了解决电话机器人好不好用的问题,减少了17%的运算时间,从而使得识别准确率相对提高了1%。

原文地址:https://blog.51cto.com/14387331/2421726

时间: 2024-10-04 06:30:36

一文告诉你智能语音中的VAD模块为什么这么重要的相关文章

智能语音交互之简单实例

本次用到的是阿里云的智能语音交互,参考文档地址如下:https://help.aliyun.com/product/30413.html?spm=5176.10695662.1157759.3.3ffb16e40gDXyf 本次示例代码如下: <html> <head> <link rel="stylesheet" href="https://cdn.staticfile.org/twitter-bootstrap/3.3.7/css/boots

智能语音录制程序

一个变态程序的窥私欲:智能语音录制程序——窃听神器(源码放送!) 1. 我这人从小有个坏毛病,就是喜欢偷窥别人隐私.当然,在道德上,我时刻要求自己做一名正人君子,只不过是心理上有这癖好罢了.所以我从小就对窃听.窃视.黑客技术.破解技术等疯狂着迷!实际上这也是我走上程序员之路的一个重要原因! 或许正如弗洛伊德所说的那样,潜意识里面暗藏的原始欲望,是我们一切行为背后的真正动因.就像不可一世的希特勒和他野心勃勃的奋斗一样,归根到底只是因为他是一个自卑的抖S. 2. 今天说的这个事呢还要从两年前说起.那

一场由度秘掀起的智能语音连接O2O大战正在爆发

提到O2O,日前刘旷刚刚在微信朋友圈发布的一条针对百度世界大会的评论引发了好友们的纷纷点赞,我在评论中这样写道:“唱衰O2O的罪魁祸首就是美国资本家,他们先是掏空中国股市.打压中国互联网公司,而后制造舆论唱衰中国的O2O,企图破坏李克强总理提出的互联网+经济战略,我相信只要百度以及中国千千万万的创业者脚踏实地做好连接人与服务,不过度迷恋资本,中国定能实现在互联网+时代超越美国.” 三人成虎,人言可畏呐!美国资本家最擅长的就是制造舆论,引导大批没有主见的中国网民.于是,各种O2O寒冬论谣言四起,而

Android开发笔记(一百零八)智能语音

智能语音技术 如今越来越多的app用到了语音播报功能,例如地图导航.天气预报.文字阅读.口语训练等等.语音技术主要分两块,一块是语音转文字,即语音识别:另一块是文字转语音,即语音合成. 对中文来说,和语音播报相关的一个技术是汉字转拼音,想想看,拼音本身就是音节拼读的标记,每个音节对应一段音频,那么一句的拼音便能用一连串的音频流合成而来.汉字转拼音的说明参见<Android开发笔记(八十三)多语言支持>. 语音合成通常也简称为TTS,即TextToSpeech(从文本到语言).语音合成技术把文字

智能语音人机交互产业链及关键技术分析

人机交互是一门计算机科学,主要研究关于设计.评价和实现供人们使用的交互计算系统以及相关现象的科学.人机交互的发展经历了以下几个阶段:手工作业阶段.作业控制语言与交互命令语言阶段.图形用户界面(GUI)阶段.网络用户界面,目前已经发展到多通道.多媒体的智能人机交互阶段.其中,语音人机交互是当前多通道.多媒体智能人机交互的主要方式.特别是苹果Siri.科大讯飞语点的出现,让智能语音人机交互技术实现了新的跨越,得到了社会各界的广泛关注. 一.智能语音人机交互产业发展现状 什么是智能语音人机交互技术?简

科大讯飞2014公布会看点二:智能语音装进车载车机!

一直以来,汽车行业的科技创新不胜枚举.早前福特引入SYNC车载多媒体通讯娱乐系统,使得车载声控成为现实:全新一代雪佛兰科鲁兹全面升级MyLink智能车载互联系统,具备语音识别能力:丰田汽车在新款车型中陆续增加语音对话型系统"Agent". 纵观汽车行业的未来发展,车企厂商越来越重视人机交互体验,动口不动手的驾车生活离我们已不再遥远.8月20日下午,科大讯飞将在北京国家会议中心举行以"语音点亮生活"的主题公布会,用语音技术升级车载车机的智能化体验,让语音交互在汽车应用

科大讯飞2014发布会看点二:智能语音装进车载车机!

一直以来,汽车行业的科技创新不胜枚举.早前福特引入SYNC车载多媒体通讯娱乐系统,使得车载声控成为现实:全新一代雪佛兰科鲁兹全面升级MyLink智能车载互联系统,具备语音识别能力:丰田汽车在新款车型中陆续加入语音对话型系统"Agent". 纵观汽车行业的未来发展,车企厂商越来越重视人机交互体验,动口不动手的驾车生活离我们已不再遥远.8月20日下午,科大讯飞将在北京国家会议中心举行以"语音点亮生活"的主题发布会,用语音技术升级车载车机的智能化体验,让语音交互在汽车应用

阿里云发布智能语音自学习平台,零基础训练人工智能模型

摘要: 业务人员甚至门卫大爷也能训练人工智能?曾经只出现科幻电影中的一幕真的发生了.7月18日,阿里巴巴机器智能技术实验室宣布在阿里云正式发布智能语音自学习平台公有云产品,突破性地提供一键式语音智能自助优化方案,使得语音识别优化不再依赖于语音供应商的专家服务,让不懂技术的人员从此也可以快速显著提升自己业务的识别准确率满足业务需求. 业务人员甚至门卫大爷也能训练人工智能?曾经只出现科幻电影中的一幕真的发生了.7月18日,阿里巴巴机器智能技术实验室宣布在阿里云正式发布智能语音自学习平台公有云产品,突

一文读懂高性能网络编程中的I/O模型

1.前言 随着互联网的发展,面对海量用户高并发业务,传统的阻塞式的服务端架构模式已经无能为力.本文(和下篇<高性能网络编程(六):一文读懂高性能网络编程中的线程模型>)旨在为大家提供有用的高性能网络编程的I/O模型概览以及网络服务进程模型的比较,以揭开设计和实现高性能网络架构的神秘面纱. 限于篇幅原因,请将本文与<高性能网络编程(六):一文读懂高性能网络编程中的线程模型>连起来读,这样会让知识更连贯. 学习交流: - 即时通讯开发交流3群:185926912[推荐] - 移动端IM