语音交互技术——语音基础

语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科。语音技术的目的: 得到某些参数以便高效传输或存储；或者是用于某种应用，如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。

语音编码：在保持可以接受的失真的情况下，采用尽可能少的比特数表示语音。脉冲编码调制(PCM)、自适应预测编码、自适应变换编码、线性预测编码、线性预测声码器、共振峰声码器、相位声码器。

语音识别（ASR）：把声音变成文字(耳朵的功能)，相当于给机器装上了人工的耳朵。孤立词识别技术、连续语音识别、关键词识别技术、话者识别技术。

语音合成（TTS）：把文字变成声音(嘴巴的功能)；相当于给机器装上了人工的嘴巴。语音应答系统、自动报站、信息查询、语言学习软件、TTS（Text
to Speech）技术。

语音参数：基频（音高，发浊音时声门振动频率，男60~200Hz，女：200~450Hz）、能量（音强）、过零率（单位时间信号过零点次数，清音高于浊音）、信噪比10lg(δx²/δe²)

时间： 2024-11-04 15:55:31

语音交互技术——语音基础的相关文章

语音交互技术——语音信号特征提取

1.短时能量分析(音强),决定短时能量特性有两个条件:不同的窗口的形状和长度.窗长越长,频率分辨率越高,而时间分辨率越低(N为帧长,M为步长). *典型窗函数:矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反.一帧内含1~7个基音周期,10kHz下采100~200点. 2.短时平均振幅分析:计算方法简单,但清浊音的区分不如能量明显. 3.短时过零分析:可以区分清音与浊音,浊音时具有较低的平均过零数,而清音时具有较高的平均过零数:可以从背景噪声中找出语音信号,可用于判断寂静无语音和

语音交互技术——语音编码

1.语音编码目的:为了减少传输码率或存储量,以提高传输或存储的效率.经过这样的编码之后,同样的信道容量能传输更多路的信号,存储只需要较小容量的存储器.因而这类编码又称为压缩编码.压缩编码需要在保持可懂度与音质.降低数码率和降低编码过程的计算代价三方面折衷. 2.编码分类:波形编码.参数编码.混合编码. 波形编码器:没有使用模型,而是试图使重构的语音和原始语音之间的误差最小化.波形编码的方法简单,数码率较高,在64kbit/s至32kbit/s之间音质优良,例如脉冲编码调制PCM,自适应增量调制A

Android讯飞语音云语音听写学习

讯飞语音云语音听写学习这几天两个舍友都买了iPhone 6S,玩起了"Hey, Siri",我依旧对我的Nexus 5喊着"OK,Google".但种种原因,国内的"OK,Google"并不能展示出他的全部威力,于是上网搜索国内Android平台的语音助手,个人觉得评价最好的是讯飞的--灵犀语音助手.其实讯飞语音云平台早就注册过了,并下载了相应的SDK,只是没仔细研究.今天突然想好好学习一下,以方便以后集成到自己开发的APP中,

科大讯飞(1) 语音听写(语音转换成文字)

一.科大讯飞开放平台: http://www.xfyun.cn/ 注册.登录之后创建新应用. 因为本项目只实现了语音听写,所以在SDK下载中心勾选语音听写单项SDK就可以了开发平台选择iOS,应用选择你要实现语音听写的应用,然后点击"下载SDK"按钮程序中会用到Appid,程序中导入的SDK一定是要与这个应用相关联的SDK,下载下来的SDK压缩包就是以Appid结尾命名的. 二.项目配置官方文档:http://www.xfyun.cn/doccenter/iOS 1.添加静态库

C# 语音识别（文字to语音、语音to文字）

C# 语音识别(文字to语音.语音to文字) 最近打算研究一下语音识别,但是发现网上很少有C#的完整代码,就把自己的学习心得放上来,和大家分享一下. 下载API: 1)SpeechSDK51.exe (67.0 MB) 2)SpeechSDK51LangPack.exe (81.0 MB) API可以不下载,但是如果你的VS是英文版,但是想使用中文的语音,那你就需要下载API,按顺序安装好. (PS:我的VS是英文的,不能说中文,为了这个我纠结了一上午

UI进阶科大讯飞(1) 语音听写(语音转换成文字)

简单剖析智能语音交互技术

机器学习和自然语言处理技术的进步为语音与人工智能的交互提供了可能.人们可以通过对话获得信息,并与机器互动,而机器将不再只存在于科幻小说中.语音交互是未来的发展方向.智能扬声器是语音交互着陆的第一代产品. 以市面上面流行的智能电话机器人为例,他的AI模块主要包含了4部分自动语音识别(Automatic Speech Recognition, ASR),自然语言理解(Natural Language Understanding, NLU),自然语言生成(Natural Language Genera

语音交互技术——线性预测编码(LPC)

1.LPC基本概念:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近.通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数.用于语音分析与合成,可估计许多语音基本参数:基音.共振峰.频谱.声道截面积等. 2.线性预测编码框架: 模型的系统函数H(z)的三种形式:AR模型易反映频谱中的峰值,MA模型易反映谷值,ARMA模型可同时反映两者. 3.LPC模型的求解(求解ai) a)自相关法: b)协方差法:参加卷积运算的语音不限于0-N-1窗内的语音,而是m=-P

聚焦语音交互，引爆智能硬件——暨讯飞语音云沙龙杭州站成功举办

5月16日,"让世界聆听我们的声音"--2014年语音云开发者沙龙暨"聚焦语音交互引爆智能硬件"在杭州贝塔咖啡成功举办. 自2013年8月以来,由讯飞语音云举办的开发者沙龙已走过北京.上海.深圳.成都.合肥.厦门等地,与1000多名开发者亲密接触,爆棚的场面.忘我的分享和激烈的讨论,让我们更加坚信:移动互联网时代,语音交互将无处不在. 2014年被称为智能硬件元年,在2014全球移动互联网大会上,智能硬件成为主角, "下一个50亿"预示着智能硬件