语音技术是研究用数字信号处理技术和机器学习方法对语音信号进行处理的一门学科。语音技术的目的: 得到某些参数以便高效传输或存储;或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。
语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。脉冲编码调制(PCM)、自适应预测编码、自适应变换编码、线性预测编码、线性预测声码器、共振峰声码器、相位声码器。
语音识别(ASR):把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵。孤立词识别技术、连续语音识别、关键词识别技术、话者识别技术。
语音合成(TTS):把文字变成声音(嘴巴的功能);相当于给机器装上了人工的嘴巴。语音应答系统、自动报站、信息查询、语言学习软件、TTS(Text
to Speech)技术。
语音参数:基频(音高,发浊音时声门振动频率,男60~200Hz,女:200~450Hz)、能量(音强)、过零率(单位时间信号过零点次数,清音高于浊音)、信噪比10lg(δx2/δe2)
时间: 2024-11-04 15:55:31