如何将声学的spectrogram(声谱图)重新反变换成时域语音信号

最近在研究一些信号分析的事情,感兴趣如何将频谱信号反变换成时域信号。fft 与ifft可以顺畅的转变,但是这个是一帧信号,当时间较长的信号再一起是,通过反变换变成一帧一帧的时域信号,如何把他们拼接起来非常感兴趣,以后会做一些尝试,这里先留个档案。

1.将声音转化为声谱图(Spectrogram)

通过短时傅里叶变换。

2.将声谱图转换为声音

1. 通过ifft将一帧一帧的FFT信号(即1维的FFT信号数组X(F)(i)[ i=0 to length( X(f) ) ])变换成一小段一小段的时域信号,再将他们拼接起来。(加窗和overlap是否带来影响及相位是否丢失?)

下面打算通过labview或matlab去实现。(本来想查阅了相关资料借鉴一下,没有找到相关的资料,所以打算自己去尝试下下面的处理,如果有知道的还请告诉我相关的资料或方法,借鉴一下,谢谢)

第一步是找一个语音信号,将其转换为STFT的Spectrogram,

第二步是将他还原回去一帧一帧的声学信号,并拼接成语音信号,看语音信号是否能1. 语音是否能还原,2平滑过渡,3相位是否会丢失。(2019-12-15,完成后再来更新)

原文地址:https://www.cnblogs.com/Nicoooolas/p/12042158.html

时间: 2024-10-11 23:25:23

如何将声学的spectrogram(声谱图)重新反变换成时域语音信号的相关文章

《语音信号处理》《第2章 语音信号的声学基础及产生模型》

语音学三个分支: 1. 发音语音学 2. 声学语音学----进一步出现了声音模拟.语音合成.语音识别 3. 听觉语音学和心理语言学----研究人耳和大脑 本章介绍语音产生的过程及人耳的听觉过程,传统的线性语音产生模型以及目前广泛受到重视的非线性 语音产生模型,这些都是从事语音信号处理研究的基础知识. 2.1 语音信号的产生 声带振动产生声音,这是产生声音的基本声源,称为声带音源. 基音周期 基音频率 80Hz - 500Hz 声道 浊音 voiced sound 声带振动产生的 清音 unvoi

MATLAB中绘制质点轨迹动图并保存成GIF

工作需要在MATLAB中绘制质点轨迹并保存成GIF以便展示. 绘制质点轨迹动图可用comet和comet3命令,使用例子如下: t = 0:.01:2*pi;x = cos(2*t).*(cos(t).^2);y = sin(2*t).*(sin(t).^2);z = t;comet(x,y,0.1); %绘制二维%comet3(x,y,z,0.1); %绘制三维 这有一个问题在于comet或comet3无法控制绘制的动画的速度,为了实现这一点,一个可行的方法是重写comet和comet3,在每

MindMapper导图如何保存成图片

我们可以将MindMapper思维导图保存为多种格式的文件,具有对多样性,从文档到图片这些我们常用的格式都能够自由转换.下面我们就一起去看看如何如何将MindMapper导图保存为图片. 当我们在MindMapper思维导图中绘制好导图,像要将之保存为图片时,点击[文件]中的保存/发送,然后跳转至文件格式板块中的更改文件格式. 我们可以看到都多种保存为图片的形式,我们一般常用第一项保存为图片文件形式. 点击后会跳出保存文件框,选择保存MindMapper文件的位置,选择好后点击保存,这时系统会跳

语音处理基础知识

前置知识 激励:信号处理中的输入 谐振:等同于共振,不同领域的不同称谓.当电路中激励的频率等于电路的固有频率时,电路的电磁振荡的振幅也将达到峰值,这就称作谐振.参见谐振-百度百科 白噪声:指功率谱密度在整个频域内均匀分布的噪声.参见白噪声-百度百科 音素:phoneme,语音中最小的基本单位.音素是人类能区分一个单词和另一个单词的基础.音素构成音节,音节又构成不同的词和短语.音素可分为元音和辅音 元音:又称母音,是音素的一种.元音是在发音过程中由气流通过口腔不受阻碍的发出的音.不同的元音是由口腔

梅尔频率倒谱系数(MFCC) 学习笔记

最近学习音乐自动标注的过程中,看到了有关使用MFCC提取音频特征的内容,特地在网上找到资料,学习了一下相关内容.此笔记大部分内容摘自博文 http://blog.csdn.net/zouxy09/article/details/9156785 有小部分标注和批改时我自己加上的,以便今后查阅. 语音信号处理之(四)梅尔频率倒谱系数(MFCC) [email protected] http://blog.csdn.net/zouxy09 在任意一个Automatic speech recogniti

音频自动增益 与 静音检测 算法 附完整C代码

前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到两个算法,一个是静音检测,一个是音频增益. 增益其实没什么好说的,类似于数据归一化拉伸的做法. 静音检

音频自动增益 与 静音检测 算法 附完整C代码【转】

转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到

回声消除技术(2)

从应用平台来看,可以把回声消除分为两大类: (1). 基于DSP等实时平台的回声消除技术 (2). 基于Windows等非实时平台的回声消除技术 两者的技术难度和重点是不一样的. 三.基于DSP平台的回声消除技术 回声消除技术传统的应用领域是各种嵌入式设备,包括各种电信网络设备和终端设备.比如交换机,网关等网络设备; 移动电话,视频会议等终端.现代通讯产品里面大量应用了回声消除技术,包括在我们看得到的(比如手机)和看不到的终端产品(比如交换机).这些嵌入式设备的共同点就是各自采用了适配型号的DS

一个典型的语音识别系统

一.语音识别技术 语音识别技术,广泛来说是指语意识别和声纹识别:从狭义上来说指语音语义的理解识别,也称为自动语音识别(ASR).其关键技术包括选择识别单元.语音端点检测.特征参数提取.声学模型及语音模型的建立.语音识别技术目前在桌面系统.智能手机.导航设备等嵌入式领域均有一定程度的应用.其主要技术难题是识别系统的适应性较差.受背景噪声影响较大,未来的发展方向应是无限词汇量连续语音非特定人语音识别系统. (1)信号处理及特征提取模块 该模块的主要任务是从输入信号中提取特征,供声学模型处理.同时,它