一种简单高效的音频降噪算法示例(附完整C代码)

近期比较忙,

抽空出来5.1开源献礼.

但凡学习音频降噪算法的朋友,肯定看过一个算法.

<<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE.

资料见:

<<Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.>>

-----Ephraim, Y. and Malah, D. (1985)

之前也是花了不少时间去查阅降噪相关的思路,

但是最终发现前人的思路,有很多局限性或者说弊端.

一般都是提出一种数学先验的假设,换句话说,在paper里讲点故事.

然后最终,故事的结局都是it works.

但实际应用却差强人意.

而一般的图像降噪流程,见图:

也就是,一个降噪算法的基本组成部分有:

1.噪声提取(用于提取噪声)

2.静音检测(一般检测是否为人声,减少误判)

3.数学先验假设(用于降噪)

当然最小均方误差的降噪思路,用在图像上一样适用.

但是,大多数音频降噪算法仅仅适配某种特殊情况(特例).

工程化应用时,会发现,

一个坑接着一个坑,

然后不得不妥协.勉强能用就行,

要求太高不现实.

而当年看了logMMSE的思路之后,就很清楚地明白,

这思路是可行的,但是特别鸡肋.

话说如此,但是对作为学习信号处理,音频降噪来说,

这个是一个特别好的入门示例算法.

至少经过实践之后,你心中能有了个大概的印象.

音频降噪是一个什么样的工作,会碰到什么样的难点.

logmmse的各种实现,在github搜索一下,都能找得到.

这里,并不打算解析logmmse的算法细节.

只是分享一段非常简单有效的类似logmmse算法的c语言实现.

说是类似,不如说,

思路来自logmmse,只是更加的简洁明了.(自我以为)

自己动手,丰衣足食.

稍微改进一下,可以进一步适配各种环境和情况,

当然也不是那么容易,

例如:

+vad.

+延时记忆机制诸如此类

代码基于本人最近开源的基于傅里叶变换的重采样算法.

https://github.com/cpuimage/FFTResampler

题外话:

在之前为了找各种重采样算法,费心死了.

所以,写一个通用简洁的重采样算法是我的一个待办事项.

重采样算法算是暂时结束了.

https://github.com/cpuimage/resampler

https://github.com/cpuimage/FFTResampler

这两个平时应该是够用了,

下一步要继续做的话,

可能就是音频超分辨率算法了.

除了懒,没别的,能复用就复用了.

回到主题上,这个简易的算法用来去除平稳噪声或底噪,是非常合适的,

当然当前开源实现的算法,是非实时的,

当然稍微改进下可以应用在实时的环境.

值5.1放假之际,开源出来,给大家参考学习.

权当抛砖引玉,一起玩耍.

项目地址:

https://github.com/cpuimage/SimpleAudioDenoise

若有其他相关问题或者需求也可以邮件联系俺探讨。

当然一些基础性的问题,一概忽略.

有时间给我写邮件,不如多看点资料书籍.

邮箱地址是:
[email protected]

原文地址：https://www.cnblogs.com/cpuimage/p/10800768.html

时间： 2024-11-05 22:32:03

一种简单高效的音频降噪算法示例(附完整C代码)的相关文章

基于傅里叶变换的音频重采样算法 (附完整c代码)

前面有提到音频采样算法: WebRTC 音频采样算法附完整C++示例代码简洁明了的插值音频重采样算法例子 (附完整C代码) 近段时间有不少朋友给我写过邮件,说了一些他们使用的情况和问题. 坦白讲,我精力有限,但一般都会抽空回复一下. 大多数情况,阅读一下代码就能解决的问题, 也是要尝试一下的. 没准,你就解决了呢? WebRtc的采样算法本身就考虑到它的自身应用场景, 所以它会有一些局限性,例如不支持任意采样率等等. 而简洁插值的这个算法, 我个人也一直在使用,因为简洁明了,简单粗暴. 我自

音频降噪算法附完整C代码

降噪是音频图像算法中的必不可少的. 目的肯定是让图片或语音更加自然平滑,简而言之,美化. 图像算法和音频算法都有其共通点. 图像是偏向空间处理,例如图片中的某个区域. 图像很多时候是以二维数据为主,矩形数据分布. 音频更偏向时间处理,例如语音中的某短时长. 音频一般是一维数据为主,单声道波长. 处理方式也是差不多,要不单通道处理,然后合并,或者直接多通道处理. 只是处理时候数据参考系维度不一而已. 一般而言, 图像偏向于多通道处理,音频偏向于单通道处理. 而从数字信号的角度来看,也可

音频自动增益与静音检测算法附完整C代码

前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到两个算法,一个是静音检测,一个是音频增益. 增益其实没什么好说的,类似于数据归一化拉伸的做法. 静音检

音频自动增益与静音检测算法附完整C代码【转】

转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到

七大查找算法（附C语言代码实现）

来自:Poll的笔记 - 博客园链接:http://www.cnblogs.com/maybe2030/p/4715035.html 阅读目录 1.顺序查找 2.二分查找 3.插值查找 4.斐波那契查找 5.树表查找 6.分块查找 7.哈希查找查找是在大量的信息中寻找一个特定的信息元素,在计算机应用中,查找是常用的基本运算,例如编译程序中符号表的查找.本文简单概括性的介绍了常见的七种查找算法,说是七种,其实二分查找.插值查找以及斐波那契查找都可以归为一类--插值查找.插值查找和斐波那契查找是

自动曝光修复算法附完整C代码

众所周知, 图像方面的3A算法有: AF自动对焦(Automatic Focus)自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure)自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance)白平衡的本质是使白色物体在任何光源下都显示白色前面的文章也有提及过,在刚开始做图像算法的时候,我是先攻克的自动白平衡算法. 后来攻克自动曝光的时候,傻啦吧唧的,踩了不少坑. 我相信一定不止我一个,一开始的时

mser 最大稳定极值区域(文字区域定位)算法附完整C代码

mser 的全称:Maximally Stable Extremal Regions 第一次听说这个算法时,是来自当时部门的一个同事, 提及到他的项目用它来做文字区域的定位,对这个算法做了一些优化. 也就是中文车牌识别开源项目EasyPR的作者liuruoze,刘兄. 自那时起就有一块石头没放下,想要找个时间好好理理这个算法. 学习一些它的一些思路. 因为一般我学习算法的思路:3个做法, 第一步,编写demo示例. 第二步,进行算法移植或效果改进. 第三步,进行算法性能优化. 然后在这三个过程中

音频算法之小黄人变声附完整C代码

前面提及到<大话音频变声原理附简单示例代码>与<声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码> 都稍微讲过变声的原理和具体实现. 大家都知道,算法从实现到最后工程应用,中间的环节和问题特别多. 尤其是编码的架构设计,好的数据结构和代码逻辑封装肯定是可复用,组件化的. 前几天写完<音频识别算法思考与阶段性小结>的时候, 我也提及到了. 会做一些算法编码优化相关的分享. 而有时候我总觉得文字表达很苍白, 所以我尽可能地把代码写得简洁易懂, 一方

建模分析之机器学习算法（附python&R代码）

0序随着移动互联和大数据的拓展越发觉得算法以及模型在设计和开发中的重要性.不管是现在接触比较多的安全产品还是大互联网公司经常提到的人工智能产品(甚至人类2045的的智能拐点时代).都基于算法及建模来处理. 常见的词汇:机器学习.数据建模.关联分析.算法优化等等,而这些种种又都是基于规律的深度开发(也难怪道德经的首篇就提出道可道非常道,名可名非常名的说法),不管是线性还是非线性,总之存在关联关系,而我们最好理解的就是线性关系,简单的用个函数就能解决.比如我们生活中应用的比较的归纳总结,其