基于傅里叶变换的音频重采样算法 (附完整c代码)

前面有提到音频采样算法:

WebRTC 音频采样算法 附完整C++示例代码

简洁明了的插值音频重采样算法例子 (附完整C代码)

近段时间有不少朋友给我写过邮件,说了一些他们使用的情况和问题。

坦白讲,我精力有限,但一般都会抽空回复一下。

大多数情况,阅读一下代码就能解决的问题,

也是要尝试一下的。

没准,你就解决了呢?

WebRtc的采样算法本身就考虑到它的自身应用场景,

所以它会有一些局限性,例如不支持任意采样率等等。

而简洁插值的这个算法,

我个人也一直在使用,因为简洁明了,简单粗暴。

我自然也就没有进一步去细究采样算法,

当然网上还有不少开源的采样算法也是极其不错的。

一直也想抽时间再做一个兼顾简洁和质量的算法出来,不了了之。

最近一直在死磕傅里叶变换,网上的资源看了一箩筐。

徘徊到最后,毫无疑问FFTW3必须是你的首选,

从岁数性能以及使用的概率来说,当之无愧的王者。

当然也顺带整理一下,其他的一些FFT实现,各有优劣。

用于学习,作为参考资料也是不二之选。

有兴趣的小伙伴,可以参阅之.

https://github.com/cpuimage/StockhamFFT

https://github.com/cpuimage/uFFT

https://github.com/cpuimage/BluesteinCrz

https://github.com/cpuimage/fftw3

当然最佳的参考资料,还是fftw3,

我的这个git做了以下工作:

1.梳理调整目录结构

2.移除一些影响阅读调试,让人头大的宏定义

3.合并代码至fftw_api.c,移除一些不常用的代码

注意:未经过严格测试验证

也许这个git存在的意义在于方便众人阅读学习fftw的算法思路,

以及调试,扣代码等等诸如此类的行为。

所以有需要的同学可以,参考之。

回到本次的主题,

在以前做图像算法的时候,就一直在想一个问题,

是否可以利用傅里叶变换的特性进行图像的重采样呢?

这个一直是我心中的一个小石头,一直没放下。

从理论上来说,可行的,只是估计最终质量并不能保证。

最佳的尝试莫过于音频重采样,在很多时候,

我们经常需要对一个音频进行傅里叶变换,然后进行上采样或下采样的操作。

那是不是可以直接就在频域进行重采样呢?

这样的做法是不是质量就能有所保障呢?

事实证明,这是可行的。

经过简单试验,基于傅里叶变换的音频重采样算法就这样出炉了。

目前示例采用hsfft 这个开源傅里叶变换进行验证,

没有采用fftw3的原因也很简单,因为fftw3编译器来有点麻烦。

而hsfft的函数风格与fftw3类似,只是速度性能上不及fftw3而已。

这样也符合我的要求,真正应用的时候再使用fftw3替换之即可,

在验证思路的时候,没必要动用fftw3,

这也是我为什么使用简洁重采样的原因之一。

每个步骤都要有策略和方法,不必太过较真。

如果特定情况下需要,我也可以上matlab,python,delphi,c#,c++等等。

语言只是工具,关键还是思路和思想。

贴上主要代码:

#ifndef MIN
#define MIN(a, b) ((a) < (b) ? (a) : (b))
#endif 

void FFTResample(float *input, float *output, int sizeIn, int sizeOut) {
    fft_t *fftin = (fft_t *) calloc(sizeof(fft_t), sizeIn);
    fft_t *fftout = (fft_t *) calloc(sizeof(fft_t), sizeOut);
    if (fftin == NULL || fftout == NULL) {
        if (fftout)
            free(fftout);
        if (fftin)
            free(fftin);        return;
    }
    fft_real_object fftPlan = fft_real_init(sizeIn, 1);
    fft_r2c_exec(fftPlan, input, fftin);
    free_real_fft(fftPlan);
    int halfIn = (sizeIn / 2) + 1;
    int halfOut = (sizeOut / 2) + 1;
    for (int i = 0; i < MIN(halfIn, halfOut); ++i) {
        fftout[i].re = fftin[i].re;
        fftout[i].im = fftin[i].im;
    }
    fft_real_object ifftPlan = fft_real_init(sizeOut, -1);
    fft_c2r_exec(ifftPlan, fftout, output);
    free_real_fft(ifftPlan);
    float norm = 1.f / sizeIn;
    for (int i = 0; i < sizeOut; ++i) {
        output[i] = (output[i] * norm);
    }
    free(fftout);
    free(fftin);
}

算法非常简单,用一句时髦的语言来描述这个算法,就是“多退少补“。

需要补课FFT的可以移步:

从多项式乘法到快速傅里叶变换

项目地址:

https://github.com/cpuimage/fftResample

采用Cmake编译即可,示例代码也很简洁。

不多做解释了~

以上,权当抛砖引玉。

若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是: 
[email protected]

原文地址:https://www.cnblogs.com/cpuimage/p/9270739.html

时间: 2024-10-09 04:50:26

基于傅里叶变换的音频重采样算法 (附完整c代码)的相关文章

音频降噪算法 附完整C代码

降噪是音频图像算法中的必不可少的. 目的肯定是让图片或语音 更加自然平滑,简而言之,美化. 图像算法和音频算法 都有其共通点. 图像是偏向 空间 处理,例如图片中的某个区域. 图像很多时候是以二维数据为主,矩形数据分布. 音频更偏向 时间 处理,例如语音中的某短时长. 音频一般是一维数据为主,单声道波长. 处理方式也是差不多,要不单通道处理,然后合并,或者直接多通道处理. 只是处理时候数据参考系维度不一而已. 一般而言, 图像偏向于多通道处理,音频偏向于单通道处理. 而从数字信号的角度来看,也可

mser 最大稳定极值区域(文字区域定位)算法 附完整C代码

mser 的全称:Maximally Stable Extremal Regions 第一次听说这个算法时,是来自当时部门的一个同事, 提及到他的项目用它来做文字区域的定位,对这个算法做了一些优化. 也就是中文车牌识别开源项目EasyPR的作者liuruoze,刘兄. 自那时起就有一块石头没放下,想要找个时间好好理理这个算法. 学习一些它的一些思路. 因为一般我学习算法的思路:3个做法, 第一步,编写demo示例. 第二步,进行算法移植或效果改进. 第三步,进行算法性能优化. 然后在这三个过程中

音频自动增益 与 静音检测 算法 附完整C代码

前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到两个算法,一个是静音检测,一个是音频增益. 增益其实没什么好说的,类似于数据归一化拉伸的做法. 静音检

音频自动增益 与 静音检测 算法 附完整C代码【转】

转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到

自动曝光修复算法 附完整C代码

众所周知, 图像方面的3A算法有: AF自动对焦(Automatic Focus)自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure)自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance)白平衡的本质是使白色物体在任何光源下都显示白色 前面的文章也有提及过,在刚开始做图像算法的时候,我是先攻克的自动白平衡算法. 后来攻克自动曝光的时候,傻啦吧唧的,踩了不少坑. 我相信一定不止我一个,一开始的时

图片文档倾斜矫正算法 附完整c代码

2年前在学习图像算法的时候看到一个文档倾斜矫正的算法. 也就是说能将一些文档图像进行旋转矫正, 当然这个算法一般用于一些文档扫描软件做后处理 或者用于ocr 文字识别做前处理. 相关的关键词: 抗倾斜 反倾斜  Deskew 等等. 最简单算法实现思路,采用 霍夫变换(Hough Transform)进行直线检测, 当然也可以用霍夫变换检测圆. 在倾斜矫正算法中,自然就是检测直线. 通过对检测出来的直线进行角度判断, 一般取 认可度最高的几条直线进行计算, 最后求取均衡后的角度值. 进行图像角度

传统高斯模糊与优化算法(附完整C++代码)

高斯模糊(英语:Gaussian Blur),也叫高斯平滑,是在Adobe Photoshop.GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次.这种模糊技术生成的图像,其视觉效果就像是经过一个半透明屏幕在观察图像,这与镜头焦外成像效果散景以及普通照明阴影中的效果都明显不同.高斯平滑也用于计算机视觉算法中的预先处理阶段,以增强图像在不同比例大小下的图像效果(参见尺度空间表示以及尺度空间实现). 从数学的角度来看,图像的高斯模糊过程就是图像与

音频算法之小黄人变声 附完整C代码

前面提及到<大话音频变声原理 附简单示例代码>与<声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码> 都稍微讲过变声的原理和具体实现. 大家都知道,算法从实现到最后工程应用,中间的环节和问题特别多. 尤其是编码的架构设计,好的数据结构和代码逻辑封装肯定是可复用,组件化的. 前几天写完<音频识别算法思考与阶段性小结>的时候, 我也提及到了. 会做一些算法编码优化相关的分享. 而有时候我总觉得文字表达很苍白, 所以我尽可能地把代码写得简洁易懂, 一方

一种简单高效的音频降噪算法示例(附完整C代码)

近期比较忙, 抽空出来5.1开源献礼. 但凡学习音频降噪算法的朋友,肯定看过一个算法. <<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE. 资料见: <<Speech enhancement using a minimum  mean-square error log-spectral amplitude estimator.>> -----Ephraim, Y. and Malah, D. (1985) 之前也是