基于傅里叶变换的音频重采样算法 (附完整c代码)

前面有提到音频采样算法：

WebRTC 音频采样算法附完整C++示例代码

简洁明了的插值音频重采样算法例子 (附完整C代码)

近段时间有不少朋友给我写过邮件，说了一些他们使用的情况和问题。

坦白讲，我精力有限，但一般都会抽空回复一下。

大多数情况，阅读一下代码就能解决的问题，

也是要尝试一下的。

没准，你就解决了呢？

WebRtc的采样算法本身就考虑到它的自身应用场景，

所以它会有一些局限性，例如不支持任意采样率等等。

而简洁插值的这个算法，

我个人也一直在使用，因为简洁明了，简单粗暴。

我自然也就没有进一步去细究采样算法，

当然网上还有不少开源的采样算法也是极其不错的。

一直也想抽时间再做一个兼顾简洁和质量的算法出来，不了了之。

最近一直在死磕傅里叶变换，网上的资源看了一箩筐。

徘徊到最后，毫无疑问FFTW3必须是你的首选，

从岁数性能以及使用的概率来说，当之无愧的王者。

当然也顺带整理一下，其他的一些FFT实现，各有优劣。

用于学习，作为参考资料也是不二之选。

有兴趣的小伙伴，可以参阅之.

https://github.com/cpuimage/StockhamFFT

https://github.com/cpuimage/uFFT

https://github.com/cpuimage/BluesteinCrz

https://github.com/cpuimage/fftw3

当然最佳的参考资料，还是fftw3,

我的这个git做了以下工作：

1.梳理调整目录结构

2.移除一些影响阅读调试，让人头大的宏定义

3.合并代码至fftw_api.c，移除一些不常用的代码

注意:未经过严格测试验证

也许这个git存在的意义在于方便众人阅读学习fftw的算法思路，

以及调试,扣代码等等诸如此类的行为。

所以有需要的同学可以，参考之。

回到本次的主题，

在以前做图像算法的时候，就一直在想一个问题，

是否可以利用傅里叶变换的特性进行图像的重采样呢？

这个一直是我心中的一个小石头，一直没放下。

从理论上来说，可行的，只是估计最终质量并不能保证。

最佳的尝试莫过于音频重采样，在很多时候，

我们经常需要对一个音频进行傅里叶变换，然后进行上采样或下采样的操作。

那是不是可以直接就在频域进行重采样呢？

这样的做法是不是质量就能有所保障呢？

事实证明，这是可行的。

经过简单试验，基于傅里叶变换的音频重采样算法就这样出炉了。

目前示例采用hsfft 这个开源傅里叶变换进行验证，

没有采用fftw3的原因也很简单，因为fftw3编译器来有点麻烦。

而hsfft的函数风格与fftw3类似，只是速度性能上不及fftw3而已。

这样也符合我的要求，真正应用的时候再使用fftw3替换之即可，

在验证思路的时候，没必要动用fftw3，

这也是我为什么使用简洁重采样的原因之一。

每个步骤都要有策略和方法，不必太过较真。

如果特定情况下需要，我也可以上matlab,python,delphi,c#,c++等等。

语言只是工具，关键还是思路和思想。

贴上主要代码：

#ifndef MIN
#define MIN(a, b) ((a) < (b) ? (a) : (b))
#endif 

void FFTResample(float *input, float *output, int sizeIn, int sizeOut) {
    fft_t *fftin = (fft_t *) calloc(sizeof(fft_t), sizeIn);
    fft_t *fftout = (fft_t *) calloc(sizeof(fft_t), sizeOut);
    if (fftin == NULL || fftout == NULL) {
        if (fftout)
            free(fftout);
        if (fftin)
            free(fftin);        return;
    }
    fft_real_object fftPlan = fft_real_init(sizeIn, 1);
    fft_r2c_exec(fftPlan, input, fftin);
    free_real_fft(fftPlan);
    int halfIn = (sizeIn / 2) + 1;
    int halfOut = (sizeOut / 2) + 1;
    for (int i = 0; i < MIN(halfIn, halfOut); ++i) {
        fftout[i].re = fftin[i].re;
        fftout[i].im = fftin[i].im;
    }
    fft_real_object ifftPlan = fft_real_init(sizeOut, -1);
    fft_c2r_exec(ifftPlan, fftout, output);
    free_real_fft(ifftPlan);
    float norm = 1.f / sizeIn;
    for (int i = 0; i < sizeOut; ++i) {
        output[i] = (output[i] * norm);
    }
    free(fftout);
    free(fftin);
}

算法非常简单，用一句时髦的语言来描述这个算法，就是“多退少补“。

需要补课FFT的可以移步:

从多项式乘法到快速傅里叶变换

项目地址:

https://github.com/cpuimage/fftResample

采用Cmake编译即可，示例代码也很简洁。

不多做解释了~

以上，权当抛砖引玉。

若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是:
[email protected]

原文地址：https://www.cnblogs.com/cpuimage/p/9270739.html

时间： 2024-10-09 04:50:26

基于傅里叶变换的音频重采样算法 (附完整c代码)的相关文章

音频降噪算法附完整C代码

降噪是音频图像算法中的必不可少的. 目的肯定是让图片或语音更加自然平滑,简而言之,美化. 图像算法和音频算法都有其共通点. 图像是偏向空间处理,例如图片中的某个区域. 图像很多时候是以二维数据为主,矩形数据分布. 音频更偏向时间处理,例如语音中的某短时长. 音频一般是一维数据为主,单声道波长. 处理方式也是差不多,要不单通道处理,然后合并,或者直接多通道处理. 只是处理时候数据参考系维度不一而已. 一般而言, 图像偏向于多通道处理,音频偏向于单通道处理. 而从数字信号的角度来看,也可

mser 最大稳定极值区域(文字区域定位)算法附完整C代码

mser 的全称:Maximally Stable Extremal Regions 第一次听说这个算法时,是来自当时部门的一个同事, 提及到他的项目用它来做文字区域的定位,对这个算法做了一些优化. 也就是中文车牌识别开源项目EasyPR的作者liuruoze,刘兄. 自那时起就有一块石头没放下,想要找个时间好好理理这个算法. 学习一些它的一些思路. 因为一般我学习算法的思路:3个做法, 第一步,编写demo示例. 第二步,进行算法移植或效果改进. 第三步,进行算法性能优化. 然后在这三个过程中

音频自动增益与静音检测算法附完整C代码

前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到两个算法,一个是静音检测,一个是音频增益. 增益其实没什么好说的,类似于数据归一化拉伸的做法. 静音检

音频自动增益与静音检测算法附完整C代码【转】

转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低. 在通讯行业一般的做法就是采用静音检测, 一旦检测为静音或者噪音,则不做处理,反之通过一定的策略进行处理. 这里就涉及到

自动曝光修复算法附完整C代码

众所周知, 图像方面的3A算法有: AF自动对焦(Automatic Focus)自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure)自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance)白平衡的本质是使白色物体在任何光源下都显示白色前面的文章也有提及过,在刚开始做图像算法的时候,我是先攻克的自动白平衡算法. 后来攻克自动曝光的时候,傻啦吧唧的,踩了不少坑. 我相信一定不止我一个,一开始的时

图片文档倾斜矫正算法附完整c代码

2年前在学习图像算法的时候看到一个文档倾斜矫正的算法. 也就是说能将一些文档图像进行旋转矫正, 当然这个算法一般用于一些文档扫描软件做后处理或者用于ocr 文字识别做前处理. 相关的关键词: 抗倾斜反倾斜 Deskew 等等. 最简单算法实现思路,采用霍夫变换(Hough Transform)进行直线检测, 当然也可以用霍夫变换检测圆. 在倾斜矫正算法中,自然就是检测直线. 通过对检测出来的直线进行角度判断, 一般取认可度最高的几条直线进行计算, 最后求取均衡后的角度值. 进行图像角度

传统高斯模糊与优化算法(附完整C++代码)

高斯模糊(英语:Gaussian Blur),也叫高斯平滑,是在Adobe Photoshop.GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次.这种模糊技术生成的图像,其视觉效果就像是经过一个半透明屏幕在观察图像,这与镜头焦外成像效果散景以及普通照明阴影中的效果都明显不同.高斯平滑也用于计算机视觉算法中的预先处理阶段,以增强图像在不同比例大小下的图像效果(参见尺度空间表示以及尺度空间实现). 从数学的角度来看,图像的高斯模糊过程就是图像与

音频算法之小黄人变声附完整C代码

前面提及到<大话音频变声原理附简单示例代码>与<声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码> 都稍微讲过变声的原理和具体实现. 大家都知道,算法从实现到最后工程应用,中间的环节和问题特别多. 尤其是编码的架构设计,好的数据结构和代码逻辑封装肯定是可复用,组件化的. 前几天写完<音频识别算法思考与阶段性小结>的时候, 我也提及到了. 会做一些算法编码优化相关的分享. 而有时候我总觉得文字表达很苍白, 所以我尽可能地把代码写得简洁易懂, 一方

一种简单高效的音频降噪算法示例(附完整C代码)

近期比较忙, 抽空出来5.1开源献礼. 但凡学习音频降噪算法的朋友,肯定看过一个算法. <<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE. 资料见: <<Speech enhancement using a minimum mean-square error log-spectral amplitude estimator.>> -----Ephraim, Y. and Malah, D. (1985) 之前也是