【性能测评】DSP库,MDK5的AC5,AC6,IAR和Embedded Studio的三角函数性能

测试条件:
1、IAR8.30开最高等级速度优化。
2、MDK5.27正式版使用AC5开最高等级优化3,开启时间优化,测试C标准库和微库MicroLib两种。
3、MDK5.27正式版使用AC6开最高等级的速度优化,测试C标准库和微库MicroLib两种。
4、Embedded Studio4.30版使用GCC开最高等级优化,开C库使用Fast模式。
5、Embedded Studio4.30版使用CLANG开最高等级优化,开C库使用Fast模式。
6、DSP库使用最新的CMSIS软件包里面的V5.6.0。
7、测试单位使用DWT时钟周期计数器。
8、DSP库使用函数arm_sin_f32测试,IAR,MDK和ES都使用各自带的C库测试。执行10次,求平均。
注意,IAR,MDK和ES都有各自的C库实现方案。

提供一个STM32H7的例程供大家测评:

MDKIARES-USART.rar


1、MDK5 AC5 MicroLib
(1)DSP库函数第一次执行73个时钟周期,之后重复执行都是55个时钟周期左右。
(2)微库的sin函数259,之后重复执行是197个时钟周期左右。

2、MDK5 AC5 C Lib
(1)DSP库函数第一次执行71个时钟周期,之后重复执行都是55个时钟周期左右。
(2)C库的sin函数264,之后重复执行是200个时钟周期左右。

3、MDK5 AC6 MicroLib
(1)DSP库函数第一次执行81个时钟周期,之后重复执行都是58个时钟周期左右。
(2)C库的sin函数,使用DWT时钟周期计数器无法正常测量。

4、MDK5 AC6 C Lib
(1)DSP库函数第一次执行74个时钟周期,之后重复执行都是58个时钟周期左右。
(2)C库的sin函数,使用DWT时钟周期计数器无法正常测量。

5、IAR
(1)DSP库函数第一次执行83个时钟周期,之后重复执行都是58个时钟周期左右。
(2)C库的sin函数217,之后重复执行是194个时钟周期左右。

6、Embedded Studio GCC
(1)DSP库函数第一次执行79个时钟周期,之后重复执行都是49个时钟周期左右。
(2)C库的sin函数140,之后重复执行是129个时钟周期左右。

7、Embedded Studio CLANG
(1)DSP库函数第一次执行80个时钟周期,之后重复执行都是59个时钟周期左右。
(2)C库的sin函数141,之后重复执行是129个时钟周期左右。


MDK5的AC5开启的优化等级:

MDK5的AC6开启的优化等级:

MDK使用微库和C库通过这个对勾切换:

IAR开启的优化等级

Embedded Studio优化等级和C库选Fast模式


总结:
1、DSP库的三角函数计算在MDK,IAR和ES上的性能都差不多。
2、使用MDK的AC6时,使用DWT是周期计数器无法正常测量C库做三角函数运算的执行时间,时间非常短,感觉异常了,所以暂不加入比较。
3、MDK AC5和IAR的C库三角函数性能差不多,而ES的三角函数性能比较强劲,比MDK和IAR的强很多。
4、当前仅测试一个sin函数,后面有精力做一个全面的三角函数比较。

原文地址:https://www.cnblogs.com/armfly/p/11824171.html

时间: 2024-11-10 16:05:25

【性能测评】DSP库,MDK5的AC5,AC6,IAR和Embedded Studio的三角函数性能的相关文章

STM32的DSP库的应用

前些天理解了fft变换的理论和对其工程应用进行了实例分析,详见我的名为<C语言实现fft理论基础与工程应用的实例分析>的博客,用C语言编写的fft算法比较容易看懂,但带来的缺点就是执行效率低,对于要求实时操作(例如电机控制)的反应速度不够灵敏.本篇内容将简要分析STM32自带的DSP库文件,其用汇编语言编写,代码执行效率明显优于C语言,ST公司封装好了了库文件,我们不必看懂其汇编代码,只要会调用接口函数即可. 1,代码分析 首先我们需要在一个已经建立好的工程文件里添加如下编译路径: 工程需要添

【玩转单片机系列002】 如何使用STM32提供的DSP库进行FFT

前些日子,因为需要在STM32F103系列处理器上,对采集的音频信号进行FFT,所以花了一些时间来研究如何高效并精确的在STM32F103系列处理器上实现FFT.在网上找了很多这方面的资料做实验并进行比较,最终选择了使用STM32提供的DSP库这种方法. 本文将以一个实例来介绍如何使用STM32提供的DSP库函数进行FFT. 1.FFT运算效率 使用STM32官方提供的DSP库进行FFT,虽然在使用上有些不灵活(因为它是基4的FFT,所以FFT的点数必须是4^n),但其执行效率确实非常高效,看图

STM32F4使用FPU+DSP库进行FFT运算的测试过程

测试环境:单片机:STM32F407ZGT6   IDE:Keil5.20.0.0  固件库版本:STM32F4xx_DSP_StdPeriph_Lib_V1.4.0 第一部分:使用源码文件的方式,使用void arm_cfft_radix4_f32(const arm_cfft_radix4_instance_f32 * S,float32_t * pSrc)函数进行FFT运算. 准备空工程,配置Keil环境.使能STM32F4的FPU单元. 开启硬件浮点运算,等效于在C/C++->defin

STM32F4使用DSP库进行FFT运算的测试过程二

原文地址:http://www.cnblogs.com/NickQ/p/8541156.html 测试环境:单片机:STM32F407ZGT6 IDE:Keil5.20.0.0 固件库版本:STM32F4xx_DSP_StdPeriph_Lib_V1.4.0 第二部分:本教程使用DSP--lib库的方式,进行FFT运算. 由于上一篇教程STM32F4使用FPU+DSP库进行FFT运算的测试过程一 ,进行FFT运算的是void arm_cfft_radix4_f32(const arm_cfft_

4个常用Linux VPS/服务器性能测评的脚本工具整理

我们网友在看到或者买到一台Linux VPS主机之后会做什么?肯定是要看看新买的这台机器是不是正如我们看到商家宣传或者网友说的那么好,比如在性能.速度.评分.IO读写上面的数据是否如何我们使用需要.当然,任何的软件测试或者别人的测试都不代表自己使用的效果,我们还是需要经受自己使用才能看到这个产品是否符合我们的用途. 4个常用Linux VPS/服务器性能测评的脚本工具整理4个常用Linux VPS/服务器性能测评的脚本工具整理 每一个网友都有自己的评判产品的标准或者工具,一般我们使用的工具都来自

MySQL性能调优与架构设计——第9章 MySQL数据库Schema设计的性能优化

MySQL性能调优与架构设计——第9章 MySQL数据库Schema设计的性能优化 前言: 很多人都认为性能是在通过编写代码(程序代码或者是数据库代码)的过程中优化出来的,其实这是一个非常大的误区.真正影响性能最大的部分是在设计中就已经产生了的,后期的优化很多时候所能够带来的改善都只是在解决前妻设计所遗留下来的一些问题而已,而且能够解决的问题通常也比较有限.本章将就如何在 MySQL 数据库 Schema 设计的时候保证尽可能的高效,尽可能减少后期的烦恼. 9.1 高效的模型设计 最规范的就一定

iar、keil(ac5+ac6)编译效果小记

stm32F103et6平台,cubemx生成的两个IDE工程 1.均无开启任务优化 iar8.32如下: keil5.29 ac5编译器 : keil5.29 ac6编译器 : 同样的代码,不开优化的情况下,ac6反而代码空间比较大 2.开启最高优化: iar:high(size) keil5.29 ac5编译器 :level 3 keil5.29 ac5编译器 :-Oz 开启优化的情况,ac6的表现还是不错的. 原文地址:https://www.cnblogs.com/CodeWorkerL

C++Singleton的DCLP(双重锁)实现以及性能测评

  本文系原创,转载请注明:http://www.cnblogs.com/inevermore/p/4014577.html   根据维基百科,对单例模式的描述是: 确保一个类只有一个实例,并提供对该实例的全局访问. 从这段话,我们可以得出单例模式的最重要特点: 一个类最多只有一个对象   单线程环境   对于一个普通的类,我们可以任意的生成对象,所以我们为了避免生成太多的类,需要将类的构造函数设置为私有. 所以我们写出第一步: class Singleton { public: private

关于python性能相关测试cProfile库

http://blog.csdn.net/gzlaiyonghao/article/details/1483728 收藏一个大神对这个问题的介绍. 我就不多做污染了.另外还有两个 增强库可以针对cProfile输出的.prof文件生成带图的分析 一个是snakeviz 一个是gprof2dot 第二个图生成的东西非常酷炫...但是并没有第一个实用. 在使用这两者的过程中其实都有使用到一个自定义报表模块.pstats import cProfile from pstats import Stats