C\C++代码优化的27个建议

1.
记住阿姆达尔定律



  • funccost是函数func运行时间百分比,funcspeedup是你优化函数的运行的系数。

  • 所以,如果你优化了函数TriangleIntersect执行40%的运行时间,使它运行快了近两倍,而你的程序会运行快25%。

  • 这意味着不经常使用的代码不需要做较多优化考虑(或者完全不优化)。

  • 这里有句俗语:让经常执行的路径运行更加高效,而运行稀少的路径正确运行。

2.
代码先保证正确,然后再考虑优化


  • 这并不意味着用8周时间写一个全功能的射线追踪算法,然后用8周时间去优化它。

  • 分多步来做性能优化。

  • 先写正确的代码,当你意识到这个函数可能会被经常调用,进行明显的优化。

  • 然后再寻找算法的瓶颈,并解决(通过优化或者改进算法)。通常,改进算法能显著地改进瓶颈——也许是采用一个你还没有预想到的方法。所有频繁调用的函数,都需要优化。

3.
我所了解的那些写出非常高效代码的人说,他们优化代码的时间,是写代码时间的两倍。


4.跳转和分支执行代价高,如果可能,尽量少用。


  • 函数调用需要两次跳转,外加栈内存操作。

  • 优先使用迭代而不是递归。

  • 使用内联函数处理短小的函数来消除函数调用开销。

  • 将循环内的函数调用移动到循环外(例如,将for(i=0;i<100;i++)
    DoSomething();
    改为DoSomething() for(i=0;i<100;i++) … }})。

  • if…else
    if…else if…else
    if…很长的分支链执行到最后的分支需要很多的跳转。如果可能,将其转换为一个switch声明语句,编译器有时候会将其转换为一个表查询单次跳转。如果switch声明不可行,将最常见的场景放在if分支链的最前面。

5.
仔细思考函数下标的顺序。


  • 两阶或更高阶的数组在内存中还是以一维的方式在存储在内存中,这意味着(对于C/C++数组)array[i][j] 和 array[i][j+1]是相邻的,但是array[i][j] array[i+1][j]可能相距很远。

  • 以适当的方式访问存储实际内存中的数据,可以显著地提升你代码的执行效率(有时候可以提升一个数量级甚至更多)。

  • 现代处理器从主内存中加载数据到处理器cache,会加载比单个值更多的数据。该操作会获取请求数据和相邻数据(一个cache行大小)的整块数据。这意味着,一旦array[i][j]已经在处理器cache中array[i][j+1]很大可能也已经在cache中了,而array[i+1][j]可能还在内存中。

6.
使用指令层的并行机制


  • 尽管许多程序还是依赖单线程的执行,现代处理器在单核中也提供了不少的并行性。例如:单个CPU可以同时执行4个浮点数乘,等待4个内存请求并执行一个分支预判。

  • 为了最大化利用这种并行性,代码块(在跳转之间的)需要足够的独立指令来允许处理器被充分利用。

  • 考虑展开循环来改进这一点。

  • 这也是使用内联函数的一个好理由。

7.
避免或减少使用本地变量。


  • 本地变量通常都存储在栈上。不过如果数量比较少,它们可以存储在CPU寄存器中。在这种情况下,函数不但得到了更快访问存储在寄存器中的数据的好处,也避免了初始化一个栈帧的开销。

  • 不要将大量数据转换为全局变量。

8.
减少函数参数的个数。


  • 和减少使用本地变量的理由一样——它们也是存放在栈上。

9.
通过引用传递结构体而不是传值


  • 我在射线追踪中还找不到一个场景需要将结构体使用传值方式(包括一些简单结构如:Vector,Point和Color)。

10.
如果你的函数不需要返回值,不要定义一个。


11.
尽量避免数据转换。


  • 整数和浮点数指令通常操作不同的寄存器,所以转换需要进行一次拷贝操作。

  • 短整型(char和short)仍然使用一整个寄存器,并且它们需要被填充为32/64位,然后在存储回内存时需要再次转换为小字节(不过,这个开销一定比一个更大的数据类型的内存开销要多一点)。

12.
定义C++对象时需要注意。


  • 使用类初始化而不是使用赋值(Color
    c(black); 
    Color
    c; c = black;
    更快)

13.
使类构造函数尽可能轻量。


  • 尤其是常用的简单类型(比如,color,vector,point等等),这些类经常被复制。

  • 这些默认构造函数通常都是在隐式执行的,这或许不是你所期望的。

  • 使用类初始化列表(Use Color::Color() :
    r(0), g(0), b(0) 
    {},而不是初始化函数Color::Color() { r= g = b = 0; } .)

14.
如果可以的话,使用位移操作>>和<<来代替整数乘除法


15.
小心使用表查找函数


  • 许多人都鼓励将复杂的函数(比如:三角函数)转化为使用预编译的查找表。对于射线追踪功能来说,这通常导致了不必要的内存查找,这很昂贵(并不断增长),并且这和计算一个三角函数并从内存中获取值一样快(尤其你考虑到三角查找打乱了cpu的cache存取)。

  • 在其他情况下,查找表会很有用。对于GPU编程通常优先使用表查找而不是复杂函数。

16. 对大多数类,优先使用+= 、 -= 、 *= 和
/=,而不是使用+ 、 -、 、 和?/


  • 这些简单操作需要创建一个匿名临时中间变量。

  • 例 如:Vector v
    = Vector(1,0,0) + Vector(0,1,0) + Vector(0,0,1);?创建了五个匿名临时Vector:
    Vector(1,0,0), Vector(0,1,0), Vector(0,0,1), Vector(1,0,0) + Vector(0,1,0), 和
    Vector(1,0,0) + Vector(0,1,0) + Vector(0,0,1).


  • 上述代码进行简单转换:Vector v(1,0,0); v+= Vector(0,1,0); v+=
    Vector(0,0,1);仅仅创建了两个临时Vector: Vector(0,1,0) 和
    Vector(0,0,1)。这节约了6次函数调用(3次构造函数和3次析构函数)。

17.
对于基本数据类型,优先使用+?、?-?、?*?、?和?/,而不是+=?、?-=?、?*= 和 /=


18.
推迟定义本地变量


  • 定义一个对象变量通常需要调用一次函数(构造函数)。

  • 如果一个变量只在某些情况下需要(例如在一个if声明语句内),仅在其需要的时候定义,这样,构造函数仅在其被使用的时候调用。

19.
对于对象,使用前缀操作符(++obj),而不是后缀操作符(obj++)


  • 这在你的射线追踪算法中可能不是一个问题

  • 使用后缀操作符需要执行一次对象拷贝(这也导致了额外的构造和析构函数调用),而前缀的构造函数不需要一个临时的拷贝。

20.
小心使用模板


  • 对不同的是实例实现进行不同的优化。

  • 标准模板库已经经过良好的优化,不过我建议你在实现一个交互式射线追踪算法时避免使用它。

  • 使用自己的实现,你知道它如何使用算法,所以你知道如何最有效的实现它。

  • 最重要的是,我的经历告诉我:调试STL库非常低效。通常这也不是一个问题,除非你使用debug版本做性能分析。你会发现STL的构造函数,迭代器和其他一些操作,占用了你15%的运行时间,这会导致你分析性能输出更加费劲。

21.
避免在计算时进行动态内存分配


  • 动态内存对于存储场景和运行期间其他数据都很有用。

  • 但是,在许多(大多数)的系统动态内存分配需要获取控制访问分配器的锁。对于多线程应用程序,现实中使用动态内存由于额外的处理器导致了性能下降,因为需要等待分配器锁和释放内存。

  • 即便对于单线程应用,在堆上分配内存也比在栈上分配内存开销大得多。操作系统还需要执行一些操作来计算并找到适合尺寸的内存块。

22.
找到你系统内存cache的信息并利用它们


  • 如果一个是数据结构正好适合一个cache行,处理整个类从内存中只需要做一次获取操作。

  • 确保所有的数据结构都是cache行大小对齐(如果你的数据结构和一个cache行大小都是128字节,仍有可能因为你的结构体中的一个字节在一个cache行中,而其他127字节在另外一个cahce行中)。

23.
避免不需要的数据初始化


  • 如果你需要初始化一大段的内存,考虑使用memset。

24.
尽早结束循环和尽早返回函数调用


  • 考虑一个射线和三角形交叉,通常的情况是射线会越过三角,所以这里可以优化。

  • 如果你决定将射线和三角面板交叉。如果射线和面板交叉t值是负数,你可以立即返回。这允许你跳过射线三角交叉一大半的质心坐标计算。这是一个大的节约,一旦你知道这个交叉不存在,你就应该立即返回交叉计算函数。

  • 同样的,一些循环也应该尽早结束。例如,当设置阴影射线,对于近处的交叉通常都是不必须的,一旦有类似的的交叉,交叉计算就应该尽早返回。(这里的交叉含义不太明白,可能是专业词汇,译者注)

25.
在稿纸上简化你的方程式


  • 许多方程式中,通常都可以或者在某些条件中取消计算。

  • 编译器不能发现这些简化,但是你可以。取消一个内部循环的一些昂贵操作可以抵消你在其他地方的好几天的优化工作。

26.
整数、定点数、32位浮点数和64位双精度数字的数学运算差异,没有你想象的那么大


  • 在现代CPU,浮点数运算和整数运算差不多拥有同样的效率。在计算密集型应用(比如射线追踪),这意味这可以忽略整数和浮点数计算的开销差异。这也就是说,你不必要对算数进行整数处理优化。


  • 精度浮点数运算也不比单精度浮点数运算更慢,尤其是在64位机器上。我在同一台机器测试射线追踪算法全部使用double比全部使用floats运行有时
    候更快,反过来测试也看到了一样的现象(这里的原文是:I have seen ray tracers run faster using all doubles
    than all floats on the same machine. I have also seen the reverse)。

27.
不断改进你的数学计算,以消除昂贵的操作


  • sqrt()经常可以被优化掉,尤其是在比较两个值的平方根是否一致时。

  • 如果你重复地需要处理 除x
    操作,考虑计算1/x的值,乘以它。这在向量规范化(3次除法)运算中赢得了大的改进,不过我最近发现也有点难以确定的。不过,这仍然有所改进,如果你要进行三次或更多除法运算。

  • 如果你在执行一个循环,那些在循环中执行不发生变化的部分,确保提取到循环外部。

  • 考虑看看你的计算值是否可以在循环中修改得到(而不每次都重新开始循环计算)。

C\C++代码优化的27个建议,布布扣,bubuko.com

时间: 2024-10-25 23:02:09

C\C++代码优化的27个建议的相关文章

【转】C\C++代码优化的27个建议

1. 记住阿姆达尔定律: funccost是函数func运行时间百分比,funcspeedup是你优化函数的运行的系数. 所以,如果你优化了函数TriangleIntersect执行40%的运行时间,使它运行快了近两倍,而你的程序会运行快25%. 这意味着不经常使用的代码不需要做较多优化考虑(或者完全不优化). 这里有句俗语:让经常执行的路径运行更加高效,而运行稀少的路径正确运行. 2. 代码先保证正确,然后再考虑优化 这并不意味着用8周时间写一个全功能的射线追踪算法,然后用8周时间去优化它.

关于Java代码优化的44条建议!

关于Java代码优化的N条建议! 本文是作者:五月的仓颉 结合自己的工作和平时学习的体验重新谈一下为什么要进行代码优化.在修改之前,作者的说法是这样的: 就像鲸鱼吃虾米一样,也许吃一个两个虾米对于鲸鱼来说作用不大,但是吃的虾米多了,鲸鱼自然饱了. 代码优化一样,也许一个两个的优化,对于提升代码的运行效率意义不大,但是只要处处都能注意代码优化,总体来说对于提升代码的运行效率就很有用了. 这个观点,在现在看来,是要进行代码优化的一个原因,但不全对.在机械工艺发展的今天,服务器动辄8核.16核,64位

关于Java代码优化的35条建议

代码优化,一个很重要的课题.可能有些人觉得没用,一些细小的地方有什么好修改的,改与不改对于代码的运行效率有什么影响呢?这个问题我是这么考虑的,就像大海里面的鲸鱼一样,它吃一条小虾米有用吗?没用,但是,吃的小虾米一多之后,鲸鱼就被喂饱了.代码优化也是一样,如果项目着眼于尽快无BUG上线,那么此时可以抓大放小,代码的细节可以不精打细磨:但是如果有足够的时间开发.维护代码,这时候就必须考虑每个可以优化的细节了,一个一个细小的优化点累积起来,对于代码的运行效率绝对是有提升的. 代码优化的目标是: 1.减

关于javascript代码优化的8点建议

前面的话 本文将详细介绍JS编程风格的几个要点 松耦合 当修改一个组件而不需要更改其他组件时,就做到了松耦合 1.将JS从CSS中抽离:不要使用CSS表达式 //不好的做法 .box{width: expression(document.body.offsetWidth + ’px')} 2.将CSS从JS中抽离:通过JS修改CSS样式时,使用className或classList,不要逐条修改style样式 //不好的做法一 ele.style.color = 'red'; ele.style

经典技术软文

技术综合 <小黄鸭调试法,每个程序员都要知道的> <开发一个这样的 APP 要多长时间?> <一段代码让你觉得人类智慧可以璀璨无比> <成人网站有多大?> <输入Google网址回车之后发生了什么?> <为什么有些大公司技术弱爆了?> <高效 MacBook 工作环境配置> <如何编写让别人能读懂的代码?> <最牛逼的编码套路> <有了这列表,程序员不愁没练手小项目了> <相似图片

新书《深入应用C++11:代码优化与工程级应用》出版,感谢支持

经过一年的编写,这本书终于和大家见面了, 已经由机械工业出版社出版,希望本书能给学习C++尤其是C++11的朋友们更多的帮助. 关于C++11 在StackOverflow的最近一次世界性调查中,C++11在所有的编程语言中排名第二, C++11受到程序员的追捧是毫不意外的,因为它就像C++之父Bjarne Stroustrup说的:它看起来就像一门新的语言.C++11新增加了相当多的现代编程语言的特性,相比C++98/03,它在生产力.安全性.性能和易用性上都有了大幅提高.比如auto和dec

黑马程序员---java基础-Java 多线程

------Java培训.Android培训.iOS培训..Net培训.期待与您交流! ------- 进程指的是一个正在执行中的程序,而线程则是进程中一个负责程序执行的控制单元.一个进程中可以有多个执行路径,这就是多线程.开启多个线程可以运行多部分代码,这样就能运行多个功能 一.多线程的创建 在java中,创建多线程主要有以下两个方式: 1.继承Thread类: 1 public class test { 2 3 public static void main(String[] args) {

使用A/B测试的目的是什么?

在网站建设中,为了更好的运营或达到我们的目标,我们常常都需要对重要页面或功能进行A/B测试,但是还是有很多运营新人对A/B测试有些懵逼,今天就和大家一起来扒一扒A/B测试的理由,希望可以帮助大家更好的开展网络运营工作. 先看前10条 1. 结合了大数据的思路和企业寻求业务增长的基本需求,无论多复杂的问题,都可以通过A/B测试来探寻解决的方案. 2. 事实上不同行业不同类型的企业都可以通过A/B测试来提升他们的转化率和营收! 3. A/B测试的理论和实操都非常容易理解和上手,无论是老人还是新人都可

MySQL优化要点

MySQL优化要点     硬件选型优化 CPU 主频高,支持多线程 1.2.  磁盘 SAS磁盘(RAID10)或SSD磁盘(RAID1) 1.3.    主板 修改主板配置参数,打开磁盘写缓存,关闭磁盘读缓存,以免影响数据插入速度;尽量使用独立RAID,不用主板集成RAID卡 1.4.      网卡 主机多网卡BOND绑定,保证网络无故障;配备千兆速率以上网卡设备. 1.5.    内存 配备多通道高频内存,容量至少16G以上,最好是数据库数据内存两倍. 部署以及配置参数优化 部署规范 统