2.2分析算法
分析算法的结果意味着预测算法需要的资源。虽然有时候关心内存、通讯或者计算机硬件,但是通常我们想度量的是时间。
在分析算法之前,要有一个实现技术的模型,包括描述所用资源及其代价的模型。我们假定一种通用的单处理器计算模型—随机访问机(random-access machine,RAM)来作为我们的实现技术,算法可以用计算机程序来实现。在RAM模型中,指令一条接一条执行,并没有并发操作。RAM模型包含真是计算机中常见的指令:算术指令(如加法、减法、乘法、取余、向上取整、向下取整)、数据移动命令(装入、存储、复制)和控制指令(条件与无条件转移、子程序调用与返回)。每条这样的指令所需时间都为常量。
关于运行时间和规模的关系,常数运行时间是相对于一定的数据规模而言的,比如两个数相加,这两个数不能太大,否则就不是常数时间了。本书大部分不考虑内存层次的影响。
插入排序算法的分析
一般来说,算法需要的时间与输入的规模同步增长,所以通常把一个程序的运行时间描述成其输入规模的函数。下面严格定义“输入规模”和“运行时间”:
输入规模的最佳概念依赖于研究的额问题。对于排序或者计算离散傅里叶变换,最自然的度量是输入中的项数;对于两个数相乘,输入规模的最佳度量是用通常的二进制记号表示输入所需的总位数;有时,用两个数而不是一个数来描述输入规模更合适。比如,一个图,输入规模用定点数和边数来描述。
一个算法在特定输入上的运行时间是指执行的基本操作数或步数。我们假定执行每行伪代码需要常量的时间。
我们给出INSERTION-SORT的算法分析,值得注意的是:for或者while循环按照通常的方式(即由于循环头中的测试)退出时,执行测试的次数比执行循环体的次数多1.假定注释不占用时间。
//INSORTION-SORT(A) | 代价 | 次数 |
for j = 2 to A.length | c1 | n |
key = A[j] | c2 | n-1 |
//insert A[j]into the sorted sequence A[1..j-1] | 0 | n-1 |
i = j - 1 | c4 | n-1 |
while i > 0 and A[i] > key | c5 | sigma(t.j,j=2,j=n) |
A[i+1] = A[i] | c6 | sigma(t.j-1,j=2,j=n) |
i = i - 1 | c7 | sigma(t.j-1,j=2,j=n) |
A[i+1] = key | c8 | n-1 |
运行时间 T(n) =
即使对于给定规模的输入,一个算法的运行时间可能也依赖于给定的是该规模下的哪个输入。比如,排序算法已经排好的程度。对于插入排序,最好的情况是
公式--
这是一个关于n的一次函数。
最坏的情况是
公式--
这是一个关于n的二次函数。
最坏情况与平均情况分析
我们在本书中一般只关注最坏运行时间,原因有三:
1、一个算法的最坏运行时间给出了这个算法的运行时间上界。
2、对于一些算法,最坏情况经常出现。
3、“平均情况”往往与最坏情况大致一样差。
增长量级
我们感兴趣的其实是运行时间的增长率或者增长量级,即随着n的增加,运行时间的增长程度。