二分算法是我们经常会用到的一个算法。它是分治法的一个应用。不过,虽然他写起来貌似很简单,但是却很容易写错。下面我们讨论一下二分的死循环问题。(这里讨论的是整数的二分问题,浮点数的二分不容易死循环)
1.查找的元素确定,值唯一或者不存在
这种情况等下,我们的流程分为三个分支:(相等、小于、大于)。这类不容易死循环,代码如下:
if ( data[mid] == key ) return mid; if ( data[mid] > key ) r = mid-1; else l = mid+1;
2.被查元素不确定,值可能有多个,找到第一个或者最后一个
这是最容易出现死循环的情况,也是本文讨论的核心。这种情况下,流程分成两个分支,我们分两种情况讨论:
a.取第一个小于key的元素:
if ( data[mid] >= key ) r = mid-1; else l = mid;
我们看式子 mid = (l+r)/2
如果(l+r)为奇数,则
mid = (l+r)/2 = (l+r-1)/2 导出 2*mid = (l+r-1)/2*2 = l+r-1
这时,若 mid = l 则“else l = mid;”这句代码就会就会进入死循环。
所以这时使用 mid = (l+r+1)/2 代替 mid = (l+r+1)/2 就不会死循环了。
如果(l+r+1)为偶数,则
mid = (l+r+1)/2 = (l+r)/2 导出 2*mid = (l+r)/2*2 = l+r 不会出现问题。
(这时使用 mid = (l+r)/2 也不会死循环)
综上,这种情况下使用 mid = (l+r+1)/2 就不会死循环了,不过这不是通用式子,看b情况。
int bs( int l, int r, int key ) { while ( l < r ) { int mid = (l+r+1)/2; if ( data[mid] >= key ) r = mid-1; else l = mid; } return l; }
b.取第一个大于key的元素:
if ( data[mid] <= key ) l = mid+1; else r = mid;
我们看式子 mid = (l+r+1)/2
如果(l+r+1)为奇数,则
mid = (l+r+1)/2 = 导出 2*mid = (l+r+1)/2*2 = l+r+1
这时,若 mid = r 则“else r = mid;”这句代码就会就会进入死循环。
所以这时要使用 mid = (l+r)/2 代替 mid = (l+r+1)/2 才不会死循环了。
如果(l+r)为偶数,则
mid = (l+r)/2 导出 2*mid = (l+r)/2*2 = l+r不会出现问题。
(这时使用 mid = (l+r+1)/2 也不会死循环)
综上,这种情况下使用 mid = (l+r)/2 就不会死循环了。
int bs( int l, int r, int key ) { while ( l < r ) { int mid = (l+r)/2; if ( data[mid] <= key ) l = mid+1; else r = mid; } return r; }
c.综合a、b得到结论取中值的计算方式与判断条件有关,下面加入一个小优化。
3.一步小优化,防止溢出
这里使用 mid = l+(r-l)/2 代替 mid = (l+r)/2 以及 mid = l+(r-l+1)/2
代替 mid = (l+r+1)/2。这样可以防止l+r和l+r+1溢出。下面证明两者的等价性。
a.l+r为奇数,则r-l为奇数,r-l+1为偶数
mid = l+(r-l+1)/2 = l*2/2 + (r-l+1)/2 = (l+r+1)/2
mid = l+(r-l)/2 = l*2/2 + (r-l-1)/2 = (r+l-1)/2 = (r+l)/2
b.l+r为偶数,则r-l为偶数,r-l+1为奇数
mid = l+(r-l+1)/2 = l*2/2 + (r-l)/2 =(l+r)/2 = (l+r+1)/2
mid = l+(r-l)/2 = l*2/2 + (r-l)/2 = (l+r)/2
c.综上所述上述替代成立。