方法一:根据快速排序划分的思想 :
(1) 递归对所有数据分成[a,b)b(b,d]两个区间,(b,d]区间内的数都是大于[a,b)区间内的数 ;
(2) 对(b,d]重复(1)操作,直到最右边的区间个数小于100个。
注意[a,b)区间不用划分 ;因为[a,b)区间一定小于(b,d]区间;
(3) 返回上一个区间,并返回此区间的数字数目。
如果个数大于100,对(b,d]重复(1)操作,直到最右边的区间个数小于100个;
如果个数小于100,对上一区间的左边进行划分,分为[a2,b2)b2(b2,d2]两个区间,取(b2,d2]区间。
如果个数超过100的就重复1操作,直到最后右边只有100个数为止。 时间复杂度为:O(NlgN)
方法二:维护一个K个元素的堆:
先取出前100个数,维护一个100个数的最小堆,遍历一遍剩余的元素,在此过程中维护堆就可以了。
具体步骤如下:
第一:取前K个元素(例如m=100),建立一个小顶堆。保持一个小顶堆得性质的步骤,运行时间为O(lgK);建立一个小顶堆运行时间为K*O(lgK)=O(KlgK);
第二:顺序读取后续元素,直到结束。每次读取一个元素,如果该元素比堆顶元素小,直接丢弃 ;如果大于堆顶元素,则用该元素替换堆顶元素,然后保持最小堆性质。最坏情况是每次都需要替换掉堆顶的最小元素,因此需要维护堆的代价为(N-K)*O(lgK);
最后这个堆中的元素就是前K最大的K个元素。时间复杂度为O(N lgK)。
方法三:维护一个K个元素的数组:
这种思想类似与思想二,如果在查找比较的时候用二分查找,也可以使时间复杂度变为:O(NlgK)。只不过因为数组时顺序存储,当需要插入更新数据的时候需要移动K个数据,移动的次数变得很多,操作变得复杂。如果是堆,移动的次数最多也是lgK次。所以在这方面堆的效率比数组高。
方法四:分块查找:
如果数据有100W个,求取前100个数据。那么我们可以用分治法的思想,其实对于大量的数据一般都是分治法。大而化小,小而化简,各个击破。最后在组合。因为数据是无限的,而我们的处理资源硬件是有限的,所以必须的分割处理。
方法是:先把100w个数分成100份,每份1w个数。先分别找出每1w个数里面的最大的数,然后比较。找出100个最大的数中的最大的数和最小的数,取最大数的这组的第二大的数,与最小的数比较。如果第二大的数比最小的数大,那么这样就一下砍掉1W个数了;如果第二大的数比最小的数小,那么也可以砍掉9999个数,剩下的肯定不是前100个中的。类似这样可以解决此问题。