基于PriorityQueue(优先队列)解决TOP-K问题

TOP-K问题是面试高频题目，即在海量数据中找出最大(或最小的前k个数据)，隐含条件就是内存不够容纳所有数据，所以把数据一次性读入内存，排序，再取前k条结果是不现实的。

下面我们用简单的Java8代码去解决TOP-K问题。为了使主要的逻辑更加清晰，去掉了一些如参数合法性检查等非关键代码。

PriorityQueue(优先队列)是JDK1.5开始提供的，主要作者包括大名鼎鼎的纽约大学教授Doug Lea，他也是Java JUC包的鼻祖哦。

PriorityQueue相当于一个堆(默认为小根堆，如果想要创建大根堆，那么在创建PriorityQueue时应指定为逆序，代码如下)

new PriorityQueue<>(maxSize, Comparator.reverseOrder());

下面我们就以默认的小根堆去解决TOP-K问题(小根堆用于解决前k个最大值，而大根堆用于解决前k个最小值)

class FixSizedPriorityQueue {//自定义固定长度(k)的优先队列，因此可以解决Top-k问题
    PriorityQueue<Integer> queue;
    int k;

    public FixSizedPriorityQueue(int k) {
        this.k = k;
        this.queue = new PriorityQueue<>(k);
    }

    public void add(Integer e) {
        if (queue.size() < k) { //当前队列元素个数不足k个时，直接添加
            queue.add(e);
        } else { //超出k个时
            if (e.compareTo(queue.peek()) > 0) {// 如果新元素大于了堆顶元素，说明新元素应替换掉当前堆顶元素
                queue.poll();
                queue.add(e);
            }
        }
    }
}
public class Main {

    public static void main(String[] args) {

        final FixSizedPriorityQueue pq = new FixSizedPriorityQueue(10);
        Random random = new Random();
        random.ints(100, 0, 1000).forEach(pq::add);//产生100个0-1000的随机数，并加入自定义的定长优先队列
        while (!pq.queue.isEmpty()) {
            System.out.print(pq.queue.poll() + ", ");//不断取出堆顶元素，由于本例是小根堆，因此会从小到大打印出前10大的值
        }
    }
}

原文地址：https://www.cnblogs.com/flamestudio/p/12000151.html

时间： 2024-10-02 04:44:16

基于PriorityQueue(优先队列)解决TOP-K问题的相关文章

Top K问题的两种解决思路

Top K问题在数据分析中非常普遍的一个问题(在面试中也经常被问到),比如: 从20亿个数字的文本中,找出最大的前100个. 解决Top K问题有两种思路, 最直观:小顶堆(大顶堆 -> 最小100个数): 较高效:Quick Select算法. LeetCode上有一个问题215. Kth Largest Element in an Array,类似于Top K问题. 1. 堆小顶堆(min-heap)有个重要的性质--每个结点的值均不大于其左右孩子结点的值,则堆顶元素即为整个堆的最小值.J

Top k 问题

Top K的问题: 给出大量数据,找出其中前K个最大(小)的数,或者在海量数据中找到出现频率最好的前K个数. 一.给出大量数据(N个),找出其中前K个最大数(没有其他资源上的限制) 1.使用排序算法直接使用排序算法,如快速排序,然后遍历找到最大的K个数.时间复杂度为O(NlogN): 2.部分排序因为,只要求出前K个最大值,所以我们不必全部排好.思路是:随意选出K个数形成一个数组,然后按从大到小进行排序,再从剩下的数中,选取一个数和数组中的最小值进行比较,若小于最小值,则取下一个数继续比较:

Top k问题（线性时间选择算法）

问题描述:给定n个整数,求其中第k小的数. 分析:显然,对所有的数据进行排序,即很容易找到第k小的数.但是排序的时间复杂度较高,很难达到线性时间,哈希排序可以实现,但是需要另外的辅助空间. 这里我提供了一种方法,可以在O(n)线性时间内解决Top k问题.关于时间复杂度的证明,不再解释,读者可以查阅相关资料.具体的算法描述如下: 算法:LinearSelect(S,k) 输入:数组S[1:n]和正整数k,其中1<=k<=n: 输出:S中第k小的元素 1. If n<20 Then

Top K以及java priorityqueue

Top K问题比较常见啦,这里总结一下方法. 1.用最小堆来做. 思路是先利用数组中前k个数字建一个最小堆,然后将剩余元素与堆顶元素进行比较,如果某个元素比堆顶元素大,就替换掉堆顶元素,并且重新调整成最小堆. 到这里,堆中保存着的其实是前k个最大的数字.堆顶就是第K个最大的数字.这样前k个,第k个都可以求出来了.代码如下: 1 public void find(int[] nums, int k){ 2 PriorityQueue<Integer> priorityQueue = new Pr

Top K问题！！！！！！！！！！！！！

转:http://blog.csdn.net/boo12355/article/details/11788655 Top K 算法详解应用场景: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节. 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个.一个查询串的重复度越高,说明查询它的用户越多,也就是越热门.),请你统计最热门的10个查询串,要求使用的内存不能超过1G. 必备知识:什么

排序算法Java版，以及各自的复杂度，以及由堆排序产生的top K问题

常用的排序算法包括: 冒泡排序:每次在无序队列里将相邻两个数依次进行比较,将小数调换到前面, 逐次比较,直至将最大的数移到最后.最将剩下的N-1个数继续比较,将次大数移至倒数第二.依此规律,直至比较结束.时间复杂度:O(n^2) 选择排序:每次在无序队列中"选择"出最大值,放到有序队列的最后,并从无序队列中去除该值(具体实现略有区别).时间复杂度:O(n^2) 直接插入排序:始终定义第一个元素为有序的,将元素逐个插入到有序排列之中,其特点是要不断的移动数据,空出一个适当的位置,把待插

Top k Largest Numbers

Given an integer array, find the top k largest numbers in it. Example Given [3,10,1000,-99,4,100] and k = 3.Return [1000, 100, 10]. 思路:由于需要按从大到小的顺序,因此直接用PriorityQueue即可,用Partition的方法的话还需要排序.直接用PriorityQueue 写的代码量少. 1 class Solution { 2 /* 3 * @param

LeetCode OJ 347. Top K Frequent Elements hashmap+排序求解

题目链接:https://leetcode.com/problems/top-k-frequent-elements/. 347. Top K Frequent Elements My Submissions QuestionEditorial Solution Total Accepted: 15510 Total Submissions: 36453 Difficulty: Medium Given a non-empty array of integers, return the k mo

面试题-10亿个数中找出最大的10000个数（top K问题）

一个较好的方法:先拿出10000个建立小根堆,对于剩下的元素,如果大于堆顶元素的值,删除堆顶元素,再进行插入操作,否则直接跳过,这样知道所有元素遍历完,堆中的10000个就是最大的10000个.时间复杂度: m + (n-1)logm = O(nlogm) 优化的方法:可以把所有10亿个数据分组存放,比如分别放在1000个文件中(如果是字符串hash(x)%M).对每个文件,建立大小为10000的小根堆,然后按有序数组的合并合并起来,取出最大的10000个即是答案. top K问题在大规模数据