[JAVA] - 高效的从 m 个元素中随机选中 n 个

之前业务中曾经遇到过从m个元素中选取 n 个的需求,当时只是跑循环根据长度进行随机选取,然后放入 Set 中去重,一直到收集到足够的个数。

这样做的缺点很明显,当剩下的元素个数越少的时候,选取的元素越容易重复,并且,使用 Set 去重,值相同的字符串会被认为是相同的元素,即使给入的数组确实有重复的数据。

直到最近看到了 Fisher-Yates 洗牌算法,从中收到启发,写了一个从 m 个元素中选取 n 个的方法,该方法性能上有了很大提升,并且可以保证取到的元素的索引绝对不会重复。如果数组中的确有相同的元素,也不会影响到被选取的概率。

 1     public static <T> T[] randomSelected(T[] array, int num) {
 2         T[] temp = Arrays.copyOf(array, array.length);   // 获得一个该数组的复制
 3         int length = temp.length;
 4         int left = length;
 5         while (length - left < num) {  // length - left 为还需要计算多少次
 6             int i = (int) Math.floor(Math.random() * left--);  // 随机选取一个元素,left 自减,这样不会覆盖上次产生的结果,并将下次选取的范围缩小
 7             T tmp = temp[i];  // 将被选中的数与数组的最后一位进行调换
 8             temp[i] = temp[left];
 9             temp[left] = tmp;
10         }
11         return Arrays.copyOfRange(temp, 0, num > length ? length : num);  // 从临时数组中复制出指定长度的数组
12     }
该算法不仅速度快,而且索引绝对不会重复!(如果数组里面有重复的元素,我认为这是你想要的结果,毕竟去重不是一件难事)

如果 传入的 num 等于数组的长度,还可以得到一个被打乱了顺序的数组!

原文地址:https://www.cnblogs.com/hcl00/p/8401288.html

时间: 2024-10-06 16:56:25

[JAVA] - 高效的从 m 个元素中随机选中 n 个的相关文章

从N个元素的集合中随机取m个元素的算法实现

最近有一个需求,比较简单,就是如标题所说的,从N个元素中随机取m个元素,当然这m个元素是不能存在重复的.本以为这么简单的需求,应该有现成的工具类来实现,但是几次查找居然没找到(有知道的可以推荐下哈^_^).只好自己实现了下. 自己的实现思路也不知道是不是有问题,或者还有没有更好的思路来实现,所以在这里贴出来,供有兴趣的猿友提提建议.找找问题,或者找到更好的实现思路. 废话不多说,直接上代码(java实现) /** * 随机取num个从0到maxVal的整数.包括零,不包括maxValue * @

Oracle如何实现从特定组合中随机读取值

在这里,我们会用到DBMS_RANDOM包和CASE WHEN语句,思路如下: 一.利用DBMS_RANDOM.RANDOM函数随机生成数值,然后对数值进行取模,如果我们要在10个元素中随机读取的话,那我们需要对10进行取模. 二.再将取模后的值利用CASE WHEN语句与元素进行关联. 譬如,我有一个组合,里面包含“北京”,“上海”,“广州”,“深圳”,“武汉”五个元素,想从这五个元素中随机读取值来填充表的某个字段. 首先,创建测试表 SQL> create table test(loc va

Java高效读取大文件

1.概述 本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung (http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法: Files.readLines(new File(path), Charsets.UTF_8); FileUtils.readLines(new File(path)); 这种

Java高效读取大文件(转)

1.概述 本教程将演示如何用Java高效地读取大文件.这篇文章是Baeldung(http://www.baeldung.com/) 上“Java——回归基础”系列教程的一部分. 2.在内存中读取 读取文件行的标准方式是在内存中读取,Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法: 1 2 3 Files.readLines(new File(path), Charsets.UTF_8); FileUtils.readLines(new File(path)

JAVA性能调优-在循环条件中不要使用表达式

1.JAVA性能调优-在循环条件中不要使用表达式 我们在学习JAVA性能调优的时候,经常能看到这一的一段话:在不做编译优化的情况下,在循环中,循环条件会被反复计算,如果不使用复杂表达式,而使循环条件值不变的话,程序将会运行的更快. import java.util.vector; class cel { void method(vector vector) { for (int i= 0; i < vector.size (); i++)  //violation ; //... } } 更正:

随机获取一个集合(List, Set)中的元素,随机获取一个Map中的key或value

利用Java提供的Random类.从List或Set中随机取出一个元素,从Map中随机获取一个key或value. 因为Set没有提供get(int index)方法,仅仅能先获取一个随机数后.利用一个计数器,对Set进行循环,当计数器等于随机数时返回当前元素,对于Map的处理也类似. 不知有没有更好的方法-- package com.xjj.util; import java.util.List; import java.util.Map; import java.util.Set; impo

Java遍历List并删除某些元素

Java遍历List并删除某些元素 ? 在阿里的Java编程规约中有一条:[强制]不要在foreach循环里进行元素的remove/add操作.remove元素请使用Iterator方式,如果并发操作,需要对Iterator对象加锁. ? 这里不禁要问为什么? ? 首先来试一下,遍历List时删除元素究竟行不行: public class IteratorTest { public static void singleThreadRemove1(){ List<String> list = n

Java 高效并发

Java 高效并发 为了便于移植,Java 多线程内存模型不与硬件关联,不同硬件平台可以使用不同的实现手段 和 CPU 内存与高速缓存做对比 Java 内存模型被分为两大部分:主内存(对应 PC 内存)和工作内存(对应 CPU 高速缓存) 主内存与工作内存之间数据的交互 Java 定义了以下 8 种原子操作(最新的 Java 标准已经采用了新的内存访问协议,但下面 8 中操作也应该了解一下) lock,标识主内存变量为线程独占 同一个变量可以被一条线程多次 lock,但也需要同样次数的 unlo

第4节:Java基础 - 必知必会(中)

第4节:Java基础 - 必知必会(中) 本小节是Java基础篇章的第二小节,主要讲述抽象类与接口的区别,注解以及反射等知识点. 一.抽象类和接口有什么区别 抽象类和接口的主要区别可以总结如下: 抽象类中可以没有抽象方法,JDK8版本开始提供了接口总方法的default实现 抽象类和类一样是单继承的:接口可以实现多个父类 抽象类中可以存在普通的成员变量:接口中的变量必须是static final类型的,必须被初始化,接口中只能有常量,没有变量 解析: 在Java中,我们用abstract来定义抽