list1与list2求交集的方法总结!

一、有序集合求交集的方法有

a)二重for循环法,时间复杂度O(n*n)

b)拉链法,时间复杂度O(n)

c)水平分桶,多线程并行

d)bitmap,大大提高运算并行度,时间复杂度O(n)

e)跳表,时间复杂度为O(log(n))

以下是方法的具体介绍:

方案一:for * for,土办法,时间复杂度O(n*n)

    每个搜索词命中的网页是很多的,O(n*n)的复杂度是明显不能接受的。倒排索引是在创建之初可以进行排序预处理,问题转化成两个有序的list求交集,就方便多了。

方案二:有序list求交集,拉链法

    

      有序集合1{1,3,5,7,8,9}

      有序集合2{2,3,4,5,6,7}

    两个指针指向首元素,比较元素的大小:

    (1)如果相同,放入结果集,随意移动一个指针

    (2)否则,移动值较小的一个指针,直到队尾

  这种方法的好处是:

  (1)集合中的元素最多被比较一次,时间复杂度为O(n)

  (2)多个有序集合可以同时进行,这适用于多个分词的item求url_id交集

  这个方法就像一条拉链的两边齿轮,一一比对就像拉链,故称为拉链法

方案三:分桶并行优化

    数据量大时,url_id分桶水平切分+并行运算是一种常见的优化方法,如果能将list1<url_id>和list2<url_id>分成若干个桶区间,每个区间利用多线程并行求交集,各个线程结果集的并集,作为最终的结果集,能够大大的减少执行时间。

    举例:

      有序集合1{1,3,5,7,8,9, 10,30,50,70,80,90}

      有序集合2{2,3,4,5,6,7, 20,30,40,50,60,70}

    求交集,先进行分桶拆分:

      桶1的范围为[1, 9]

      桶2的范围为[10, 100]

      桶3的范围为[101, max_int]

    于是:

    集合1就拆分成

    集合a{1,3,5,7,8,9}

    集合b{10,30,50,70,80,90}

    集合c{}

    集合2就拆分成

    集合d{2,3,4,5,6,7}

    集合e{20,30,40,50,60,70}

    集合e{}

    每个桶内的数据量大大降低了,并且每个桶内没有重复元素,可以利用多线程并行计算:

    桶1内的集合a和集合d的交集是x{3,5,7}

    桶2内的集合b和集合e的交集是y{30, 50, 70}

    桶3内的集合c和集合d的交集是z{}

   最终,集合1和集合2的交集,是x与y与z的并集,即集合{3,5,7,30,50,70}

方案四:bitmap再次优化

    数据进行了水平分桶拆分之后,每个桶内的数据一定处于一个范围之内,如果集合符合这个特点,就可以使用bitmap来表示集合:

      

  如上图,假设set1{1,3,5,7,8,9}和set2{2,3,4,5,6,7}的所有元素都在桶值[1, 16]的范围之内,可以用16个bit来描述这两个集合,原集合中的元素x,在这个16bitmap中的第x个bit为1,此时两个bitmap求交集,只需要将两个bitmap进行“与”操作,结果集bitmap的3,5,7位是1,表明原集合的交集为{3,5,7}

    水平分桶,bitmap优化之后,能极大提高求交集的效率,但时间复杂度仍旧是O(n)

    但bitmap需要大量连续空间,占用内存较大

方案五:跳表skiplist

    有序链表集合求交集,跳表是最常用的数据结构,它可以将有序集合求交集的复杂度由O(n)降至O(log(n))

     

    集合1{1,2,3,4,20,21,22,23,50,60,70}

    集合2{50,70}

    要求交集,如果用拉链法,会发现1,2,3,4,20,21,22,23都要被无效遍历一次,每个元素都要被比对,时间复杂度为O(n),能不能每次比对“跳过一些元素”呢?

跳表就出现了:

      

    集合1{1,2,3,4,20,21,22,23,50,60,70}建立跳表时,一级只有{1,20,50}三个元素,二级与普通链表相同,集合2{50,70}由于元素较少,只建立了一级普通链表;如此这般,在实施“拉链”求交集的过程中,set1的指针能够由1跳到20再跳到50,中间能够跳过很多元素,无需进行一一比对,跳表求交集的时间复杂度近似O(log(n)),这是搜索引擎中常见的算法。

参考:list1与list2求交集的方法总结!

原文地址:https://www.cnblogs.com/aspirant/p/10012840.html

时间: 2024-10-12 08:55:33

list1与list2求交集的方法总结!的相关文章

Java大集合求交集的方法比较

两个List集合求交集想必学过Java的都知道用系统自带的retainAll()方法,但是在数据量比较大时,这个方法效率并不高,利用空余时间研究了几种数据量较大时求两个集合交集的办法.本文主要研究了JDK自带方法求交集.Guava集合求交集.Java8的parallelStream并行流求交集.双指针方法求交集以及bitmap求交集的方法和效率. JDK自带方法 最常用的求交集方法,在小数据量的时候没什么问题,一旦两个集合的数据量达到几十万级别时,效率就严重偏低,底层实际上也是两个for循环,只

oracle 和java 中求交集的方法

<if test="null != protocolEndTime and '' != protocolEndTime"> <![CDATA[ and( (#{protocolStartTime} >= t.protocol_start_time AND #{protocolStartTime} <= t.protocol_end_time) OR (#{protocolStartTime} <= t.protocol_start_time AND

数组去重和两个数组求交集

引言 今天在项目中一个功能要用到两个数组求交集的算法. 大概是这样: 两个表格分别用easyui datagrid实现,要把A表格的一列数据和B表格的一列数据取出来,然后去重,去重后求交集. 那么在计算出的交集中分别根据求出的数据选中两个表格的对应行. 故用到js数组去重和求交集. 交集 Array.prototype.intersect = function(b) { var flip = {}; var res = []; for(var i=0; i< b.length; i++) fli

ecnu1624求交集多边形面积

链接 本来在刷hdu的一道题..一直没过,看到谈论区发现有凹的,我这种方法只能过凸多边形的相交面积.. 就找来这道题试下水. 两个凸多边形相交的部分要么没有 要么也是凸多边形,那就可以把这部分单独拿出来极角排序.叉积求面积.这部分的顶点要么p在q内的顶点,要么是q在p内的顶点,要么是两凸多边形的交点. 用到了点在多边形内的判定模板. 1 #include <iostream> 2 #include<cstdio> 3 #include<cstring> 4 #inclu

for循环求交集

for循环方式求交集 #!/usr/bin/env python #coding:utf-8 #取交集 #定义两个序列对象,求alist与blist对象的交集元素 alist = [2,9,3,4,5,6,7,8] blist = [9,2,1,10,33,2,3] #定义一个空list对象,放最终的结果 reslut = [] #遍历alist对象 for x in alist: if x in blist: #如果alist对象中有元素在blist对象里则添加到reslut对象 reslut

Erlang生成式实现的列表去重、求交集及并集

%集合去重,Acc初始传入为[],存放的是最终的结果 delSame([],Acc) -> Acc; delSame([Pre|T],Acc) ->checkSame([X||X<-T,X=/=Pre],Acc++[Pre]). %求交集 crossList(L1,L2) -> [X||X<-L1,Y<-L2,X=:=Y]. %求并集 mergeList(L1,L2)-> delSame(lists:merge(L1,L2),[]). 总结:(1)erlang的生

线段树求逆序数方法 HDU1394&amp;&amp;POJ2299

为什么线段树可以求逆序数? 给一个简单的序列 9 5 3 他的逆序数是3 首先要求一个逆序数有两种方式:可以从头开始往后找比当前元素小的值,也可以从后往前找比当前元素大的值,有几个逆序数就是几. 线段树就是应用从后往前找较大值得个数.(一边更新一边查) 当前个数是 n = 10 元素   9  5   3 9先加入线段树,T[9]+=1:查从T[9]到T[10]比9大的值,没有sum = 0: 5 加入线段树,T[5] += 1,查从T[5]到T[10]比5大的值,有一个9,sum +=1: 3

作业题---设计一个类,求和的方法,求乘积的方法

设计一个类: 包含$a,$b,求和的方法,求乘积的方法,  可以对变量进行初始化, $a,$b必须大于0小于100 class suanshu{ private $shuzi1; private $shuzi2; function __construct($a,$b) { $this->shuzi1 = $a; $this->shuzi2 = $b; } function __set($n,$v) { if($v>0 and $v<100) { $this->$n = $v;

hdu 4405 Aeroplane chess(概率DP 求期望__附求期望讲解方法)

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4405 Problem Description Hzz loves aeroplane chess very much. The chess map contains N+1 grids labeled from 0 to N. Hzz starts at grid 0. For each step he throws a dice(a dice have six faces with equal p