给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)中。这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1....a999 vs b999)当中，不对应的小文件（比如a0 vs b99）不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
比如对于a0 vs b0，我们可以遍历a0，将其中的url存储到hash_map当中。然后遍历b0，如果url在hash_map中，则说明此url在a和b中同时存在，保存到文件中即可。
如果分成的小文件不均匀，导致有些小文件太大（比如大于2G），可以考虑将这些太大的小文件再按类似的方法分成小小文件即可

时间： 2024-08-05 23:26:59

给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？的相关文章

海量数据面试题整理1.给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是

海量数据面试题整理 1. 给定a.b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a.b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G.所以不可能将其完全加载到内存中处理.考虑采取分而治之的方法. s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中.这样每个小文件的大约为300M. s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为).这样

面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?

假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决. Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,...,a999,每个小文件约300M); Step2:遍历文件b,采取和a相同的方式将url分别存储到1000个小文件(记为b0,b1,...,b999); 巧妙之处:这样处理后,所

Powershell 从多个文件中找出关键子文件（findstr）

从文件中找出关键字 $colItems = Get-ChildItem d:\test #定义文件夹的路径 foreach ($i in $colItems) #循环获取文件夹下的txt文件 { $filecontent= Get-Content $i.fullName | findstr /i "a" #获取txt文件的内容并找到数字a write-host $filecontent $i.fullname} #输出到屏幕上

找出狂写文件的进程

1: lsof可以找出哪个进程正在写哪个文件 lsof /tmp/ COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME bash 2425 root cwd DIR 202,3 1400832 2457601 /tmp/ bash 4556 root cwd DIR 202,3 1400832 2457601 /tmp/ lsof 19283 root cwd DI

C语言：给一组字符，只有两个字符只出现了一次，其他所有字符都是成对出现的。怎么找出这两个数

#define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<stdlib.h> int main() { int ascii[255] = { 0 }; int arr[] = { 1, 9, 1, 2, 3, 4, 4, 9}; int len = sizeof(arr) / sizeof(arr[0]); int i = 0; for (i = 0; i < len; i

一组数组中只有一个数（两个数）出现一次，其他的都成对出现，找出该数

一组数据中只有一个数字出现了一次.其他所有数字都是成对出现的.请找出这个数字.(使用位运算) >可以这么理解:如果两个数相等,它们异或之后的结果是0.而0与任何数异或都是该数本身. (比如00000001^00000001结果是0.00000000^00000001=00000001) 那么将一组数中所有元素异或,相同的数字结果是0,最后的结果就是单独出现的数字. 编程实现如下: #include <stdio.h> #include <windows.h> int main

面试题---找出数组中两个只出现一次的数

题目描述:给一个数组,里面有两个数只出现一次,其它的数都出现两次,请找出这两个数: 样例:输入 2 4 2 7 4 9 输出 7 9 思路:假定要找出的这两个数为x.y 把所有的数异或,结果是x与y异或的值,那么肯定不为0,那么这个值的二进制至少有一位为1,也就是说x和y的二进制在这一位上必定一个为0,一个为1,那么可以根据这一位把这个数组分成两个数组,x和y在不同的数组里,接下来对每个数组直接异或出的值就是结果了: 代码如下: #include <iostream> #include &

C语言编程找出数列中只出现一次的两个数

原题:一个数组中只有两个数字是出现一次,其他所有数字都出现了两次.找出这两个只出现一次的数字,编程实现. 此题要用到在数列中找出只出现一次的一个数字的方法参考https://blog.51cto.com/14232799/2382172 此题明显无法一次性将两个数都找出,所以需要将数列分为两部分,每一部分有一个只出现一次的数,那么此时需要的就是分离数列的条件. 沿用找出一个数时的思想,将数列进行相互异或,但这次所得的值不是只出现一次的那个数了,因为只出现一次的数有两个,所以此次计算得到的是只出现

SQL Server中数据库文件的存放方式，文件和文件组（转载）

简介在SQL SERVER中,数据库在硬盘上的存储方式和普通文件在Windows中的存储方式没有什么不同,仅仅是几个文件而已.SQL SERVER通过管理逻辑上的文件组的方式来管理文件.理解文件和文件组的概念对于更好的配置数据库来说是最基本的知识. 理解文件和文件组在SQL SERVER中,通过文件组这个逻辑对象对存放数据的文件进行管理. 先来看一张图: 我们看到的逻辑数据库由一个或者多个文件组构成而文件组管理着磁盘上的文件.而文件中存放着SQL SERVER的实际数据. 为什么通过文件组

猜你喜欢

关于导航栏设置状态栏样式问题

1.如果没有导航控制器, - (UIStatusBarStyle)preferredStatusBarStyle{ return UIStatusBarStyleLightContent; } 在vi ...

this指针和构造函数

构造函数: 特性: 1.构造函数的命名必须和类名完全相同:在java中普通函数可以和构造函数同名,但是必须带有返回值. 2.构造函数的功能主要用于在类的对象创建时定义初始化的状态.它没有返回值,也不能 ...

创建场景——02地形编辑器

学习笔记适合新手,如有错误请指正.?号处也请各位指点下,谢谢. 在Project视图中点击鼠标右键>Import Package>Environment,弹出资源导入窗口点击Import ...

【Android】解决新建的xml文件无法正常加载的问题

新建一个xml布局文件,如下: <?xml version="1.0" encoding="utf-8"?> <LinearLayout xm ...

中国国家安全漏洞库

http://loudong.360.cn/ 安全客 http://www.cnnvd.org.cn/ 中国国家安全漏洞库 http://loudong.360.cn/ 补天 http://www ...

图形变幻矩阵 Transforms

https://developer.apple.com/library/mac/documentation/GraphicsImaging/Conceptual/drawingwithquartz2d ...

HTML中用自定义字体实现小图标icon(不是原作, 只是一个研究笔记)

最近在做一个项目时, 研究了一下新浪微博的前端, 看到首页中那个图标了吗, 以前看到这类效果的第一反应就是用一个gif之类的图标做出来!! 但在研究的过程, 发现了一个小技巧, 注意那个em标签中的文 ...

【黑金原创教程】【FPGA那些事儿-驱动篇I 】实验六：数码管模块

实验六:数码管模块有关数码管的驱动,想必读者已经学烂了 ... 不过,作为学习的新仪式,再烂的东西也要温故知新,不然学习就会不健全.黑金开发板上的数码管资源,由始至终都没有改变过,笔者因此由身怀念. ...

VS2015静态编译libcurl（C++ curl封装类）

一.最新libcurl静态编译教程(curl-7.51版/curl-7.52版) 1.安装perl,在官网下载,安装好以后,测试perl -v是否成功 2.编译openssl(已编译好的下载地址) p ...

python文件操作：换行问题

假设一个文件已经存在,内容如下: mr mr ms ms ex ex 现在要给这个文件中的mr一行加入一个标志,代表锁定状态,即期望加上此标志的内容如下: mr mr Lock ...

Unix线程概念、控制原语、属性

线程: 线程基础概念: 线程在Linux中又称轻量级进程.并且它和进程都有PCB(进程控制块),但是区别是进程的虚拟地址空间是独享的,也就是每个进程都有自己的虚拟地址空间,但是线程的PCB是共享的,在 ...

小结（20161111）

1.mysqli $db = new mysqli(地址,用户名,密码,数据库)$sql = "";$result = $db->query($sql);$result-&g ...

算法竞赛入门经典第二版 1-3答案

挂完月考又滚回来玩OI了,对于书中前几章例题,没有答案还是比较慌,找了许久也没用什么完全符合的.其中不错的有一篇写下来看看 http://wenku.baidu.com/link?url=Ofu2LH ...

Sybase.在PowerDesigner中如何添加-约束

Sybase.在PowerDesigner中如何添加-约束资料 2010-06-23 08:57:09 阅读21 评论0 字号:大中小订阅唯一约束唯一约束与创建唯一索引基本上是一回事,因为 ...

好了,换了个新屏幕,原来的电脑屏幕,过年的时候擦玻璃,玻璃掉下来给砸的裂开了(玻璃一点事情都没有),新屏幕感觉就是爽,也不枉我花了280大洋买的LG的完美屏.战斗力立马感觉飙升20%.闲话就不多说了, ...

关于block的回调使用-防止内存泄露问题

block 一般用于回调,比方请求数据我们把asi封装好,仅仅用block调数据就方便很多获取到得数据假设要给之加入数据,切记不能够使用self.(这个数组) 或者_(这个数组) addObject ...

【转】java.util.Arrays.asList 的用法

DK 1.4对java.util.Arrays.asList的定义,函数参数是Object[].所以,在1.4中asList()并不支持基本类型的数组作参数. JDK 1.5中,java.util.A ...

FrameWork逆向工程之MotioPI

在BI项目建设的过程中我们一般都是有备份的,而且这个是必须有的!特别是例如ETL Model,还有Data Model这一类的元数据,这些东西如果我们没有备份,而恰好的我们的开发模型又在某一天离我们而 ...

Oracle数据库的备份方法

1.引言 Oracle数据库的备份方法很多,无论使用那种备份方法,备份的目的都是为了在出现故障后能够以尽可能小的时间和代价恢复系统.比如使用export实用程序导出数据库对象.使用Oracle备份数据 ...

LintCode-Fizz Buzz 问题

题目描述: 给你一个整数n. 从 1 到 n 按照下面的规则打印每个数: 如果这个数被3整除,打印fizz. 如果这个数被5整除,打印buzz. 如果这个数能同时被3和5整除,打印fizz buzz. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.