海量数据处理面试题六大套路

看了那么多海量数据处理的文章，只有这篇对其套路进行了总结。

原文地址：https://www.cnblogs.com/ranjiewen/articles/6883723.html

内容不错，就是排版差一点。于是转载过来，略有修改。

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。
何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢？

针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。

针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。

分而治之/hash映射 + hash统计 + 堆/快速/归并排序

分而治之/hash映射：针对数据太大，内存受限，只能把大文件化成(取模映射)小文件。
hash_map统计：当大文件转化了小文件，那么我们便可以采用常规的hash_map(key，value)来进行频率统计。
堆/快速排序：统计完了之后，便进行排序(可采取堆排序)，得到次数最多的key。

多层划分

多层划分，其实本质上还是分而治之的思想，重在“分”的技巧上！

适用范围：第k大，中位数，不重复或重复的数字。
基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。

Bloom filter/Bitmap

Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集。

基本原理：当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个位阵列（Bit array）中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检索元素一定不在；如果都是1，则被检索元素很可能在。

Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。
Bitmap
Bitmap就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来表示某个元素是否存在，因此在存储空间方面，可以大大节省。

Bitmap排序方法
第一步，将所有的位都置为0，从而将集合初始化为空。
第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
第三步，检验每一位，如果该位为1，就输出对应的整数。

Bloom filter可以看做是对Bitmap的扩展。

Trie树/数据库/倒排索引

Trie树
适用范围：数据量大，重复多，但是数据种类小可以放入内存。
基本原理及要点：实现方式，节点孩子的表示方式。
扩展：压缩实现。
数据库索引
适用范围：大数据量的增删改查。
基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。
倒排索引(Inverted index)
适用范围：搜索引擎，关键字查询。
基本原理及要点：一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

外排序

适用范围：大数据的排序，去重。
基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树。

Map Reduce

Map Reduce是一种计算模型，简单的说就是将大批量的工作（数据）分解（MAP）执行，然后再将结果合并成最终结果（REDUCE）。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。

适用范围：数据量大，但是数据种类小可以放入内存。
基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

原文地址：https://www.cnblogs.com/parody/p/10053875.html

时间： 2024-07-31 20:46:16

海量数据处理面试题六大套路的相关文章

教你如何迅速秒杀掉：99%的海量数据处理面试题(转)

教你如何迅速秒杀掉:99%的海量数据处理面试题本文经过大量细致的优化后,收录于我的新书<编程之法:面试和算法心得>第六章中,新书目前已上架京东/当当作者:July出处:结构之法算法之道blog 前言一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结. 毕竟受文章和理论之限,本文

转十道海量数据处理面试题与十个方法大总结

作者:July.youwang.yanxionglu. 时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题.有任何问题,欢迎随时交流.指正.出处:http://blog.csdn.net/v_JULY_v. 第一部分.十道海量数据处理面试题 1.海量日志数据,提取出某日访问百度次数最多的那个IP. 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采用映射的方法,比如模1000,把整

大数据算法---海量数据处理面试题整理

1. 海量数据处理常用数据结构 [Bloom Filter] [Bit map] [Hash] [Trie] [堆] 2. 面试题剖析海量数据面试题的常见考点,无非就是两个,一是数据太大,无法一次性装入内存:二是数据量太大,无法单机快速处理参考资料 https://blog.csdn.net/v_july_v/article/details/7382693 https://blog.csdn.net/v_JULY_v/article/details/6279498 原文地址:https://

十道海量数据处理面试题与十个方法大总结

1. 给定a.b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a.b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G.所以不可能将其完全加载到内存中处理.考虑采取分而治之的方法. s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中.这样每个小文件的大约为300M. s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为).这样处理后,所有可能相同

海量数据处理面试题

这个讲得还阔以: https://blog.csdn.net/v_july_v/article/details/6279498 原文地址:https://www.cnblogs.com/mengchunchen/p/9922476.html

c语言海量数据处理

教你如何迅速秒杀掉:99%的海量数据处理面试题 http://wenku.baidu.com/view/4546d06ca45177232f60a276.html c语言如何对海量数据进行处理 PDF http://www.doc88.com/p-992527311423.html

海量数据处理：经典实例分析

有关海量数据处理的问题,主要有以下3类:top K问题.重复问题.排序问题 top K 问题例子有1亿个浮点数找出其中最大的10000个解决方案将数据全部排序局部淘汰法分治法 Hash法最小堆不同应用场景的解决方案单机单核足够大内存单机多核足够大内存单机单核受限内存多机受限内存小结重复问题排序问题数据库排序法分治法位图法 top K 问题在大规模数据处理中,经常会遇到的一类问题:在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问

关于海量数据处理的相关问题

看过很多面经,里面都会问到海量数据处理的问题.虽然在学校根本遇不到这样的情境,但很多方法还是需要我们去好好了解一下的,也是为了以后的工作做准备吧. 搜集了一些有关海量数据处理的问题和解答,如下: 1.海量日志数据,提取出某日访问百度次数最多的那个IP. 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计. 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文

海量数据处理技术学习

海量数据处理的常用技术可分为: 外排序:因为海量数据无法全部装入内存,所以数据的大部分存入磁盘中,小部分在排序需要时存入内存. MapReduce:分布式处理技术 hash技术:以Bloom filter技术为代表外排序:主要适用于大数据的排序.去重. 分布式处理技术:MapReduce 技术思想是将数据交给不同的机器去处理,将数据切分,之后结果归约. 举例,统计出一批数据的TOP N 首先可以根据数据值或者数据HASH(MD5)后的值将数据按照范围划分,不同的服务器负责处理各种的数值范围,实