读书笔记--MapReduce 适用场景及常见应用

原文：http://blog.csdn.net/smile0198/article/details/20578389

1、MR解决的问题的特点

MR是应大数据的背景产生，其解决的问题的共性为：大问题可以被分解为许多子问题，且这些子问题相对独立，将这些子问题并行处理完后，大问题也就被解决。是用来分治、分解的思想。

2、Google论文中提及的典型应用：

URL访问率统计，分布式grep，分布式排序，倒序索引构建，Web连接图反转等。

3、从书中看到的几个比较复杂的应用：

（1）、TopK问题

问题：在搜索引擎中，查出最近最热门的K个查询词。

解决：将问题分解为两个MR，统计词频（相当于wordcount）和找出词频最高的前K个查询词，第二个输入依赖于第一个输出。在第二部分，每个map找出自己的TopK，然后再reduce阶段进行合并，找出最终的TopK。

（2）、K-means 聚类（k均值）

（3）、贝叶斯分类

后两个问题，我还没有搞清楚怎么实现，等我研究明白了，在po出来

4、MR难以解决的问题

（1）、斐波那契数列，由于算法是递归实现的，下一个结果依赖于前面的结果，无法分解为独立的子问题，所以不能mr

（2）、层次类聚

通过不断的迭代，按距离来合并，要计算两两对象间的距离。

参考《hadoop技术内幕》

时间： 2024-10-26 21:34:36

读书笔记--MapReduce 适用场景及常见应用的相关文章

Hadoop读书笔记（八）MapReduce 打成jar包demo

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955

Hadoop读书笔记（六）MapReduce自定义数据类型demo

Hadoop读书笔记（十四）MapReduce中TopK算法（Top100算法）

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 (系列文章会逐步修整完成,添加数据文件格式预计相关注释) 1.说明: 从给定的文件中的找到最大的100个值,给定的数据文件格式如下: 533 16565 17800 2929 11374 9826 6852 20679 18224 21222 8227 5336 912 29525 3382 2100 10673 12284 31634 27405 1

Hadoop读书笔记（十）MapReduce中的从计数器理解combiner归约

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.combiner 问:什么是combiner: 答:Combiner发生在Mapper端,对数据进行归约处理,使传到reducer端的数据变小了,传输时间变端,作业时间变短,Combiner不能夸Mapper执行,(只有reduce可以接受多个Mapper的任务). 并不是所有的算法都适合归约处理,例如求平均数 2.代码实现 WordCount.j

Hadoop读书笔记（十一）MapReduce中的partition分组

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.partition分组 partition是指定分组算法,以及通过setNumReduceTasks设定Reduce的任务个数 2.代码 KpiApp.ava package cmd; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; i

Hadoop读书笔记（七）MapReduce 0.x版本API使用demo

Hadoop读书笔记（五）MapReduce统计单词demo

Hadoop读书笔记（九）MapReduce计数器

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.MapReduce 计数器的作用统计Map.Reduce以及Combiner执行的次数,可以用户简单判断代码的执行流程 2.MapReduce自带的计数器 14/11/26 22:28:51 INFO mapred.JobClient: Counters: 19 14/11/26 22:28:51 INFO mapred.JobClient: F

Hadoop读书笔记（十二）MapReduce自定义排序

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.说明: 对给出的两列数据首先按照第一列升序排列,当第一列相同时,第二列升序排列数据格式: 3 3 3 2 3 1 2 2 2 1 1 1 2.代码 SortApp.java package sort; import java.io.DataInput; import java.io.DataOutput; import java.io.IOExc