RHadoop教程翻译系列 _Mapreduce(1)_第一个Mapreduce任务

如果单从概念上来说，Mapreduce和R中的函数lapply, tapply并无差别，它们都是把元素转化成列，然后计算索引（Mapreduce中的键），最后合并成一个定义好的组合。首先，让我们看一个简单的lappy的例子。

small.ints = 1:1000
sapply(small.ints, function(x) x^2)

这个例子比较简单，只是计算了前1000个整数的平方，不过我们可以从这个例子中对lappy这个函数有个基本的认知，接下来关于这个函数还有更多有意思的例子。现在让我们再来看看如何用Mapreduce来等同实现上一段程序的功能吧。

small.ints = to.dfs(1:1000)

mapreduce(
    input = small.ints,
    map = function(k, v) cbind(v, v^2))

通过以上程序，我们便轻松完成了第一个Mapreduce任务。这段Mapreduce程序和Lapply程序实现的功能基本上是一样的，但仍有一些相异处，让我们先来看看Mapreduce 的前两行代码。第一行代码通过函数to.dfs实现将数据放入HDFS。HDFS是Hadoop分布式文件系统，用来存放需要运作Mapreduce任务的数据。这里要说明一下，to.dfs并不适合写入海量数据，更适合用来做一些小的测试用例，或者修改bug之类的任务。如果你不指明存放数据的位置和名称，to.dfs会默认将数据存入临时文件，并且在任务结束后会自动清空数据。to.dfs函数的返回值是一个大数据对象。我们可以把它赋给一个变量，传给另外的rmr函数、Mapreduce任务，或者只是把它读回。to.dfs是一个stub，也就是说，数据不在内存中，只有一些信息帮助定位和管理数据。通过这种方式你可以使用一些超出内存限制的大数据。

现在让我们来看第二行代码。这行代码使用了Mapreduce函数来替代Lapply函数。对于Mapreduce，我们更倾向于使用已命名的参数，因为Mapreduce需要用到的参数比较少，不过这点并不是强制的。在这行代码中，我们输入的变量是small.ints，这个变量包含了to.dfs输出的数据。在我们的HDFS版本中，to.dfs输出的数据可以是一个文件的路径，也可以是一个混合有数据和文件的列表。在R中使用时，map函数（与之相反的是reduce函数，在接下来的介绍中我们会提到）需要注意一些限制条件：

1. map函数含有两个参数，一个是键：key，一个是值：value；

2. 当map函数返回键值对时，使用的函数是keyval。keyval的参数形式可以是向量，列表，矩阵或者是数据框架；当然，你也可以返回NULL值。当调用keyval时，你可以不必指明所有的参数，返回值x会被转成keyval(NULL,x)的调用值。当reduce函数已经确定时，在Map函数中使用空键是不允许的，而当使用combine函数时，这种情况更不允许发生，因为在shuffle阶段必须要指定键。

在这个例子中，我们只使用了值而没有使用键，如果要完成一个基本的Mapreduce用例，我们需要同时使用键和值。Mapreduce返回的值是一个大数据对象，你可以把它当做输入值传给其他任务，或者用from.dfs函数把它读入内存。与to.dfs类似的是，from.dfs同样不适用于海量数据，它返回的是一个键-值对的集合。当mapreduce任务生成的是一个相对小规模的结果时，比如合计，from.dfs就比较适用，接下来可以对其结果进行更进一步的可视化操作，使得结果更具易读性。在产出工作中，from.dfs比to.dfs更重要。

RHadoop教程翻译系列 _Mapreduce(1)_第一个Mapreduce任务

时间： 2024-10-07 05:28:51

RHadoop教程翻译系列 _Mapreduce(1)_第一个Mapreduce任务

RHadoop教程翻译系列 _Mapreduce(1)_第一个Mapreduce任务的相关文章

7.Swift教程翻译系列——控制流之循环

8.Swift教程翻译系列——控制流之条件

6.Swift教程翻译系列——Swift集合类型

4.Swift教程翻译系列——Swift基本运算符

1.Swift教程翻译系列——关于Swift

5.Swift教程翻译系列——Swift字符串和字符

好程序员大数据教程Scala系列之样例类_Option_偏函数

使用Material Design 创建App翻译系列----材料主题的使用(Using Material Theme)

TypeScript手册翻译系列8-常见错误与Mixins