Hadoop:统计文本中单词熟练MapReduce程序

　　这是搭建hadoop环境后的第一个MapReduce程序；

　　基于python的脚本；

　　1 map.py文件，把文本的内容划分成单词：

#!/bin/pythonimport sys

for line in sys.stdin:    data_list = line.strip().split()    for i in range(0, len(data_list)):        print data_list[i]

　　

　　2 reduce文件，把统计单词出现的次数；

#!/bin/python
import sys
word_dict = {}
for line in sys.stdin:
    v = line.strip()
    if word_dict.has_key(v):
        word_dict[v] += 1
    else:
        word_dict[v] = 1

for key in word_dict:
    print key + "\t" + str(word_dict[key])

　　3 调用脚本：指定输出目录OUTPUT；

　　调用支持多语言的streaming的编程环境，参数-input是输入的log文件，为了用mapreduce模式统计这个文件每个单词出现的次数；-output是输出路径；-mapper是mapper编译此处是python语言；-reducer是reduce编译语法；-file是mapper文件路径和reduce文件路径；-numReduceTaskers 是使用的子tasker数目，这里是3，代表分成了3了tasker分布式的处理计数任务；

#!/bin/bash

OUTPUT=/home/apm3/outdir
hadoop fs -rmr $OUTPUT
hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar -input /opt/mapr/logs/warden.log -output $OUTPUT -mapper "python map.py" -reducer "python reduce.py" -file map.py -file reduce.py -numReduceTasks 3

　　bash -x start.sh 会在输出路径中生成三个输出文件，及三分ReduceTasks 输出的结果；（MapReduce 模式主要做了shuffle和sort任务，shuffle是按照hashkey分配单词到子tasker中，而sort是排序的功能。）

　　代码下载： https://github.com/rongyux/Hadoop_WordCount

时间： 2024-10-13 23:25:54

Hadoop:统计文本中单词熟练MapReduce程序的相关文章

采用二叉搜索树来统计文本中单词出现的频率

把几个主要的函数组合起来即可: 1.从文本读取单个单词(去掉空格,特殊符号等) 2.用读出来的单词去更新搜索二叉树的节点(涉及二叉树的构建问题,递归) 3.中序遍历,来递归打印二叉树的每个节点代码: #include <stdio.h> #include <stdlib.h> #include <string.h> #include <ctype.h> #define MAXWORD 1000 //单词出现频率的统计哦 struct tnode { cha

shell统计文本中单词的出现次数

Ubuntu14.04 给定一个文本,统计其中单词出现的次数 # solution 1 grep与awk配合使用,写成一个sh脚本 fre.sh sh fre.sh wordfretest.txt #! /bin/bash# solution 1 if [ $# -eq 0 ] then echo "Usage:$0 args error" exit 0 fi if [ $# -ge 2 ] then echo "analyse the first file $1"

【ThinkingInC++】4、统计txt文本中单词的个数

其中要使用的txt文本! header defines classes for file IO, including ifstream, whose constructor takes a file name an argument. The expression f >> word extracts the next non-whitespace token from the file and returns the stream. When a stream appears in a bo

简单的方法来统计文件中单词和各种标点符号个数

此小程序使用最基本的方法来统计文本中英文单词的个数,想法也比较简单: (1)从文本中文本读取内容,使用BufferedReader类每次读取一行并添加到StringBuffer类型变量中, 最后StringBuffer类型变量即为文本的内容,如StringBuffer sb: (2)把sb的内容全部转化成小写字母(或大写字母): (3)统计文件中各种标点符号个数: (4)把所有标点符号统一替换成一种标点符号,如替换成逗号 (5)替换后的文本使用字符串的分割函数来获取返回的字符串数组的长度,此长度

Win7下Eclipse中运行远程MapReduce程序

1.hadoop插件的参数配置 2.运行时的参数 3.运行结果 Win7下Eclipse中运行远程MapReduce程序,布布扣,bubuko.com

java统计文本中某个字符串出现的次数

原文: java统计文本中某个字符串出现的次数源代码下载地址:http://www.zuidaima.com/share/1550463297014784.htm 统计文本中某个字符串出现的次数或字符串中指定元素出现的次数文件样本: 程序查找的上此文件带"a"的字符在多少次结果: package com.zuidaima.util.string; import java.io.*; /** * @author www.zuidaima.com **/ public class C

Window7中Eclipse运行MapReduce程序报错的问题

按照文档:http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后,运行WordCount程序报错: log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Please initialize the log4j

如何使用linux命令统计文本中某个单词的出现频率

使用这个命令查出文本中的单词出现频率按照由高到底排序 cat words.txt |tr -cs "[a-z][A-Z]" "[\012*]"|tr A-Z a-z|sort|uniq -c|sort -k1nr -k2|head -10 但是有时我们想查找出某一个单词的出现频率这时我们可以使用如下几个命令文件名称:file 查找单词名称:word 操作命令: (1)more file | grep -o word | wc -l (2)cat file | g

Hadoop日记Day16---命令行运行MapReduce程序

一.代码编写 1.1 单词统计回顾我们以前单词统计的例子,如代码1.1所示. 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 import org.apache.hadoop.fs.Path; 8 import org.apache.hadoop.io.LongWrita

猜你喜欢

Jquery基础笔记

1.$(function(){ 等价于 window.onload=function(){ }) } 2 ...

Python 进阶（三）面向对象编程基础

定义类并创建实例在Python中,类通过 class 关键字定义.以 Person 为例,定义一个Person类如下: class Person(object): pass 按照 Python 的编 ...

反汇编探寻C++继承

#include <iostream> class TableTennisPlayer { private: int id; public: TableTennisPlayer(int i ...

[原创]TFS如何撤销别人的机器签出的文件

用过TFS的都知道,没有比同事离职了,剩下一堆签出的文件更蛋疼的. 试过各种方法,各种CMD命令,下载.我发现一种更方便快捷的: 1.首先,你得知道签出用户的用户名和密码. 2.然后用该用户名打开VS ...

Struts2单文件上传

第一步:首先写个上传文件的页面(简单的一个form表单) <html> <head> <meta http-equiv="Content-Type" ...

如何在JS中计算扑克牌中的顺子、对子、半顺、豹子、杂六

1 <!DOCTYPE html> 2 <html> 3 <head> 4 <title>如何计算扑克牌中的顺子.对子.半顺.豹子.杂六</tit ...

值得IT人员浏览的站点

无意中发现了财富江湖这个站点,一口气看了好几篇文章,受益匪浅!如果我们还是在低头做自己的工作的话,N年后也许还是这样子,是时候我们看看其他人生活方式,看看他们是怎么改变命运的! 相信,产品经理.程序员 ...

546B. Soldier and Badges

题目链接题意: n个数,要保证这n个数完全不相同,求需要把原来的数增加多少,求这个值得最小值 Java 程序 import java.io.PrintStream; import java.ut ...

emacs org-mode table

表格名称 #+CAPTION: 出厂/供应链/销售/售后导出HTML表格后,会在表格正上方出现如下表格名称 Table 1: 出厂/供应链/销售/售后

AngularJS的学习--ng-show/ng-hide/ng-if和ng-switch

在Angular的原生指令中有这几个指令用来控制元素的展示与否,ng-show/ng-hide/ng-if和ng-switch. 在angular性能优化中,我们也常常会用到它. 我们看下他们的区别. ...

URAL 1306-Sequence Median(堆)

1306. Sequence Median Time limit: 1.0 second Memory limit: 1 MB Language limit: C, C++, Pascal Given ...

BuddyPress创建组、查看成员信息等找不到页面

http://aoxuangame.com/wordpress/groups/create/ http://aoxuangame.com/wordpress/members/admin/ —————— ...

Linux Shell系列教程之（七）Shell输出

本文是Linux Shell系列教程的第(七)篇,更多shell教程请看:Linux Shell系列教程与其他语言一样,Shell中也有输出操作,而且在实际应用中也是非常重要的,今天就为大家介绍下S ...

委派模式

委派模式(Delegate)是面向对象设计模式中常用的一种模式.这种模式的原理为类B和类A是两个互相没有任何关系的类,B具有和A一模一样的方法和属性:并且调用B中的方法,属性就是调用A中同名的方法和属 ...

Codeforces 453B Little Pony and Harmony Chest 状压dp

题目链接:点击打开链接 b的数字最多只能达到59,因为选>=60 不如选1 所以状压一下前面出现过的素数即可,在59内的素数很少然后暴力转移.. #include <cstdio> ...

【JAVA 动态创建风水罗盘超精华Swing项目方案-类关系图 - 文章02】

动态创建风水罗盘系统 UI Swing UI关系类图动态创建风水罗盘系统罗经层绘制工厂动态创建风水罗盘系统罗经具体实现绘制工厂实现类关系动态创建风水罗盘系统定制盘面绘制数据模型动态创建风 ...

SQLSERVER--定期清理维护作业的历史记录

刚删除一个数据库时,在清理数据库备份历史记录时,执行超过近10分钟还未完成,随时查了下,吓死宝宝啦,逻辑读操作竟然高达8000万次以上! 通过UI进行删除数据库时,会默认勾选上“删除数据库备份和还原历 ...

[转]浏览器缓存机制

浏览器缓存机制,其实主要就是HTTP协议定义的缓存机制(如: Expires: Cache-control等).但是也有非HTTP协议定义的缓存机制,如使用HTML Meta 标签,Web开发者可以在 ...

微信营销客服系统有哪些

微信营销客服系统有哪些,最好的智能手机在线客服是哪家,大连忠仕伟业开发的微信客服系统是最好的管理.营销微信会员的软件.我们的软件适合各个行业的,现在也在各个行业被使用,获得了一致的好评. 大连忠仕伟业 ...

自定义分组

job.setGroupingComparatorClass(MyGroupingComparator.class); //按照第一列进行分组,然后找出每个分组中的第二列中的最小值为什么要自定义分组 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.