2018-08-10期 MapReduce实现双色球近10年每个号码中奖次数统计

package cn.itcast.bigdata.shsq;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

/**

* MapReduce实现双色球近10年每个号码中奖次数统计

*

* 输入数据格式:

* -------红球部分---- 篮球本分

*  13 16 05 06 19 02 03

04 19 16 27 09 15 10

23 06 31 19 13 17 12

08 10 17 30 20 27 01

12 09 01 18 15 04 05

22 16 17 19 09 26 10

处理后输出

第一列 第二列 第三列 第四列 第五列 第六列 第七列

号码/次数 号码/次数 号码/次数 号码/次数 号码/次数 号码/次数 号码/次数

01/50 01/58 01/42 01/54 01/53 01/58 01/100

02/48 02/42 02/42 02/58 02/40 02/66 02/94

03/49 03/40 03/45 03/46 03/50 03/45 03/89

04/44 04/46 04/58 04/47 04/47 04/35 04/100

05/43 05/50 05/51 05/41 05/49 05/53 05/95

06/59 06/52 06/47 06/50 06/48 06/53 06/106

07/59 07/45 07/53 07/47 07/46 07/47 07/105

08/56 08/53 08/49 08/35 08/53 08/56 08/87

09/47 09/43 09/49 09/49 09/51 09/46 09/105

10/42 10/62 10/36 10/55 10/50 10/45 10/101

11/45 11/48 11/50 11/40 11/53 11/37 11/96

12/42 12/58 12/41 12/61 12/46 12/47 12/113

13/49 13/55 13/49 13/42 13/53 13/50 13/97

14/56 14/52 14/42 14/59 14/48 14/56 14/101

15/46 15/56 15/42 15/38 15/47 15/55 15/99

16/38 16/55 16/47 16/45 16/50 16/46 16/108

17/43 17/37 17/55 17/64 17/60 17/47

18/49 18/51 18/50 18/46 18/57 18/43

19/44 19/52 19/49 19/51 19/47 19/53

20/49 20/47 20/42 20/51 20/55 20/54

21/48 21/46 21/49 21/47 21/35 21/52

22/60 22/52 22/64 22/55 22/49 22/39

23/47 23/42 23/53 23/56 23/40 23/52

24/36 24/50 24/56 24/38 24/49 24/36

25/49 25/56 25/48 25/48 25/42 25/43

26/60 26/43 26/62 26/50 26/42 26/61

27/58 27/38 27/48 27/47 27/44 27/53

28/56 28/53 28/44 28/39 28/46 28/40

29/31 29/44 29/52 29/51 29/61 29/48

30/50 30/44 30/61 30/51 30/39 30/38

31/53 31/45 31/41 31/53 31/36 31/44

32/47 32/42 32/48 32/50 32/55 32/53

33/43 33/39 33/31 33/32 33/55 33/45

*

* Mapper端

* @author songjq

*

*/

public class ShauangsqMapper extends Mapper<LongWritable, Text, Text, LongWritable> {

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

String line = value.toString();

String[] fields = StringUtils.split(line, " ");

for (int i = 0; i < fields.length; i++) {

context.write(new Text("Col" + (i + 1) + "_" + fields[i]), new LongWritable(1));

}

}

}

package cn.itcast.bigdata.shsq;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class ShauangsqReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

@Override

protected void reduce(Text key, Iterable<LongWritable> values,

Context ctx) throws IOException, InterruptedException {

int counter = 0;

for(LongWritable value:values) {

counter += 1;

}

ctx.write(key, new LongWritable(counter));

}

}

package cn.itcast.bigdata.shsq;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class ShauangsqJobSubmiter  {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Job job = Job.getInstance(new Configuration());

job.setJarByClass(ShauangsqJobSubmiter.class);

job.setMapperClass(ShauangsqMapper.class);

job.setReducerClass(ShauangsqReducer.class);

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(LongWritable.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(LongWritable.class);

FileInputFormat.setInputPaths(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.waitForCompletion(true);

}

}

原文地址:http://blog.51cto.com/2951890/2157909

时间: 2024-10-12 15:06:33

2018-08-10期 MapReduce实现双色球近10年每个号码中奖次数统计的相关文章

沈阳当年对学校承认了他和高岩的性关系:3星|《三联生活周刊》2018年16期

三联生活周刊·教授的权力:高校内的不平等关系(2018年16期) 本期主题是高校教师性侵学生的调查与思考. 总体评价3星,有参考价值. 以下是书中一些内容的摘抄,#号后面是kindle电子版中的页码: 1:自第二次世界大战以来,以色列制造的暗杀事件比任何西方国家都多.该国领导人甚至认为通过杀戮指定的目标保护其国家安全,危害无辜平民的生命是合情合理的.#52 2:旅游业难以聚集大量的财富,给其从业者带来的回报也有限,这就是为什么海南成了高消费的代名词,可当地人收入却普遍不高的原因.这也可以说是资源

20 考研英语题源外刊精讲赏析 1~10 期外刊原文+翻译+点评

打卡日期记录: ===========遗忘曲线记录====查词用浏览器:复习刷遍数,用电子版文件m====== 20 考研英语题源外刊精讲赏析1~10 期外刊原文+翻译+点评 01-<美国执业证照制度在阻碍竞争> 本文选自 The Economist<经济学人> 2018 年 2 月 17 日一篇题为 America should get rid ofoppressive job licensing(职业证照制度在阻碍竞争)的文章. 作者指出,美国的职业证照制度并不能保护消费者利益

IDG资本全球拼图:近10年揽26家独角兽,最敢出手VC再造&quot;VC+&quot;

IDG资本全球拼图:近10年揽26家独角兽,最敢出手VC再造"VC+" 2017-04-01 15:33 两天前,IDG资本合伙人过以宏提出的"VC+",又有了新的内涵--全球范围内更广泛的布局. 3月29日,美国国际数据集团(以下简称IDG)收购案传来最新进展,中国财团全面收购IDG集团已完成交割. 据悉,此次收购分为两部分.其中,IDG资本携手光大控股.中国泛海.中银集团投资有限公司等收购IDG全球投资业务(IDG Ventures)的交易于2017年2月结束交

Hadoop集群(第10期)_MapReduce与MySQL交互

2.MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力.为此,Google和MapReduce社区进行了很多努力.一方面,他们设计了类似于关系数据中结构化数据表的技术(Google的BigTable,Hadoop的HBase)提供一些粗粒度的结构化数据存储和处理能力:另一方面,为了增强与关系数据库的集成能力,Hadoop MapReduce提供了相应的访问关系数据库库的编

Hadoop集群(第10期)_MySQL关系数据库

1.MySQL安装 MySQL下载地址:http://www.mysql.com/downloads/ 1.1 Windows平台 1)准备软件 MySQL版本:mysql-5.5.21-win32.msi 2)安装环境: 操作系统:Windows 7旗舰版 3)开始安装 第一步:双击"msi"安装文件,出现如图1.1-1界面——"MySQL安装向导",按"Next"继续. 图1.1-1 MySQL安装向导 第二步:在"I accept

饥饿疗法是目前唯一确信能够延缓衰老的办法:4星|《三联生活周刊》2018年3期

三联生活周刊·人类到底能活多久:抗衰老科学指南(2018年3期) 本期主题是抗衰老,科学记者袁越走访了全球抗衰老研究的顶级机构,把这个领域最前沿的进展深入浅出地展现出来,非常有价值.这一类报道也是国内比较稀缺的. 总体评价4星. 以下是书中一些内容的摘抄,#号后面是kindle电子版中的页码,[]中是我根据上下文补充的信息: 1:2016年世界人均一次性能源消费量为1.87吨油当量,中国为2.25吨,相比十几年前还不足1吨有了飞跃,但只相当于经合组织(OECD)4.5吨的一半.OECD目前有34

2018左其盛好书榜(截至10月31日)

这个清单是今年截至10月31日我看过并且给了好评(3.5星-5星)的书,以经管类书为主. 这个好书榜以前不定期更新,现在决定每月初更新,内容截至上月底. 在公众号的菜单中可以找到持续更新的好书榜.差评榜.总榜. 经管类书我看的多,评级的参考意义更大. 评级标准: 5星:大师经典: 4星:不错: 3星:凑乎: 2星:较差: 1星:特别差 经管类好书(4.5星和5星)   5星|<突破现实的困境:趋势.禀赋与企业家的大战略>:战略书中少见的精品,麦肯锡书中少见的精品 4.5星|<中央帝国的财

[转帖]台积电近10万片晶圆报废,但7nm工艺将成2019营收主力

台积电近10万片晶圆报废,但7nm工艺将成2019营收主力 2019年02月18日 13:19 1784 次阅读 稿源:Expreview超能网 0 条评论 https://www.cnbeta.com/articles/tech/819211.htm 在台积电创始人张忠谋去年裸退之后,台积电已经发生两次严重的生产事故了,去年爆出的工厂机台中毒事件最终损失不过26亿新台币,但是1月份爆出的晶圆污染事件要严重得多,最初爆料称损失上万片晶圆,上周有消息说是4万片晶圆,现在最新说法是台积电为了展示负责

【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂

"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client和Cluster模式 Client模式如下所示: Cluster模式如下所示: Q2:Yarn的框架内部是如何实现的? Yarn是一个框架,内部实现好了RM和NM: 公开课: 上海:9月26-28日,<决胜大数据时代:Hadoop.Yarn.Spark企业级最佳实践> 北京: