大数据之简单统计单词的案例在本地eclipse运行

这是利用eclipse的线程代替linuxe的进程去执行

第一步:首先要将已经下载解压后的hadoop配置好相应的环境变量

第二步:

//创建配置文件对象
        Configuration conf=new Configuration(true);

也就是下面的两行代码复制到创建配置文件对象的下面
        //设置在本地运行的文件对象
        conf.set("mapreduce.framework.name", "local");
        // conf.set("fs.defaultFS", "hdfs://node01:9000");
        conf.set("fs.defaultFS", "file:///");

第三步:

//指定joB的原始的输入输出路径,通过参数传入
        FileInputFormat.setInputPaths(job, new Path("D://code//mr//wc//input//"));
        FileOutputFormat.setOutputPath(job, new Path("D://code//mr//wc//output//"));

当然这里也可以利用主方法的run configurations来传入参数:下面给出一个验证的小案例

本案的设置如下:

得到结果:

表名成功在本地的eclipse运行

原文地址:https://www.cnblogs.com/liyunfeng-deng/p/10263816.html

时间: 2024-10-09 15:36:13

大数据之简单统计单词的案例在本地eclipse运行的相关文章

Spark 大数据中文分词统计(三) Scala语言实现分词统计

Java版的Spark大数据中文分词统计程序完成之后,又经过一周的努力,把Scala版的Spark 大数据中文分词统计程序也搞出来了,在此分享给各位想学习Spark的朋友. 如下是程序最终运行的界面截图,和Java版差别不大: 如下是Scala工程结构: 当你在工程主类文件WordCounter.scala上单击右键,选择Run As Scala Application: 然后选择唐诗宋词进行分词统计,就会出现前面显示的分词结果. 工程代码已经上传CSDN:http://download.csd

大数据实时流统计视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

统计单词个数案例

Linux系统将每一个驱动都映射成一个文件.这些文件称为设备文件或驱动文件,都保存在/dev目录中.编写linux驱动最重要的一步就是编写回调函数,否则与设备文件交互的数据无法得到处理. 1. 编写linux驱动程序的步骤: 第 1 步:建立 Linu x 驱动骨架 (装载和卸载 Linu x 驱动): Linux 内核在使用驱动时首先需要装载驱动.当 Linux系统退出时需要卸载 Linux 驱动,在卸载的过程中需要释放由 linux 驱动占用的资源,例如,删除设备文件.释放内存地址空间等.在

谈谈大数据在硅谷真实的应用案例

我在国内看到的那些大数据文章好像都比较空洞,我来写点硅谷正发生的真实应用案例.这些应用已基本解释清楚大数据如何提供决策参考,以及我们作为普通老百姓如何和它发生关系. 医疗领域 我要说的第一个案例是大数据如何减少美国医院急救数量. 因为美国急救价格很贵,而很多需要急救的病人没有医疗保险,美国政府在支付急救费用上承担着大量花费,但是最近一个非营利性组织 Code for America 发现:其实美国医院急救问题的症结不在于有很多人打急救电话,而在于总是有一部分人一次又一次打急救电话. 他们给我举的

利用字符串和十进制逢10进位的特性实现大数据的算术运算。(加法案例)

java中普通的数据类型int,long等不支持大数据间的算术运算,会出现丢失精度的问题,甚至无法用现有数据类型表示. 例如:对这两个数做加法运算:1243543534646546546465465465464654+32423985348957348957348957348957348574=? 在java中Long类型已经无法表示了,Long类型的最大值为Long.MAX_VALUE=9223372036854775807. 但jdk类库中提供了BigInteger类型,可以解决. 这里我用

DT大数据梦工厂第三十五课 Spark系统运行循环流程

本节课内容: 1.     TaskScheduler工作原理 2.     TaskScheduler源码 一.TaskScheduler工作原理 总体调度图: 通过前几节课的讲解,RDD和DAGScheduler以及Worker都已有深入的讲解,这节课我们主要讲解TaskScheduler的运行原理. 回顾: DAGScheduler面向整个Job划分多个Stage,划分是从后往前的回溯过程:运行时从前往后运行的.每个Stage中有很多任务Task,Task是可以并行执行的.它们的执行逻辑完

C语言练习1_大数据的简单运算

问题: Work out the first ten digits of the sum of the following one-hundred 50-digit numbers. 37107287533902102798797998220837590246510135740250463769376774900097126481248969700780504170182605387432498619952474105947423330951305812372661730962991942213

大数据公司挖掘数据价值的49个典型案例!信息量很大

大数据公司挖掘数据价值的49个典型案例 对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找"正在做"大数据的49个样本. 力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律:一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook

大数据公司挖掘数据价值的49个典型案例

对于企业来说,100条理论确实不如一个成功的标杆有实践意义,本文的主旨就是寻找“正在做”大数据的49个样本.力图从企业运营和管理的角度,梳理出发掘大数据价值的一般规律: 一是以数据驱动的决策,主要通过提高预测概率,来提高决策成功率;二是以数据驱动的流程,主要是形成营销闭环战略,提高销售漏斗的转化率;三是以数据驱动的产品,在产品设计阶段,强调个性化;在产品运营阶段,则强调迭代式创新. 上篇 天然大数据公司的各种套餐 从谷歌.亚马逊.Facebook.LinkedIn,到阿里.百度.腾讯,都因其拥有