大数据-Hadoop 本地运行模式

Grep案例

1. 创建在hadoop-2.7.2文件下面创建一个input文件夹

[[email protected] hadoop-2.7.2]$ mkdir input

2. 将Hadoop的xml配置文件复制到input

[[email protected] hadoop-2.7.2]$ cp etc/hadoop/*.xml input

3. 执行share目录下的MapReduce程序（执行）

[[email protected] hadoop-2.7.2]$ bin/hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output ‘dfs[a-z.]+‘（要正常的运行，必须要保证output删除，没有才能运行）

4. 查看输出结果

[[email protected] hadoop-2.7.2]$ cat output/*

WordCount案例

1. 创建在hadoop-2.7.2文件下面创建一个wcinput文件夹

[[email protected] hadoop-2.7.2]$ mkdir wcinput

2. 在wcinput文件下创建一个wc.input文件

[[email protected] hadoop-2.7.2]$ cd wcinput

[[email protected] wcinput]$ touch wc.input

3. 编辑wc.input文件

[[email protected] wcinput]$ vi wc.input

保存退出：：wq

4. 回到Hadoop目录/opt/module/hadoop-2.7.2

5. 执行程序

[[email protected] hadoop-2.7.2]$ hadoop jar

share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

6. 查看结果

[[email protected] hadoop-2.7.2]$ cat wcoutput/part-r-00000

原文地址：https://www.cnblogs.com/nidegui/p/11214055.html

时间： 2024-10-10 05:50:09

大数据-Hadoop 本地运行模式的相关文章

大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+【本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)】+Hadoop编译源码(面试重点)+常见错误及解决方案

第4章 Hadoop运行模式4.1 本地运行模式4.1.1 官方Grep案例4.1.2 官方WordCount案例4.2 伪分布式运行模式4.2.1 启动HDFS并运行MapReduce程序4.2.2 启动YARN并运行MapReduce程序4.2.3 配置历史服务器4.2.4 配置日志的聚集4.2.5 配置文件说明4.3 完全分布式运行模式(开发重点)4.3.1 虚拟机准备4.3.2 编写集群分发脚本xsync4.3.3 集群配置4.3.4 集群单点启动4.3.5 SSH无密登录配置4.3.6

大数据Hadoop最佳实践(V3)

一:课程简介: Hadoop是当下云计算大数据的王者. Hadoop不仅是一个大数据的计算框架,同时也是大数据的存储平台. 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择使用Hadoop可以主要完成: 1,构建离线处理平台,完成海量离线数据的存储分析,相对于传统的关系型数据

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1, 深入浅出中动手实作: 2, 掌握Hadoop三大核心:HDFS.Map

王家林的云计算分布式大数据Hadoop征服之旅：HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

14周事情总结-机器人-大数据hadoop

14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面昨天参与舵机的测试,遇到的问题:舵机不动排查顺序:1.程序(不过程序比较简单)不是这上面的问题 2.检查电路问题(电路设计,线比较脆弱,焊接的也不是很好,最主要不知道板子的完整性) 3.加了块电源可以动舵机了,但之后实验出现莫名的问题 4.最终解决办法:改变线,将舵机的线又连接杜邦线(12) -------------------------

大数据架构和模式（五）——对大数据问题应用解决方案模式并选择实现它的产品

摘要:本文使用了一个基于场景的方法,概述了可能有助于定义大数据解决方案的解决方案模式.每个场景都从一个业务问题开始,并说明为什么需要大数据解决方案.本文会将一个具体的解决方案模式(由原子模式和复合模式组成)应用到业务场景.这个逐步分析的方法有助于用户确定解决方案所需的组件.在文章的末尾,提供了一些建议使用的典型产品和工具. 简介本系列的第 3 部分描述了针对最常见的.经常发生的大数据问题及其解决方案的原子模式和复合模式.本文将推荐可以用于架构大数据解决方案的三个解决方案模式.每个解决方案模

大数据架构和模式（五）对大数据问题应用解决方案模式并选择实现它的产品

作者: Divakar等来源: DeveloperWorks 发布时间: 2015-01-29 18:22 阅读: 1073 次推荐: 2 原文链接 [收藏] 摘要:本文使用了一个基于场景的方法,概述了可能有助于定义大数据解决方案的解决方案模式.每个场景都从一个业务问题开始,并说明为什么需要大数据解决方案.本文会将一个具体的解决方案模式(由原子模式和复合模式组成)应用到业务场景.这个逐步分析的方法有助于用户确定解决方案所需的组件.在文章的末尾,提供了一些建议使用的典型产品和工

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

搭建大数据hadoop完全分布式环境遇到的坑

搭建大数据hadoop完全分布式环境,遇到很多问题,这里记录一部分,以备以后查看. 1.在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -format,报错误信息:hadoop: command not found 本文网址:https://www.cnblogs.com/SH170706/p/10312667.html 2. 原文地址:https://www.cnblogs.com/SH170706/p/10312678.html