「hadoop」idea gradle hadoop 运行helloworld示例

运行一个简单的hadoop实例。

环境:win7跑三台ubuntu虚拟机,并已成功安装hadoop2.8.1环境,win7安装idea工具

【步骤】

1、参考 http://blog.csdn.net/u011654631/article/details/70037219,该地址简称 参考页;

2、idea创建gradle的java工程;

3、按参考页build.gradle中集成相应的hadoop jar包;

几点补充:

1、把core-site.xml,mapred-site.xml,yarn-site.xml等拷到工程的resources目录下;

2、如遇到 hdfs:master:9000 访问refused,用IP地址替换master试试;

3、input文件位于hdfs系统内,linux只能通过hdfs dfs方式访问;

4、hadoop.dll和winutils.exe需另行下载;

5、用户权限问题,win7增加环境变量 HADOOP_USER_NAME, 值为 hadoop的用户名;

6、增加日志打印配置文件log4j.xml,放到工程的resources目录下,xml内容参考 http://www.cnblogs.com/ftrako/p/7570094.html

时间: 2024-10-23 21:37:26

「hadoop」idea gradle hadoop 运行helloworld示例的相关文章

「hadoop」hadoop启动需要相关的命令(仅供本人使用)

#拷贝日志到win7cp -R /usr/hadoop/logs/* /mnt/hgfs/D/SharedFiles/logs #清除缓存文件rm -rf ~/tmp/*rm -rf ~/dfs/name/*rm -rf ~/dfs/data/*rm -rf /usr/hadoop/logs/* #关闭hadoopstop-all.sh.#启动hadoophdfs namenode -formatstart-dfs.shstart-yarn.sh

Hadoop日记Day16---命令行运行MapReduce程序

一.代码编写 1.1 单词统计 回顾我们以前单词统计的例子,如代码1.1所示. 1 package counter; 2 3 import java.net.URI; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FileSystem; 7 import org.apache.hadoop.fs.Path; 8 import org.apache.hadoop.io.LongWrita

[hadoop]命令行编译并运行hadoop例子WordCount

首先保证JDK.Hadoop安装设置成功 可以参考[linux]ubuntu下安装hadoop [linux]ubutnu12.04 下安装jdk1.7 使用hadoop版本为1.2.1,jdk为1.7 在hadoop-1.2.1\src\examples\org\apache\hadoop\examples找到WordCount.java 源码如下: 1 /** 2 * Licensed under the Apache License, Version 2.0 (the "License&q

hadoop 2.2.0 编译运行wordcount

hadoop2.2.0 编译运行wordcount,因为hadoop2.2.0不支持eclipse的插件,所以运行wordcount,需要手动编译并将wordcount打包成jar包来运行,下面记录一下编译运行的过程,希望能给大家有些帮助. 1.首先介绍下hadoop的版本问题,当前Hadoop版本比较混乱,让很多用户不知所措.实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduc

hadoop学习;hdfs操作;运行抛出权限异常: Permission denied;api查看源码方法;源码不停的向里循环;抽象类通过debug查找源码

eclipse快捷键alt+shift+m将选中的代码封装成方法:alt+shift+l将选中的代码添加对应类型放回参数 当调用一个陌生方法时,进入源码不停的向里循环,当找不到return类似方法的时候,可以看到最原始的方法 package com.kane.hdfs; import java.io.InputStream; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)

第四步:配置Hadoop伪分布模式并运行Wordcount示例 伪分布模式主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号: 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication; 修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口: 在具体操作前我们先在Hadoop目录下创建几个文件夹: 下面开始构建具体的伪分布式

Hadoop之搭建完全分布式运行模式

一.过程分析 1.准备3台客户机(关闭防火墙.修改静态ip.主机名称) 2.安装JDK 3.配置环境变量 4.安装Hadoop 5.配置集群 6.单点启动 7.配置ssh免密登录 8.群起并测试集群 二.编写集群分发脚本 xsync 1.scp(secure copy)安全拷贝 1)scp定义 scp可以实现服务器与服务器之间的数据拷贝. 2)基本语法 scp -r 文件  用户名@主机:目标路径/名称 3)案例 a.在hadoop101上,将hadoop101中 /opt/module 目录下

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

「01」机器学习,到底在学些什么?

阅读 0 编辑文章 大家好,欢迎来到久违的机器学习系列,这是「美团」算法工程师带你入门机器学习 专栏的第一篇文章,不会太长,一半聊想法,一半聊干货.熟悉我的朋友可能知道,我以前的文章比较随意,涉及的内容极广,包括但不限于Python/Java/C/C++,网络编程,Hadoop等,但主要核心还是机器学习算法和数据科学相关的主题,这一点没变过. 最近认真总结和思考了之前的博客内容,决定将自己从入门到现在一路走来的学习经验和理解整理一番,帮助更多后来的小伙伴更好的入门,所以就有了这个系列.以前的知乎