hadoop2.5.2、hbase0.98.7和sqoop1.4.6搭建

1、前期工作:

(1)准备三台电脑:

  安装Ubuntu14.04(最好用户名都为hadoop,方便后面的文件传输)

  网络映射:

    分别修改三台的主机名(sudo /etc/hostname):分别为master,slave1,slave2并配好IP假设为:ip1,ip2,ip3

    修改网络映射:sudo /etc/hosts

           可以注释掉127.0.1.1一行

           增加ip1 master

             ip2 slave1

          ip3 slave2

(2)安装openssh-server(sudo apt-get install openssh-server5.5)

   设置三台电脑之间的无密码登录:参考http://www.cnblogs.com/xiaomila-study/p/4971385.html

(3)安装jdk:下载jdk文件,解压并添加环境变量  sudo vim /etc/profile

  #JAVA enviroment setting

  export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79

  export JRE_HOME=${JAVA_HOME}/jre

  export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

  export PATH=${JAVA_HOME}/bin:$PATH

  退出并 source /etc/profile

2、Hadoop环境的搭建:

(1)下载hadoop2.5.2的tar.gz包并解压

(2)添加环境变量:方法同1中(3)

  #hadoop enviroment
  export HADOOP_HOME=/home/hadoop/my_project/hadoop-2.5.2
  export HADOOP_COMMON_HOME=${HADOOP_HOME}
  export HADOOP_MAPRED_HOME=${HADOOP_HOME}
  export HADOOP_YARN_HOME=${HADOOP_HOME}
  export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
  export PATH=${HADOOP_HOME}/bin:$PATH
  export PATH=${HADOOP_HOME}/sbin:$PATH

(3)修改配置文件内容:目录为hadoop的安装目录下/etc/hadoop的文件,分别为hadoop.env.sh(如果是hadoop.env.template.sh,改为hadoop.env.sh),core.site.xml,maped.site.xml,yarn.site.xml,yarn.env.sh,hdfs.site.xml、slaves

  hadoop.env.sh:  

    # The java implementation to use.
    export JAVA_HOME=/home/hadoop/my_project/jdk1.7.0_79(jdk的安装目录)

  core.site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://ip1:9000</value>
</property>

<!--property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property-->

<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>

<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>

<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>

</configuration>

  maped.site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>ip1:9001</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<!--property>
<name>mapreduce.jobhistory.address</name>
<value>ip1:10020</value>
</property>

<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>ip1:19888</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value> -Xmx4096m</value>
</property>
<property>
<name>mapreduce.admin.map.child.java.opts</name>
<value>-XX:-UseGCOverheadLimit</value>
</property-->
</configuration>

  hdfs.site.xml

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>

<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/dfs/name</value>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/dfs/data</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

<property>
<name>dfs.datanode.max.transfer.threads</name>
<value>8192</value>
</property>
</configuration>

yarn.site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>ip:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>ip:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>ip1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>ip1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>ip1:8088</value>
</property>
<!-- property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.9</value>
</property-->

</configuration>

yarn.env.sh

# some Java parameters
export JAVA_HOME=/home/hadoop/my_project/jdk1.7.0_79

slaves

master

slave1

slave2

(4)格式化节点:hdfs namenode -format

(5)启动hadoop:start-all.sh

(6)运行自带的wordcount:参考http://www.cnblogs.com/xiaomila-study/p/4973662.html

运行成功则hadoop安装成功,否则需要在调试参数,即第(3)步的各文件

3、hbase安装:

(1)下载hbase0.98.7的tar.gz文件并解压

(2)配置环境变量:  

  #HBASE enviroment
  export HBASE_HOME=/home/hadoop/my_project/hbase-0.98.7
  export PATH=${HBASE_HOME}/bin:$PATH

(3)配置文件:在hbase的安装目录conf文件夹下:分别是hbase.env.sh和hbase.site.xml、regionservers

hbase.env.sh

export JAVA_HOME=/home/hadoop/my_project/jdk1.7.0_79

export HBASE_MANAGES_ZK=true(表示使用hbase自带的zookeeper)

hbase.site.xml

<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://ip1:9000/hbase</value>
</property>
<property>
<name>hbase.master</name>
<value>hdfs://ip1:60000</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2222</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>ip1,ip2,ip3</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/home/hadoop/zookeeper</value>
</property>
<property>
<name>hbase.regionserver.handler.count</name>
<value>100</value>
</property>
<property>
<name>zookeeper.session.timeout</name>
<value>90000</value>
</property>
<property>
<name>hbase.regionserver.restart.on.zk.expire</name>
<value>true</value>
<description>
Zookeeper session expired will force regionserver exit.
Enable this will make the regionserver restart.
</description>
</property>
</configuration>

regionservers

master
slave1
slave2

(3)启动hbase:start-hbase.sh

(4)进入hbase:hbase shell

(5)验证是否成功:list

          create ‘test‘,‘info‘

如果创建成功,则hbase安装成功

4、sqoop安装:

(1)下载sqoop1.4.6的tar.gz包并解压

(2)添加环境变量:

#sqoop enviroment
export SQOOP_HOME=/home/hadoop/my_project/sqoop-1.4.6
export PATH=${SQOOP_HOME}/bin:$PATH

(3)修改配置文件:sqoop.env.sh

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/home/hadoop/my_project/hadoop-2.5.2

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/home/hadoop/my_project/hadoop-2.5.2

config-sqoop(bin目录下):将下面的注释掉,这里如果hbase_home如果没有注释掉不知道有没有用,我的环境是注释了的

## Moved to be a runtime check in sqoop.
#if [ ! -d "${HBASE_HOME}" ]; then
# echo "Warning: $HBASE_HOME does not exist! HBase imports will fail."
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.‘
#fi

## Moved to be a runtime check in sqoop.
#if [ ! -d "${HCAT_HOME}" ]; then
# echo "Warning: $HCAT_HOME does not exist! HCatalog jobs will fail."
# echo ‘Please set $HCAT_HOME to the root of your HCatalog installation.‘
#fi

#if [ ! -d "${ACCUMULO_HOME}" ]; then
# echo "Warning: $ACCUMULO_HOME does not exist! Accumulo imports will fail."
# echo ‘Please set $ACCUMULO_HOME to the root of your Accumulo installation.‘
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
# echo "Warning: $ZOOKEEPER_HOME does not exist! Accumulo imports will fail."
# echo ‘Please set $ZOOKEEPER_HOME to the root of your Zookeeper installation.‘
#fi

(4)将jdbc的jar包放入sqoop安装路径的lib文件夹下:mysql-connector-java-5.1.32-bin.jar、sqljdbc4.jar、

sqoop-sqlserver-1.0.jar

(5)如是测试mysql,则在mysql服务器端设置:grant all privileges on *.* to ‘root‘@‘%‘ identified by ‘123‘ with grant option;(这样可以远程访问),同理若是sqlserver可以设置远程访问

(6)测试:

测试sqoop连接mysql:

sqoop list-databases --connect jdbc:mysql://ip:3306/ --username root  --password 123

sqoop import --connect ‘jdbc:sqlserver://ip;username=sa;password=123;database=WebHotPub‘   --query ‘select * from channelType where $CONDITIONS‘  --split-by channelType.chnTypeID  --hbase-create-table --hbase-table chnType1 --column-family channelInfo --hbase-row-key chnTypeID -m 3

sqoop import --connect ‘jdbc:sqlserver://ip;username=sa;password=123;database=WebHotPub‘ --table channelType  --hbase-create-table --hbase-table chnType --column-family channelInfo --hbase-row-key chnTypeID -m 1

时间: 2024-10-18 09:52:44

hadoop2.5.2、hbase0.98.7和sqoop1.4.6搭建的相关文章

hadoop2.4.1+hbase0.98.3实现的分布式网盘系统初步

直接上图片 web端用spring mvc4.0.5 hadoop+hbase 伪分布实验环境 已实现用户注册 登陆 网盘管理:上传文件 创建文件夹 修改文件及文件夹 分享文件及文件夹 删除文件及文件夹 仿百度文库浏览文档 和下载文件功能. 关注用户管理: 关注和取消关注用户 文件分享:分享列表查看 hadoop2.4.1+hbase0.98.3实现的分布式网盘系统初步,布布扣,bubuko.com

Ganglia3.6.0,nginx+php搭建gweb,监控Hadoop2.2 和 Hbase0.98.1

服务端(master): 安装 ganglia ganglia-devel ganglia-gmetad ganglia-gmond ganglia-web ganglia-gmond-python rrdtool httpd php 客户端(slave) : 安装 ganglia-gmond 1 安装Ganglia  yum加入 epel 源 >rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noa

设置hdfs和hbase副本数。hadoop2.5.2 hbase0.98.6

hdfs副本和基本读写. core-site.xmlhdfs-site.xml 从/etc/hdfs1/conf下拷贝到工作空间 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.

Hbase0.98版本的安装部署配置管理(Hadoop2.3、Hbase0.98、Hive0.13整合)

简介: HStore存储是HBase存储的核心了,其中由两部分组成,一部分是MemStore,一部分是StoreFiles.MemStore是Sorted Memory Buffer,用户写入的数据首先会放入MemStore,当MemStore满了以后会Flush成一个StoreFile(底层实现是HFile),当StoreFile文件数量增长到一定阈值,会触发Compact合并操作,将多个StoreFiles合并成一个StoreFile,合并过程中会进行版本合并和数据删除,因此可以看出HBas

hbase-0.98.1-cdh5.1.0 完全分布式搭建

cdh版与0.98版的配置一样 1.环境 master:c1 slave:c2,c3 CentOS 6.5 x64 ,hadoop-2.3.0-cdh5.1.0,zookeeper-3.4.5-cdh5.1.0 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ 2. 前提条件 安装好hadoop集群,zookeeper集群 3. 环境变量配置 export HBASE_HOME=/usr/local/cdh/hbase export PATH=$PATH

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试

简介: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 1, 适用场景 Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销.因此,Hive 并不能够在大规模

Hadoop2.4.1 64-Bit QJM HA and YARN HA + Zookeeper-3.4.6 + Hbase-0.98.8-hadoop2-bin HA Install

Hadoop2.4.1 64-Bit QJM HA and YARN HA Install + Zookeeper-3.4.6 + Hbase-0.98.8-hadoop2-bin HA(Hadoop2.4.1(QJM方式的HDFS NameNode HA,YARN ResourceManager HA)集群+Zookeeper3.4.6集群+Hbase-0.98.8(Master HA)集群搭建) HostName            IP                Soft      

hbase0.98.8源码编译(基于hadoop2.4.1)

上一篇介绍了hadoop2.4.1的编译过程,以及hive和spark的编译,这次简单介绍hbase的编译过程. hbase0.98.8默认使用hadoop2.2.0进行编译,笔者的hadoop环境是2.4.1版本,为避免包不一致引发的各种错误,需要对hbase进行重新编译. 1.生成编译使用的pom文件 修改$HBASE_HOME/pom.xml,<hadoop-two.version>2.2.0</hadoop-two.version>修改为<hadoop-two.ver

Hadoop-2.6.0 + Zookeeper-3.4.6 + HBase-0.98.9-hadoop2环境搭建示例

1    基本信息 1.1     软件信息 hadoop-2.6.0 zookeeper-3.4.6 hbase-0.98.9-hadoop2 (以下示例中使用的操作系统是Centos 6.5,请将下载的3个tar包分别解压并放置在/usr/local/目录下) (Hbase包中lib里可以看到zookeeper的jar包,从文件名可以确定使用的zookeeper版本) 1.2     集群组成: Server Name Hadoop Cluster Zookeeper Ensemble HB