Hadoop hive sqoop zookeeper hbase生产环境日志统计应用案例(Hive篇)

3、Hive安装配置

3.1安装MySQL

在datanode5上安装MySQL

# yum -y installmysql-server mysql

# mysql

mysql> grant all privileges on *.* [email protected]‘10.40.214.%‘ identified by "hive";

mysql> flush privileges;

3.2安装hive

# tar -zxf apache-hive-0.13.1-bin.tar.gz-C /var/data/; mv /var/data/apache-hive-0.13.1 /var/data/hive

# cd /var/data/hive

# vimbin/hive-config.sh    ##在脚本开头添加下面的内容

exportJAVA_HOME=/usr/java/jdk1.7.0_71

exportHIVE_HOME=/var/data/hive

exportHADOOP_HOME=/var/data/Hadoop

# vim hive-site.xml     ##配置hive

<configuration>

<property>

<name>hive.exec.scratchdir</name>

<value>/tmp/hive-${user.name}</value>

<description>Scratchspace for Hive jobs</description>

</property>

<property>

<name>hive.exec.local.scratchdir</name>

<value>/tmp/${user.name}</value>

<description>Localscratch space for Hive jobs</description>

</property>

<property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://10.40.214.9:3306/hive?createDatabaseIfNotExist=true</value>

<description>JDBCconnect string for a JDBC metastore</description>

</property>

<property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>org.apache.derby.jdbc.EmbeddedDriver</value>

<description>Driverclass name for a JDBC metastore</description>

</property>

<property>

<name>javax.jdo.PersistenceManagerFactoryClass</name>

<value>org.datanucleus.api.jdo.JDOPersistenceManagerFactory</value>

<description>classimplementing the jdo persistence</description>

</property>

<property>

<name>javax.jdo.option.DetachAllOnCommit</name>

<value>true</value>

<description>detachesall objects from session so that they can be used after transaction iscommitted</description>

</property>

<property>

<name>javax.jdo.option.NonTransactionalRead</name>

<value>true</value>

<description>readsoutside of transactions</description>

</property>

<property>

<name>javax.jdo.option.ConnectionUserName</name>

<value>hive</value>

<description>usernameto use against metastore database</description>

</property>

<property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>hive</value>

<description>passwordto use against metastore database</description>

</property>

<property>

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

<description>locationof default database for the warehouse</description>

</property>

</configuration>

# cpmysql-connector-java-5.1.18-bin.jar /var/data/hive/lib/     ##加入MySQL java驱动jar包

# vim /etc/profile    ##配置hive环境变量

#hivepath

exportHIVE_HOME=/var/data/hive

exportPATH=$PATH:$HIVE_HOME/bin

# source /etc/profile

# hive      ##启动hive

3.3hive的使用

##创建库

# hive -e "createdatabase maillog;"

##创建表

# hive -e"create table maillog.izhenxin(mail_time string, message_id string,mail_to string, mail_domain string, mail_relay string, mail_delay string,mail_delays string,mail_dsn string, mail_status string) ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘|‘ STORED AS TEXTFILE;"

##删除表

# hive -e "droptable maillog.izhenxin;"

##导入数据到hive表中

# hive -e "LOADDATA LOCAL INPATH ‘/opt/zhangdh/to_result.txt‘ OVERWRITE INTO TABLEmaillog.izhenxin;"

##简单的数据查询

# hive -e "usemaillog;select * from izhenxin_total limit 10;"

##用hive统计数据,会执行mapreduce过程

# hive -e"select mail_domain,sum(case when mail_status=‘sent‘ then 1 else 0 end )sent,sum(case when mail_status=‘bounced‘ then 1 else 0 end ) bounced,sum(casewhen mail_status=‘deferred‘ then 1 else 0 end ) deferred from maillog.izhenxingroup by mail_domain order by sent desc;"

##将hive表数据的查询结果,添加到一个新表中

# hive -e"create table maillog.izhenxin_total(mail_domain string, sent_number int,bounced_number int, deferred int) ROW FORMAT DELIMITED FIELDS TERMINATED BY‘\t‘ STORED AS TEXTFILE;"

# hive -e "usemaillog; insert into table izhenxin_total select mail_domain,sum(case whenmail_status=‘sent‘ then 1 else 0 end ) sent,sum(case when mail_status=‘bounced‘then 1 else 0 end ) bounced,sum(case when mail_status=‘deferred‘ then 1 else 0end ) deferred from maillog.izhenxin group by mail_domain order by sentdesc;"

时间: 2024-10-14 15:47:02

Hadoop hive sqoop zookeeper hbase生产环境日志统计应用案例(Hive篇)的相关文章

Hadoop hive sqoop zookeeper hbase生产环境日志统计应用案例(Sqoop篇)

5.Sqoop安装配置 在rmanager上操作 # tar -zxfsqoop-1.4.5.bin__hadoop-2.5.0.tar.gz -C /var/data/ # cd /var/data/; mvsqoop-1.4.5 sqoop  ##这里的sqoop是编译后的版本 # mvsqoop/conf/sqoop-site-template.xml sqoop/conf/sqoop-site.xml # cp /opt/mysql-connector-java-5.1.18-bin.j

Spark集群框架搭建【VM15+CentOS7+Hadoop+Scala+Spark+Zookeeper+HBase+Hive】

目录 1 目的 2 准备工作 3 安装过程 3.1 在虚拟机中安装CentOS7 3.1.1 虚拟机设置 3.1.2 安装Linux系统 3.2 JAVA环境 3.2.1 卸载Linux自带的jdk 3.2.2 下载并安装最新版本的jdk 3.2.3 环境变量设置 3.3 SSH免密登陆 3.3.1 准备工作 3.3.2 设置免密登陆 3.4 Hadoop2.7.2安装及集群配置 3.4.1 Hadoop安装 3.4.2 伪分布式集群配置 3.4.3 启动hadoop 3.5 Spark安装及环

生产环境日志审计解决方案

思路:sudo 配合syslog 服务,进行日志审计 具体方法: 安装sudo命令,rsyslog服务(centos6.4) 注意:默认情况下,centos5.8系统中已安装上sudo和syslog服务 检查是否安装好,具体操作如下: [[email protected] ~]# rpm -qa |egrep "sudo|rsyslog" rsyslog-5.8.10-8.el6.i686 sudo-1.8.6p3-15.el6.i686 如果没有安装,则有yum进行安装: [[ema

linux日志审计项目案例实战(生产环境日志审计项目解决方案)

所谓日志审计,就是记录所有系统及相关用户行为的信息,并且可以自动分析.处理.展示(包括文本或者录像) 推荐方法:sudo配合syslog服务,进行日志审计(信息较少,效果不错) 1.安装sudo命令.syslog服务(centos6.4或以上为rsyslog服务) [[email protected]_back ~]#rpm -qa "sudo|syslog"   查询系统是否已安装sudo.syslog程序 rsyslog-5.8.10-8.el6.x86_64 sudo-1.8.6

CentOS(5.8/6.4)linux生产环境若干优化实战(实用篇)

下面我就为大家简单讲解几点关于Linux系统安装后的基础优化操作. 注意:本次优化都是基于CentOS(5.8/6.4).关于5.8和6.4两者优化时的小区别,我会在文中提及的. 优化条目: 修改ip地址.网关.主机名.DNS等 关闭selinux,清空iptables 添加普通用户并进行sudo授权管理 更新yum源及必要软件安装 定时自动更新服务器时间 精简开机自启动服务 定时自动清理/var/spool/clientmqueue/目录垃圾文件,放置inode节点被占满 变更默认的ssh服务

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

hadoop-ha+zookeeper+hbase+hive+sqoop+flume+kafka+spark集群安装

创建3台虚拟机 主机为桌面版 其他为迷你版本 ******************************常用命令.进程名称****************************启动集群命令: start-all.sh启动zookeeper: zkServer.sh start 启动journalnode: hadoop-daemon.sh start journalnode启动namenode: hadoop-daemon.sh --script hdfs start namenode启动z

Hadoop,Zookeeper,Hbase,Hive,Spark,Kafka,CDH,impala,azkaban,oozie,hue中webui常用端口

Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 Zookeeper: 2181 : 客户端连接zookeeper的端口 2888 : zookeeper集群内通讯使用,Leader监听此端口 3888 : zookeeper端口 用于选举leader Hbase: 60010