Hive_初步见解,安装部署与测试

一、hive是什么东东

1. 个人理解
     hive就是一个基于hdfs运行于MapReduce上的一个java项目,
     这个项目封装了jdbc,根据hdfs编写了处理数据库的DDL/DML,自带的
     二进制包内嵌Derby数据库,且默认使用Derby,简而言之,hive就是一个
     帮助我们处理/分析数据的工具,不过这个工具却像namenode一样存储了
     一份文件的元数据,这就有点像数据仓库的感觉
2. 架构
     分为服务端、客户端,基于hadoop,运行在mapreduce,存储于hfds,
     可与hbase结合使用,其中使用hql(hive sql)查询接口
3. 作用
     将结构化得文件映射成表内容,并提供类sql查询功能
     适合离线海量数据处理,简化mapreduce

二、hive的好处在哪,为什么要用它

简单易用,体现在类sql上,通常mapreduce的开发冗余繁琐,使用hive可以进行调优和提升开发效率,降低MapReduce学习成本,
另外hive的函数是可以自定义的,这样hive具备相应扩展型,存储在hadoop的文件系统上可以共享存储区域,
hdfs的集群扩展性也成为hive存储的扩展性,hive本身跑在mapreudce上,所以其优势在于离线处理海量数据,
对于小数据来讲并没有太大优势,因为处理数据时执行延迟较高,对于小数据量实时处理不推荐使用hive
hive本身跑在mapreudce上,所以其优势在于离线处理海量数据,对于小数据来讲并没有太大优势,
因为处理数据时执行延迟较高,对于小数据量实时处理不推荐使用hive
hive初始使用derby数据库,而derby数据库只能启动一个实例,但注意不同路径下启动hive是可以的

三、hive的处理类SQL做了什么操作

在client端下,类sql语句抽象化,从中判断是否有表,字段等信息,交于编译器转换成逻辑执行语句,
交于优化器进行优化,再交于执行器,形成可执行的物理计划,基于mapreduce底层实施mapreduce任务,
实际上hive就是实现mapreduce任务的一个模板

四、hive安装部署

1. 下载hive,选择合适的版本
   地址:http://archive.apache.org/dist/hive/
2. 上传使用工具(filezilla.exe)或linux的rz命令
   上传工具很多:filezilla,FlashFXP,Xftp,vmware-tools,notepad++...
   可能会有文件夹权限问题,需要检查一下
3. 根据官网doc步骤
   地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted
   上传之后:
        $ tar -xzvf hive-x.y.z.tar.gz
        # 转到hadoop目录下
        $ bin/hdfs dfs -mkdir   /tmp
        $ bin/hdfs dfs -mkdir   /user/hive/warehouse
        $ bin/hdfs dfs -chmod g+w  /tmp
        $ bin/hdfs dfs -chmod g+w   /user/hive/warehouse

五、启动hive测试(注意hadoop架构要提前运行)

# 转到hive目录下
$ bin/hive
$ show databases;
$ show tables;
$ show functions;
$ create database if not exists schooldb;
$ use schooldb;
$ create table if not exists student(
  num int,
  name string
  )raw format delimited fields terminated by ‘\‘;
$ load data local inpath ‘/home/liuwl/opt/datas/studen.txt‘ into table student;
时间: 2024-10-09 22:17:03

Hive_初步见解,安装部署与测试的相关文章

Nginx安装部署与测试

场景:项目需要部署在生产环境中,这些新的工具都需要在生产环境中去实践练习.有时间再部署一套ELK的日志分析系统,这样的系统才算具有一定的应用价值. 1 Nginx安装 用root用户安装,采用源代码编译的方式来进行安装,正式开始前,请确认gcc.g++开发库之类的已经预先安装好 ------------------------------------------------------------------------------------------------ 先把nginx安装要用到的

(三)Hyperledger Fabric 1.1安装部署-chaincode测试

环境搭建完毕,需要的工具和镜像安装完毕,就可以进行chaincode测试了,接下来参考官方教程运行first-network. 进入first-netwok: cd first-network first-network的文件结构如下 在first-network目录下有两个自动化脚本byfn.sh和eyfn.sh,这两个脚本的启动顺序是先执行byfn.sh再执行eyfn.sh(eyfn.sh不是必须的,eyfn.sh的作用稍后再介绍).byfn.sh的执行格式为:./byfn.sh (up|d

centos6.4 docker1.0 安装部署

一:简介: Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的.可移植的.自给自足的容器.开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署,包括VMs(虚拟机).bare metal.OpenStack 集群和其他的基础应用平台. 二:Docker应用场景: 1.web应用的自动化打包和发布: 2.自动化测试和持续集成.发布: 3.在服务型环境中部署和调整数据库或其他的后台应用: 4.从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的

Hadoop0.21.0部署安装以及mapreduce测试

鉴于hadoop的需要...但是并不限于此...有时候闲输入密码麻烦,也可以用这种办法从一个节点通过ssh进入另一个节点... 设要使master进入slave是免密码的,则可以在master(ip为192.168.169.9)中如下操作: 命令:ssh-keygen -t rsa  然后一路回车(该命令不需要进入特定目录) cd进入/root/.ssh/可以看见如下(橙色是新生成的) id_rsa  id_rsa.pub  known_hosts 然后用scp命令将id_rsa远程传输到sla

测试必备技能系列6:软件安装部署是最基本的能力!

今天,老徐再来聊聊测试必备技能 必备技能系列6 软件安装部署,你必须会! 老徐简单陈述观点: 1. 对于刚入门的测试同学 或者还未入门的测试同学 刚开始工作,都是从功能测试开始 那工作之余呢? 当然是学点东西 2. 学习过程中,肯定有很多软件.工具需要自己部署安装摸索 否则,门都入不了,咋学? 3. 入门级,常见有哪些需要安装的? 1)虚拟机 2)linux服务器 3)基本环境部署:mysql jdk apache 等 4)数据库客户端工具 5)bug管理工具:jira等 6)其他,看具体想学的

Flume NG安装部署及数据采集测试

转载请注明出处:http://www.cnblogs.com/xiaodf/ Flume作为日志收集工具,监控一个文件目录或者一个文件,当有新数据加入时,采集新数据发送给消息队列等. 1 安装部署Flume 若要采集数据节点的本地数据,每个节点都需要安装一个Flume工具,用来做数据采集. 1.1 下载并安装 到官网去下载最新版本的Flume 下载地址为:http://flume.apache.org/,目前最新版本为1.6.0,需要1.7及以上版本的JDK. 1.解压 tar -xzvf ap

淘宝分布式 key/value 存储引擎Tair安装部署过程及Java客户端测试一例

目录 1. 简介 2. 安装步骤及问题小记 3. 部署配置 4. Java客户端测试 5. 参考资料 声明 1. 下面的安装部署基于Linux系统环境:centos 6(64位),其它Linux版本可能有所差异. 2. 网上有人说tair安装失败可能是因为gcc版本问题,高版本的gcc可能不支持某些特性导致安装失败,经过实验证明,该说法是错误的,tair安装失败有各种可能的原因但绝对与gcc版本无关,比如我的gcc开始版本为4.4.7,后来tair安装失败,我重新编译低版本的gcc(gcc4.1

网上最新的devstack安装教程【一键部署openstack测试环境】

这段时间由于测试需要搭建openstack环境,搜遍谷歌百度进行不下30次尝试...看了陈沙克等前辈的安装教程,很多配置信息都已经过期了.不过大致的步骤基本不变,由于最近devstack在github更新频繁,可能很多功能被添加更新,源软件链接可能需要更改.下面给出这段时间安装的步骤(附最新源),希望对有需要进行一键部署openstack测试环境的朋友有帮助. 测试版本:Ubuntu 12.04.5 LTS 系统内核:Linux r10f17332.sqa.zmf 3.2.0-60-generi

LDAP-openldap服务部署和测试(YUM安装)

1. 概述2. 服务端部署过程2.1 软件包说明2.2 部署过程2.3 配置过程3. 测试4. 生成LDIF格式文件4.1 安装migrationtools工具4.2 用migrationtools生成ldif文件4.3 添加ldif到ldap数据库5. 日志配置5.1 openldap的日志级别5.2 配置日志功能6. 客户端配置6.1 基础环境准备6.2 配置nslcd客户端7. 添加系统用户7.1 添加用户7.2 产生ldif文件7.3 添加ldif文件至LDAP数据库中7.4 验证 1.