Impala-1

Impala相关操作上

　　阅读目录

序

上一篇，我们介绍Impala的介绍及安装。

　下面我们开始继续进一步的了解Impala的相关操作。

数据库相关

一：创建

　　在这里，数据库就是一个目录结构，当然对于的元数据还会持久化到关系型数据库。
create database dbtest;
二：查看

　　可以查看当前可用的数据库。
show databases;
三：删除

　　删除制定的数据库，会删除数据库中的表，及数据，hdfs文件。数据库对于的hdfs目录结构也会被删除。
drop database dbtest1;
四：切换当前数据库

　　默认的是default数据库，切换了后，可以直接使用当前数据库中的表。
use dbtest;

表相关

一：创建
create table student
(
id string  ,
name string  ,
sex  string     ,
birthday  timestamp
);
二：创建分区表

　　分区表可以根据存放数据，这样在分析的时候，可以只使用对应分区的数据，可以大大的降低检索的数据量，提高分析性能。
create table student_p
(
id string  ,
name string  ,
sex  string     ,
birthday  timestamp
)
partitioned by (year string,month string,day string);
　　这里定义了year,month,day 这3层分区。

三：查看表明细

　　显示表的元数据，包括列名，类型等等。
desc student;
　

　

　　formatted参数可以显示更多信息，显示格式与hive类似。包括底层详细信息，创建时间，格式，hdfs文件位置等等。
desc formatted student_p;
四：查看当前数据库已有的表
show tables;
五：HDFS目录

　　可以看到在dbtest.db的目录下有两个我们建好表的目录。

六：修改表

　　ALTER TABLE 语句用来修改现有表的结构或属性。在 Impala 里，这是一个逻辑操作，更新了 Impala 和 Hive 共用的 metastore 数据库中表的元数据； ALTER TABLE 语句不会对实际的数据文件进行重写、移动等操作。因此，你可能需要相应的物理文件系统操作才能实现移动数据文件到不同的 HDFS 目录，重写数据文件来包含其他字段，或转换成不同的文件格式。

七：重命名表
alter table student rename to student1;
　　对于内部表，这一操作实际地修改了包含数据文件的 HDFS 目录名；原始目录将不再存在。

八：增加列　　
alter table student1 add columns (addr string);
九：替换列　　
alter table student1 replace columns(id int,name string, sex string,tel int);
　　当替换列时，原有列的定义都被废弃。你可能会在收到一组新的有不同数据类型或不同顺序的列的数据文件时使用这一技术(数据文件会被保留，因此当新列与旧列不兼容时，需要在执行进一步的查询前，使用 INSERT OVERWRITE 或 LOAD DATA OVERWRITE 语句替换所有的数据)。

可以看到。我们将原有列的结构，类型做了很大的替换。

十：修改列

　　修改列可以改变列的名字和类型
alter table student1 change id idstr string;
十一：删除列
alter table student1 drop tel;
十二：修改文件格式
alter table student1 set fileformat parquet;
　　因为本操作只是修改表的元数据，对现存的数据，你必须使用 Impala 之外的 Hadoop 技术对已有的数据进行转换。之后再在 Impala 中使用 INSERT 语句创建的数据将使用新的格式。你不能指定文本文件的分隔符；文本文件的分隔符必须是逗号。

十三：增加分区
alter table student_p add partition(year=‘2017‘,month=‘07‘,day=‘24‘);
　　可以看到hdfs中student_p的下面有个3层目录结构。

重复上面增加分区的操作，分别添加22，23日的分区。

十四：删除分区

　　删除day=22的分区。
alter table student_p drop partition(year=‘2017‘,month=‘07‘,day=‘22‘);
　可以看到该表只有23，24两个分区。hdfs对应的目录会被删除。所以该分区的实际文件也会被删除。

十五：查看表的统计状态
show table stats student_p;
　　上述语句中使用到这个，可以看到每个分区的状态，如果有数据，还会统计行数，文件数，大小等等。

十六：查看表的列统计
show column stats student_p;
　　

十七：采集表的统计
compute stats student_p;
　　采集相关表和相关列的统计情况。COMPUTE STATS 语句是从底层向上构建，以提高可用性和用户友好度。你可以运行一个单独的 Impala COMPUTE STATS 语句来采集包括 table 和 column 的统计信息，而不是为表和列的统计信息分别运行 Hive ANALYZE TABLE 语句。

　　COMPUTE STATS 也可以采集 HBase 表的信息。采集的 HBase 表的统计信息与 HDFS-backed 表的有所不同，但当 HBase 表执行连接查询时，统计信息仍被用于优化。
　　COMPUTE STATS执行完后，这些统计信息被存放在 metastore 数据库中，可以为impala用来优化查询。

　　

--------------------------------------------------------------------

　　到此，本章节的内容讲述完毕。

系列索引

　　【源】从零自学Hadoop系列索引

时间： 2024-10-19 14:26:45

Impala-1的相关文章

学习Hive和Impala必看经典解析

Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令行shell: 1. Impala:impala shell 2. Hive:beeline(早期hive的命令行版本是hive shell,现在基本不使用) (2)Hue Web UI: 1.Hue里面提供了 Hive查询编辑器 2.Hue里面提供了Impala查询编辑器 3.Hue里面提供了元数

impala基础

impala: 查询impala表时一定要加库名使用级联删除带有表的数据库:DROP database name cascade; insert插入的两种方式: 1. insert into employee (ID,NAME,AGE,ADDRESS,SALARY)VALUES (1, 'Ramesh', 32, 'Ahmedabad', 20000 ); 2.不指定列值,注意顺序 insert into employee values (2, 'Khilan', 25,'Delhi', 150

Hive和Impala加载和存储数据功能曝光

Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢? Hive和Impala存储和加载表,和所有的关系型数据库一样,有自己的数据管理结构,从它的Server到Database再到表和视图. 在其他的数据库中,表都是以自己特定的文件格式来存储的,比如Oracle有自己的存储格式,而对Hive而言,一个表就是包含一个或多个文件的HDFS目录,这个文件是属于表下面的内容,默认存储路径:/user/hive/warehouse/<table_

如何安装使用Impala

一.Impala简介 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL.除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax).Impala还提供了一个熟悉的面向批量或实时查询和统一平台. 二.Impala安装1.安装要求(1)软件要求 Red Hat Enterprise Linux (RHEL)/CentOS 6.2 (64

Impala中的代码生成技术

Cloudera Impala是一种为Hadoop生态系统打造的开源MPP(massive parallel processing)数据库,它主要为分析型查询负载而设计,而非OLTP.Impala能最大限度地利用现代硬件和高效查询执行的最新技术.LLVM下的运行时代码生成就是用来提升执行性能的技术之一. LLVM简介 LLVM是一个编译器及相关工具的库(toolchain),它不同于独立应用式(stand-alone)的传统编译器,LLVM是模块化且可重用的.它允许Impala这样的应用在运行的

Impala ODBC 安装笔记

Impala在线文档介绍了 Impala ODBC接口安装和配置 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/Impala/Installing-and-Using-Impala/ciiu_impala_odbc.html Impala ODBC 驱动下载地址: http://www.cloudera.com/content/support/en/downloads/connectors.h

Hello World on Impala

Cloudera Impala 官方教程 <Impala Tutorial>,讲解了Impala一些基本操作,但操作步骤前后缺少连贯性,本文节W选<Impala Tutorial>中的部分示例,从零开始讲解了一个完整示例:创建表.加载数据.查询数据.提供了一个入门级教程,通过本文的操作,向Impala说"Hello World". 本文假设你已经具备了安装好的Impala环境,环境搭建可以参考: CDH5上安装Hive,HBase,Impala,Spark等服务

初识 Cloudera Impala

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性.相比之下,Impala的最大特点也是最大卖点就是它的快速.Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口. Impala优点下图来自zdnet,描述了Impala的一些优点:

<Impala><Overview><UDF>

Overview Apache Impala (incubating) is the open source, native analytic database for apache Hadoop. Features Do BI-style Queries on Hadoop: low latency and high concurrency for BI/analytic queries on Hadoop(not delivered by batch frameworks such as A

SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

转自infoQ! 根据 O'Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者:Hive.Impala.Spark SQL.Drill.HAWQ 以及Presto,还加上Calcite.Kylin.Phoenix.Tajo 和Trafodion.以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为"Watson SQL&q