1. impala
- 实时交互SQL大数据查询工具
- 它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
- Impala的最大特点也是最大卖点就是它的快速。
- Impala完全抛弃了Hive+MapReduce这个不太适合做SQL查询的缓慢范式
- 通过使用与商用并行关系数据库中类似的分布式查询引擎,可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟
2. Hive 与 impala
- Impala与Hive都是构建在Hadoop之上的数据查询工具各有不同的侧重适应面
- 但从客户端使用来看Impala与Hive有很多的共同之处,如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池、用户界面(Hue Beeswax)等。
- Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询
可以先使用hive进行数据转换处理,之后使用Impala在Hive处理后的结果数据集上进行快速的数据分析。
3. impala 和hive 语法和数据基本相通
1)invalidate metadata;
可以把hive元数据(数据)刷新同步过来
2)impala sql 只能写insert into,不能overwrite
4. kudu
- 列式存储引擎
- 更多详情参考
时间: 2024-10-24 13:26:16