hive参数——深入浅出学Hive

第一部分：Hive 参数

hive.exec.max.created.files

?说明：所有hive运行的map与reduce任务可以产生的文件的和

?默认值:100000

hive.exec.dynamic.partition

?说明：是否为自动分区

?默认值：false

hive.mapred.reduce.tasks.speculative.execution

?说明：是否打开推测执行

?默认值：true

hive.input.format

?说明：Hive默认的input format

?默认值： org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

?如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat

hive.exec.counters.pull.interval

?说明：Hive与JobTracker拉取counter信息的时间

?默认值：1000ms

hive.script.recordreader

?说明：使用脚本时默认的读取类

?默认值： org.apache.hadoop.hive.ql.exec.TextRecordReader

hive.script.recordwriter

?说明：使用脚本时默认的数据写入类

?默认值： org.apache.hadoop.hive.ql.exec.TextRecordWriter

hive.mapjoin.check.memory.rows

?说明：内存里可以存储数据的行数

?默认值： 100000

hive.mapjoin.smalltable.filesize

?说明：输入小表的文件大小的阀值，如果小于该值，就采用普通的join

?默认值： 25000000

hive.auto.convert.join

?说明：是不是依据输入文件的大小，将Join转成普通的Map Join

?默认值： false

hive.mapjoin.followby.gby.localtask.max.memory.usage

?说明：map join做group by 操作时，可以使用多大的内存来存储数据，如果数据太大，则不会保存在内存里

?默认值：0.55

hive.mapjoin.localtask.max.memory.usage

?说明：本地任务可以使用内存的百分比

?默认值： 0.90

hive.heartbeat.interval

?说明：在进行MapJoin与过滤操作时，发送心跳的时间

?默认值1000

hive.merge.size.per.task

?说明：合并后文件的大小

?默认值： 256000000

hive.mergejob.maponly

?说明：在只有Map任务的时候合并输出结果

?默认值： true

hive.merge.mapredfiles

?默认值：在作业结束的时候是否合并小文件

?说明： false

hive.merge.mapfiles

?说明：Map-Only Job是否合并小文件

?默认值：true

hive.hwi.listen.host

?说明：Hive UI 默认的host

?默认值：0.0.0.0

hive.hwi.listen.port

?说明：Ui监听端口

?默认值：9999

hive.exec.parallel.thread.number

?说明：hive可以并行处理Job的线程数

?默认值：8

hive.exec.parallel

?说明：是否并行提交任务

?默认值：false

hive.exec.compress.output

?说明：输出使用压缩

?默认值： false

hive.mapred.mode

?说明： MapReduce的操作的限制模式，操作的运行在该模式下没有什么限制

?默认值： nonstrict

hive.join.cache.size

?说明： join操作时，可以存在内存里的条数

?默认值： 25000

hive.mapjoin.cache.numrows

?说明： mapjoin 存在内存里的数据量

?默认值：25000

hive.join.emit.interval

?说明：有连接时Hive在输出前，缓存的时间

?默认值： 1000

hive.optimize.groupby

?说明：在做分组统计时，是否使用bucket table

?默认值： true

hive.fileformat.check

?说明：是否检测文件输入格式

?默认值：true

hive.metastore.client.connect.retry.delay

?说明： client 连接失败时,retry的时间间隔

?默认值：1秒

hive.metastore.client.socket.timeout

?说明: Client socket 的超时时间

?默认值：20秒

mapred.reduce.tasks

?默认值：-1

?说明：每个任务reduce的默认值

-1 代表自动根据作业的情况来设置reduce的值

hive.exec.reducers.bytes.per.reducer

?默认值： 1000000000 （1G）

?说明：每个reduce的接受的数据量

如果送到reduce的数据为10G,那么将生成10个reduce任务

hive.exec.reducers.max

?默认值：999

?说明： reduce的最大个数

hive.exec.reducers.max

?默认值：999

?说明： reduce的最大个数

hive.metastore.warehouse.dir

?默认值：/user/hive/warehouse

?说明：默认的数据库存放位置

hive.default.fileformat

?默认值：TextFile

?说明：默认的fileformat

hive.map.aggr

?默认值：true

?说明： Map端聚合，相当于combiner

hive.exec.max.dynamic.partitions.pernode

?默认值：100

?说明：每个任务节点可以产生的最大的分区数

hive.exec.max.dynamic.partitions

?默认值：1000

?说明：默认的可以创建的分区数

hive.metastore.server.max.threads

?默认值：100000

?说明： metastore默认的最大的处理线程数

hive.metastore.server.min.threads

?默认值：200

?说明： metastore默认的最小的处理线程数

时间： 2024-12-10 21:10:37

hive参数——深入浅出学Hive的相关文章

Hive JDBC——深入浅出学Hive

第一部分:搭建Hive JDBC开发环境搭建:Steps ?新建工程hiveTest ?导入Hive依赖的包 ?Hive 命令行启动Thrift服务 ?hive --service hiveserver & 第二部分:基本操作对象的介绍 Connection ?说明:与Hive连接的Connection对象 ?Hive 的连接 ?jdbc:hive://IP:10000/default" ?获取Connection的方法 ?DriverManager.getConnection(&q

Hive QL——深入浅出学Hive

第一部分:DDL DDL ?建表 ?删除表 ?修改表结构 ?创建/删除视图 ?创建数据库 ?显示命令建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

Hive 内建操作符与函数开发——深入浅出学Hive

第一部分:关系运算 Hive支持的关系运算符 ?常见的关系运算符 ?等值比较: = ?不等值比较: <> ?小于比较: < ?小于等于比较: <= ?大于比较: > ?大于等于比较: >= ?空值判断: IS NULL ?非空判断: IS NOT NULL ?LIKE比较: LIKE ?JAVA的LIKE操作: RLIKE ?REGEXP操作: REGEXP ?等值比较: = 语法:A=B 操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE:否则为

Hive参数配置

1． Hive 命令行输入$HIVE_HOME/bin/hive –H 或者 –help可以显示帮助选项:说明:1. -i 初始化HQL文件.2. -e从命令行执行指定的HQL3. -f 执行HQL脚本4. -v 输出执行的HQL语句到控制台5. -p <port> connect to Hive Server on port number6. -hiveconf x=y Use this to set hive/hadoop configuration variables.例如:$HIVE_

Hive参数层面优化之一控制Map数

1.Map个数的决定因素通常情况下,作业会通过input文件产生一个或者多个map数: Map数主要的决定因素有: input总的文件个数,input文件的大小和集群中设置的block的大小(在hive中可以通过set dfs.block.size命令查看,该参数不能自定义修改): 文件块数拆分原则:如果文件大于块大小(128M),那么拆分:如果小于,则把该文件当成一个块. 举例一: 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和

Hive参数层面优化之二控制Reduce数

Reduce数决定中间或落地文件数,文件大小和Block大小无关. 1.Reduce个数的决定因素 reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定: 参数1:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) 参数2:hive.exec.reducers.max(每个作业最大的reduce数,默认为999) 计算reducer数

hive参数详解

第一部分:Hive 参数hive.exec.max.created.files说明:所有hive运行的map与reduce任务可以产生的文件的和默认值:100000 hive.exec.dynamic.partition说明:是否为自动分区默认值:falsehive.mapred.reduce.tasks.speculative.execution说明:是否打开推测执行默认值:truehive.input.format说明:Hive默认的input format默认值: org.apache.h

[Hive] - Hive参数含义详解

hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以及当前hive会话定义的环境变量信息.其中第三种hive参数变量信息中又由hadoop hdfs参数(直接是hadoop的).mapreduce参数.metastore元数据存储参数.metastore连接参数以及hive运行参数构成. Hive-0.13.1-cdh5.3.6参数变量信息详解参数

Hive参数

1. Map相关参数 set mapred.max.split.size = 256000000 ; //最大分割 set mapred.min.split.size=1 ; //最小分割 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; //Map端输入.合并文件之后按照block的大小分割(默认) set hive.input.format=org.apache.hadoop.hive.q