hive参数——深入浅出学Hive

第一部分:Hive 参数

hive.exec.max.created.files

?说明:所有hive运行的map与reduce任务可以产生的文件的和

?默认值:100000

hive.exec.dynamic.partition

?说明:是否为自动分区

?默认值:false

hive.mapred.reduce.tasks.speculative.execution

?说明:是否打开推测执行

?默认值:true

hive.input.format

?说明:Hive默认的input format

?默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

?如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat

hive.exec.counters.pull.interval

?说明:Hive与JobTracker拉取counter信息的时间

?默认值:1000ms

hive.script.recordreader

?说明:使用脚本时默认的读取类

?默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader

hive.script.recordwriter

?说明:使用脚本时默认的数据写入类

?默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter

hive.mapjoin.check.memory.rows

?说明: 内存里可以存储数据的行数

?默认值: 100000

hive.mapjoin.smalltable.filesize

?说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join

?默认值: 25000000

hive.auto.convert.join

?说明:是不是依据输入文件的大小,将Join转成普通的Map Join

?默认值: false

hive.mapjoin.followby.gby.localtask.max.memory.usage

?说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里

?默认值:0.55

hive.mapjoin.localtask.max.memory.usage

?说明:本地任务可以使用内存的百分比

?默认值: 0.90

hive.heartbeat.interval

?说明:在进行MapJoin与过滤操作时,发送心跳的时间

?默认值1000

hive.merge.size.per.task

?说明: 合并后文件的大小

?默认值: 256000000

hive.mergejob.maponly

?说明: 在只有Map任务的时候 合并输出结果

?默认值: true

hive.merge.mapredfiles

?默认值: 在作业结束的时候是否合并小文件

?说明: false

hive.merge.mapfiles

?说明:Map-Only Job是否合并小文件

?默认值:true

hive.hwi.listen.host

?说明:Hive UI 默认的host

?默认值:0.0.0.0

hive.hwi.listen.port

?说明:Ui监听端口

?默认值:9999

hive.exec.parallel.thread.number

?说明:hive可以并行处理Job的线程数

?默认值:8

hive.exec.parallel

?说明:是否并行提交任务

?默认值:false

hive.exec.compress.output

?说明:输出使用压缩

?默认值: false

hive.mapred.mode

?说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制

?默认值: nonstrict

hive.join.cache.size

?说明: join操作时,可以存在内存里的条数

?默认值: 25000

hive.mapjoin.cache.numrows

?说明: mapjoin 存在内存里的数据量

?默认值:25000

hive.join.emit.interval

?说明: 有连接时Hive在输出前,缓存的时间

?默认值: 1000

hive.optimize.groupby

?说明:在做分组统计时,是否使用bucket table

?默认值: true

hive.fileformat.check

?说明:是否检测文件输入格式

?默认值:true

hive.metastore.client.connect.retry.delay

?说明: client 连接失败时,retry的时间间隔

?默认值:1秒

hive.metastore.client.socket.timeout

?说明:  Client socket 的超时时间

?默认值:20秒

mapred.reduce.tasks

?默认值:-1

?说明:每个任务reduce的默认值

-1 代表自动根据作业的情况来设置reduce的值

hive.exec.reducers.bytes.per.reducer

?默认值: 1000000000 (1G)

?说明:每个reduce的接受的数据量

如果送到reduce的数据为10G,那么将生成10个reduce任务

hive.exec.reducers.max

?默认值:999

?说明: reduce的最大个数

hive.exec.reducers.max

?默认值:999

?说明: reduce的最大个数

hive.metastore.warehouse.dir

?默认值:/user/hive/warehouse

?说明: 默认的数据库存放位置

hive.default.fileformat

?默认值:TextFile

?说明: 默认的fileformat

hive.map.aggr

?默认值:true

?说明: Map端聚合,相当于combiner

hive.exec.max.dynamic.partitions.pernode

?默认值:100

?说明:每个任务节点可以产生的最大的分区数

hive.exec.max.dynamic.partitions

?默认值:1000

?说明: 默认的可以创建的分区数

hive.metastore.server.max.threads

?默认值:100000

?说明: metastore默认的最大的处理线程数

hive.metastore.server.min.threads

?默认值:200

?说明: metastore默认的最小的处理线程数

时间: 2024-12-10 21:10:37

hive参数——深入浅出学Hive的相关文章

Hive JDBC——深入浅出学Hive

第一部分:搭建Hive JDBC开发环境 搭建:Steps ?新建工程hiveTest ?导入Hive依赖的包 ?Hive  命令行启动Thrift服务 ?hive --service hiveserver & 第二部分:基本操作对象的介绍 Connection ?说明:与Hive连接的Connection对象 ?Hive 的连接 ?jdbc:hive://IP:10000/default" ?获取Connection的方法 ?DriverManager.getConnection(&q

Hive QL——深入浅出学Hive

第一部分:DDL DDL ?建表 ?删除表 ?修改表结构 ?创建/删除视图 ?创建数据库 ?显示命令 建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name   [(col_name data_type [COMMENT col_comment], ...)]   [COMMENT table_comment]   [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 

Hive 内建操作符与函数开发——深入浅出学Hive

第一部分:关系运算 Hive支持的关系运算符 ?常见的关系运算符 ?等值比较: = ?不等值比较: <> ?小于比较: < ?小于等于比较: <= ?大于比较: > ?大于等于比较: >= ?空值判断: IS NULL ?非空判断: IS NOT NULL ?LIKE比较: LIKE ?JAVA的LIKE操作: RLIKE ?REGEXP操作: REGEXP ?等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE:否则为

Hive参数配置

1. Hive 命令行输入$HIVE_HOME/bin/hive –H 或者 –help可以显示帮助选项:说明:1. -i 初始化HQL文件.2. -e从命令行执行指定的HQL3. -f 执行HQL脚本4. -v 输出执行的HQL语句到控制台5. -p <port> connect to Hive Server on port number6. -hiveconf x=y Use this to set hive/hadoop configuration variables.例如:$HIVE_

Hive参数层面优化之一控制Map数

1.Map个数的决定因素 通常情况下,作业会通过input文件产生一个或者多个map数: Map数主要的决定因素有: input总的文件个数,input文件的大小和集群中设置的block的大小(在hive中可以通过set dfs.block.size命令查看,该参数不能自定义修改): 文件块数拆分原则:如果文件大于块大小(128M),那么拆分:如果小于,则把该文件当成一个块. 举例一: 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和

Hive参数层面优化之二控制Reduce数

Reduce数决定中间或落地文件数,文件大小和Block大小无关. 1.Reduce个数的决定因素 reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定: 参数1:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) 参数2:hive.exec.reducers.max(每个作业最大的reduce数,默认为999) 计算reducer数

hive参数详解

第一部分:Hive 参数hive.exec.max.created.files说明:所有hive运行的map与reduce任务可以产生的文件的和默认值:100000 hive.exec.dynamic.partition说明:是否为自动分区默认值:falsehive.mapred.reduce.tasks.speculative.execution说明:是否打开推测执行默认值:truehive.input.format说明:Hive默认的input format默认值: org.apache.h

[Hive] - Hive参数含义详解

hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以及当前hive会话定义的环境变量信息.其中第三种hive参数变量信息中又由hadoop hdfs参数(直接是hadoop的).mapreduce参数.metastore元数据存储参数.metastore连接参数以及hive运行参数构成. Hive-0.13.1-cdh5.3.6参数变量信息详解 参数

Hive参数

  1. Map相关参数 set mapred.max.split.size = 256000000 ; //最大分割 set mapred.min.split.size=1 ; //最小分割 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; //Map端输入.合并文件之后按照block的大小分割(默认) set hive.input.format=org.apache.hadoop.hive.q