hive参数详解

第一部分:Hive 参数
hive.exec.max.created.files
说明:所有hive运行的map与reduce任务可以产生的文件的和
默认值:100000

hive.exec.dynamic.partition
说明:是否为自动分区
默认值:false
hive.mapred.reduce.tasks.speculative.execution
说明:是否打开推测执行
默认值:true
hive.input.format
说明:Hive默认的input format
默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat
hive.exec.counters.pull.interval
说明:Hive与JobTracker拉取counter信息的时间
默认值:1000ms 
hive.script.recordreader

说明:使用脚本时默认的读取类
默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader
hive.script.recordwriter
说明:使用脚本时默认的数据写入类
默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter
hive.mapjoin.check.memory.rows
说明: 内存里可以存储数据的行数
默认值: 100000
hive.mapjoin.smalltable.filesize
说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join
默认值: 25000000
hive.auto.convert.join
说明:是不是依据输入文件的大小,将Join转成普通的Map Join
默认值: false
hive.mapjoin.followby.gby.localtask.max.memory.usage

说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里
默认值:0.55
hive.mapjoin.localtask.max.memory.usage
说明:本地任务可以使用内存的百分比
默认值: 0.90
hive.heartbeat.interval
说明:在进行MapJoin与过滤操作时,发送心跳的时间
默认值1000
hive.merge.size.per.task
说明: 合并后文件的大小
默认值: 256000000
hive.mergejob.maponly
说明: 在只有Map任务的时候 合并输出结果
默认值: true
hive.merge.mapredfiles
默认值: 在作业结束的时候是否合并小文件
说明: false
hive.merge.mapfiles

说明:Map-Only Job是否合并小文件
默认值:true
hive.hwi.listen.host
说明:Hive UI 默认的host
默认值:0.0.0.0
hive.hwi.listen.port
说明:Ui监听端口
默认值:9999
hive.exec.parallel.thread.number
说明:hive可以并行处理Job的线程数
默认值:8
hive.exec.parallel
说明:是否并行提交任务
默认值:false
hive.exec.compress.output
说明:输出使用压缩
默认值: false
hive.mapred.mode
说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制
默认值: nonstrict
hive.join.cache.size
说明: join操作时,可以存在内存里的条数
默认值: 25000
hive.mapjoin.cache.numrows
说明: mapjoin 存在内存里的数据量
默认值:25000
hive.join.emit.interval
说明: 有连接时Hive在输出前,缓存的时间
默认值: 1000
hive.optimize.groupby

说明:在做分组统计时,是否使用bucket table
默认值: true
hive.fileformat.check
说明:是否检测文件输入格式
默认值:true
hive.metastore.client.connect.retry.delay
说明: client 连接失败时,retry的时间间隔
默认值:1秒
hive.metastore.client.socket.timeout
说明:  Client socket 的超时时间
默认值:20秒
mapred.reduce.tasks
默认值:-1
说明:每个任务reduce的默认值
-1 代表自动根据作业的情况来设置reduce的值 
hive.exec.reducers.bytes.per.reducer

默认值: 1000000000 (1G)
说明:每个reduce的接受的数据量
    如果送到reduce的数据为10G,那么将生成10个reduce任务 
hive.exec.reducers.max

默认值:999
说明: reduce的最大个数      
hive.exec.reducers.max

默认值:999
说明: reduce的最大个数
hive.metastore.warehouse.dir
默认值:/user/hive/warehouse
说明: 默认的数据库存放位置
hive.default.fileformat
默认值:TextFile
说明: 默认的fileformat
hive.map.aggr
默认值:true
说明: Map端聚合,相当于combiner
hive.exec.max.dynamic.partitions.pernode
默认值:100
说明:每个任务节点可以产生的最大的分区数
hive.exec.max.dynamic.partitions
默认值:1000
说明: 默认的可以创建的分区数
hive.metastore.server.max.threads
默认值:100000
说明: metastore默认的最大的处理线程数
hive.metastore.server.min.threads
默认值:200
说明: metastore默认的最小的处理线程数

时间: 2024-10-19 03:07:28

hive参数详解的相关文章

jquery ajax 方法及各参数详解

jquery ajax 方法及各参数详解 1.$.ajax() 只有一个参数:参数 key/value 对象,包含各配置及回调函数信息. 参数列表: 参数名 类型 描述 url String (默认: 当前页地址) 发送请求的地址. type String (默认: "GET") 请求方式 ("POST" 或 "GET"), 默认为 "GET".注意:其它 HTTP 请求方法,如 PUT 和 DELETE 也可以使用,但仅部分

Nginx内置变量以及日志格式变量参数详解

Nginx内置变量以及日志格式变量参数详解 $args #请求中的参数值 $query_string #同 $args $arg_NAME #GET请求中NAME的值 $is_args #如果请求中有参数,值为"?",否则为空字符串 $uri #请求中的当前URI(不带请求参数,参数位于$args),可以不同于浏览器传递的$request_uri的值,它可以通过内部重定向,或者使用index指令进行修改,$uri不包含主机名,如"/foo/bar.html". $d

MySQL配置文件mysql.ini参数详解、MySQL性能优化

MySQL配置文件mysql.ini参数详解.MySQL性能优化 my.ini(Linux系统下是my.cnf),当mysql服务器启动时它会读取这个文件,设置相关的运行环境参数. my.ini分为两块:Client Section和Server Section.   Client Section用来配置MySQL客户端参数.   要查看配置参数可以用下面的命令: show variables like '%innodb%'; # 查看innodb相关配置参数 show status like

JQuery中$.ajax()方法参数详解

url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. type: 要求为String类型的参数,请求方式(post或get)默认为get.注意其他http请求方法,例如put和 delete也可以使用,但仅部分浏览器支持. timeout: 要求为Number类型的参数,设置请求超时时间(毫秒).此设置将覆盖$.ajaxSetup()方法的全局设 置. async:要求为Boolean类型的参数,默认设置为true,所有请求均为异步请求. 如果需要发送同步请求,请将此选项

day01_linux中与Oracle有关的内核参数详解

linux中与Oracle有关的内核参数详解 在安装Oracle的时候需要调整linux的内核参数,但是各参数代表什么含义呢,下面做详细解析. Linux安装文档中给出的最小值: fs.aio-max-nr = 1048576 fs.file-max = 6815744 kernel.shmall = 2097152 kernel.shmmax = 4294967295 kernel.shmmni = 4096 kernel.sem = 250 32000 100 128 net.ipv4.ip

SWFTOOLS PDF2SWF 参数详解

转载至:http://blog.csdn.net/iamduoluo/article/details/6820329 SWFTools提供了一系列将各种文件转成swf的工具: font2swf.exe gif2swf.exe jpeg2swf.exe pdf2swf.exe png2swf.exe wav2swf.exe 具体的功能就顾名思义了. 其中把pdf转成swf的工具就是pdf2swf了.在命令行中运行pdf2swf src.pdf des.swf一般能满足需求.而命令行参数可以通过pd

httpUrlConnection的参数详解

post方式的的请求过程: // 设置是否向httpUrlConnection输出,因为这个是post请求,参数要放在 // http正文内,因此需要设为true, 默认情况下是false; httpUrlConnection.setDoOutput(true); // 设置是否从httpUrlConnection读入,默认情况下是true; httpUrlConnection.setDoInput(true); // Post 请求不能使用缓存 httpUrlConnection.setUse

PHP CURL参数详解

PHP CURL参数详解 curl用法:cookie及post一.cookie用法 <?php $cookie_jar = tempnam('./tmp','cookie'); // login $c=curl_init('http://login_url?username=... curl_setopt($c, CURLOPT_RETURNTRANSFER, 1); curl_setopt($c, CURLOPT_COOKIEJAR, $cookie_jar); curl_exec($c); 

6.跟我学solr---请求参数详解

简介 前面我们在讲SolrRequestHandler和QueryResponseWriter的时候提到过两个参数'qt'和'wt",这两个参数是分别用于选择对应的SolrRequestHandler和QueryResponseWriter的.solr定义了很多类似的参数,它们都分别属于某个大类中,例如"qt"和"wt"就属于CoreQueryParameters.下面罗列一下solr的所有参数列表,来源于solr官网.下面笔者会一一给大家讲解这些参数的作