Hive Tunning(二)优化存储

  • 时间:
  • 浏览:4
  • 来源:大发5分快3APP下载_大发5分快3APP官方

– set    mapred.max.split.size=60 000000;    

可能性你想一次查出所有数据,要我受你你是什么限制语录,给你 hive.exec.dynamic.partition.mode参数置为nonstrict。 

– set    hive.optmize.bucketmapjoin=true;    

– set    hive.auto.convert.sortmerge.join=true;    

mapred.max.split.size和mapred.min.split.size

(3)修改参数

– set    hive.enforce.bucketing=true;    

– set    hive.auto.convert.sortmerge.join.nocondi1onaltask=true;    

我希望 插入数据的过后,我们都都都都 时需重新排序,在select 语录上端把虚拟列也去掉 ,过后 会有排序的效果。

• All    the    time:    

Example:    

• When    bucketing    data:    

min    太大->   太大mapper.    

max    太小->   mapper太大.   

(2)查询某另另一4个多参数

– set    io.sort.mb=60 ;    

• These and more are set by default in HDP 1.3(明显的广告词,说明HDP比较强大,可能性给我们都都都都 设置好了).    

当然都在个原则,当mappers再次跳出抢占资源的过后,才调整哪几个参数。

– set    hive.auto.convert.join=true;    

使用分区过后,在查询和插入的过后,就时需含有大概另另一4个多分区字段,我希望 查询可能性失败。

– set    hive.enforce.sortng=true;    

当某个表很大的过后,我们都都都都 往往要对其进行分区,比如按照时间来分区。

其中的xdate和state是不居于的列,给你认为它们是虚拟列,虚拟列会在HDFS当中建立子目录,属于分区的记录会居于那个子文件夹中。 

– set    mapred.min.split.size=60 0000; 

– set    hive.optmize.bucketmapjoin.sortedmerge=true;    

(1)查询所有的参数

– set    hive.optmize.mapjoin.mapreduce=true;    

哪几个参数我们都都都都 都要能在hive-site.xml中查询到,我们都都都都 也都要能在shell中查询。