Hive优化
发布日期:2021-09-27 12:34:35 浏览次数:2 分类:技术文章

本文共 681 字,大约阅读时间需要 2 分钟。

1.Fetch抓取设置为more

hive-default.xml.template文件中hive.fetch.task.conversion默认是more老版本hive默认是minimal。设置为more后,全局查找、字段查找、limit等都不走MR。

2.开启Map join

如果不指定map join或者不符合map join的条件,hive会将数据发送到reduce端进行join,容易发生数据倾斜。可以用map join把小表加载到内存中在map端进行join,避免reduce端join。

开启map join:

  • 首先设置自动选择map join(默认已开启)
    set hive.auto.convert.join = true;
  • 设置小表阈值(默认25M以下是小表)
    set hive.mapjoin.smalltable.filesize=25000000;

3.小表在左,大表在右

key相对分散,数据量小的表放在join左边。hive3中已经做了优化,大表小表哪个在左都可以。

4.重复数据较多的表在左

重复数据较多的表放在join左边。

5.过滤为null的key再连接

所有为null的key都会进入同一个reduce,产生数据倾斜。

6.空key转换

如果key为null的数据不想舍弃,可以给是null的key加随机数。

7.避免笛卡尔积

join时指定on连接条件,避免产生笛卡尔积。

8.尽可能不写select *

只查询需要的列。

9.数据分区或分桶存储

10.数据压缩

压缩数据降低IO。

11.Explain查看执行计划

转载地址:https://blog.csdn.net/FlatTiger/article/details/113921857 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Hive 动态分区的使用
下一篇:Hive日期函数

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月15日 16时32分33秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

【Leetcode刷题篇】leetcode312 戳气球 2019-04-26
前后端分离如何使用spring boot处理跨域请求 2019-04-26
【Leetcode刷题篇】leetcode283 移动零 2019-04-26
【Leetcode刷题篇】leetcode611 有效三角形的个数 2019-04-26
【Leetcode刷题篇】leetcode26 删除排序数组中的重复项 2019-04-26
【大话Java面试】-如何通俗易懂的理解Redis的分布式寻址算法hash slot? 2019-04-26
【大话Java面试】-如何通俗易懂的理解单例模式? 2019-04-26
【大话Java面试】请列出Java中几个常用的设计模式? 2019-04-26
【大话Java面试】-如何通俗易懂的理解Java异常以及Java异常处理? 2019-04-26
【大话Mysql面试】-Mysql的索引为什么要使用B+树,而不是B树,红黑树等之类? 2019-04-26
【大话Mysql面试】-如何通俗易懂的了解Mysql的索引最左前缀匹配原则 2019-04-26
【大话Mysql面试】-MYSQL的两种存储引擎MyISAM与InnoDB的区别是什么? 2019-04-26
【大话Mysql面试】-InnoDB可重复读隔离级别下如何避免幻读?MVCC和next-key是什么 2019-04-26
【大话Mysql面试】-Mysql如何恢复数据?如何进行主从复制?Binlog日志到底是什么? 2019-04-26
理解String.intern()和String类常量池疑难解析例子 2019-04-26
python flask打造前后端分离的口罩检测 2019-04-26
【大话Mysql面试】-MySQL基础知识 2019-04-26
【大话Mysql面试】-MySQL数据类型有哪些 2019-04-26
【大话Mysql面试】-MySQL数据引擎 2019-04-26
【大话Mysql面试】-常见SQL语句书写 2019-04-26