Hive优化
发布日期:2021-09-27 12:34:35
浏览次数:2
分类:技术文章
本文共 681 字,大约阅读时间需要 2 分钟。
1.Fetch抓取设置为more
hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal。设置为more后,全局查找、字段查找、limit等都不走MR。
2.开启Map join
如果不指定map join或者不符合map join的条件,hive会将数据发送到reduce端进行join,容易发生数据倾斜。可以用map join把小表加载到内存中在map端进行join,避免reduce端join。
开启map join:
- 首先设置自动选择map join(默认已开启) set hive.auto.convert.join = true;
- 设置小表阈值(默认25M以下是小表) set hive.mapjoin.smalltable.filesize=25000000;
3.小表在左,大表在右
key相对分散,数据量小的表放在join左边。hive3中已经做了优化,大表小表哪个在左都可以。
4.重复数据较多的表在左
重复数据较多的表放在join左边。
5.过滤为null的key再连接
所有为null的key都会进入同一个reduce,产生数据倾斜。
6.空key转换
如果key为null的数据不想舍弃,可以给是null的key加随机数。
7.避免笛卡尔积
join时指定on连接条件,避免产生笛卡尔积。
8.尽可能不写select *
只查询需要的列。
9.数据分区或分桶存储
10.数据压缩
压缩数据降低IO。
11.Explain查看执行计划
转载地址:https://blog.csdn.net/FlatTiger/article/details/113921857 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月15日 16时32分33秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
【Leetcode刷题篇】leetcode312 戳气球
2019-04-26
前后端分离如何使用spring boot处理跨域请求
2019-04-26
【Leetcode刷题篇】leetcode283 移动零
2019-04-26
【Leetcode刷题篇】leetcode611 有效三角形的个数
2019-04-26
【Leetcode刷题篇】leetcode26 删除排序数组中的重复项
2019-04-26
【大话Java面试】-如何通俗易懂的理解Redis的分布式寻址算法hash slot?
2019-04-26
【大话Java面试】-如何通俗易懂的理解单例模式?
2019-04-26
【大话Java面试】请列出Java中几个常用的设计模式?
2019-04-26
【大话Java面试】-如何通俗易懂的理解Java异常以及Java异常处理?
2019-04-26
【大话Mysql面试】-Mysql的索引为什么要使用B+树,而不是B树,红黑树等之类?
2019-04-26
【大话Mysql面试】-如何通俗易懂的了解Mysql的索引最左前缀匹配原则
2019-04-26
【大话Mysql面试】-MYSQL的两种存储引擎MyISAM与InnoDB的区别是什么?
2019-04-26
理解String.intern()和String类常量池疑难解析例子
2019-04-26
python flask打造前后端分离的口罩检测
2019-04-26
【大话Mysql面试】-MySQL基础知识
2019-04-26
【大话Mysql面试】-MySQL数据类型有哪些
2019-04-26
【大话Mysql面试】-MySQL数据引擎
2019-04-26
【大话Mysql面试】-常见SQL语句书写
2019-04-26