Hive优化-白红宇的个人博客

Hive优化

发布日期：2021-09-27 12:34:35 浏览次数：2 分类：技术文章

本文共 681 字，大约阅读时间需要 2 分钟。

1.Fetch抓取设置为more

hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal。设置为more后，全局查找、字段查找、limit等都不走MR。

2.开启Map join

如果不指定map join或者不符合map join的条件，hive会将数据发送到reduce端进行join，容易发生数据倾斜。可以用map join把小表加载到内存中在map端进行join，避免reduce端join。

开启map join：

首先设置自动选择map join（默认已开启）
set hive.auto.convert.join = true;

设置小表阈值（默认25M以下是小表）
set hive.mapjoin.smalltable.filesize=25000000;

3.小表在左，大表在右

key相对分散，数据量小的表放在join左边。hive3中已经做了优化，大表小表哪个在左都可以。

4.重复数据较多的表在左

重复数据较多的表放在join左边。

5.过滤为null的key再连接

所有为null的key都会进入同一个reduce，产生数据倾斜。

6.空key转换

如果key为null的数据不想舍弃，可以给是null的key加随机数。

7.避免笛卡尔积

join时指定on连接条件，避免产生笛卡尔积。

8.尽可能不写select *

只查询需要的列。

9.数据分区或分桶存储

10.数据压缩

压缩数据降低IO。

11.Explain查看执行计划

转载地址：https://blog.csdn.net/FlatTiger/article/details/113921857 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Hive 动态分区的使用

下一篇：Hive日期函数

发表评论

最新留言

路过按个爪印，很不错，赞一个！

[***.219.124.196]2024年04月15日 16时32分33秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

【Leetcode刷题篇】leetcode312 戳气球 2019-04-26

前后端分离如何使用spring boot处理跨域请求 2019-04-26

【Leetcode刷题篇】leetcode283 移动零 2019-04-26

【Leetcode刷题篇】leetcode611 有效三角形的个数 2019-04-26

【Leetcode刷题篇】leetcode26 删除排序数组中的重复项 2019-04-26

【大话Java面试】-如何通俗易懂的理解Redis的分布式寻址算法hash slot？ 2019-04-26

【大话Java面试】-如何通俗易懂的理解单例模式？ 2019-04-26

【大话Java面试】请列出Java中几个常用的设计模式？ 2019-04-26

【大话Java面试】-如何通俗易懂的理解Java异常以及Java异常处理？ 2019-04-26

【大话Mysql面试】-Mysql的索引为什么要使用B+树，而不是B树，红黑树等之类？ 2019-04-26

【大话Mysql面试】-如何通俗易懂的了解Mysql的索引最左前缀匹配原则 2019-04-26

【大话Mysql面试】-MYSQL的两种存储引擎MyISAM与InnoDB的区别是什么？ 2019-04-26

【大话Mysql面试】-InnoDB可重复读隔离级别下如何避免幻读？MVCC和next-key是什么 2019-04-26

【大话Mysql面试】-Mysql如何恢复数据？如何进行主从复制？Binlog日志到底是什么？ 2019-04-26

理解String.intern()和String类常量池疑难解析例子 2019-04-26

python flask打造前后端分离的口罩检测 2019-04-26

【大话Mysql面试】-MySQL基础知识 2019-04-26

【大话Mysql面试】-MySQL数据类型有哪些 2019-04-26

【大话Mysql面试】-MySQL数据引擎 2019-04-26

【大话Mysql面试】-常见SQL语句书写 2019-04-26

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 306346914 位访客

访问时间: 2024-04-20 03:06:09 访问IP: 3.135.183.89 Copyright © 2020 - 2023 blog.css8.cn 京ICP备2021015314号-1 手机版