1、Hive不支持记录级别的更新、插入或删除?
2、sort by 和 order by 的区别?
3、分区和分桶的区别?
分区:是hive中对数据比较粗粒度的划分,每个分区对应一个文件目录;类似与rdbms中分区表的概念。比如大量日志存储,会根据日志产生时间分区,一般分区会造成数据倾斜。
分桶:是比较细粒度的数据划分,对应到具体文件;根据指定列进行hash之后与分桶个数取模计算,确定数据最终放到哪个文件中。数据存放相对比较均衡。
本文共 271 字,大约阅读时间需要 1 分钟。
1、Hive不支持记录级别的更新、插入或删除?
2、sort by 和 order by 的区别?
3、分区和分桶的区别?
分区:是hive中对数据比较粗粒度的划分,每个分区对应一个文件目录;类似与rdbms中分区表的概念。比如大量日志存储,会根据日志产生时间分区,一般分区会造成数据倾斜。
分桶:是比较细粒度的数据划分,对应到具体文件;根据指定列进行hash之后与分桶个数取模计算,确定数据最终放到哪个文件中。数据存放相对比较均衡。
转载于:https://www.cnblogs.com/tianboblog/p/8615078.html
转载地址:https://blog.csdn.net/weixin_30908103/article/details/99403774 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!