本文共 3075 字,大约阅读时间需要 10 分钟。
问题导读
1.什么是数据仓库? 2.传统数据仓库面临怎样的挑战? 3.hive是什么? 4.hive系统构架是怎样的? 5.hive的工作原理是怎样的? 6.hive HA基本原理是什么? 7.Impala是什么? 8.Impala的系统架构是怎样的? 9.Impala查询执行过程是怎样的? 10.Impala和hive的区别在哪里? 11.hive如何安装配置? 12.hive的基本数据类型和基本操作有哪些? 13.hive有哪些优势?1.什么是数据仓库1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。1.2传统数据仓库面临的挑战- (1)无法满足快速增长的海量数据存储需求
- (2)无法有效处理不同类型的数据
- (3)计算和处理能力不足
- 创建数据库
(1)创建数据库hive
hive>create database hive; (2)创建数据库hive,因为hive已经存在,所以会抛出异常,加上if not exits 关键字,则不会抛出异常 hive>create database if not exits hive;- 创建表
(1)在hive数据库中创建表usr,含三个属性id,name,age
hive>use hive; hive>create table if not exists usr(id bigint,name string,age int); (2)在hive数据库中创建表usr,含三个属性id,name,age,存储路径为“/usr/local/hive/warehouse/hive/usr” hive>create table if not exits hive.usr(id bigint,name string,age int) >location '/usr/local/hive/warehouse/hive/usr';- 创建视图
(1)创建视图little_usr,只包含usr表中id,age属性
hive>create view little_usr as select id,age from usr;2.show:查看数据库、表、视图- 查看数据库
(1)查看hive中包含的所有数据库
1 |
|
1 |
|
- 查看表和视图
(1)查看数据库hive中所有的表和视图
1 2 |
|
1 |
|
1 |
|
1 |
|
1 2 |
|
1 2 |
|
1 2 3 |
|
- 在MapReduce中,WordCount类由63行Java代码编写而成
- 在hive中只需要编写7行代码
- hiveQL语句的最终实现需要转换为MapReduce任务来执行,这都是由hive框架自动完成的,用户不需要了解具体实现细节
- 本章详细介绍了hive的基本知识。hive是一个构建与Hadoop顶层的数据仓库工具,主要用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。hive在某种程度上可以看做是用户编程接口,本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据。
- hive支持使用自身提供的命令行CLI、简单网页HWI访问方式,及通过Karmasphere、Hue、Qubole等工具的外部访问
- hive在数据仓库中的具体应用中,主要用于报表中心的报表分析统计上。在Hadoop集群上构建的数据仓库由多个hive进行管理,具体实现采用hive HA原理的方式,实现一台超强“hive”。
- Impala作为新一代开源大数据分析引擎,支持实时计算,并在性能上比hive高出3~30倍,甚至在将来的某一天可能会超过hive的使用率而成为Hadoop上最流行的实时计算平台。
- 本章最后以单词统计为例,详细介绍了如何使用hive进行简单编程。
转载地址:https://blog.csdn.net/ytp552200ytp/article/details/90169696 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!