Presto
发布日期:2021-06-28 15:22:07
浏览次数:2
分类:技术文章
本文共 2404 字,大约阅读时间需要 8 分钟。
,Presto基本认识
1.1 定义 Presto是一个分布式的查询引擎,本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。Presto是一个OLAP的工具,擅长对海量数据进行复杂的分析;但是对于OLTP场景,并不是Presto所擅长,所以不要把Presto当做数据库来使用。 和大家熟悉的Mysql相比:首先Mysql是一个数据库,具有存储和计算分析能力,而Presto只有计算分析能力;其次数据量方面,Mysql作为传统单点关系型数据库不能满足当前大数据量的需求,于是有各种大数据的存储和分析工具产生,Presto就是这样一个可以满足大数据量分析计算需求的一个工具。 1.2 数据源 Presto需要从其他数据源获取数据来进行运算分析,它可以连接多种数据源,包括Hive、RDBMS(Mysql、Oracle、Tidb等)、Kafka、MongoDB、Redis等 一条Presto查询可以将多个数据源的数据进行合并分析。 比如:select * from a join b where a.id=b.id;,其中表a可以来自Hive,表b可以来自Mysql。 1.3 优势 Presto是一个低延迟高并发的内存计算引擎,相比Hive,执行效率要高很多。 举例: SELECT id, name, source_type, created_at FROM dw_dwb.dwb_user_day WHERE dt='2018-06-03' AND created_at>’2018-05-20’; 上述SQL在Presto运行时间不到1秒钟,在Hive里要几十秒钟。 1.4数据模型 Presto使用Catalog、Schema和Table这3层结构来管理数据。 ---- Catalog:就是数据源。Hive是数据源,Mysql也是数据源,Hive 和Mysql都是数据源类型,可以连接多个Hive和多个Mysql,每个连接都有一个名字。一个Catalog可以包含多个Schema,大家可以通过show catalogs 命令看到Presto连接的所有数据源。 ---- Schema:相当于一个数据库实例,一个Schema包含多张数据表。show schemas from 'catalog_name'可列出catalog_name下的所有schema。 ---- Table:数据表,与一般意义上的数据库表相同。show tables from 'catalog_name.schema_name'可查看'catalog_name.schema_name'下的所有表。 在Presto中定位一张表,一般是catalog为根,例如:一张表的全称为 hive.test_data.test,标识 hive(catalog)下的 test_data(schema)中test表。 可以简理解为:数据源的大类.数据库.数据表。 2,Presto与Hive Hive是一个基于HDFS(分布式文件系统)的一个数据库,具有存储和分析计算能力, 支持大数据量的存储和查询。Hive 作为数据源,结合Presto分布式查询引擎,这样大数据量的查询计算速度就会快很多。 Presto支持标准SQL,这里需要提醒大家的是,在使用Hive数据源的时候,如果表是分区表,一定要添加分区过滤,不加分区扫描全表是一个很暴力的操作,执行效率低下并且占用大量集群资源,大家尽量避免这种写法。 这里提到Hive分区,我简单介绍一下概念。Hive分区就是分目录,把一个大的数据集根据业务需要分割成更细的数据集。 举例:假如一个表的数据都放在/user/xiaoming/table/目录下,如果想把数据按照每天的数据细分,则就变成/user/xiaoming/table/2018-06-01/,/user/xiaoming/table/2018-06-02/,……如果查询某一天的数据,就可以直接取某一天目录下的数据,不需要扫描其他天的数据,节省了时间和资源。 使用Presto: 3,Presto接入方式 Presto的接入方式有多种:presto-cli,pyhive,jdbc,http,golang,SQLAlchemy,PHP等,其中presto-cli是Presto官方提供的,下面以presto-cli为例展开说明(自行下载)。 以连接hive数据源为例,在电脑终端输入:./presto-cli.jar --server presto.xxx-apps.com:9200 --catalog hive --user xxxx --source 'pf=adhoc;client=cli'就可以进入presto终端界面。 先解释下各参数的含义: --server 是presto服务地址; --catalog 是默认使用哪个数据源,后面也可以切换,如果想连接mysql数据源,使用mysql数据源名称即可; --user 是用户名; --source 是代表查询来源,source设置格式为key=value形式(英文分号分割); 例如个人从command line查询应设置为pf=adhoc;client=cli。 进入终端后: 查看数据源: show catalogs; 查看数据库实例:show schemas; Presto使用手册:https://prestodb.io/docs/current/ 问答: 1.使用场景? -mysql跨数据库查询;-数仓的表数据查询(数据分析) ... 2.为什么presto查询速度比Hive快? presto是常驻任务,接受请求立即执行,全内存并行计算;hive需要用yarn做资源调度,接受查询需要先申请资源,启动进程,并且中间结果会经过磁盘。转载地址:https://blog.csdn.net/xiamaocheng/article/details/100253846 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
感谢大佬
[***.8.128.20]2024年04月26日 18时02分17秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
动态代理CGLib
2019-04-29
前端拖拽插件gridster.js介绍与使用示例
2019-04-29
转载一个即将成为大牛朋友的学习方法(内涵相关文档资料,java相关),
2019-04-29
SonarLint插件的安装与使用(现在版本是3.3.1)
2019-04-29
springCloud你要了解的都在这(方向性)
2019-04-29
Java的clone():深复制与浅复制
2019-04-29
JAVA异常处理之finally中最好不要使用return
2019-04-29
Nginx与tomcat整合
2019-04-29
VMware Nat 连接固定ip设置操作详细指南
2019-04-29
大数据技术生态圈讲解
2019-04-29
Hadoop、Spark、HBase与Redis的适用性见解
2019-04-29
spark概述
2019-04-29
Hadoop、MapReduce、YARN和Spark的区别与联系
2019-04-29
我终于搞清楚了和String有关的那点事儿。
2019-04-29
Kafka入门---概念
2019-04-29
springcloud 第一篇: 服务的注册与发现Eureka(Finchley版本)
2019-04-29
springcloud 第三篇: 服务消费者(Feign)(Finchley版本)
2019-04-29
存储过程--综述
2019-04-29
存储过程教程
2019-04-29