使用 Spark 和 Delta Lake 构建近实时数据仓库-白红宇的个人博客

发布日期：2021-06-30 11:25:40 浏览次数：2 分类：技术文章

本文共 1697 字，大约阅读时间需要 5 分钟。

本文来自于2019年10月15日-17日荷兰首都阿姆斯特丹举行的 SPARK + AI SUMMIT Europe 2019 会议，议题名为《Near Real Time Data Warehousing with Apache Spark and Delta Lake》，分享者 Jasper Groot。

本文 PPT 请关注过往记忆大数据微信公众号，并回复 data_warehouse 关键字获取。本分享配套视频：

好了，我们进入正文吧。

640?wx_fmt=png

本分享主要包括三部分

Structed Streaming

Delta Lake

数据仓库

640?wx_fmt=png

Structed Streaming 从 Spark 2.0 开始引入，其 API 和 DataFrame 的 API 类似。

640?wx_fmt=png

640?wx_fmt=png 上面都是 Structed Streaming 的基本介绍，详细可以参见 https://www.iteblog.com/archives/2084.html。下面我们来简要介绍 Delta Lake

640?wx_fmt=png

随着时间的推移，磁盘中会存在大量的事务日志，Delta Lake 提供了 VACUUM 来清理过期的事务日志，默认只保存7天。VACUUM 命令会有短暂的停留，会对写有些影响。不像 update、delete、insert 等操作，VACUUM 是不记事务日志的。

下面我们来看看如何使用 VACUUM 命令：

640?wx_fmt=png

到这里我们已经简要的介绍了 Structed Streaming 和 Delta Lake 是什么。下面我们来看看将这两者结合起来如何实现近实时数据仓库。

640?wx_fmt=png

我们把 Structed Streaming 和 Delta Lake 放在一起，利用 Structed Streaming 的 DataFrame API、很好地处理迟到的数据以及可以和很多实时流数据源进行 Join。利用 Delta Lake 的 ACID 事务、事务日志以及相关文件管理，来构建数据仓库。

其实数据仓库的构建有多重方式，这里我只介绍我们采用的：星型模型、原始数据在 MySQL 中，目标数据存储在 S3中。

640?wx_fmt=png