《数据“科学家”必读》 | 从零起步打造数字化业务「最强大脑」
发布日期:2021-07-01 03:43:58 浏览次数:2 分类:技术文章

本文共 2862 字,大约阅读时间需要 9 分钟。

转型东风吹遍全球,无数企业已经踏上了数字化转型的旅程。想要更全面地了解业务情况,希望将更有吸引力的产品和服务带给客户,想要更懂客户喜好和市场需求……这一切都离不开数据,以及精准快速的分析!难怪有不少企业致力于转型为数据驱动的企业。

所以数据库、大数据平台、数据湖、分析系统、报表平台……各种相关应用轮番上阵,效果如何姑且不论,那么多相互独立的系统,无论日常管理维护,还是最终用户的上手难度和使用体验,恐怕都不会太好。

但如果能把所有这些功能都结合在一起,只用一个系统就搞定与数据存储、分析和结果的洞察与呈现有关的一切任务,那会是一种怎样的感觉!

认识一下吧!它的前身是Azure Data Warehouse,相信很多童鞋已经很熟悉了,一款基于Azure智能云平台的数据仓库解决方案。该服务最近顺利更名为Azure Synapse Analysis,同时通过进一步扩展包含了大量新功能,可以帮助用户在一个界面中顺利实现数据准备、数据管理、数据仓库、大数据和AI等任务

作为一款致力于成为数字化企业「最强大脑」的服务,高效高弹性的架构设计、简单易用的操作、强大的功能和澎湃的数据处理、分析能力,Azure Synapse Analysis你可一定要亲自体验一下。

本次我们将通过《数据“科学家”必读》系列文章带领大家全面体验焕然一新的Azure Synapse Analysis。本系列共分为六期内容:

  1. 第一次亲密接触:开箱初体验,概括了解Azure Synapse Analysis的功能与价值;

  2. 围绕Cosmos DB自行DIY的Azure Synapse Analysis解决方案;

  3. Azure Synapse Analysis与Azure Function服务的配合使用;

  4. 通过增量数据CDC对Azure Synapse Analysis中的数据进行更新;

  5. 借助Azure Data Factory工具实现数据处理水线的自动化操作;

  6. 借助Synapse Link的一键同步省略ETL过程,实现最新数据的直接访问。

转型为数据驱动的企业,需要应对哪些挑战?

当今企业数字化转型,企业无论是从传统历史数据洞察中获取认知,或从实时数据获得洞察认知,甚至对未来趋势进行预测,这一过程中,AI和数据两架马车都扮演着重要的角色。

然而巧妇难为无米之炊,企业又该如何简单及时地从数据中获得洞察来支撑决策?

简单性:是否有易用快捷的平台可以快速发现数据,分析数据并展现数据。

及时性:时间是试错成本的重要因子,是否有平台方案帮助企业满足数据实时要求。

作为企业级的数据分析平台产品,Azure Synapse Analysis可以帮助企业用户达成上述要求。

微软从去年开始对Azure DataWarehouse进行换装升级,首先从命名上变为Azure Synapse Analysis,其次在产品上推出了很多重磅功能,例如Build-In Spark的支持,SQL On-Demond的支持等。

如果将Azure Synapse Analysis看作一个数据分析平台产品,其以数据湖为数据中心构建了一套万花筒似的分析工具套件,覆盖了从数据发现、ETL、分析再到展现整个数据链条。友好的使用体验和一站式的数据消费模式为企业实现数字化转型提供了很好的工具和平台。

能有多简单:Azure Synapse Analysis利用统一分析体验的强大功能生成端到端分析解决方案。Azure Synapse Studio为数据准备、数据管理、数据仓库、大数据和AI任务提供了统一的工作区。数据工程师可以使用无代码的视觉环境来管理数据管道。数据库管理员可以自动优化查询。数据科学家在几分钟内即可生成概念证明。业务分析师可以安全地访问数据集,并使用Power BI在几分钟内生成仪表板……这些过程中用户始终可以使用相同的分析服务。

能有多快捷:Azure Synapse Analysis使用最新的操作数据随时立即了解相关信息,借助,可以通过简单、低成本的云原生HTAP立即、及时地深入了解业务。只需单击一下即可消除Azure数据库与Azure Synapse之间的壁垒,近乎实时地从实时操作数据存储中获取见解。无需复杂的ETL管道和额外的数据库计算资源,同时可通过Azure Synapse对实时数据运行分析工作负载,而不影响操作系统。业务分析师、数据工程师和数据科学家现可使用Azure Synapse运行近乎实时的业务智能、分析和机器学习管道,而不影响Azure Cosmos DB上事务工作负载的性能。

Azure Synapse Analysis初步印象

首先看看Azure Synapse Analysis的整体架构,如下图所示:

  • 最下层的数据层,Azure Synapse Analysis除了支持流行的基于对象存储构建的数据湖存储外,也支持与数据库产品进行直连(后称为Synapse Link);

  • 在数据层之上,Azure Synapse Analysis通过数据水线工具(对Azure Data Factory的整合)以及多种数据分析语言的支持(如T-SQL、Spark)构建了完整的工具套件,使用户数据洞察变的更加敏捷高效;

  • 在最上层分析引擎层,用户T-SQL/Spark的全面覆盖及整合使用户可以基于开发喜好自由选择。

上述架构在Cosmos DB的连接方面非常有意思。Azure Synapse Analysis联合Cosmos推出了Synapse Link功能,实现了类似OLTP和OLAP的直通。

通常企业为满足数据跨系统以及追求分析性能,会把OLAP和OLTP系统区分开。然而开始数字化转型之旅后,数据驱动对于数据的新鲜度和实时性提出了新要求。传统OLAP和OLTP数据同步存在滞后,OLTP系统需要通过ETL工具将增量数据(CDC -- Change Data Capature)定期同步给OLAP系统。数据量、ETL的复杂度以及Data Warehouse产品对于更新数据的开销为数据实时性带来了挑战。

Azure Cosmos DB在产品内部实现了OLTP和OLAP的兼顾,通过行存储响应OLTP列存储响应OLAP,两套存储引擎并行并自动近乎无延迟的实时同步,下游数据仓库可直接获得最新版本的数据,OLTP和OLAP之间同步一键完成。

在了解过Azure Synapse Analysis的大致架构和功能后,为了让大家感受一跳直连的魅力,在后续文章中,我们会先为大家介绍如何通过Azure Synapse Analysis自行DIY一套解决方案,将上述Cosmos Database中的数据自动同步到数据仓库中,最后再为大家介绍Synapse Link:

在上图中,Path 1为Azure Synapse Link直通模式,Path 2为DIY的解决方案。下期内容将详细介绍Path 2的具体实现,敬请期待!

转载地址:https://microsoftchina.blog.csdn.net/article/details/108356789 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:好消息!Azure Active Directory 域服务在中国区正式发布!
下一篇:在 Azure SQL 上优化成本的八种方法 : 成本节省高达80% !

发表评论

最新留言

哈哈,博客排版真的漂亮呢~
[***.90.31.176]2024年04月20日 19时33分44秒