O'Reilly精品图书推荐:Spark高级数据分析
发布日期:2021-11-09 06:55:35 浏览次数:14 分类:技术文章

本文共 1442 字,大约阅读时间需要 4 分钟。

书名:Spark高级数据分析

作者:, , ,  著

译者:龚少成 译

国内出版社:人民邮电出版社

出版时间:2015年11月

页数:226

书号:978-7-115-40474-9

原版书书名:Advanced Analytics with Spark

原版书出版商:O'Reilly Media


编辑推荐


这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。

本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。

本书介绍了以下模式:

  1. 音乐推荐和Audioscrobbler数据集

  2. 用决策树算法预测森林植被

  3. 基于K均值聚类进行网络流量的异常检测

  4. 基于潜在语义分析技术分析维基百科

  5. 用GraphX分析伴生网络

  6. 对纽约出租车轨迹进行空间和时间数据分析

  7. 通过蒙特卡罗模拟来评估金融风险

  8. 基因数据分析和BDG项目

  9. 用PySpark和Thunder分析神经图像数据



自从在加州大学伯克利分校创立Spark 项目起,我就时常心潮澎湃。不仅因为Spark 可以帮助人们快速构建并行系统,更因为Spark 帮助了越来越多的人使用大规模计算。因此看到这本介绍Spark 高级分析的书,我非常欣慰!该书由数据科学领域四位专家Sandy、Uri、Sean 和Josh 携手打造。四位作者研习Spark 已久,他们在本书中跟读者分享了关于Spark 的大量精彩内容,同时本书的案例部分同样出众! 

对于这本书,我最钟爱的是它强调案例,而且这些案例都源于现实数据和实际应用。找到一个像样的、能在笔记本电脑上运行的大数据案例已经很难,更遑论十个了。但本书作者做到了!作者为大家准备好了一切,只等你在Spark 中运行它们。更难能可贵的是,作者不仅讨论了核心算法,更倾心于数据准备和模型调优,没有这些工作,实际项目中就无法得到好的结果。认真研读此书,你应该可以吸收这些案例中的概念并直接将其运用在自己的项目中! 

大数据处理无疑是当今计算领域最激动人心的方向之一,发展非常迅猛,新思想层出不穷。愿本书能帮助你在这个崭新的领域中扬帆启航! 

——Matei Zaharia 

Databricks 公司CTO 兼Apache Spark 项目副总裁


作者简介


Sandy Ryza

是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

Uri Laserson

是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。

Sean Owen

是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。

Josh Wills

是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。

转载地址:https://blog.csdn.net/zkh880loLh3h21AJTH/article/details/78100479 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:为什么企业需要关注深度学习
下一篇:为Spark ML扩展结构化流计算:集成朴素贝叶斯机器学习方法和定制化导出(sink)的实验方法

发表评论

最新留言

第一次来,支持一个
[***.219.124.196]2024年03月04日 21时25分41秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

mssql连接mysql数据库文件_在本地 怎么远程连接MSSQL数据库 2019-04-21
mssql 远程无法连接mysql_解决SQLServer远程连接失败的问题 2019-04-21
linux mysql c++编程_Linux下进行MYSQL的C++编程起步手记 2019-04-21
Maria数据库怎么复制到mysql_MySQL、MariaDB数据库的AB复制配置过程 2019-04-21
mysql5.6 icp mrr bak_【mysql】关于ICP、MRR、BKA等特性 2019-04-21
mysql utf8跟utf8mb4_MySQL utf8 和 utf8mb4 的区别 2019-04-21
docker mysql开机自启动_Docker学习4-学会如何让容器开机自启服务【坑】 2019-04-21
在mysql中删除表正确的是什么_在MySQL中删除表的操作教程 2019-04-21
mysql有3个共同好友_共同好友mysql 2019-04-21
代理查询 mysql_查询数据库代理设置 2019-04-21
mysql dif_mysqldiff实现MySQL数据表比较 2019-04-21
mysql 允许其他主机访问权限_允许其他主机访问本机MySQL 2019-04-21
druid不能close mysql连接_alibaba druid mysql连接问题 2019-04-21
mysql 设置按天分表_MySQL 优化实战记录 2019-04-21
java连接mysql 不推荐_java连接mysql 2019-04-21
mysql数据库 quota_shell脚本抓取用户存储quota写道mysql并展现到grafana面板 2019-04-21
idea测试连接mysql报错08001_IDEA连接MySQL错误 2019-04-21
layui导入模板数据_layui表格-template模板的三种用法 2019-04-21
mysql分组显示行号_mysql 显示行号,以及分组排序 2019-04-21
MySQL常见的主从复制架构_如何搭建经典的MySQL 主从复制架构 2019-04-21