20年经典-《海量数据挖掘技术》
发布日期:2021-06-30 22:45:13 浏览次数:2 分类:技术文章

本文共 790 字,大约阅读时间需要 2 分钟。

本书介绍

    这本书是由Anand Rajaraman和Jeff Ullman在斯坦福大学为相关的课程开发的材料演变而来的。课程名为“网络挖掘(Web Mining)”,是作为一门高级研究生课程设计的,尽管它对高级本科生来说已经变得容易理解和有趣。当Jure Leskovec加入斯坦福大学时,我们对材料进行了相当大的改动。他介绍了一门关于网络分析的新课程CS224W,并为重新编号为CS246的CS345A添加了材料。这三位作者还介绍了一门大型数据挖掘项目课程,CS341。这本书现在包含了所有三门课程的内容。

 

本pdf获取:

 

这本书主要讲什么:

    从最高层来讲,本书主要讲解数据挖掘。然而,它侧重于对非常大量的数据进行数据挖掘,也就是说,数据太大而不适合主内存。由于强调大小,我们的许多例子都是关于网络或从网络导出的数据。此外,这本书从算法的角度来看:数据挖掘是关于将算法应用于数据,而不是使用数据来“训练”某种机器学习引擎。

 

  涵盖的主要主题有:

    1 .分布式文件系统和map-reduce作为创建并行算法的工具,可在大量数据上获得成功。

    2.相似性搜索,包括minhashing和locality敏感哈希的关键技术。

    3.数据流处理和处理数据的专门算法,数据到达得太快,必须立即处理或丢失。

    4.搜索引擎的技术,包括谷歌的网页排名、垃圾链接检测以及中心和权威方法。

    5.频繁项集挖掘,包括关联规则、购物篮、先验算法及其改进。

    6.用于聚集非常大的高维数据集的算法。

    7.网络应用的两个关键问题:管理广告和推荐系统。

    8.用于分析和挖掘非常大的图,尤其是社交网络图的结构的算法。

    9.通过降维获得大数据集重要属性的技术,包括奇异值分解和潜在语义索引。

    10.机器学习算法,可以应用于非常大的数据,如感知器,支持向量机,梯度下降。

 

本书目录

 

内容截图

本pdf获取:

 

往期精品内容推荐

转载地址:https://lqfarmer.blog.csdn.net/article/details/109702581 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:互联网数据驱动力-《数据推动力-创造数据文化》
下一篇:MLSS 2020-Bengio-《机器学习暑期研究前沿学校》

发表评论

最新留言

初次前来,多多关照!
[***.217.46.12]2024年04月11日 00时22分38秒