20年经典-《海量数据挖掘技术》-白红宇的个人博客

发布日期：2021-06-30 22:45:13 浏览次数：2 分类：技术文章

本文共 790 字，大约阅读时间需要 2 分钟。

本书介绍

这本书是由Anand Rajaraman和Jeff Ullman在斯坦福大学为相关的课程开发的材料演变而来的。课程名为“网络挖掘（Web Mining）”，是作为一门高级研究生课程设计的，尽管它对高级本科生来说已经变得容易理解和有趣。当Jure Leskovec加入斯坦福大学时，我们对材料进行了相当大的改动。他介绍了一门关于网络分析的新课程CS224W，并为重新编号为CS246的CS345A添加了材料。这三位作者还介绍了一门大型数据挖掘项目课程，CS341。这本书现在包含了所有三门课程的内容。

本pdf获取：

这本书主要讲什么：

从最高层来讲，本书主要讲解数据挖掘。然而，它侧重于对非常大量的数据进行数据挖掘，也就是说，数据太大而不适合主内存。由于强调大小，我们的许多例子都是关于网络或从网络导出的数据。此外，这本书从算法的角度来看:数据挖掘是关于将算法应用于数据，而不是使用数据来“训练”某种机器学习引擎。

涵盖的主要主题有:

1 .分布式文件系统和map-reduce作为创建并行算法的工具，可在大量数据上获得成功。

2.相似性搜索，包括minhashing和locality敏感哈希的关键技术。

3.数据流处理和处理数据的专门算法，数据到达得太快，必须立即处理或丢失。

4.搜索引擎的技术，包括谷歌的网页排名、垃圾链接检测以及中心和权威方法。

5.频繁项集挖掘，包括关联规则、购物篮、先验算法及其改进。

6.用于聚集非常大的高维数据集的算法。

7.网络应用的两个关键问题:管理广告和推荐系统。

8.用于分析和挖掘非常大的图，尤其是社交网络图的结构的算法。