什么是数据科学？-白红宇的个人博客

什么是数据科学？

发布日期：2021-11-09 06:56:12 浏览次数：17 分类：技术文章

本文共 1174 字，大约阅读时间需要 3 分钟。

我们已经听到这个观点：据哈尔•瓦里安（Hal Varian）说，统计学家是下一个性感的工作。五年前，在《什么是Web 2.0》里蒂姆•奥莱利（Tim O’Reilly）说“数据是下一个因特尔在内”。但是这句话到底是什么意思？为什么我们突然间开始关注统计学和数据？

在这篇博文里，我会检视数据科学的各个方面，技术、企业和独特技能集合。

互联网上充斥着“数据驱动的应用”。几乎任何的电子商务应用都是数据驱动的应用。这里面前端的页面靠背后的数据库来支持，它们两者之间靠中间件来连接其他的数据库和数据服务（信用卡公司、银行等等）。但是仅仅使用数据并不是我们所说的真正的“数据科学”。一个数据应用从数据里获取价值，同时创造更多的数据作为产出。它不只是带有数据的一个应用，它就是一个数据产品。而数据科学则是能创建这样的数据产品。

互联网上早期的数据产品之一就是CDDB数据库。CDDB数据库的开发者意识到基于CD（音频光盘）里面的每首歌曲的确切长度，任何CD都有一个唯一的数字签名。Gracenote公司创建了一个数据库，记录着歌曲的长度，并和专辑的元数据（歌曲名称、歌手和专辑名称）数据库关联。如果你曾经使用iTunes来找CD，你就是在使用这个数据库服务。iTunes会先获取每首歌的长度，然后发给CDDB，从而得到歌曲的名称。如果你有一些CD（比如你自制的CD）在数据库里没有记录，你也可以在CDDB里创造一个无名专辑的题目。尽管看起来很简单，但这是革命性的。CDDB把音乐看成是数据，而不仅仅是声音，并从中创造了新的价值。他们的商业模式和传统的销售音乐、共享音乐或者分析音乐口味等业务的模式截然不同，尽管这些业务也可以是“数据产品”。CDDB完全是视音乐的问题为数据的问题。

谷歌是创造数据产品的专家，这里列几个例子。

谷歌的创新是在于其意识到搜索引擎可以使用入链接而不是网页上的文字。谷歌的PageRank算法是最早一批使用网页以外的数据的算法之一，特别是网页的入链接数，即其他网页指向某网页的数量。记录链接让谷歌的搜索引擎比其他的引擎更好，而PageRank则是谷歌的成功因素中非常关键的一条。

拼写检查不是一个非常难的任务，但是通过在用户输入搜索关键词时，向错误拼写推荐正确的用法并查看用户是如何回应推荐，谷歌让拼写检查的准确率大幅提高。他们还建立起了常见错误拼写的字典，其中还包括对应的正确拼写以及错误拼写常见的上下文。

语音识别也是一个非常艰难的任务，而且也还没有完全被解决。但谷歌通过使用自己收集的语音数据，已经开始了针对这个难题的一个宏大的尝试。并已把语音搜索集成到了核心搜索引擎里。

在2009年猪流感的传播期，谷歌能够通过跟踪与流感相关的搜索来跟踪这次猪流感的爆发和传播过程。

点击阅读原文 ( read more), 获得更多信息。

转载地址：https://blog.csdn.net/zkh880loLh3h21AJTH/article/details/78100554 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Strata + Hadoop World北京大会招募讲师

下一篇：什么是大数据？

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章