想入行大数据领域，学习路线怎么规划？-白红宇的个人博客

发布日期：2021-06-30 11:31:10 浏览次数：2 分类：技术文章

本文共 3076 字，大约阅读时间需要 10 分钟。

自从“大数据”成为国民热词以来，想入行的人越来越多，不管是为了提高收入还是兴趣使然，只要是想学习新的知识，就必须有套系统的学习路线。本文整理了大数据领域入门必学的一些知识点，以及每个知识点的作用，希望对准备入行的小伙伴有所帮助。

苦练内功

学习大数据首先要学习 Java 语言和 Linux 操作系统，这两个是学习大数据的基本内功，不练这个，后面的程序根本没法进行。

Java

小伙伴都知道Java的方向有 JavaSE、JavaEE、JavaME，入门大数据要学习哪个方向呢？我建议只需要学习Java的标准版JavaSE就可以了，像 Servlet、JSP、Tomcat、Struts、Spring、Hibernate，Mybatis 都是 JavaEE 方向的技术在大数据技术里用到的并不多，只需要了解就可以了，当然 Java 怎么连接数据库还是要知道的，像 JDBC 一定要掌握。

Linux

因为大数据相关软件都是在 Linux上运行的，所以 Linux 要学扎实，学好 Linux 对你快速掌握大数据相关技术会有很大帮助，能让你更好地理解Hadoop、Hive、Hbase、Spark 等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会 Shell 就能看懂脚本，这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

说完基础了，再说说还需要学习哪些大数据技术，才能进阶武林高手，最终笑傲江湖，独孤求败？

自成一派

Hadoop

这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop 里面包括几个组件 HDFS、MapReduce 和 Yarn，HDFS 是存储数据的地方，就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce 是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间，它就能把数据跑完，但是时间可能不是很快，所以它叫数据的批处理。

Yarn 是体现 Hadoop 平台概念的重要组件，有了它，大数据生态体系的其它软件就能在 Hadoop 上运行了，这样就能更好地利用 HDFS 大存储的优势和节省更多的资源。

其实把 Hadoop 的这些组件学明白你就能做大数据的处理了，只不过你可能对"大数据"到底有多大还没有太清楚的概念。工作以后，你会遇到几十T/几百T大规模的数据，到时候不要觉得头疼，因为这是你的价值所在。

学到这里，你就算正式进入大数据行业的大门了。学习能力足够强的同学可以试着自己消化一下阿里内部的《大数据工程师手册》，看看你距离大厂还有多远？

△扫码免费获取资料

东方不败

不过要想变成高手，还有几个技能需要学一学。

Zookeeper

这是个万金油，安装 Hadoop 的 HA 的时候就会用到它，以后的 Hbase 也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小，一般不超过 1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，正常地跑起来就 OK 了。

MySQL

我们学习完大数据的处理了，接下来学习小数据的处理工具—— MySQL 数据库，因为一会装 Hive 的时候要用到，MySQL 需要掌握到什么程度呢？你能在 Linux 上把它安装好，运行起来，会配置简单的权限，修改 Root 的密码，创建数据库。这里主要的是学习 SQL 的语法，因为 Hive 的语法和这个非常相似。

Sqoop

这个是用于把 MySQL 里的数据导入到 Hadoop 里的。当然直接把 MySQL 数据表导出成文件再放到 HDFS 上，也是一样的。但在生产环境中使用要注意 MySQL 的压力。

Hive

这个东西对于会 SQL 语法的来说就是神器，它能让你处理大数据变得很简单，不会再费劲地编写 MapReduce 程序。有人说 Pig 呢？它和 Pig 掌握一个就可以了。

Oozie

既然学会 Hive 了，我相信你一定需要这个东西，它可以帮你管理你的 Hive 或者 MapReduce、Spark 脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是，还能帮你配置任务的依赖关系。

Hbase

这是 Hadoop 生态体系中的 NoSQL 数据库，它的数据是按照 key 和 value 的形式存储的，并且 key 是唯一的，所以它能用来做数据的排重，它与 MySQL 相比能存储的数据量大很多，所以常被用于大数据处理完成之后的存储目的地。

Kafka

这是个比较好用的队列工具，队列是干吗的？排队买票知道不？数据多了同样也需要排队处理，这样与你协作的同学不会数据怎么这么多，你可以跟他讲把数据放在队列里，使用的时候一个个拿，这样他就不再抱怨了，马上灰溜溜地去优化他的程序去了。

当然，我们也可以利用这个工具来做线上实时数据的入库或入 HDFS，这时你可以与一个叫 Flume 的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方（比如 Kafka ）的。

Spark

它用来弥补 MapReduce 处理数据慢的缺点，特点是把数据装载到内存中计算，而不是去读慢得要死进化还特别慢的硬盘，特别适合做迭代运算，所以算法流们特别稀饭它。它是用 scala 编写的。Java 语言或者 Scala 都可以操作它，因为它们都是用 JVM 的。

会这些东西你就成为一个专业的大数据开发工程师了，月薪2W都是小毛毛雨。

独孤求败

当然还是有很有可以提高的地方，比如学习下 Python，可以用它来编写网络爬虫。这样我们就可以自己造数据了，网络上的各种数据都可以下载到自己的集群上处理。

最后再学习下推荐、分类等算法的原理，这样你能更好的与算法工程师打交道，你的公司也会更离不开你，不论产品还是开发都会对你喜欢得不要不要的。

这些技术点其实在网上都能找到详细的解答，各位可以对照着学习，但自学需要克服三个比较棘手的问题：

自制力不够，不能持之以恒学习；

对大数据行业没有系统的认知，只能学到碎片式的知识散点，没法串联起来；

找不到合适的试手项目，学习只能停留在理论阶段。

如果你存在以上问题，那么真的建议你报个班，毕竟，给自己的投资才是最有价值的投资。哪个拿高薪的人不是事先为自己的专业能力付出了比别人多几倍的金钱、精力和时间呢？

考虑到你对学习效果的疑虑，拉勾教育推出了涨薪 30% 护航计划，学完课程，保证你可以至少涨薪 30% ，达不到的话，全额退学费，稳赚不赔的买卖啊！

说了这么多，情不自禁打个广告推荐一个良心课程~

拉勾教育《大数据开发高薪训练营》从 5 个模块，分 14 步带你掌握大数据开发核心技术，并结合海量数据级企业真实项目实操，让你即学即用，更好地理解大数据开发行业全貌。

担心学完也找不到工作的同学可以把心放回肚子里啦，咱们这个课程学完就内推，还有配套的 1V1 简历修改与面试模拟等服务，不怕拿不下高薪 Offer！

现在报名不仅可以加入涨薪 30% 护航计划，还能享受 5 折优惠！这是第一次也是唯一一次力度如此大的活动，老板说永远不会有第二次了！

活动课程详情请扫码咨询客服小姐姐，她脾气超 nice 的，一定会给你超满意的回答~

△扫码添加老师微信

↓↓↓ 文末福利

学了这么多

是时候检验一下学习成果了

这里准备了美团、字节等大厂的面试真题

前 100 名扫上图二维码免费领取

先到先得！

点击「阅读原文」，立即咨询。

转载地址：https://iteblog.blog.csdn.net/article/details/111602405 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：eBay 广告数据平台的 OLAP 系统演进实战

下一篇：滴滴在HBase性能与可用性上的探索与实践

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章