详解python爬取弹幕与数据分析-白红宇的个人博客

详解python爬取弹幕与数据分析

发布日期：2021-07-13 03:01:54 浏览次数：2 分类：技术文章

本文共 1490 字，大约阅读时间需要 4 分钟。

很不幸的是，由于疫情的关系，原本线下的AWD改成线上CTF了。这就很难受了，毕竟AWD还是要比CTF难一些的，与人斗现在变成了与主办方斗。

虽然无奈归无奈，但是现在还是得打起精神去面对下一场比赛。这个开始也是线下的，决赛地点在南京，后来是由于疫情的关系也成了线上。

当然，比赛内容还是一如既往的得现学，内容是关于大数据的。

由于我们学校之前并没有开设过相关培训，所以也只能自己琢磨了。

好了，废话先不多说了，正文开始。

一.比赛介绍

大数据总体来说分为三个过程。

第一个过程是搭建hadoop环境。

这个开始我也挺懵的，不过后来看了个教程大概懂了。总的来说，hadoop就是一个集成环境，这个环境里面包含了很多软件。

这些软件的功能各不相同，比如文件分布式（原谅我也忘了叫啥），大概作用就是假设你电脑有1个g大小，但是一个文件有10个g，那么你就可以用这个系统，将文件割成10份分别储存。

总的来说，就是为了大数据而服务的一个环境。

第二个过程就是爬取数据。

这个依据比赛的要求而定，我记得初赛的时候是要求爬取一个开源的电商网站，名字好像是SHOPXO。这个有爬虫的基础的同学可以去试下。

决赛还没比，不过好像是要爬取视频的弹幕。这个要比单纯的爬取视频麻烦一点，因为每个网站对弹幕的算法不一样。

一会儿我会写两个爬虫，分别爬取B站和A站的弹幕你们就知道了。

第三个过程就是分析数据。

这个说实话我也不太清楚。分析这一步其实python就可以做，但是貌似又得在那个环境里做。。。挺懵的，所以这里就不详细写了。

在写这篇帖子之前，我还写过一篇关于awd比赛的东西。不过由于其中涉及到很多比较特殊的东西，暂时无法外传，所以我就先设置成私密的了。

关于大数据其实我和你们一样是新手，只不过以前因为一些需要刚好学过爬虫，因此我负责的就是第二块内容。接下来我也会通篇讲一些爬虫和数据分析的东西。

二.爬虫

这个可以说是大数据里面很重要的东西了，因为即使你前面分析做的再好，没有数据供你分析又有什么用呢？所以，学好爬虫。

爬虫其实是一种代称，只是功能比较特殊，所以这么叫。在没学过爬虫之前，先想想看，我们正常是如何获取一些信息呢？就比如我们想知道周杰伦的歌单都有什么的时候。

第一步肯定是去百度搜索周杰伦，然后我们就可以在qq音乐之类的音乐网站上看到周杰伦的歌单。爬虫也得这样。

它没有你想象的那么神奇，肯定是要在某些网站上操作才行。

接着，你就可以一点一点的记录下来周杰伦的信息。我们的爬虫实现的也是这样的过程，只不过你一秒钟只能访问一个页面，而爬虫一秒钟可以访问几万个页面。

好了，关于爬虫的更详细的东西就先不说了，我们不是专门讲爬虫的。csdn上面有很多写爬虫的教程，都很详细。

我们主要的目的是进行实战。

三.爬取网站弹幕

本来是想以网站视频信息作为题目的，但是那个实在是没啥难度，正好比赛用得到弹幕，干脆就讲讲弹幕怎么爬取吧。

1.A站

A站相对于B站要简单一点。我们先观察网页。比如，这个是我随便打开的一个视频。

现在网站上的这些数据大部分都是动态的，因此我们不能直接用html解析器来解析网页，得直接爬取xhr里面的数据。

先按F12抓包。然后我们在搜索栏中随便搜索一条我们的弹幕。

在这里插入图片描述

很幸运，只有一个。我们双击这个查找的结果并进行观察。点到privew，可以发现这里面包含了我们所有的弹幕。

在这里插入图片描述

因此，这种网站直接爬取就行了。点到headers，我们观察参数以及请求方式。

在这里插入图片描述

ok。这些得到了以后，上脚本。

转载地址：https://blog.csdn.net/buduoduoorg/article/details/109688652 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：springboot中JSONObject遍历并替换部分json值

下一篇：Python加载数据的5种不同方式(收藏)

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章