豆瓣前250个电影的相关分析
发布日期:2022-03-04 11:48:27 浏览次数:1 分类:技术文章

本文共 486 字,大约阅读时间需要 1 分钟。

目的:对豆瓣前250的影片数据进行爬取,得到以下问题的结论;

问题1:受大家喜欢的影片,影片类型主要有哪些?
问题2:高评分和评价人数有关系吗?
问题3:哪些国家的影片最受欢迎?

1.源文件保存

在这里插入图片描述

2. 熟悉数据,处理数据异常值。

在这里插入图片描述

筛选发现,这几个数值的概况栏是空白的。

3. 唯一标示列进行去重检查

在这里插入图片描述

4.不用的数据进行隐藏

基于数据处理的目的,图片链接和网址链接不需要,进行隐藏。
在这里插入图片描述

5.对相关信息这边的数据进行分列

在这里插入图片描述
得到如下:
在这里插入图片描述
在这里插入图片描述
数据基本上是我们想要的形式了。再次进行异常数据的处理
在这里插入图片描述
得到如下数据
在这里插入图片描述

6. 总结分析

问题1:受大家喜欢的影片,影片类型主要有哪些?
在这里插入图片描述
如图:统计数据显示,最受人们欢迎的影片类型是剧情片。
问题2:高评分和评价人数有关系吗?
在这里插入图片描述
如图:我们可以看出,随着评分越高,评价数总体呈上升趋势,除去几个不符合趋势的数值(可以单独再进行分析),可以说,一部电影越好,人们对它评价越高,就越会进行讨论评价。

问题3:哪些国家的影片最受欢迎?
在这里插入图片描述
如图:美国不愧为电影大国,排名靠前的这250个电影中,美国占比:59.02%,居第一位。
其次是中国,占比:22.54%。

转载地址:https://blog.csdn.net/xxy_yinji/article/details/115384257 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:SpringBoot入门(十二)原理解析
下一篇:airbnb上房源数据分析

发表评论

最新留言

哈哈,博客排版真的漂亮呢~
[***.36.149.40]2022年07月30日 05时02分15秒