
豆瓣前250个电影的相关分析
发布日期:2022-03-04 11:48:27
浏览次数:1
分类:技术文章
本文共 486 字,大约阅读时间需要 1 分钟。
目的:对豆瓣前250的影片数据进行爬取,得到以下问题的结论;
问题1:受大家喜欢的影片,影片类型主要有哪些?
问题2:高评分和评价人数有关系吗?
问题3:哪些国家的影片最受欢迎?
1.源文件保存
2. 熟悉数据,处理数据异常值。
筛选发现,这几个数值的概况栏是空白的。
3. 唯一标示列进行去重检查
4.不用的数据进行隐藏
基于数据处理的目的,图片链接和网址链接不需要,进行隐藏。
5.对相关信息这边的数据进行分列
得到如下:
数据基本上是我们想要的形式了。再次进行异常数据的处理
得到如下数据
6. 总结分析
问题1:受大家喜欢的影片,影片类型主要有哪些?
如图:统计数据显示,最受人们欢迎的影片类型是剧情片。
问题2:高评分和评价人数有关系吗?
如图:我们可以看出,随着评分越高,评价数总体呈上升趋势,除去几个不符合趋势的数值(可以单独再进行分析),可以说,一部电影越好,人们对它评价越高,就越会进行讨论评价。
问题3:哪些国家的影片最受欢迎?
如图:美国不愧为电影大国,排名靠前的这250个电影中,美国占比:59.02%,居第一位。
其次是中国,占比:22.54%。
转载地址:https://blog.csdn.net/xxy_yinji/article/details/115384257 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
哈哈,博客排版真的漂亮呢~
[***.36.149.40]2022年07月30日 05时02分15秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
最新文章
PowerDesigner 工具栏关系工具为灰色不可用
2022-02-10
解决Ubuntu已经安装系统但每次进入都需重装的问题
2022-02-10
解决virtualbox安装增强功能显示未能加载虚拟光盘问题
2022-02-10
自测-5 Shuffling Machine (20 分)
2022-02-10
自测-4 Have Fun with Numbers (20 分)
2022-02-10
02-线性结构3 Reversing Linked List (25分)
2022-02-10
02-线性结构1 两个有序链表序列的合并 (15 分)
2022-02-10
104.货仓地址
2022-02-10
898. 数字三角形
2022-02-10
啊哈C语言第四章第六节答案
2022-02-10
Yogurt factory -POJ-2393
2019-12-08 08:10:48
1886: 开门见“神”(数组两端轮流取值)
2019-12-08 08:10:48
01-复杂度2 Maximum Subsequence Sum (25 分)
2019-12-08 08:10:48
自测-1 打印沙漏
2019-12-08 08:10:49
自测-2 素数对猜想 (20 分)
2019-12-08 08:10:49
自测-3 数组元素循环右移问题 (20 分)
2019-12-08 08:10:49
Aizu - 0525 -Osenbei -穷竭搜索-枚举
2019-12-08 08:10:47
Backward Digit Sums-POJ - 3187 -枚举-穷竭搜索
2019-12-08 08:10:47
A - Divisibility Shortcut -Kattis - shortcut
2019-12-08 08:10:47