快速认识网络爬虫与Scrapy网络爬虫框架-白红宇的个人博客

发布日期：2021-08-15 22:29:16 浏览次数：28 分类：技术文章

本文共 1047 字，大约阅读时间需要 3 分钟。

本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分

问:什么是网络爬虫

答:就是从网上下载数据的一个程序,只不过这个程序下载的东西不是某某网站直接提供给我们的,我们直接从别人的网页上拿来的.

问:为什么是我们自己拿?这两者到底有什么区别

答:我们浏览网站是通过某个网址从别人的服务器获取一个网页,但是这个网页我们是不能像BT文件那样,通过迅雷直接下载的,但是网络爬虫则是一个我们自己的迅雷,只要有了网址,那么网页上的东西我们不需要网站提供给我们,我们自己写程序下载就可以了

问:这样有什么好处吗?

答:好处很简单,就是批量获取数据,比如我们我们想要下载周杰伦所有的微博,一个个复制粘贴是不现实的,但是网络爬虫却可以帮助我们很快全都下载下来,机器是不会累,也不会烦的.

其他的比如批量获取图片,批量下载音乐什么的都是类似的网络爬虫

问: 那Scrapy网络爬虫框架又是什么?

答: 如同我们常用的其他框架一样,比如Sklearn或者TensorFlow,又或者换一个例子,我们的PPT模板,框架就是一个已经写好了很多东西的工具包(模板),我们可以使用它快速开发,不过代价就是我们得按照框架的一些条条框框来写.

问:如何去写一个网络爬虫?

答:首先是要找到拥有我们想要数据的网页,比如之前一个,我们需要的是一座城市所有的租房信息,那么首先我们需要的就是拥有这样数据的网站,比如赶集网

然后就是分析这个网页,然后才能开始编写我们的爬虫,然后才能运行爬虫—>真正的获取到我们想要的数据.

当页面不同的时候,那么我们所需写的爬虫也就不一样.这是一个见招拆招额过程

而我们本次系列的博客讲的就是后面的第二部分,如何见招拆招,写出我们需要的爬虫

问：这次课程有什么要准备的吗？

答：准备的话，需要看看之前赶集网的那篇博客，之后我们会用做例子，其他的没什么要准备的

问：有什么资料之类的吗？

答：有，首先是书一本，《精通Scrapy网络爬虫》这本书的线也是我们这次课程的主线，我备课的时候参考这本书比较多，除此之外因为现在是寒假了，为了更好的教课，我开了~~(欢迎大家来直播间送礼物)~~，不过直播面向对象是我的学弟们，其他人如果来旁听的话，我确实不介意，但是我只会按照学弟们的进度走。

除此之外博客会更新，会慢一天，内容基本差不多。

转载于:https://www.cnblogs.com/fonttian/p/8480682.html

转载地址：https://blog.csdn.net/weixin_30781107/article/details/97079555 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：javascript总结34 :DOM之节点元素获取

下一篇：map和reduce

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！