python网络爬虫入门-白红宇的个人博客

python网络爬虫入门

发布日期：2022-09-27 12:01:42 浏览次数：2 分类：技术文章

本文共 1123 字，大约阅读时间需要 3 分钟。

一.爬虫理解：通过代码、模拟浏览器上网然后抓取数据的过程数据解析

二.爬虫的分类：

1.获取一整张页面【通用爬虫】

2.获取一整张页面部分数据【聚焦爬虫】

3.检查页面更新、获取页面最新的更新的数据【增量式爬虫】

三.爬虫技术

1.urllib 【老】

2.requests 【好用】

pip install requests

1).是什么

python自带的基于网络请求的模块功能强大简单高效

2).干什么

模拟浏览器发送请求

3).怎么用：

1.指定url

2.发送请求【get、post】

3.获取相应的数据

4.存储数据

数据解析分类：

1.正则【了解】

2.bs4

3.xpath 【重要】 scrapy 开源的爬虫框架

使用scrapy框架流程

1.创建一个项目

scrapy startproject test_scrapy

1.项目目录：

1.scrapy.cfg 【项目的配置文件】

2.settings.py 【项目的配置文件】

3. spiders/ 【防止爬虫代码的目录】

2.编写爬虫代码

1.创建一个爬虫代码

scrapy genspider [options] <name> <domain>

scrapy genspider python01 www.xxx.com

'''

name:

1.不能重复

2.爬虫文件的名字

'''

name = 'python01'

'''

scrapy 允许爬取的 url

'''

allowed_domains = ['www.baidu.com']

'''

scrapy 去爬取的 url 列表

'''

start_urls = ['http://www.baidu.com/','https://www.sougou.com']

3.启动爬虫项目

1.启动命令

scrapy runspider [options] <spider_file>

scrapy runspider ./test_scrapy/spiders/python01.py

scrapy crawl python01

scrapy crawl python01 --nolog 【使用命令不显示日志信息】

2.数据解析：

1.标签定位：

返回 selector(xpath,data[xpath表达式结果])

2.数据解析

返回 selector(xpath,data[xpath表达式结果])

3.取值

.get()

.getall()

3.存储数据【持久化数据】

scrapy crawl python01 -o ./xxx.json(csv)等【不支持txt格式】

转载地址：https://blog.csdn.net/weixin_46827382/article/details/124153826 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：Python网络爬虫关于某牙直播的项目（上）

下一篇：python网络爬虫——自学笔记2.1用requests库和re库爬取图片

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章