python网络爬虫入门
发布日期:2022-09-27 12:01:42
浏览次数:2
分类:技术文章
本文共 1123 字,大约阅读时间需要 3 分钟。
一.爬虫理解:通过代码、模拟浏览器上网 然后抓取数据的过程 数据解析
二.爬虫的分类:
1.获取一整张页面 【通用爬虫】 2.获取一整张页面 部分数据 【聚焦爬虫】 3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】 三.爬虫技术 1.urllib 【老】 2.requests 【好用】pip install requests
1).是什么
python自带的 基于网络请求的模块 功能强大 简单高效 2).干什么 模拟浏览器发送请求 3).怎么用: 1.指定url 2.发送请求【get、post】 3.获取相应的数据 4.存储数据数据解析分类:
1.正则 【了解】 2.bs4 3.xpath 【重要】 scrapy 开源的爬虫框架使用scrapy框架流程
1.创建一个项目
scrapy startproject test_scrapy1.项目目录:
1.scrapy.cfg 【项目的配置文件】 2.settings.py 【项目的配置文件】 3. spiders/ 【防止 爬虫代码的目录】 2.编写爬虫代码 1.创建一个 爬虫代码 scrapy genspider [options] <name> <domain>scrapy genspider python01 www.xxx.com
'''
name: 1.不能重复 2.爬虫文件的名字 ''' name = 'python01' ''' scrapy 允许爬取的 url ''' allowed_domains = ['www.baidu.com'] ''' scrapy 去爬取的 url 列表 ''' start_urls = ['http://www.baidu.com/','https://www.sougou.com']3.启动爬虫项目
1.启动命令 scrapy runspider [options] <spider_file>scrapy runspider ./test_scrapy/spiders/python01.py
scrapy crawl python01
scrapy crawl python01 --nolog 【使用命令 不显示日志信息】
2.数据解析:
1.标签定位: 返回 selector(xpath,data[xpath表达式 结果]) 2.数据解析 返回 selector(xpath,data[xpath表达式 结果]) 3.取值 .get() .getall() 3.存储数据【持久化数据】 scrapy crawl python01 -o ./xxx.json(csv)等 【不支持txt格式】转载地址:https://blog.csdn.net/weixin_46827382/article/details/124153826 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
初次前来,多多关照!
[***.217.46.12]2024年04月21日 00时07分07秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
实战Python:利用python在pycharm开发终端简易计算器
2019-04-27
谷歌浏览器:解决谷歌浏览器打开是毒霸网址大全
2019-04-27
实战HTML:登陆界面的实现
2019-04-27
SQL:PostgreSQL+PostGIS的安装以及C# GDAL开发环境配置
2019-04-27
爬虫:Python爬虫学习笔记之爬虫基础
2019-04-27
实战Python:利用Python和PyQt5实现瑞幸咖啡点餐系统
2019-04-27
爬虫:Python爬虫学习笔记之Urllib库
2019-04-27
爬虫:Python爬虫学习笔记之网页解析基础——爬取360导航栏目
2019-04-27
实战Python:利用Python实现基于终端的文本行编辑程序
2019-04-27
Python:学习笔记之PyQt5
2019-04-27
面向对象(Python):学习笔记之封装
2019-04-27
Python:字符串、列表、元组、字典之间的相互转换
2019-04-27
面向对象(Python):学习笔记之私有属性和私有方法
2019-04-27
HTML:表单学习笔记
2019-04-27
C#:$符号和@符号的用法介绍
2019-04-27
C#:常用字符整理自用
2019-04-27
面向对象(Python):学习笔记之继承
2019-04-27
Pannellum:实例之自定义热点信息
2021-06-30
Pannellum:实例之简单热点
2021-06-30