python网络爬虫入门
发布日期:2022-09-27 12:01:42 浏览次数:2 分类:技术文章

本文共 1123 字,大约阅读时间需要 3 分钟。

一.爬虫理解:通过代码、模拟浏览器上网 然后抓取数据的过程 数据解析

二.爬虫的分类:

    1.获取一整张页面 【通用爬虫】
    2.获取一整张页面 部分数据 【聚焦爬虫】
    3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】
三.爬虫技术
    1.urllib 【老】
    2.requests 【好用】

pip install requests

       1).是什么

        python自带的 基于网络请求的模块 功能强大 简单高效
       2).干什么
        模拟浏览器发送请求
       3).怎么用:
         1.指定url
         2.发送请求【get、post】
         3.获取相应的数据
         4.存储数据

数据解析分类: 

    1.正则 【了解】
    2.bs4 
    3.xpath 【重要】 scrapy 开源的爬虫框架

使用scrapy框架流程

1.创建一个项目

    scrapy startproject test_scrapy

        1.项目目录:

            1.scrapy.cfg  【项目的配置文件】
            2.settings.py  【项目的配置文件】
            3. spiders/  【防止 爬虫代码的目录】
    2.编写爬虫代码
        1.创建一个 爬虫代码
        scrapy genspider [options] <name> <domain>

        scrapy genspider python01 www.xxx.com

     '''

    name:
        1.不能重复
        2.爬虫文件的名字
    '''
    name = 'python01'
    '''
       scrapy 允许爬取的 url 
    '''
    allowed_domains = ['www.baidu.com']
    '''
        scrapy 去爬取的 url 列表
    '''
    start_urls = ['http://www.baidu.com/','https://www.sougou.com']

    3.启动爬虫项目

        1.启动命令
        scrapy runspider [options] <spider_file>

        scrapy runspider ./test_scrapy/spiders/python01.py

        scrapy crawl python01

        scrapy crawl python01 --nolog 【使用命令 不显示日志信息】

        2.数据解析:

            1.标签定位:
                返回 selector(xpath,data[xpath表达式 结果])
            2.数据解析
                返回 selector(xpath,data[xpath表达式 结果])
            
            3.取值
                .get()
                .getall()
        
        3.存储数据【持久化数据】
            scrapy crawl python01 -o ./xxx.json(csv)等 【不支持txt格式】

 

转载地址:https://blog.csdn.net/weixin_46827382/article/details/124153826 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Python网络爬虫关于某牙直播的项目(上)
下一篇:python网络爬虫——自学笔记2.1用requests库和re库爬取图片

发表评论

最新留言

初次前来,多多关照!
[***.217.46.12]2024年04月21日 00时07分07秒