python 爬虫(起点)网络小说
发布日期:2021-06-30 08:07:30
浏览次数:4
分类:技术文章
本文共 891 字,大约阅读时间需要 2 分钟。
1 先确定要爬取的小说是get 请求换是post 请求
1.1先在网站上打开一篇小说:
1.2 f12 进去开发者模式
1.3 切换到NetWork 发现有一个空白,可以点击左侧的小说内容
NetWork 中间有没有连接的,我是重新打开然后重新f12 查看
一般都是可以看到Name 下面有连接的
确认是get 请求之后,先确认电脑上是否下载2个工具 requests(负责连接网站处理http 协议) 和 bs4(bs4负责将网页变成结构化数据)
没有的话可以下载 终端中使用 pip install requests , pip install beautifulsoup4 下载,或者使用其他工具easy_install 下载
准备好之后开始写代码,
下面代码都有注释,代码很少就不多说了,
# 负责连接网站处理http 协议import requests# bs4负责将网页变成结构化数据from bs4 import BeautifulSoupdef getContent(): # 定义一个url url = "https://read.qidian.com/chapter/tlBx1lEZoo3djrstIrF5-w2/-hwjPfM_yFT6ItTi_ILQ7A2" # 获取网页的url req_url = requests.get(url) # 获取网页html信息 req_html = req_url.text # bs4 处理 bs_obj = BeautifulSoup(req_html, "html.parser") # find_all 匹配 div 和 class texts = bs_obj.find_all("div", class_="read-content j_readContent") # 使用text属性 过滤文字 print(texts[0].text)if __name__ == "__main__": getContent()
运行效果如下
转载地址:https://huxiaomu.blog.csdn.net/article/details/116162671 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
初次前来,多多关照!
[***.217.46.12]2024年04月07日 00时39分19秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
shell脚本之awk工具详解
2019-04-30
shell脚本之排序工具(sort、uniq)
2019-04-30
shell脚本之expect免交互
2019-04-30
shell编程之实战----MAC记录与端口扫描脚本、开发系统监控脚本
2019-04-30
ELK日志分析系统原理与部署
2019-04-30
Nginx访问状态以及基于多域名、多端口、多IP配置虚拟主机
2019-04-30
Nginx优化及防盗链
2019-04-30
Docker简介和安装优化
2019-04-30
Docker之镜像、容器的管理命令详解
2019-04-30
Docker-构建镜像、私有仓库registry、数据卷、端口映射、容器互联
2019-04-30
Tomcat安装部署、构建虚拟主机以及优化参数
2019-04-30
Nginx 之 Rewrite和具体场景
2019-04-30
Dockerfile构建编译MYSQL-5.6、MYSQL-5.7镜像
2019-04-30
Docker Compose容器编排工具
2019-04-30
docker的资源控制(CPU、内存、IO)
2019-04-30
Docker Consul 工具(理论+实操)
2019-04-30
Docker容器通信安全----TLS加密通讯
2019-04-30
Docker-------私有仓库 Harbor 的搭建
2019-04-30
搭建KVM虚拟化平台(实战+理论)
2019-04-30