某师范大学文章最新时间的爬取
发布日期:2022-03-04 11:48:29
浏览次数:10
分类:技术文章
本文共 1285 字,大约阅读时间需要 4 分钟。
import requests
import time from bs4 import BeautifulSoupdef get_data():
# 加入请求头 headers = { ‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9’, ‘Connection’: ‘keep-alive’, ‘Host’: ‘em.scnu.edu.cn’, ‘If-Modified-Since’: ‘Mon, 21 Jun 2021 04:19:30 GMT’, ‘If-None-Match’: ‘“3d7490a15466d71:0”’, ‘Upgrade-Insecure-Requests’: ‘1’, ‘User-Agent’: ‘’ } # 需要爬取网页的url url = ‘={}/’.format(‘论文’) # 遍历一个列表,返回一个输入值 # 将headers封装进request函数中,让返回一个值 res = requests.get(headers=headers, url=url).content print(res)def input_data():
# 实例化Beautifulsoup对象,需要将网页源码加载到该对象中。 soup = BeautifulSoup(res, ‘lxml’) # 解析出文章的时间和标题 p_list = soup.select(’.linkBox3> p’) print(p_list) fp = open(‘huananshifan.txt’, ‘w’, encoding=‘utf-8’) for p in p_list: title = p.a.string time = p.span.string # 这边是获取到网页的时间,但是我并不确定是不是要用到string,时间或许要用到其他。 detail_url = p.a[‘href’] detail_page_text = requests.get(url=detail_url, headers=headers).content # 解析出详情页中的数据 detail_soup = BeautifulSoup(detail_page_text, ‘lxml’) div_tag = detail_soup.find(‘div’, class_=‘article’) # 解析到章节内容 content = div_tag.text fp.write(title + time + ‘:’ + content + ‘\n’) print(title + time, ‘爬取成功!!!’)if name == ‘main’:
get_data() input_data() time.sleep(2)转载地址:https://blog.csdn.net/xxy_yinji/article/details/119004044 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
做的很好,不错不错
[***.243.131.199]2024年04月13日 14时58分48秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
安卓——蓝牙listView搜索以及点击事件
2019-04-26
安卓——WIFI列表以及点击事件
2019-04-26
安卓——WIFI连接
2019-04-26
安卓——关于一些ui界面设置(直续更新ing)
2019-04-26
刷门禁——判断卡号是否一样(String==String)出现False
2019-04-26
好久没刷题了(阿里测试题)
2019-04-26
安卓界面——最开始界面的加载
2019-04-26
安卓——屏蔽陌生来电
2019-04-26
安卓——小笔记
2019-04-26
客户端面试万金油
2019-04-26
【u3d泰斗破坏神】05 --- 角色移动 velocity 的相关问题
2019-04-26
【u3d泰斗破坏神】06 --- Loading界面进度条Slider的使用
2019-04-26
【u3d泰斗破坏神】07 --- 角色攻击动画拆分、状态机设计
2019-04-26
【u3d泰斗破坏神】08 --- UGUI 制作艺术字体
2019-04-26
【u3d泰斗破坏神】09 --- 角色血条的制作、掉血特效
2019-04-26
Unity Shader 入门精要(01) -- 渲染流水线
2019-04-26
Unity Shader 入门精要(02) -- shader的编码基础
2019-04-26
Unity Shader 入门精要(03) -- Unity的基础光照
2019-04-26
Unity Shader 入门精要(04) -- 基础纹理
2019-04-26
Unity3D 移动平台的资源路径问题
2019-04-26