实战项目五:抓取简书文章信息
发布日期:2021-07-01 04:21:58
浏览次数:81
分类:技术文章
本文共 1175 字,大约阅读时间需要 3 分钟。
源码:
from fake_useragent import UserAgentfrom lxml import etreeimport lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq"def getHtml(url): ''' 获取网页源码 return html ''' headers = { "Host": "www.jianshu.com", "Referer": "https://www.jianshu.com/", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36" } req = requests.get(url, headers=headers) html = etree.HTML(req.text) return htmldef parse(html): ''' 解析网页 ''' nodes = html.xpath("//ul[@class='note-list']/li//div[@class='content']") for node in nodes: title = node.xpath(".//a[@class='title']/text()")[0] nickname = node.xpath(".//div[@class='meta']/a/text()")[0] comment = node.xpath(".//div[@class='meta']/a//text()")[2].strip() like = node.xpath(".//div[@class='meta']/span/text()")[0].strip() essay = { "title" : title, "nickname" : nickname, "comment" : comment, "like" : like } print("文章信息:{}".format(essay))def main(): html = getHtml(url) parse(html)if __name__ == '__main__': main()
有不明的地方在下方留言,我看到后会尽快回复的
欢迎进行我的博客导航: 我的专栏:、转载地址:https://mtyjkh.blog.csdn.net/article/details/86819881 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
感谢大佬
[***.8.128.20]2024年04月03日 16时39分19秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
【Leetcode刷题篇】leetcode301 删除无效的括号
2019-04-26
【Leetcode刷题篇】leetcode239 滑动窗口最大值
2019-04-26
【Leetcode刷题篇】leetcode76 最小覆盖子串
2019-04-26
【Leetcode刷题篇】leetcode10 正则表达式匹配
2019-04-26
【Leetcode刷题篇】leetcode32 最长有效括号
2019-04-26
【Leetcode刷题篇】leetcode128 最长连续序列
2019-04-26
【Leetcode刷题篇】leetcode72 编辑距离
2019-04-26
【Leetcode刷题篇】leetcode312 戳气球
2019-04-26
前后端分离如何使用spring boot处理跨域请求
2019-04-26
【Leetcode刷题篇】leetcode283 移动零
2019-04-26
【Leetcode刷题篇】leetcode611 有效三角形的个数
2019-04-26
【Leetcode刷题篇】leetcode26 删除排序数组中的重复项
2019-04-26
【大话Java面试】-如何通俗易懂的理解Redis的分布式寻址算法hash slot?
2019-04-26
【大话Java面试】-如何通俗易懂的理解单例模式?
2019-04-26
【大话Java面试】请列出Java中几个常用的设计模式?
2019-04-26
【大话Java面试】-如何通俗易懂的理解Java异常以及Java异常处理?
2019-04-26
【大话Mysql面试】-Mysql的索引为什么要使用B+树,而不是B树,红黑树等之类?
2019-04-26
【大话Mysql面试】-如何通俗易懂的了解Mysql的索引最左前缀匹配原则
2019-04-26
【大话Mysql面试】-MYSQL的两种存储引擎MyISAM与InnoDB的区别是什么?
2019-04-26