实战项目五:抓取简书文章信息
发布日期:2021-07-01 04:21:58 浏览次数:81 分类:技术文章

本文共 1175 字,大约阅读时间需要 3 分钟。

源码:

from fake_useragent 			import UserAgentfrom lxml 						import etreeimport lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq"def getHtml(url):	'''	获取网页源码	return html	'''	headers = {
"Host": "www.jianshu.com", "Referer": "https://www.jianshu.com/", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36" } req = requests.get(url, headers=headers) html = etree.HTML(req.text) return htmldef parse(html): ''' 解析网页 ''' nodes = html.xpath("//ul[@class='note-list']/li//div[@class='content']") for node in nodes: title = node.xpath(".//a[@class='title']/text()")[0] nickname = node.xpath(".//div[@class='meta']/a/text()")[0] comment = node.xpath(".//div[@class='meta']/a//text()")[2].strip() like = node.xpath(".//div[@class='meta']/span/text()")[0].strip() essay = {
"title" : title, "nickname" : nickname, "comment" : comment, "like" : like } print("文章信息:{}".format(essay))def main(): html = getHtml(url) parse(html)if __name__ == '__main__': main()

有不明的地方在下方留言,我看到后会尽快回复的

欢迎进行我的博客导航:
我的专栏:、

转载地址:https://mtyjkh.blog.csdn.net/article/details/86819881 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:数据分析系列:绘制散点图(matplotlib)
下一篇:知识点讲解六:fake-useragent的用法

发表评论

最新留言

感谢大佬
[***.8.128.20]2024年04月03日 16时39分19秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

【Leetcode刷题篇】leetcode301 删除无效的括号 2019-04-26
【Leetcode刷题篇】leetcode239 滑动窗口最大值 2019-04-26
【Leetcode刷题篇】leetcode76 最小覆盖子串 2019-04-26
【Leetcode刷题篇】leetcode10 正则表达式匹配 2019-04-26
【Leetcode刷题篇】leetcode32 最长有效括号 2019-04-26
【Leetcode刷题篇】leetcode128 最长连续序列 2019-04-26
【Leetcode刷题篇】leetcode72 编辑距离 2019-04-26
【Leetcode刷题篇】leetcode312 戳气球 2019-04-26
前后端分离如何使用spring boot处理跨域请求 2019-04-26
【Leetcode刷题篇】leetcode283 移动零 2019-04-26
【Leetcode刷题篇】leetcode611 有效三角形的个数 2019-04-26
【Leetcode刷题篇】leetcode26 删除排序数组中的重复项 2019-04-26
【大话Java面试】-如何通俗易懂的理解Redis的分布式寻址算法hash slot? 2019-04-26
【大话Java面试】-如何通俗易懂的理解单例模式? 2019-04-26
【大话Java面试】请列出Java中几个常用的设计模式? 2019-04-26
【大话Java面试】-如何通俗易懂的理解Java异常以及Java异常处理? 2019-04-26
【大话Mysql面试】-Mysql的索引为什么要使用B+树,而不是B树,红黑树等之类? 2019-04-26
【大话Mysql面试】-如何通俗易懂的了解Mysql的索引最左前缀匹配原则 2019-04-26
【大话Mysql面试】-MYSQL的两种存储引擎MyISAM与InnoDB的区别是什么? 2019-04-26
【大话Mysql面试】-InnoDB可重复读隔离级别下如何避免幻读?MVCC和next-key是什么 2019-04-26