大海啊,夏天啊,全是腿啊
发布日期:2021-07-01 00:31:18
浏览次数:3
分类:技术文章
本文共 1407 字,大约阅读时间需要 4 分钟。
知乎还是很友好的 总体来说没啥难度 简单说下思路
1.评论是动态加载的 直接找json接口
2.分析接口参数,我测试的时候一次最多能拿20条数据(不过我还是一条一条拿的)
3.循环发送请求,其实可以先把评论数抓下来再for range 我只是比较懒(。・ω・。)
4.有的评论没图片,简单try一下或者if处理
首先需要引入爬虫库
import requestsfrom bs4 import BeautifulSoupimport json
发送请求
#发送请求函数def getpage(header, cookie): for i in range(1000,2000): base_url = 'https://www.zhihu.com/api/v4/questions/29815334/answers?include=data%5B*%5D.is_normal%2Cadmin_closed' \ '_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis' \ '_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent&offset=' + str(i) + '&limit=1&sort' \ '_by=default' response = requests.get(base_url, headers=header, cookies=cookie) html = response.text img_json = json.loads(html) print('正在抓取知乎长腿小姐姐图片 第%s条评论'% i) contentpage(img_json)
解析json数据
#解析json数据def contentpage(img_json): try: data = img_json["data"][0] content = data["content"] # print(content) html = BeautifulSoup(content,'lxml') # 提取img标签 由于会抓到两张一页的图片所以每隔一个提取一次 img_page = html.select('img')[::2] for i in img_page: address = i.get('src') # print(address) imgpage(address) except: print('此评论没有图片')
大家需要源码可以直接关注《志学Python》公众号,回复‘长腿妹子’,直接给你网盘地址,过期了可以直接后台回复,看到我会回复的
随便挑了几张给你们欣赏下!
转载地址:https://m528964214.blog.csdn.net/article/details/105911615 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月21日 15时25分05秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Python之命名元组 (namedtuple)
2019-05-01
使用libpcap过滤arp
2019-05-01
微软C/C++ 编译器选项参考
2019-05-01
VS 2005使用map文件查找程序崩溃原因
2019-05-01
VC下发布的Release版程序的异常捕捉
2019-05-01
DivX和XviD不能不说的故事
2019-05-01
C++异常中的堆栈跟踪
2019-05-01
使用dbghelp获取调用堆栈--release下的调试方法
2019-05-01
星巴克高管称Windows 8将无足轻重
2019-05-01
三层网络体系结构的特点和实现方法
2019-05-01
调试Release发布版程序的Crash错误(一)
2019-05-01
在VC环境中调试跟踪变量
2019-05-01
开源网络通信库参考
2019-05-01
c++/c#类互用
2019-05-01
我的C++实践(10-15)
2019-05-01
实验吧杂项-流量日志分析
2019-05-01
C++ Singleton (单例) 模式最优实现
2019-05-01
linux进程、线程与cpu的亲和性(affinity)
2019-05-01
mac的terminal快捷键
2019-05-01