搜索公众号文章批量采集抓取爬虫
发布日期:2021-10-26 12:56:49 浏览次数:2 分类:技术文章

本文共 910 字,大约阅读时间需要 3 分钟。

hot3.png

微信小程序公众号订阅号,历史热门文章内容,留言阅读数量点赞数量等数据都可以采集抓取,怎样做?方法会很难吗?楚江数据 p02721606 给你几个微信公众号爬虫,微信数据采集爬取so easy!

1.基于搜狗微信搜索的微信公众号爬虫

a. 项目地址:

b. 基于搜狗微信搜索的微信公众号爬虫接口开发,可获取文章的临时链接,获取微信公众号的最近10篇文章

2.微信公众号爬虫 (基于中间人攻击的爬虫核心实现,支持批量爬取公众号所有历史文章)

a. 项目地址:

b. 通过Man-In-Middle 代理方式获取微信服务端返回,自动模拟请求自动分页,抓取对应点击的所有历史文章

3.使用Python实现的微信公众号爬虫

a. 项目地址:

4.爬取指定微信公众号的全部历史文章,使用 JS 实现

a. 项目地址:

b. 目前需要手动获取 cookie 等验证信息

5.基于搜狗微信入口的微信爬虫程序,使用Python实现。

a. 项目地址:

b. 由基于phantomjs的python实现。 使用了收费的动态代理。 采集包括文章文本、阅读数、点赞数、评论以及评论赞数。 效率:500公众号/小时。 根据采集的公众号划分为多线程,可以实现并行采集。

6.Java 基于selenium抓取搜狗微信公众号文章

a. 项目地址:

访问接口需要的参数:

uin : 用户对于公众号的唯一ID, 本来是一个数字, 传的是base64之后的结果;

key : 与公众号和uin绑定, 过期时间大概是半小时;

pass_ticket: 另外一个验证码, 与uin进行绑定;

req_id: 在文章里HTML里, 每次请求会不一样, 用来构成获取阅读点赞接口的RequestBody, 一次有效;

获取阅读点赞接口有频率限制, 测试的结果是一个微信号5分钟可以查看30篇文章的阅读点赞

【楚江数据】有更多互联网网站app数据采集,爬虫开发技巧及思路,数据、图片批量采集服务!欢迎交流,微信 p02721606,或淘宝搜索店铺“”。

参考文章:

转载于:https://my.oschina.net/mickelfeng/blog/839869

转载地址:https://blog.csdn.net/weixin_33782386/article/details/92486674 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Flume学习之Spillable Memory Channel
下一篇:Teamcity集成环境下的Agent编译节点安装说明

发表评论

最新留言

哈哈,博客排版真的漂亮呢~
[***.90.31.176]2024年04月10日 02时41分18秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章