wx订阅号 转载>>

来源:互联网 发布:软件外包的上市公司 编辑:程序博客网 时间:2024/05/10 10:23
  链接: https://cuiqingcai.com/4652.html

静觅 崔庆才的个人博客

博主录制的Python3爬虫视频教程已发布!详情请戳Python3爬虫视频教程!希望大家支持!非常感谢!

原文链接:https://cuiqingcai.com/4652.html

利用新接口抓取微信公众号的所有文章

 Python 哎哟卧槽  7个月前 (06-07)  16584浏览  12评论

各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊!

直到············

前天晚上微信官方发布了一个文章:点我

大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。

诶妈呀!这不是一直需要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下方法。

1、首先你需要一个订阅号! 公众号、和企业号是否可行我不清楚。因为我木有·····

2、其次你需要登录!

微信公众号登录我没仔细看。

这个暂且不说了,我使用的是selenium 驱动浏览器获取Cookie的方法、来达到登录的效果。

3、使用requests携带Cookie、登录获取URL的token(这玩意儿很重要每一次请求都需要带上它)像下面这样:

4、使用获取到的token、和公众号的微信号(就是数字+字符那种)、获取到公众号的fakeid(你可以理解公众号的标识)

我们在搜索公众号的时候浏览器带着参数以GET方法想红框中的URL发起了请求。请求参数如下:

请求相应如下:

代码如下:

好了 我们再继续:

5、点击我们搜索到的公众号之后、又发现一个请求:

请求参数如下:

返回如下:

代码如下:

 

好了···最后一步、获取所有文章需要处理一下翻页、翻页请求如下:

我大概看了一下、极客学院每一页大概至少有5条信息、也就是总文章数/5 就是有多少页。但是有小数、我们取整,然后加1就是总页数了。

代码如下:

 

item.get(‘link’)就是我们需要的公众号文章连接啦!继续请求这个URL提取里面的内容就是啦!

以下是完整的测试代码:

 

 

 

 

以上完毕!这就是个测试、代码写得奇丑、各位将就着看啊!看不明白?没关系!看这儿:点我看视频

转载请注明:静觅 » 利用新接口抓取微信公众号的所有文章

喜欢 (86)or分享 (0)

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请狠狠点击下面的

想结交更多的朋友吗?

来进击的Coder瞧瞧吧

进击的Coder

QQ群号 99350970 立即加入

进击的Coder灌水太多?

这里是纯粹的技术领地

激进的Coder

QQ群号 627725766 立即加入

想找人聊天解闷?想要学习干货?

微信公众号进击的Coder为你打造

进击的Coder

微信公众号 扫一扫关注

 获取知乎问题答案并转换为MarkDown文件小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider;瞎几把整的) 
评论(0人参与10条评论)