用python爬取微信公众号文章

来源：互联网发布：电路图绘制软件编辑：程序博客网时间：2024/06/13 09:56

本文通过微信提供的公众号文章调用接口，实现爬取公众号文章的功能。

注意事项
1.需要安装python selenium模块包，通过selenium中的webdriver驱动浏览器获取Cookie的方法、来达到登录的效果；
2.使用webdriver功能需要安装对应浏览器的驱动插件，我这里测试用的是谷歌浏览器：
google chrome版本为52.0.2743.6 ;
chromedriver版本为：V2.23
注意：谷歌浏览器版本和chromedriver需要对应，否则会导致启动时报错。【附：selenium之 chromedriver与chrome版本映射表(更新至v2.30)http://blog.csdn.net/huilan_same/article/details/51896672）】
3.微信公众号登陆地址：https://mp.weixin.qq.com/
4.微信公众号文章接口地址可以在微信公众号后台中新建图文消息，超链接功能中获取：
这里写图片描述
5.搜索公众号名称

搜索可以获取所有相关的公众号信息，不过我这里只取第一个做测试，其他的有兴趣的也可以全部获取。
6.获取要爬取的公众号的fakeid

7.选定要爬取的公众号，获取文章接口地址

8.文章列表翻页及内容获取
这里写图片描述
9.详细细节查资料研究吧，可参考崔大神的文章，本文参照原文进行整理说明（原文地址：https://mp.weixin.qq.com/s?__biz=MzI5NDY1MjQzNA==&mid=2247483970&idx=1&sn=cde40462d2346ded8e8c11ab4442bbab&chksm=ec5edd3fdb2954299e5b4736b3729014d4853e50e643de06640ba3af370753db069667511db1&mpshare=1&scene=1&srcid=0612suzxGJXTmoak9i81rRSZ&pass_ticket=YsJz0pUrK8Yj6XuoyHfGbfjFAgRZ9wHQMTLCnfaYLlQGaOXangzh2LWgrfB8lf76#rd）
完整代码

# -*- coding: utf-8 -*-from selenium import webdriverimport timeimport jsonimport requestsimport reimport random#微信公众号账号user="你的公众号账号"#公众号密码password="你的公众号密码"#设置要爬取的公众号列表gzlist=['要爬取的公众号名字']#登录微信公众号，获取登录之后的cookies信息，并保存到本地文本中def weChat_login():    #定义一个空的字典，存放cookies内容    post={}    #用webdriver启动谷歌浏览器    print("启动浏览器，打开微信公众号登录界面")    driver = webdriver.Chrome(executable_path='C:\chromedriver.exe')    #打开微信公众号登录页面    driver.get('https://mp.weixin.qq.com/')    #等待5秒钟    time.sleep(5)    print("正在输入微信公众号登录账号和密码......")    #清空账号框中的内容    driver.find_element_by_xpath("./*//input[@id='account']").clear()    #自动填入登录用户名    driver.find_element_by_xpath("./*//input[@id='account']").send_keys(user)    #清空密码框中的内容    driver.find_element_by_xpath("./*//input[@id='pwd']").clear()    #自动填入登录密码    driver.find_element_by_xpath("./*//input[@id='pwd']").send_keys(password)    # 在自动输完密码之后需要手动点一下记住我    print("请在登录界面点击:记住账号")    time.sleep(10)    #自动点击登录按钮进行登录    driver.find_element_by_xpath("./*//a[@id='loginBt']").click()    # 拿手机扫二维码！    print("请拿手机扫码二维码登录公众号")    time.sleep(20)    print("登录成功")    #重新载入公众号登录页，登录之后会显示公众号后台首页，从这个返回内容中获取cookies信息    driver.get('https://mp.weixin.qq.com/')    #获取cookies    cookie_items = driver.get_cookies()    #获取到的cookies是列表形式，将cookies转成json形式并存入本地名为cookie的文本中    for cookie_item in cookie_items:        post[cookie_item['name']] = cookie_item['value']    cookie_str = json.dumps(post)    with open('cookie.txt', 'w+', encoding='utf-8') as f:        f.write(cookie_str)    print("cookies信息已保存到本地")#爬取微信公众号文章，并存在本地文本中def get_content(query):    #query为要爬取的公众号名称    #公众号主页    url = 'https://mp.weixin.qq.com'    #设置headers    header = {        "HOST": "mp.weixin.qq.com",        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"        }    #读取上一步获取到的cookies     with open('cookie.txt', 'r', encoding='utf-8') as f:        cookie = f.read()    cookies = json.loads(cookie)    #登录之后的微信公众号首页url变化为：https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598，从这里获取token信息    response = requests.get(url=url, cookies=cookies)    token = re.findall(r'token=(\d+)', str(response.url))[0]    #搜索微信公众号的接口地址    search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'    #搜索微信公众号接口需要传入的参数，有三个变量：微信公众号token、随机数random、搜索的微信公众号名字    query_id = {        'action': 'search_biz',        'token' : token,        'lang': 'zh_CN',        'f': 'json',        'ajax': '1',        'random': random.random(),        'query': query,        'begin': '0',        'count': '5'        }      #打开搜索微信公众号接口地址，需要传入相关参数信息如：cookies、params、headers    search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id)    #取搜索结果中的第一个公众号    lists = search_response.json().get('list')[0]    #获取这个公众号的fakeid，后面爬取公众号文章需要此字段    fakeid = lists.get('fakeid')    #微信公众号文章接口地址    appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'    #搜索文章需要传入几个参数：登录的公众号token、要爬取文章的公众号fakeid、随机数random    query_id_data = {        'token': token,        'lang': 'zh_CN',        'f': 'json',        'ajax': '1',        'random': random.random(),        'action': 'list_ex',        'begin': '0',#不同页，此参数变化，变化规则为每页加5        'count': '5',        'query': '',        'fakeid': fakeid,        'type': '9'        }    #打开搜索的微信公众号文章列表页    appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)    #获取文章总数    max_num = appmsg_response.json().get('app_msg_cnt')    #每页至少有5条，获取文章总的页数，爬取时需要分页爬    num = int(int(max_num) / 5)    #起始页begin参数，往后每页加5    begin = 0    while num + 1 > 0 :        query_id_data = {            'token': token,            'lang': 'zh_CN',            'f': 'json',            'ajax': '1',            'random': random.random(),            'action': 'list_ex',            'begin': '{}'.format(str(begin)),            'count': '5',            'query': '',            'fakeid': fakeid,            'type': '9'            }        print('正在翻页：--------------',begin)        #获取每一页文章的标题和链接地址，并写入本地文本中        query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)        fakeid_list = query_fakeid_response.json().get('app_msg_list')        for item in fakeid_list:            content_link=item.get('link')            content_title=item.get('title')            fileName=query+'.txt'            with open(fileName,'a',encoding='utf-8') as fh:                fh.write(content_title+":\n"+content_link+"\n")        num -= 1        begin = int(begin)        begin+=5        time.sleep(2)if __name__=='__main__':    try:        #登录微信公众号，获取登录之后的cookies信息，并保存到本地文本中        weChat_login()        #登录之后，通过微信公众号后台提供的微信公众号文章接口爬取文章        for query in gzlist:            #爬取微信公众号文章，并存在本地文本中            print("开始爬取公众号："+query)            get_content(query)            print("爬取完成")    except Exception as e:        print(str(e))

阅读全文

4 0