通过搜狗的公众号搜索爬微信公众号文章
来源:互联网 发布:网络安全措施 编辑:程序博客网 时间:2024/05/29 19:21
import requests as reqimport refrom bs4 import BeautifulSoupsougou_url = "http://weixin.sogou.com/weixin?type=1&query=新闻哥"r1 = req.get(sougou_url)soup=BeautifulSoup(r1.text)data = str(soup.find_all(uigs="account_image_0"))print(data)reg_str = r'href="(.*?)"' pattern = re.compile(reg_str,re.DOTALL)items = re.findall(pattern,data)xinwenge_url = items[0].replace('amp;','')def get_xinwenge_content(link): r2 = req.get(link) soup = BeautifulSoup(r2.text).body content = "" for one in soup(class_="rich_media_content "): content += one.get_text() return contentr = req.get(xinwenge_url)print(r.status_code)data = r.text#print(data)soup=BeautifulSoup(data)body = str(soup.body)print(body)print(type(body))reg_str = r'"author".*?"content_url":"(.*?)".*?"copyright_stat":(.*?),.*?"title":"(.*?)"}' pattern = re.compile(reg_str,re.DOTALL)items = re.findall(pattern,data)print(type(items))#for item in items:# print(item[1])print("----------------") reg_str2 = r'"app_msg_ext_info".*?"content_url":"(.*?)","copyright_stat":(.*?),.*?"is_multi".*?"subtype":9,"title":"(.*?)"},"comm'pattern2 = re.compile(reg_str2,re.DOTALL)items2 = re.findall(pattern2,data)items3 = items+items2for i in items3: title = i[2] wibsite = xinwenge_url is_original = True url = "https://mp.weixin.qq.com"+str(i[0]).replace('amp;','') content = get_xinwenge_content(url) author = "新闻哥" print(url)
阅读全文
0 0
- 通过搜狗的公众号搜索爬微信公众号文章
- 搜狗推微信公众平台搜索 可搜公众号与文章
- 搜狗推微信公众平台搜索 可搜公众号与文章
- 公众号SEO:如何做好公众号和文章的搜索优化?
- 公众号文章的爬虫
- 公众号文章链接
- 三十一、利用微信搜索抓取公众号文章
- 利用微信搜索抓取公众号文章
- 教你如何搜索公众号中的文章
- 郭霖公众号的文章连接
- 获取公众号的所有文章
- 如何通过RSS阅读微信公众号文章
- get√—搜索微信公众号【Dotnet跨平台】指定文章的办法
- 还找不到想要的文章吗?微信公众号搜索方法大全
- 微信公众号文章的爬取(搜狗微信搜索)
- 利用搜狗抓取微信公众号文章
- 公众号文章返回按钮
- 搜狗微信公众号文章抓取
- 2.优化表面的加载
- 58前端笔试
- 轮询任务调度于抢占式任务调度概念及区别
- Hadoop集群搭建文档
- 血与泪的教训: 中文乱码问题整合(Java)
- 通过搜狗的公众号搜索爬微信公众号文章
- 不爽 吐槽一下
- 动态代理学习笔记
- 算法设计与分析
- Java练习
- MergeSort
- poj 1416 “特别锁链”
- DFS:101. Symmetric Tree
- 阿里校招应届生面试经验