搜狗微信公众号文章反爬虫完美攻克
来源:互联网 发布:升级到mac os sierra 编辑:程序博客网 时间:2024/05/29 04:59
很简单,selenium + chromedriver,搜狗的部分直接在chrome模拟浏览器内部操作即可,而mp.weixin.qq.com则是腾讯的了,不反爬虫,用urllib requests等等即可。
需要扫码登陆,不扫码只能采取10页数据
from selenium import webdriverimport timefrom bs4 import BeautifulSoupimport threadingdriver = webdriver.Chrome()driver.get("http://weixin.sogou.com/")driver.find_element_by_xpath('//*[@id="loginBtn"]').click()find = input("输入你想查找的关键词")driver.find_element_by_xpath('//*[@id="query"]').send_keys("%s"%find)driver.find_element_by_xpath('//*[@id="searchForm"]/div/input[3]').click()time.sleep(2)url_list = []while True: page_source = driver.page_source #print(page_source) bs_obj = BeautifulSoup(page_source,"html.parser") one_url_list = bs_obj.findAll("div",{"class":"txt-box"}) for url in one_url_list: url_list.append(url.h3.a.attrs['href']) #print(url.h3.a.attrs['href']) next_page = "http://weixin.sogou.com/weixin" + bs_obj.find("a",{"id":"sogou_next"}).attrs['href'] driver.get(next_page) time.sleep(1)def get_img(url,num,connect,cursor): response = requests.get(url,headers = header).content content = str(response,encoding = "utf-8") bs_obj = BeautifulSoup(content,"html.parser") img_list = bs_obj.findAll("img") count = 0 for img in img_list: try: imgurl=get_total_url(img.attrs["data-src"]) store_name = "%s"%url_num+"%s"%count path = r"C:\Users\Mr.Guo\Pictures\weixin" check_mkdir(path) urllib.request.urlretrieve(imgurl,r"C:\Users\Mr.Guo\Pictures\weixin\%s.jpeg" %store_name) insert_into_table(connect,cursor,store_name,html) count += 1 except Exception as e: passfor url_num in range(len(url_list)): t = threading.Thread(target = get_img,args = (url_list[url_num],url_num,connect,cursor,)) t.start()
阅读全文
0 0
- 搜狗微信公众号文章反爬虫完美攻克
- 公众号文章的爬虫
- python scrapy爬取微信公众号文章的爬虫
- 爬虫完美绕过服务器反爬检查
- 搜狗微信公众号文章抓取
- 爬虫爬取微信公众号
- 快速搭建基于《搜狗微信》的公众号爬虫---搜狗微信公众号爬虫教程
- 如何将Markdown文章轻松地搬运到微信公众号并完美地呈现代码内容
- 如何将Markdown文章轻松地搬运到微信公众号并完美地呈现代码内容
- 爬虫抓取微信公众号文章及阅读点赞总结
- 使用WebController爬虫框架进行微信公众号文章爬取并持久化
- 公众号文章链接
- 微信公众号爬虫
- 微信公众号爬虫
- 【爬虫-反爬虫】系列二:【文章精选2】 钱曙光论爬虫
- 【爬虫-反爬虫】系列二:【文章精选1】-互联网网站的反爬虫策略浅析
- 在线微信编辑器(构思编辑器)——如何让微信公众号文章图文设计更完美
- 反爬虫
- bzoj 5105~5108 垃圾题解
- 【Scikit-Learn 中文文档】验证曲线: 绘制分数以评估模型
- 微信小程序学习笔记2
- 计算机网络: IP地址,子网掩码,网段表示法,默认网关,DNS服务器详解
- spring官网下载时.dist,.docs,.schema后缀分别代表什么意思
- 搜狗微信公众号文章反爬虫完美攻克
- C#算法系列(3)——二叉排序树
- 图片高斯模糊效果
- java观察者模式
- Dota2 AI 简易开发教程(一)——选择阵容及技能使用
- 求完数
- Hello world
- 对于glm模型summary()输出的汇总结果
- Java的native方法