使用AnyProxy自动抓取微信公众号数据-包括阅读数和点赞数
来源:互联网 发布:淘宝注册公司靠谱吗 编辑:程序博客网 时间:2024/06/08 14:05
使用AnyProxy自动抓取微信公众号数据-包括阅读数和点赞数
目录
- 使用AnyProxy自动抓取微信公众号数据-包括阅读数和点赞数
- 目录
- 原理图
- 安装Nodejs
- 安装AnyProxy 代理服务器
- 启动AnyProxy
- 安装HTTPS 网络传输所需的证书
- 电脑安装
- 手机安装
- 安装mysql 模块部分
- 程序部分
- 程序地址
- 代码部分
- 运行程序部分
- myRulejs 代码主要部分
- 代码原理
- Js 注入详解
- 数据库部分
- 数据库字段解释
准备工作:
- 安装node.js
- 安装AnyProxy代理服务器
- 使用我提供的sql文件和js代码
原理图
1.安装Node.js
去Node.js 官网下载对应操作系统的安装包,然后按照默认步骤安装至电脑中。
下载地址:http://nodejs.cn/download/
安装好之后,打开终端或命令行运行输入下面代码,检查是否安装成功,如果成功,会输出当前Node 版本号。
node -v
2.安装AnyProxy 代理服务器
命令行或终端输入以下命令,表示全局安装AnyProxy 程序包:
npm install -g anyproxy
如果是Mac 系统,可能需要在命令前添加sudo ,然后输入密码:
sudo npm install -g anyproxy
输入以上命令后,电脑会自动从网络下载程序包并安装。
参考网址:https://github.com/alibaba/anyproxy
3. 启动AnyProxy
终端输入:
anyproxy
Mac 系统需输入(以后的命令也是需要输入sudo ,下面就忽略不写了):
sudo anyproxy
如出现下面提示,则表明安装成功:
4. 安装HTTPS 网络传输所需的证书
电脑安装
微信采用加密的HTTPS 网络传输,所以需要安装证书。结束上面的运行程序,一般为ctrl + c 。然后在终端运行命令:
anyproxy –root
此时会在文件夹生成rootCA.crt 证书与对应的密钥rootCA.key,根据提示打开对应文件夹,双击安装rootCA.crt 证书。
手机安装
电脑命令行或终端输入下面命令启动代理程序:
anyproxy
然后浏览器中输入网址http://localhost:8002/qr_root,则会出现证书二维码,然后手机扫描此证书二维码,下载按照提示完成安装即可。
参考网址1:http://anyproxy.io/cn/
安装mysql 模块部分
默认你的电脑上已经安装了mysql 数据库,现在node 连接mysql 数据库,也需要安装一个程序包来实现:
npm install -g mysql
5.程序部分
程序地址
windows 程序AnyProxy 默认的安装目录在:
C:\Users\你的用户名\AppData\Roaming\npm\node_modules\anyproxy
Mac 安装目录为:
/usr/local/lib/node_modules/anyproxy
本程序为修改和增加AnyProxy 中lib 文件中对应的代码部分。
代码部分
文章末尾获取下面5个文件,你只需覆盖掉lib 目录中对应的文件即可。(建议先备份)
./anyproxy ./lib myRule.js rule_default.js 1.png requestHandler.js httpsServerMgr.js
其中逻辑部分主要写在
myRule.js
文件中,此文件已做了详细的注释rule_default.js
是判断各种网络请求数据然后调用对应的方法1.png
为很小的一个图片,替换手机所有图片请求,加快网络传输速度其余两个文件是注释掉了之前在终端打印的一些提示性的字符,不重要
运行程序部分
anyproxy -i
终端输入以上命令即可运行。参数-i
表示开启HTTPS
。
可操作myRule.js
文件,选择对应的功能。修改文件后,需重启程序。
运行后,确保电脑和手机在同一个WiFi 环境下,然后根据提示设置手机WiFi 的代理,输入代理网址与端口(运行后终端会提示连接地址)。
下面是我的设置,手机的代理服务器设置为手动,代理主机名应和电脑IP相同,代理服务器端口为8001:
之后选择查看公众号文章,即可自动抓取数据至数据库中。
myRule.js 代码主要部分
三个主要函数:
getProfile - 对历史页的操作,获取文章其他数据;插入自动翻页代码
getReadAndLikeNum - 获取文章点赞、阅读、打赏等数据
insertJsForRefresh - 对文章页的操作,主要是插入自动翻页代码
代码原理
此程序为事件驱动。即一开始要给定一个触发事件,例如打开微信公众号查看历史消息或打开公众号某篇文章。
微信打开历史消息页之后会触发事件,运行getProfile
函数,跳至下一个历史消息页后又会触发打开历史消息页此事件。
同理,微信打开文章页会触发事件运行insertJsForRefresh
函数,此函数会向网页中插入一段脚本自动翻页,当翻页后,又会触发此事件,然后一直运行下去。
同理,打开文章页时,微信会请求另一个链接,然后会自动触发getReadAndLikeNum
函数,获取阅读量和点赞数。
历史消息页有4种插入js 代码的方式,已在代码中注释。
Js 注入详解
文章页自动翻页原理为在网页head 部分插入类似以下形式代码,表示隔5s 跳转至下一个文章页
<meta http-equiv="refresh" content="5;url=https://..." />
历史消息页注入Js 脚本示例,将以下脚本插入至返回给微信客户端的数据中,可以使网页自动下拉至最低端,到最早一篇文章之后再跳转至下一个历史消息详情页:
<script type="text/javascript"> var end = document.createElement("p"); document.body.appendChild(end); (function scrollDown(){ // 下拉至页面最低端后,微信会自动向服务器请求数据 end.scrollIntoView(); var loadMore = document.getElementsByClassName("loadmore with_line")[0]; // 判断是否到达最早一篇文章 if (!loadMore.style.display) { document.body.scrollIntoView(); // 插入meta,使10秒后自动翻页 var meta = document.createElement("meta"); meta.httpEquiv = "refresh";meta.content = "10;url=' + nextProLink + '"; document.head.appendChild(meta); } else { // 每个随机时间段下拉网页 setTimeout(scrollDown,Math.floor(Math.random()*2000+1000)); } })();</script>
在代码部分中有4个这样类似的脚本,用于实现不同情况下特定的功能。你可在运行时作出选择。
数据库部分
myRule.js
文件开头会有数据库连接,对应修改成自己的数据库配置。
// 创建数据库连接,需根据自己数据库账号密码修改
var connection = mysql.createConnection({ host: 'localhost', user: 'root', password: '0000', database: 'phone_weixin'});
数据库中有4张表,分别对应文章信息,历史消息抓取记录和公众号信息。
msghistorympaccout
表的结构也在文章末尾文件中。在mysql 数据库中新建好即可。
数据库字段解释
msg.sql id - 文章id,自动递增 msg_title - 文章标题 msg_link - 文章永久链接 publish_time - 文章发布时间,13位时间戳形式 modi_time - 数据抓取时间,13位时间戳形式 read_num - 阅读量 like_num - 点赞量 reward_total_count - 安卓手机赞赏量 msg_idx - 文章发布位置,首条、二条等等 msg_biz - 公众号唯一标识,重要 msg_source_url - 文章阅读原文链接,若无则空 msg_cover - 文章封面图片链接 msg_digest - 文章摘要 is_fail - 文章是否删除,如果删除改为1,下次就不在抓取 copyright_stat - 文章是否原创标识 11为原创 100为无原创 101为转发 author - 文章作者mpaccount.sql id - 公众号id,自动递增 biz - 公众号唯一标识 nickname - 公众号名称 metavalue - 公众号idhistory.sql id - 公众号id,自动递增 biz - 公众号唯一标识 url - 上次抓取的链接 moditime - 上次抓取时间
文件地址:https://gitee.com/zsyoung01/AnyProxy
博主码云地址:https://git.oschina.net/zsyoung01,欢迎关注!
原文地址:http://blog.csdn.net/zsyoung/article/details/78849982,转载请注明出处!
参考文章:
链接:http://www.jianshu.com/p/13d70a5a244d
因原博主的js和sql使用后有部分问题,所以略有改动。
- 使用AnyProxy自动抓取微信公众号数据-包括阅读数和点赞数
- anyproxy批量自动采集微信公众号文章
- 微信公众号文章内容阅读数采集抓取
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 微信公众号文章采集 爬取微信文章 采集公众号的阅读数和点赞数?
- 如何抓取微信公共帐号发布的文章的阅读数和赞数
- 如何有效的监控微信公众号发布的文章的阅读数和点赞数变化
- 使用anyproxy抓取移动端https请求
- 提高微信公众号文章采集效率,anyproxy进阶使用方法
- 提高微信公众号文章采集效率,anyproxy进阶使用方法(转)
- 微信公众号所有历史文章的标题/点赞数/阅读数统计
- 爬虫抓取微信公众号文章及阅读点赞总结
- laravel5.x下迁移公众号数据
- 如何获取微信文章阅读数和点赞数
- Jboss与com.sun.jersey.guice冲突
- TabLayout横排滑动
- Git shell
- (三)java数据库篇笔记库(32)
- python实现删除文件与目录的方法
- 使用AnyProxy自动抓取微信公众号数据-包括阅读数和点赞数
- 快速教程:使用Cython来扩展Python/NumPy库
- SVN中Branch/tag的比较
- 译文 | 与TensorFlow的第一次接触 第六章:并发
- 使用scikit-learn解释随机森林算法
- SAP BDC 数据导入
- Integer的equal和==
- 程序员面试技巧
- C#使用GZIP解压缩完整读取网页内容