关于火车采集js调用文章资讯的方法 淘宝采集 相关
来源:互联网 发布:海康网络摄像机键盘 编辑:程序博客网 时间:2024/05/21 20:26
关于火车采集js调用文章资讯的方法
心岛发布于2014年12月16日 分类: 数据采集 浏览:761 人次 评论:0一、需要准备的工具软件:
火车头采集器
抓包软件(我使用的是fiddler)
二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包
整体思路:利用网页cookie进行数据抓包处理。
1、安装运行抓包软件:
2、打开淘宝密儿网页并将网页滚动至网页底部,滚动过程中,你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件,所有的抓包数据一目了然:
三、根据抓包数据设置采集规则
1、打开火车采集软件,新建一采集任务,然后点击采集网址选项卡的添加按钮,添加采集网址:
2、提取js页面的下层页面网址和该栏目的文章总数:
关于找网址的方法如下图所示:
利用文本工具打开代码后的对应关系如下(注意:复制的是项目的值,不要连标题都复制过去):
这样完成后会采集到列表页面网址,但是我们还需要通过代码分析的方法将下层的网址也要提取出来:
注意:上图中需要将cookie复制到上图中的对应位置,然后开始查看:
如上图所示,这样就是已经成功执行了,注意红框中的总页数,如果大家最后采集到的页面总数可以和此处对比!
3、提取内容页的脚本规则:
利用上一步中我们查看到的代码来分析
至此,通过抓包软件获取js页面文章地址的方法就讲述完毕了,如果大家有任何问题,请在心岛博客中留言,我讲尽快协助解决问题!
0 0
- 关于火车采集js调用文章资讯的方法 淘宝采集 相关
- 一天采集上千原创文章的方法
- 火车采集器简介
- 火车采集器
- 关于opencv使用淘宝视频采集卡蓝屏的办法~
- 火车采集器采集电商网站中网页源码中不显示的评论数据方法
- 利用火车采集器的正则式采集,同页面采集
- 用 DOM 实现文章采集 -- 通过jquery 语法式的方法采集指定对象的文本。
- php文章采集的实现
- 采集卡的一些文章
- 火车采集器官方博客
- 火车采集器初步使用
- 火车采集器分页细节
- 火车采集器官方博客
- 淘宝开发的一个采集工具 tsar
- 视频采集相关的名词解释
- 采集 淘宝产品描述信息
- php淘宝评论采集
- 自行整理了一个较为准确的倒计时功能代码(js实现)
- Eddy's research I
- flash声音设置
- ceph存储 Linux-Futex浅析
- HTTP请求在网络中的详细过程
- 关于火车采集js调用文章资讯的方法 淘宝采集 相关
- 【LIS】【严格递增和非严格递增】
- Contact Manager Web API 分页和查询(Paging and Querying)
- MySQL BIGINT UNSIGNED value is out of range... 的问题和解决
- HDU 2028 Lowest Common Multiple Plus(求n个数的最小公倍数)
- 嵌入式软件基础(3.1)------嵌入式系统软件及操作系统知识
- adb 抓日志
- c++模板计算折线长度
- 对group by的结果集进行分组过滤 where 与 having 用法的区别