关于火车采集js调用文章资讯的方法 淘宝采集 相关

来源:互联网 发布:海康网络摄像机键盘 编辑:程序博客网 时间:2024/05/21 20:26

关于火车采集js调用文章资讯的方法

心岛发布于2014年12月16日  分类: 数据采集  浏览:761 人次  评论:0 

一、需要准备的工具软件:

火车头采集

抓包软件(我使用的是fiddler)


二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包

整体思路:利用网页cookie进行数据抓包处理。

1、安装运行抓包软件:

00.jpg

2、打开淘宝密儿网页并将网页滚动至网页底部,滚动过程中,你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件,所有的抓包数据一目了然:

02.jpg


三、根据抓包数据设置采集规则

1、打开火车采集软件,新建一采集任务,然后点击采集网址选项卡的添加按钮,添加采集网址:

01.jpg

2、提取js页面的下层页面网址和该栏目的文章总数:

关于找网址的方法如下图所示:

03.jpg

利用文本工具打开代码后的对应关系如下(注意:复制的是项目的值,不要连标题都复制过去):

04.jpg

这样完成后会采集到列表页面网址,但是我们还需要通过代码分析的方法将下层的网址也要提取出来:


05.jpg

06.jpg

注意:上图中需要将cookie复制到上图中的对应位置,然后开始查看:

07.jpg

如上图所示,这样就是已经成功执行了,注意红框中的总页数,如果大家最后采集到的页面总数可以和此处对比!

3、提取内容页的脚本规则:

利用上一步中我们查看到的代码来分析

08.jpg

09.jpg

10.jpg

至此,通过抓包软件获取js页面文章地址的方法就讲述完毕了,如果大家有任何问题,请在心岛博客中留言,我讲尽快协助解决问题!

0 0