关于火车采集js调用文章资讯的方法淘宝采集相关

来源：互联网发布：海康网络摄像机键盘编辑：程序博客网时间：2024/05/21 20:26

关于火车采集js调用文章资讯的方法

心岛发布于2014年12月16日　分类： 数据采集 　浏览：761 人次　评论：0　

一、需要准备的工具软件：

火车头采集器

抓包软件（我使用的是fiddler）

二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包

整体思路：利用网页cookie进行数据抓包处理。

1、安装运行抓包软件：

2、打开淘宝密儿网页并将网页滚动至网页底部，滚动过程中，你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件，所有的抓包数据一目了然：

三、根据抓包数据设置采集规则

1、打开火车采集软件，新建一采集任务，然后点击采集网址选项卡的添加按钮，添加采集网址：

2、提取js页面的下层页面网址和该栏目的文章总数：

关于找网址的方法如下图所示：

利用文本工具打开代码后的对应关系如下（注意：复制的是项目的值，不要连标题都复制过去）：

这样完成后会采集到列表页面网址，但是我们还需要通过代码分析的方法将下层的网址也要提取出来：

注意：上图中需要将cookie复制到上图中的对应位置，然后开始查看：

如上图所示，这样就是已经成功执行了，注意红框中的总页数，如果大家最后采集到的页面总数可以和此处对比！

3、提取内容页的脚本规则：

利用上一步中我们查看到的代码来分析

至此，通过抓包软件获取js页面文章地址的方法就讲述完毕了，如果大家有任何问题，请在心岛博客中留言，我讲尽快协助解决问题！

0 0