爬虫利器之Chrome检查功能巧用

来源:互联网 发布:2015年双十一淘宝销售额 编辑:程序博客网 时间:2024/06/07 10:20

​听君一席话,胜读十本书。抓紧机会,跟大神学爬虫。

主要是python爬虫也最近几年比较火热,像样的书籍教程就没几本,更别提经典大作了。



Chrome检查功能



右击鼠标,chrome浏览器是有检查这个功能的,特别指出是chrome。



点了检查之后,右边就是这么个界面了。这里面有很多东西,elements,Console,Source,Network,Performance以及Memory和Application信息。如果大神不告诉你,只是这个页面就够看半天也看不出个所以然。




Network功能简介



还好,我替你问了大神了。只要看Network就好了。

network下面的这个功能其实就是一个网络监视器,它录制了你在网页上的每一步操作。

下图的第一个小红点,颜色是红色的,表示正在录制;点一下变成黑色,就什么都不会记录。

第二个图标,clear的意思,点击可以清空下面的记录。



演示network请求录制功能



比如随便点击网页上的任何内容,在这里我们打个勾,筛选停业及问题平台。


然后观察右侧网页录制器变化:


接下来看看front_select-plat里都有哪些内容



front_select-plat的headers信息



一共有四个部分,general,response headers, request headers, form data

request 是请求,这是爬虫要重点关注的,因为要模拟请求嘛

headers 也是重点关注,理由同上

form data 是参数出现的地方,重点关注


general里的有用信息

Request URL 请求的url

Request Method 请求使用的方法,此处是post方法


Request Headers里的有用信息

view parsed这个是可以点的,点了可以解析可以查看源

User-Agent是用户代理,这些信息都是要写近请求头中的


Form Data里的有用信息

params,sort,currPage都是模拟请求需要用到的参数

点点view source,view URL encoded会看到神奇的事情


点了view source就会看到菜鸟级爬虫会使用的URL,这个与上面这个form data是本质是一样的。



front_select-plat的Preview信息



当前页的所有有用的数据都在这里了,是一个list

totalPage 表示一共有118页

pageSize 表示每页有25条数据

maxElements 表示一共有2946条数据


具体的看看list长得什么样子,全是白花花的数据~

点击查看其中一条的明细。如下所示:



长按下方图片,识别图中二维码,关注:“数据分析师手记”微信公众号

与三月桑一起修炼数据分析




原创粉丝点击