拉勾网的语言与技术方向爬虫

来源：互联网发布：一键装修淘宝店铺软件编辑：程序博客网时间：2024/06/05 20:52

拉勾网关于语言方向与技术方向的爬虫

1、工欲善其事必先利其器，工具的选择

关于爬虫有很多工具可以使用，可以用urllib，也可以用requests，还可以使用scrapy框架，他们各有各的好处，我使用的是requests

2、对拉勾网的前端代码分析

爬虫爬取的都是显示给客户的信息，所以要爬虫一定要对前端进行分析

1、拉勾网中对于python进行搜索的url

可以看出，搜索信息是在url中进行传递的，这就确定了我们爬取的url池，可以用占位符来指定我们需要爬取的内容

2、拉勾网的信息是存在哪里的

如果直接对url进行get操作，返回的html页面并没有招聘信息，所以是不能直接get网页然后用正则表达式进行匹配的，这时候就要用到chrome浏览器，用chrome浏览器打开拉勾网，然后f12，看network下的XHR，进行一次翻页操作，可以看到拉勾网是使用ajax请求来传递数据的，传回来的是一个Json，这个Json中包含我们所需要的信息，所以我们的目的就是要获得这个Json数据然后进行操作。