#python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据
来源:互联网 发布:睡眠时间 知乎 编辑:程序博客网 时间:2024/05/17 03:15
将python环境配置好后,接下来就可以开始动手coding了!
1.创建excel并插入头部数据:
这里的30是总页数,可以从网页中获得,这里为了简便,就暂时写了一个固定值。
2.获取网页数据
获取网页数据需要用到python自带的urllib(type为分类,如:Android,iOS等;index为页数),然后我们可以把获得的data,转成soup用于解析:
可以通过print(data),查看获取到的结果。
3.解析网页数据
通过打印出来的数据可以发现,每个class为“con_list_item default_list”的<li>标签都对应一条职位信息,其中的data-company(公司名称),data-positionname(职位名称),data-salary(薪资)等几个属性正是我们需要的,因此我们需要通过soup去取得这个标签,拿到这些值:
好了,到这里整个爬虫就好了。运行一下应该就可以看到效果了!通过标签获取网页上的数据是爬虫的一种方式,还可以通过json去获取,那就需要一些网络方面的知识了,如抓包等等,有空再来研究一下。
PS:写到这里,鄙人刚想运行一下截个图,就发现拉勾所有的页面,请求下来都变成了这个样子。。。
真的是欲哭无泪啊!!!
7.10更新:
终于找到了上面问题的原因!原来是网站拒绝了此类访问(我在抓智联数据的时候,它提醒我错误502,我才想起是这个原因,拉钩对502这个错误做了处理,真的很心机啊!),ok既然找到了问题,接下来解决就好,我发现在浏览器上依然是可以通过网址打开网页的,因此想通过python获取网页数据,就必须通过设置headers来伪装成浏览器就好了:
抓到的部分数据如下:
Demo下载链接:点我下载(审核通过后更新)
- #python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据
- #python学习笔记#使用python爬取拉勾网职位信息(一):环境配置及库安装
- Python爬取网站职位信息
- 用Python爬取拉钩网招聘职位信息
- 爬虫:用Python爬取招聘职位信息&职位需求分析
- #python学习笔记#使用python爬取网站数据并保存到数据库
- python爬取拉勾网任意职位数据
- Python数据分析学习笔记(二)
- (二)暗网信息爬取(python)
- python 爬虫爬取所有上市公司公告信息(二)
- post请求网站数据爬取!!!Python学习笔记!
- 使用Python爬取学校学生信息!(简单爬虫)
- 二.selenium爬取51job任意职位信息
- 基于python的POI数据爬取、处理和使用(二)
- 使用python及百度API对百度poi数据进行爬取(二)
- python学习,爬取淘宝评论数据
- Python数据分析学习笔记二
- python数据分析学习笔记二
- 云计算:为什么说存储是云计算发展瓶颈之一?虚拟化是解决之道!
- redis桌面管理工具 redis-desktop-manager使用指南
- Leedcode 19 Remove Boxes
- 51 C语言与汇编语言混编
- stm32 can基础测试例程
- #python学习笔记#使用python爬取拉勾网职位信息(二):爬取数据
- form标签和其内部的button标签的关系
- 《Effective C++》第七章:模板与泛型编程
- Android 中的MVC模式
- Java 模拟登录新浪微博(Cookie)
- 搭建百万级别邮件发送平台
- 《Java编程思想》学习笔记9——对象序列化
- 练习 1-19 编写函数 reverse(s),将字符串s 中的字符顺序颠倒过来。使用该函数 编写一个程序,每次颠倒一个输入行中的字符顺序。
- leetcode 167. Two Sum II