爬虫-根据公司名抓取相关员工的linkedin数据
来源:互联网 发布:做软件的工具 编辑:程序博客网 时间:2024/05/16 18:34
前言:
几个月前,应朋友要求,写了一个linkedin爬虫,难度不大,但功能还算好玩,所以就整理了一下放出来了。代码见Github:LinkedinSpider。
爬虫功能:输入一个公司名称,抓取相关员工的linkedin数据,字段见下方截图。
正文:
先来说一下linkedin的限制:
- 不登录的状态,不能进行搜索,但是可以查看某个用户的linkedin信息(不够全)。
- linkedin可以搜用户(最多显示100页),也可以搜公司,但不能查看公司下面的员工信息(显示的是“领英会员”,没有权限查看详细内容,要求先建立联系,如下图,可能开通linkedin高级账号可以查看,未知)。
那么如果要抓取某个公司员工的linkedin信息,该怎么做?
方法一、银子多,开通高级账号也许可以查看。
方法二、去搜linkedin用户,尽量抓取全量的linkedin用户,从中筛选出某公司的员工。(难度在于如何搜用户,并且因为页数限制,几乎无法抓取全量)。
方法三、借助第三方平台。暂时未发现哪些网站有用到linkedin的数据,但是灵机一动想到了百度收录!我们用百度搜索,搜某个公司名,域名要求linkedin.com(例如抓取对象为百度,可以在百度搜索中搜 “百度 site:linkedin.com”),从中筛选出linkedin用户ID,有了用户ID我们就可以直接去linkedin抓员工信息了。
我们现在用的就是方法三。说一下爬虫流程:
先登录linkedin,带着linkedin的Cookie进行百度搜索,从中筛选出linkedin用户的(跳转到linkedin的)跳转链接,然后抓取、解析。
注意:为了抓取到最新的数据,一般不直接抓取百度收录到的内容,只是通过百度收录抓取到用户ID;另外,要待着linkedin的Cookie去打开搜索出来的链接,不然会跳转到linkedin登录页面,或者抓取到的信息不全。
结语:
代码放在Github,链接上文有提。此文主要作注释说明。
这只是一个小爬虫,我想要分享的,不仅仅是linkedin的登录、linkedin数据的抓取和解析,更重要的,是通过百度收录抓取目标数据这个方法。
对于做爬虫,或者是想学爬虫的同学来说,路子一定要宽,只要能够保证数据准确、完整,应该从各个途径去嗅探、抓取数据,抓取难度越小、速度越快,就越好!
转载请注明出处,谢谢!(原文链接:http://blog.csdn.net/bone_ace/article/details/71055153)
- 爬虫-根据公司名抓取相关员工的linkedin数据
- Linkedin 数据爬虫笔记
- 爬虫相关(3)----- 深度剖析Jsoup抓取数据
- LinkedIn:55人支持2700位员工,2亿用户的大数据分析
- LinkedIn:55人支持2700位员工,2亿用户的大数据分析
- 从LinkedIn的数据驱动之路,看创业公司该如何关注数据
- LinkedIn公司实现的实时搜索引擎Zoie
- LinkedIn公司实现的实时搜索引擎Zoie
- LinkedIn公司实现的实时搜索引擎Zoie
- LinkedIn实时低延迟数据抓取系统Databus开源
- LinkedIn实时低延迟数据抓取系统Databus开源
- LinkedIn实时低延迟数据抓取系统Databus
- Python爬虫抓取动态数据
- C# 爬虫,抓取网页数据
- java爬虫实现数据抓取
- 网页数据抓取--爬虫--笔记
- Python爬虫抓取基金数据
- Scrapy爬虫抓取网站数据
- 扩展SpringMVC以支持更精准的数据绑定1
- Linux Input输入驱动架构记录
- 参加了一个比赛
- PAT1013. 数素数 (20)
- Mybatis
- 爬虫-根据公司名抓取相关员工的linkedin数据
- AOP 动态代理
- fflush(stdin)和fflush(stdout)【转】
- 编码问题
- 让docker中的mysql启动时自动执行sql
- selinux控制
- python list删除元素时的遗漏问题
- strstr函数的一个小应用
- listview多条目加载