用数据分析的思路找数据分析的工作

来源:互联网 发布:万国数据在美国上市吗 编辑:程序博客网 时间:2024/04/26 02:59


作为一个在找工作的人,最主要的必然是海投简历,但是作为一名数据人,能否用数据分析的思路帮助自己去更好、更快地找工作呢?

答案是肯定可以的,而且数据分析的思路不仅适用于找数据分析的工作,可以说,几乎找任何工作都可以用得到。(文末有彩蛋)

下面我就把自己的经历放上来,欢迎各位朋友一起交流(E-mail:rockyxin@rockyxin.com)


首先,收集数据

采集工具:“八爪鱼采集器”。

**采集时间:**2017年4月11日,21点。

采集方法:

  1. 打开智联招聘首页,选择全国区域
  2. 在搜索框中输入“数据分析”,回车进行搜索
  3. 将网址复制到八爪鱼采集器中,使用单机采集方式,自动跳转页码进行采集。

其他说明:此次采集内容包含公司名称、薪资、工作地点、公司性质、公司规模及经验、学历要求等内容,共有5460条信息。


然后,处理数据

使用八爪鱼采集器可以导出Excel、CSV等格式的文件,为方便后续其他操作,导出为CSV格式的文件。

主要将数据进行以下处理:

  1. 删除重复数据1426条,得到有效数据4034条。
  2. 对原数据的字段进行重编码,原始数据中字段均为拼音简称,将其改为汉字。如:将“gsmc”改为“公司名称”
  3. 根据岗位职责,填充空缺信息,如:岗位职责中明确写明要求本科学历,而“学历”字段中为空,则将空值改为本科。
  4. 拆分原字段“地点”,原数据中有诸如:北京-大兴区,这样的内容,为统一数据格式,将其分为两个字段:工作地点和具体地点,工作地点仅为市名,具体地点包含区名。
  5. 新增字段:省份,根据工作地点字段进行匹配省份名称,首都及直辖市均保持原来内容。增加薪资下限、薪资上限,分别表示薪资列中的最小值和最大值。
  6. 对薪资字段进行修改,原数据内容为“4001-6000”、“1000以下”、“面议”等,将区间分为“薪资下限”和“薪资上限”,面议的内容为空,1000以下,安装0-1000拆分。
  7. 增加经纬度字段,表示每个工作地点的经纬度。
  8. 修改经验列,将所有类似于1-3年,3-5年,取最小值。

最终得到:19个字段,4034条数据。


现在,开始分析

我比较感兴趣的是以下几个内容:

哪些公司在招聘?

哪些地方需求高?

招聘要求高不高?

薪资待遇好不好?


壹 / 哪些公司在招聘?

1、公司名称

在4000多条信息中,共有1764个公司在招聘,版面有限,不能将这些公司全部放上来,所以选取了招聘数量最多的前20名。

前20名公司

前三名的数量实在太过庞大,有必要看一下具体的数值。

公司名 招聘数量 北京万向通汇投资有限公司 720 北京万向联合控股集团有限公司 316 北京万向通汇投资管理有限公司 128 小计 1164

果然,前三名就占了几乎四分之一。排除前三名后,再看一下整体情况及前20名的公司。

除去前三名的前20名公司

2、公司性质

公司性质分布情况

可以看出,股份制和民营企业需求最大,

3、公司规模

公司规模按照人数来划分,从图形来看,基本上满足正态分布。

公司规模分布情况

不过也可以看得出来,大部分公司人数都是蛮多的。可以想象,小规模的公司,需求都不会太高。


贰 / 哪些地方需求高?

底下的几张地图,用的是Tableau绘制的,毕竟Tableau的交互比较方便。首先来看看各省的招聘数量。

各省招聘数量,颜色越深代表需求数量越大,青海、新疆两个地区为0。

可以看出,北京作为排头兵,领先不止一点点,其次就是长三角和珠三角,在招聘需求上,一线城市的缺口还是很多的。

当然,招聘需求多只是一方面,给出的待遇如何呢?

各省平均薪资,颜色越深代表薪资越高,青海、新疆两个地区为0。

不可思议的是薪资最高的居然是西藏。

原因很简单,西藏的招聘信息只有一条,给出的薪资待遇是10001-15000元,平均一下之后呢,就是12500.5元。

上海的平均薪资是10406元,北京是9335元,除此之外的江苏、广东也不过8849和8145元。浙江在这轮比拼中稍逊一筹,只有6156。

第四名往后的分别是:湖北(6743.64)、海南(6667)、内蒙古(6500.4)、安徽(6388.23)、广西(6333.5)、贵州(6285.93)、四川(6220.43)。

看完了以省为单位的分析,再细分到城市,看一看具体是哪些城市对于数据分析的招聘需求大,也看一看哪些城市比较土豪。

各市招聘情况分布,圆圈大小代表招聘数量多少,颜色深浅代表平均薪资高低。

可以看出,不管是需求还是薪资,北京、长三角、珠三角一直霸占三强宝座。

当然,内陆的需求主要集中在省会城市,比如,西安、成都、郑州、合肥、济南,这些在地图上的数据都很明显。

所以,大数据蓬勃发展的时代,各个地方的需求和待遇都不错。当然,想要更好一点的机会和大于,还是优先考虑北京、长、珠三角。


叁 / 招聘要求高不高?

这一方面的维度不好把握,所以主要从学历要求和工作经验来进行分析。

学历要求

简单统计一下数量之后,发现要求并不是很高。其中有个类别是空白,这个可以当做不限来看待。因此,招聘需求主要集中在大专、不限和本科。

学历要求情况

工作经验

工作经验中,有些数据是这样的:1-3年,3-5年,因此,为了统一口径,所有类似的数据都在处理数据时进行了取最小值。所以,工作经验指代的是,最低的工作经验要求。

最低工作经验要求情况

可以看到,最明显的就是还是有空白数据,完全搞不懂这些公司是怎么想的,难倒没有要求吗?

除此之外,1年和3年的工作经验最为吃香。

毕竟大数据发展并没有很长时间,三年工作经验可以当做中流砥柱,带来的效益很明显;而一年工作经验的人,最起码可以不经培训就上手开始工作,人力成本大大降低。

所以,无论是学历还是工作经验,要求上来说都不是很高。这对于找工作的人来说,无疑是一个好消息。


肆 / 薪资待遇好不好?

本部分内容比较多,从以下几个方面进行分析:

1. 简述

2. 公司

3. 地点

4. 要求


简述

因源数据都是薪资区间,形式诸如:1000元以下,4001-6000元。因此,新增了三列,分别放置:最低薪资,最高薪资,及平均薪资。

以下主要按照平均薪资作为衡量指标。

首先看看平均薪资的几个指标:

最小值:500
25%分位数:5000
中位数:7000
均值:8373
75%分位数:9000
最大值:125000

还有59个缺失值,缺失值的数据呢,就表示薪资为面议。

薪资分布情况

可以看出,5001-10000元的区间最多,2090个,几乎占了一半;其次就是0-5000,有点惨的感觉。而且随着薪资的上涨,数量越来越少,到最后,就少得可怜了。

尤其从10000开始,似乎是断崖式的坠落,15000以上,只有159个。

高薪不是没有,只是太少了。


公司

1. 公司规模

公司规模薪资分布图

离群值影响太大,图表无法完全展示信息,因此,将40000以上定为离群值,进行剔除。

删除离群值后的公司规模薪资分布图

先看中位数,规模在10000人以上的公司,反而给的最少,20人以下的公司反而给的最多。

再看四分位距,大部分在5000以内,而且多数分布在5000至10000这个区间内。

2. 公司性质

公司性质薪资分布情况

还是一样,由于离群值的影响,无法展示全部的信息,所以,还是一样筛选40000以下的数据。

删除离群值后公司性质薪资分布情况

前面提到过,股份制企业跟民营企业的需求量最大,现在从薪资方面来看,不仅需求量大,薪资的分布区间也很大,高的特别高,低的特别低。

从中位数来看的话,还是国企和事业单位领先一点。大数据时代可能还是会有“铁饭碗”。


地点

已经画过了两张不同地区的薪资水平情况分布图,所以这里就不做仔细阐述,先把之前的两张图放上来。

各省平均薪资,颜色越深代表需求数量越大,青海、新疆两个地区为0。

各市招聘情况分布,圆圈大小代表招聘数量多少,颜色深浅代表平均薪资高低。

以上两张是用Tableau做的,为了好(zhuang)看(bi),特意用Excel的三维地图做了一个三维的热力图,如下:

各地薪资分布情况


要求

同样,此处还是分为学历和工作经验。

学历与薪资(已经剔除高于40000的离群值)

除去不限和空白的数据,博士学历的几项指标都比较高,其次就是硕士。

当然也可以看得到,本科和大专的部分离群值也比较高,甚至高过博士和硕士的最大值,说明学历并不完全是衡量薪资水平的标准,只能说随着学历的上升,薪资也有一定的提高。

工作经验与薪资情况

由上图可以看出,薪资的多寡,在一定程度上与工作经验确实有关系。同时可以看出,3年和5年的区间跨度最大。所以,经验的累加并不完全能给我们带来薪资的增长,更重要的,还是得看实力。


最后,分享一下源数据和源代码。

链接: http://pan.baidu.com/s/1qXGMP20

密码: kxsb

联系小鑫:rockyxin@rockyxin.com

0 0
原创粉丝点击