数据分析开篇之大有钱途

来源:互联网 发布:记简谱的软件 编辑:程序博客网 时间:2024/05/01 13:00

司空摘星原创


小白:星星,数据分析师都是很强悍的样子,他们都是什么人样的?

司空摘星:数据分析师大可安邦,小可治女票。他们的共通点就是用数据说话,而他们长相就千差万别了,比如他们可以是这样的:
数据分析师1

司空摘星:或者是这样的:
数据分析师2

小白:星星,这个分明是Sherlock Home!

司空摘星:福尔摩斯也是数据分析师好吗!

小白:好吧,就因为他是分析信息的是吧。那数据分析师的具体工作除了做侦探,还可以做什么?

司空摘星:侦探、策略分析员、数据挖掘、人工智能、股神、金融女神、高级助理、运营经理、骂街之王…

小白:几乎万能了,陆小凤都不是你对手了!

互联进一步聚合,对大量数据的分析必然会成为一个关键的策略部门的工作。像很多事物先是存在,然后再变得合理一样,数据分析师也会因为一些公司的实际需求而存在,然后从事的工作与技能也会不断地变得丰富与完善。

已经有一些机构根据自己的理解,定义了数据分析师应该掌握的技能,比如下面这个来自网上的图片:
数据分析师掌握的技能

小白:这个是大数据分析师,我想做个小数据分析师,也要弄一个圈的技能吗?

司空摘星:小有小的要求,不需要学一个圈的技能,但简单的几项是需要的。

这个图有一定的合理性,立志成为数据分析师的人,可以参考一下提到的技能要求。

作为数据分析的开篇,本文简单介绍几个常见的概念。

(1)均值

均值,指得是算术平均值,也就是总和除以个数(或其它单位的和)。平均值,是经常用到的概念,比如“平均每个同学可以分到2个苹果手机”、“下载的平均速度是1Mbps”、“一个月的花费平均是4千块”。

均值有一个缺陷就是在极端情况(极大与极小都很离谱时)存在时,平均出来的值就变得不合理,这也是投票取平均分时,可能会考虑把最高分与最低分去掉再作平均的原因。

这种缺陷的一个例子,看下面来自网络的图片:

不合理的平均值

平均工资有1800,而实际进去的话,分分钟钟命中员工一职,工资只有800。
这个也是平均值谬误的一个例子。

再看另一张图:

家庭收入

不同等级的收入的差距可能很大,假如收集到若干家庭的收入,并取平均值来代表普遍的家庭收入的话,很可能就是不靠谱的,因为富人是可能把穷人平均了的。

小白:如果意识到均值可能不合适,那可以怎么办呢?

司空摘星:比如你可以去掉极端值嘛,或者取每个区间的比例,或者用下面介绍的中值或众数。办法总是有的!

(2)中位数

中位数是大小值的分隔值,出现极大值或极小值都不影响到中位数,所以在这种极端的情况下,中位数是可用的一个参考值。

对于奇数个数的数值序列(已排序),中位数就是中间那个值。对于偶数个数的,中位数就是中间两个值的和除以2。

比如:1,2,3,4,5 中位数是3。

比如:1, 2, 3, 4, 5, 6 中位数是(3+4)/2=3.5。

(3)众数

众数,就是出现次数最多的值。可能一个众数都没有,也可能有多个众数。

比如:1, 1, 2, 5, 3, 5, 1 众数是1。

比如:5, 4, 6, 2, 5, 6 众数是5跟6。

所以,众数就是“大家都这样”,是具有一定参考意义的。


小白:就这些内容吗?星星,你不能学叶孤城啊,每次都只说一点点,然后就叫我加他的群。

司空摘星:正有此意!

小白:……


原创粉丝点击