数据分析开篇之大有钱途
来源:互联网 发布:记简谱的软件 编辑:程序博客网 时间:2024/05/01 13:00
司空摘星原创
小白:星星,数据分析师都是很强悍的样子,他们都是什么人样的?
司空摘星:数据分析师大可安邦,小可治女票。他们的共通点就是用数据说话,而他们长相就千差万别了,比如他们可以是这样的:
司空摘星:或者是这样的:
小白:星星,这个分明是Sherlock Home!
司空摘星:福尔摩斯也是数据分析师好吗!
小白:好吧,就因为他是分析信息的是吧。那数据分析师的具体工作除了做侦探,还可以做什么?
司空摘星:侦探、策略分析员、数据挖掘、人工智能、股神、金融女神、高级助理、运营经理、骂街之王…
小白:几乎万能了,陆小凤都不是你对手了!
互联进一步聚合,对大量数据的分析必然会成为一个关键的策略部门的工作。像很多事物先是存在,然后再变得合理一样,数据分析师也会因为一些公司的实际需求而存在,然后从事的工作与技能也会不断地变得丰富与完善。
已经有一些机构根据自己的理解,定义了数据分析师应该掌握的技能,比如下面这个来自网上的图片:
小白:这个是大数据分析师,我想做个小数据分析师,也要弄一个圈的技能吗?
司空摘星:小有小的要求,不需要学一个圈的技能,但简单的几项是需要的。
这个图有一定的合理性,立志成为数据分析师的人,可以参考一下提到的技能要求。
作为数据分析的开篇,本文简单介绍几个常见的概念。
(1)均值
均值,指得是算术平均值,也就是总和除以个数(或其它单位的和)。平均值,是经常用到的概念,比如“平均每个同学可以分到2个苹果手机”、“下载的平均速度是1Mbps”、“一个月的花费平均是4千块”。
均值有一个缺陷就是在极端情况(极大与极小都很离谱时)存在时,平均出来的值就变得不合理,这也是投票取平均分时,可能会考虑把最高分与最低分去掉再作平均的原因。
这种缺陷的一个例子,看下面来自网络的图片:
平均工资有1800,而实际进去的话,分分钟钟命中员工一职,工资只有800。
这个也是平均值谬误的一个例子。
再看另一张图:
不同等级的收入的差距可能很大,假如收集到若干家庭的收入,并取平均值来代表普遍的家庭收入的话,很可能就是不靠谱的,因为富人是可能把穷人平均了的。
小白:如果意识到均值可能不合适,那可以怎么办呢?
司空摘星:比如你可以去掉极端值嘛,或者取每个区间的比例,或者用下面介绍的中值或众数。办法总是有的!
(2)中位数
中位数是大小值的分隔值,出现极大值或极小值都不影响到中位数,所以在这种极端的情况下,中位数是可用的一个参考值。
对于奇数个数的数值序列(已排序),中位数就是中间那个值。对于偶数个数的,中位数就是中间两个值的和除以2。
比如:1,2,3,4,5 中位数是3。
比如:1, 2, 3, 4, 5, 6 中位数是(3+4)/2=3.5。
(3)众数
众数,就是出现次数最多的值。可能一个众数都没有,也可能有多个众数。
比如:1, 1, 2, 5, 3, 5, 1 众数是1。
比如:5, 4, 6, 2, 5, 6 众数是5跟6。
所以,众数就是“大家都这样”,是具有一定参考意义的。
小白:就这些内容吗?星星,你不能学叶孤城啊,每次都只说一点点,然后就叫我加他的群。
司空摘星:正有此意!
小白:……
- 数据分析开篇之大有钱途
- 1.浅谈数据分析 开篇
- [翻译]Druid 开篇 - 大数据实时探索性分析平台
- nginx源码分析之开篇
- NopCommerce架构分析之开篇
- nginx源码分析之开篇
- Openstack源代码分析之开篇
- Hadoop源码分析之开篇
- WhatWeb源码分析之开篇
- MonaTiny之分析开篇Memory
- 2010年最有钱途的5大星座
- 国产数据库比较之大数据分析
- 大数据之“用户行为分析”
- 大数据之“用户行为分析”
- spark快速大数据分析之读书笔记
- Druid 大数据分析之概况
- 大数据分析之聚类算法
- 大数据分析之分类算法
- 欢迎使用CSDN-markdown编辑器
- 线程创建方式
- Investigation (数位dp)
- core文件处理
- 通过css设置body并且全屏
- 数据分析开篇之大有钱途
- ACM预处理
- 虚函数 virtual function 笔记(与继承)----C++学习之路
- Gradle 简述
- org.springframework.beans.factory.NoSuchBeanDefinitionException: No bean named 'xxx'is defined
- 判断数组是否包含某个元素
- cs231n knn
- django-admin.py startproject mysite创建项目打开编辑器的问题的解决
- dos复制命令