5分钟入门数据分析
来源:互联网 发布:欧美女歌手 知乎 编辑:程序博客网 时间:2024/05/01 02:21
对于刚刚入门数据分析的同学来说,非常有必要对大数据分析流程有一个整体的认识,明白整个分析链都有哪些环节。当您清楚数据的分析过程之后,你自然也就找到了通向高阶分析的钥匙。除了具备解决异常问题的处理能力之外,更能轻松优化分析模型,甚至是通过已有的分析结果倒推出数据发展变化的经过。
从大体上来讲,数据分析主要包括确定分析目标、收集数据、数据探索、构建分析模型、模型发布、可视化展示这几个流程。
1、确定分析目标
“凡事预则立,不预则废”,确立大数据分析目标同样适用。在分析数据之前,必须要明确分析的目标是什么?一般情况下,需要明确数据的维度,确定分析任务,定义问题领域。
2、收集数据
在明确了数据分析目标之后,就真正接触到了数据集。抽取数据之后,为了保证数据的分析结果,必须对数据进行去燥操作,得到精准数据。这方面的工具,一般包括ETL工具、EXCEL数据透视表、各类DATABASE等。而这一步中,最关键的是保证数据的质量。
3、数据探索
得到数据之后,首先要验证这些数据是否达到了我们的设想要求,通过训练数据,一步步的了解数据的特质,找出数据之间的关系与规律,为构建分析模型打好基础。常见的数据探索手段有交互分析、数据处理、可视化分析等,重点在于快速辨析数据的模式与特点以及规律,并把它们有序地发掘出来。
4、构建分析模型
这一步是整个数据分析的核心。需要考虑选择何种ML(机器学习算法)来构建模型,以反映样本数据的内部结构的一般特征。常用的工具主要是使用R语言、SPSS及近年来兴起的OpenFEA。而常见的机器学习算法,根据数据有没有标签,可以将机器学习算法分为有监督和无监督两类。以下列举了一些比较常见的机器学习算法。
有
监
督
线性/非线性回归
对数据建模,使之似合到一条直线,或拟合得到非初等函数所描述的关系。
逻辑回归
通过历史数据的表现对未来结果发生的概率进行预测。
朴素贝叶斯分类
对于给出的分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
KNN
如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。
决策树
首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。
支持向量机SVM
根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。
非
监
督
主成份降维分析
旨在利用降维的思想,把多指标转化为少数几个综合指标。
Apriori关联算法
它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
ARIMA时序分析
将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。
KMeans聚类
它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。
层次聚类
产生一个嵌套聚类的层次,算法最多包含N步,在第t步,执行的操作就是在前t-1步的聚类基础上生成新聚类。
5、模型发布
模型发布之前,需要运用专业知识对构建的分析模型进行初步评测判断和解释,以决定是否重复分析,通过不断的变更、迭代过程后,将完善后的分析模型,与计算框架、调度控制封装后进行发布。
6、可视化展示
运用可视化图形(饼图、柱形图、条形图、折线图、散点图、矩阵图等),将分析结果进行图形化输出。也可以通过构建分析门户,来提供单独的访问口径。这一步离客户端最近,但很多大数据分析系统将其省略。随着可视化分析的不断深 入,此流程将越来越受到重视。
综上所述,数据分析的六个流程并不是每个大数据分析系统都覆盖的,很多大数据分析系统只侧重于一个或几个流程,无法做到全覆盖,而OpenFEA却能做到全流程、全覆盖!
- 5分钟入门数据分析
- Docker 5分钟入门
- Git 5分钟入门
- Git 5分钟入门
- Maven 5分钟入门
- 5分钟入门webpack
- 五分钟读懂视频大数据分析
- HBase 5分钟 快速入门
- sqlite-5分钟入门手册
- CAN 总线 5 分钟入门
- mqtt server 5分钟入门
- 5分钟入门网络爬虫
- 数据分析入门方法
- 数据分析--入门
- Python数据分析入门
- pandas 数据分析入门
- 数据分析入门1
- 数据分析入门2
- 小白学习HTML——第二天
- 第十周项目3
- 我的decision实现
- 致第一次写博客的自己(为什么写博客)
- linux装OpenOffice后传---中文乱码的解决
- 5分钟入门数据分析
- 第14周项目1 (4)验证平衡二叉树相关算法
- Why HBase
- 1,设计模式连载概述
- 第十五周项目一(2)希尔排序
- ubuntu下安装pyspider
- JavaScript 经典实例收集整理
- iOS蓝牙4.0(BLE)-LightBlue与cc2540开发板通信
- OkHttp使用教程