5分钟入门数据分析

来源:互联网 发布:欧美女歌手 知乎 编辑:程序博客网 时间:2024/05/01 02:21

对于刚刚入门数据分析的同学来说,非常有必要对大数据分析流程有一个整体的认识,明白整个分析链都有哪些环节。当您清楚数据的分析过程之后,你自然也就找到了通向高阶分析的钥匙。除了具备解决异常问题的处理能力之外,更能轻松优化分析模型,甚至是通过已有的分析结果倒推出数据发展变化的经过。

从大体上来讲,数据分析主要包括确定分析目标、收集数据、数据探索、构建分析模型、模型发布、可视化展示这几个流程。


1、确定分析目标

  “凡事预则立,不预则废”,确立大数据分析目标同样适用。在分析数据之前,必须要明确分析的目标是什么?一般情况下,需要明确数据的维度,确定分析任务,定义问题领域。

2、收集数据

在明确了数据分析目标之后,就真正接触到了数据集。抽取数据之后,为了保证数据的分析结果,必须对数据进行去燥操作,得到精准数据。这方面的工具,一般包括ETL工具、EXCEL数据透视表、各类DATABASE等。而这一步中,最关键的是保证数据的质量。

3、数据探索

得到数据之后,首先要验证这些数据是否达到了我们的设想要求,通过训练数据,一步步的了解数据的特质,找出数据之间的关系与规律,为构建分析模型打好基础。常见的数据探索手段有交互分析、数据处理、可视化分析等,重点在于快速辨析数据的模式与特点以及规律,并把它们有序地发掘出来。

4、构建分析模型

这一步是整个数据分析的核心。需要考虑选择何种ML(机器学习算法)来构建模型,以反映样本数据的内部结构的一般特征。常用的工具主要是使用R语言、SPSS及近年来兴起的OpenFEA。而常见的机器学习算法,根据数据有没有标签,可以将机器学习算法分为有监督和无监督两类。以下列举了一些比较常见的机器学习算法。 

线性/非线性回归

对数据建模,使之似合到一条直线,或拟合得到非初等函数所描述的关系。

逻辑回归

通过历史数据的表现对未来结果发生的概率进行预测。

朴素贝叶斯分类

对于给出的分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

KNN

如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。

决策树

首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。

支持向量机SVM

根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。

主成份降维分析

旨在利用降维的思想,把多指标转化为少数几个综合指标。

Apriori关联算法

它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。

ARIMA时序分析

将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。

KMeans聚类

它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。

层次聚类

产生一个嵌套聚类的层次,算法最多包含N步,在第t步,执行的操作就是在前t-1步的聚类基础上生成新聚类。

5、模型发布

模型发布之前,需要运用专业知识对构建的分析模型进行初步评测判断和解释,以决定是否重复分析,通过不断的变更、迭代过程后,将完善后的分析模型,与计算框架、调度控制封装后进行发布。

6、可视化展示

运用可视化图形(饼图、柱形图、条形图、折线图、散点图、矩阵图等),将分析结果进行图形化输出。也可以通过构建分析门户,来提供单独的访问口径。这一步离客户端最近,但很多大数据分析系统将其省略。随着可视化分析的不断深 入,此流程将越来越受到重视。

综上所述,数据分析的六个流程并不是每个大数据分析系统都覆盖的,很多大数据分析系统只侧重于一个或几个流程,无法做到全覆盖,而OpenFEA却能做到全流程、全覆盖!

0 0