5分钟入门数据分析

来源：互联网发布：欧美女歌手知乎编辑：程序博客网时间：2024/05/01 02:21

对于刚刚入门数据分析的同学来说，非常有必要对大数据分析流程有一个整体的认识，明白整个分析链都有哪些环节。当您清楚数据的分析过程之后，你自然也就找到了通向高阶分析的钥匙。除了具备解决异常问题的处理能力之外，更能轻松优化分析模型，甚至是通过已有的分析结果倒推出数据发展变化的经过。

从大体上来讲，数据分析主要包括确定分析目标、收集数据、数据探索、构建分析模型、模型发布、可视化展示这几个流程。

1、确定分析目标

“凡事预则立，不预则废”，确立大数据分析目标同样适用。在分析数据之前，必须要明确分析的目标是什么？一般情况下，需要明确数据的维度，确定分析任务，定义问题领域。

2、收集数据

在明确了数据分析目标之后，就真正接触到了数据集。抽取数据之后，为了保证数据的分析结果，必须对数据进行去燥操作，得到精准数据。这方面的工具，一般包括ETL工具、EXCEL数据透视表、各类DATABASE等。而这一步中，最关键的是保证数据的质量。

3、数据探索

得到数据之后，首先要验证这些数据是否达到了我们的设想要求，通过训练数据，一步步的了解数据的特质，找出数据之间的关系与规律，为构建分析模型打好基础。常见的数据探索手段有交互分析、数据处理、可视化分析等，重点在于快速辨析数据的模式与特点以及规律，并把它们有序地发掘出来。

4、构建分析模型

这一步是整个数据分析的核心。需要考虑选择何种ML（机器学习算法）来构建模型，以反映样本数据的内部结构的一般特征。常用的工具主要是使用R语言、SPSS及近年来兴起的OpenFEA。而常见的机器学习算法，根据数据有没有标签，可以将机器学习算法分为有监督和无监督两类。以下列举了一些比较常见的机器学习算法。

有

监

督

线性/非线性回归

对数据建模，使之似合到一条直线，或拟合得到非初等函数所描述的关系。

逻辑回归

通过历史数据的表现对未来结果发生的概率进行预测。

朴素贝叶斯分类

对于给出的分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

KNN

如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别。

决策树

首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。

支持向量机SVM

根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力。

非

监

督

主成份降维分析

旨在利用降维的思想，把多指标转化为少数几个综合指标。

Apriori关联算法

它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

ARIMA时序分析

将预测对象随时间推移而形成的数据序列视为一个随机序列，用一定的数学模型来近似描述这个序列。

KMeans聚类

它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

层次聚类

产生一个嵌套聚类的层次，算法最多包含N步，在第t步，执行的操作就是在前t-1步的聚类基础上生成新聚类。

5、模型发布

模型发布之前，需要运用专业知识对构建的分析模型进行初步评测判断和解释，以决定是否重复分析，通过不断的变更、迭代过程后，将完善后的分析模型，与计算框架、调度控制封装后进行发布。

6、可视化展示

运用可视化图形（饼图、柱形图、条形图、折线图、散点图、矩阵图等），将分析结果进行图形化输出。也可以通过构建分析门户，来提供单独的访问口径。这一步离客户端最近，但很多大数据分析系统将其省略。随着可视化分析的不断深入，此流程将越来越受到重视。

综上所述，数据分析的六个流程并不是每个大数据分析系统都覆盖的，很多大数据分析系统只侧重于一个或几个流程，无法做到全覆盖，而OpenFEA却能做到全流程、全覆盖！

0 0