数据分析笔记

来源：互联网发布：linux创建多层目录编辑：程序博客网时间：2024/06/05 14:55

数据分析：

1.确定问题，了解问题，你究竟要解决什么问题？

2.分解，将许多数据分解为小部分；

3.评估；

4.决策。

需要认清问题，尤其是提出正确的问题，解决问题。

还需要帮助他人思考问题，很多时候他人并不知道自己真正想要的是什么。

1.确定问题，如希望自己的成绩提高多少，如何才能办到，向哪个方向努力，自己定的目标是否可行是否合理，成绩类似的竞争对手他们的趋势如何，谁才是我的对手或者是需要赶超的对象，你准备投入的（与他人不同的）那部分时间从何而来。

2.分解问题。写出确信无疑的、不确定但常困扰的问题，不是说出，而是写出问题，反思自我。（如同足球的数据统计一样，一项基本的指标是出场多少时间会进一个球，或平均每场进几个，对于前锋、中锋、攻击型中场来说，这项指标是衡量其能力的关键因素）投入多少时间能产出多少业绩？另外，根据艾宾浩斯记忆曲线，什么时候才是考察自己真正能力的时候？你的对手是哪些人，你之前做的努力在哪些部分超越了对手，哪些部分暂时没有超越对手，哪些部分是只能跟上但不可能超越的？

3.通过因子进行相互比较，针对数据，需要形成自己的结论。需要将现象结论无巨细地、一览无遗地呈现，以“傻瓜”的方式，一个白丁也能看得懂的报告，但在适当的位置也要高大上，体现专业素养。必须确保自己的意见传达到位，也就是说清楚要表达什么，为什么这么表达，最终要鼓励对方以理性的真实的数据来作出决策。

4.根据问题，做出更加合理的决策。

在进行数据分析时，难免有假的、错误的数据，从一开始就误导了确定问题方向。

那么，就要主动提出“正确的”、“有价值的”、“聪明的”问题，让对方开始思考并深入思考。比如：你对自己的天分作何评价，为何这么评价？（优势如何）你准备为哪些知识投入多少时间，你预期的产出如何？你是否了解你学习的知识在你生活中（考试中）的地位，它是什么地位的？

微软亚洲学院大数据讲座》在MOOC上线。

数据分析

数据挖掘

功能

找出问题的原因，并制定策略

偏后期工作，针对具体用户，围绕具体的用户做分析

偏向程度

偏向市场运营，偏向管理层

偏向最终用户，对个体研究，是技术部门属于开发工作

示例

共有知识体系

数据库：SQL（抓数据）

统计学：必备知识，侧重描述统计、参数估计、统计推断

数据挖掘：数据总结、分类回归、聚类分析、关联分析、利用算法对个体进行分析

以上的基础都是高等数学（微积分+概率统计+线性代数）

工具类

工具类（图形化）：SQL，SPSS，STATS，EXCEL，Matlab，SAS

语言类：R，Python

Python入门比较好，R是专业数据分析领域的标准。

数据分析笔记 2

做分析之前，需要获得更多的有效数据，发掘更多有用的信息；
报告要让他人详细浏览你的思考过程，你的结论是如何得到的，根据结论，你应该如何改进你的行为？
若想得到正确的准确的信息，需要更多的单独谈话获取数据，1v1的那种，不建议从公众场合获取个体数据（除非明确他们未受其他个体的影响）；
从一开始就需要建立正确的假设，建立合理的模型；
回顾问题，提炼模型，基于新模型观察外界。
每个人的长处优势，都隐藏在DNA中，能够观察的就是每个人某项行为的具体数据。
调查：

每个人的说法和他本人的做法都有一定的偏差，比如你去问某人，如何提高成绩？但是与别人面谈弄清对方的想法还是比较重要的；
统计的结果必须与其他统计相关联才能有价值；
观察研究法：被研究的人自行决定自己属于哪个群体的研究方法（比如游泳者和非游泳者，这是由被观察者本身决定的，而非由分析者决定的），混杂因素是研究对象的个人差异，最终会导致分析结果的敏感度变差，比如在一群普通数据中出了几个特别高或者低的数据，就要注意；
把所想到的因素、事物用线串起来，想象它们的关系；
分析结果必须要有意义，将数据以一定的规律拆分为小块；
控制组、实验组，用试图分析的因素改变来做实验，并对比实验结果。

数据分析笔记 3 最优化，获得更多，真实的更多

如业绩这种可以很明显用数据来衡量的指标，当然是多多益善，若要尽可能地提高，我们需要提出哪些问题呢？如：比较、时间、难度，等种种因素，要区分为可控和不可控的因素；
需要找到正确的组合，比如时间分配、成本分配的组合，借助目标函数发现最终的、可预测的、更贴近真实的结论：SUM（约束条件x约束变量）
创建有用的模型，尽可能贴近实际，而非死守固有理论（所谓正确理论），创建模型时，需要规定假设中各种变量的相互关系，针对具体问题找出内在规律；
假设需要立足于不断变化的实际情况，需要反复不断重新构建模型。

每当出现一张新的图，就要问一问，图片中包含了哪些数据。数据的质量和含义更加重要，而不是炫目的设计，因为它很可能会影响你的判断。需要让他人，通过你的数据，来进行思考。

有些数据是有用的，也就是说，我们在进行分析时，需要剔除无用的无效的干扰的数据。还是说，需要一开始就要明确分析目标，根据目标来分析数据。

数据图形化的根本目的在于，正确地比较。错误的比较当然可以得出“结论”，但一定是匪夷所思或者是误导他人的。

图形化之后，需要根据合适的假设来做出分析、判断假设是否合理。

工具：Python，Excel，SPSS等。

数据分析笔记 5 假设检验

如何根据现有的数据，分析出对手是否会做出某种决策。

现有的信息，哪些与假设符合，哪些与假设矛盾？

以最终的指标为中心，哪些因素与其正负相关？一个因素发生变化，必然导致最终的结果发生变化。一般的系统是活跃、多变、互有联系的。

假设检验的核心是：证伪，剔除无法证实的假设，剩下的就是合理的假设。证伪法，可以避免先入为主，避免人被感性思维左右，使决策更加科学合理，从而防止掉入认知陷阱。

通过证据，来判断假设是否成立，并建立表格，进行直观的比较。

（需要多了解一些工具的使用方法，在遇到问题时，可以拿出工具字典比较之后使用。）

数据分析笔记 6 贝叶斯统计

确保每个分析过程都充分利用所搜集到的问题与有关数据，条件概率指的是以一件事的发生为前提的另一件事的发生概率。

警惕基础概率谬误，基础概率数据不一定在每种情况下都存在，要用数学的方式解答，将抽象的问题具体化，整数化，搜到新的数据后，重新用贝叶斯统计公式，用基础概率、条件概率来估计新的条件概率。

统计学，需要参考《概率导论》和《深入浅出统计学》，准备阅读。

数据分析笔记7 信息数字化，利用标准偏差评估数据分布

标准偏差，量度的是典型的分析点（个例）与数据集平均值的差距。数据集的大部分点，都会落在平均值的一个标准差范围内，但一般中有特殊。比如一组数据，大部分的标准偏差是2%，有一个数据的标准偏差是10%，那么就需要对这个数据进行分析。

在Excel中，用STDEV（数据范围），来计算一组数据的标准偏差。

很可能需要用贝叶斯规则来进行修正，使用贝叶斯规则求主观概率的根本，在于：找出在假设成立的条件下，证据（事件）出现的概率，计算公式：

P(H| E) =

其中，H表示假设，E表示新证据（事件）；

P(H)是假设成立的概率，

P(E|H)是假设成立的条件下，新证据（事件）出现的概率；

P(~H)是假设不成立的概率（1-P(H)）；

P(E|~H)是假设不成立的条件下，证据出现的概率（1- P(E|H)）。

计算出来的可以用来修正主观概率。

数据分析笔记回归分析和管理误差

回归分析是可以用来预测未来，通常可以用二维散点图为起始，尤其是只涉及两种变量。当然，如果条件允许，也是可以用三维散点图的。散点图的每一个点都是一个独立的观察对象，即个体，产生的数据，它显示两种变量，且显示出观察结果的成对关系。

回归线，显示了某种趋势向平均趋向的趋势，即如果太高则会下降，如果太低则会上升。相关性有强弱，可以利用“相关系数”进行量度：[-1,1]这个区间，正负相关，如果值为0，则表示没有相关，-1或者1这两个值表示完全相关。基础算法就是做回归方程，基础的回归线是直线，y=kx+b,k是斜率，表示倾斜程度。

关于误差，在预测时要指出误差范围，让预测更加有说服力，那么如何控制误差及降低误差？数据是有范围的，所以回归也是有范围的，需要考虑外界的影响因素，可能造成模型失效或适用范围调整。

残差（机会误差）=实际结果-模型预测之间的偏差，所以必须定量的指出误差，让人们对最终值有“合理”的期待，而非不切实际的幻想。用均方根误差定量表示残差分布，用公式计算均方根误差，另一种方式是分割模型，管理误差，分割模型即针对不同类型、区间的变量来计算不同的拟合函数（图像）。

数据分析方法笔记（1）描述性统计

在平时的工作中，能得到许多学生成绩的数据，这些数据在一定程度上反映了学生的努力程度，如果有更加精确的分析方法，则可以帮助学生进行高效的复习。以下是常见的分析方法，优缺点适用环境，及使用方法。

第一部分描述性统计

Excel在数据-数据分析中(首先要进入：文件-选项-加载项-分析工具库VBA，将这个功能调出来)，SPSS在分析中。

直方图分析（频数分析），可同时以正态分布曲线为参照。

相关指标：算术平均值，众数，中位数。

极差：最大值-最小值

四分位差：Qr=Q3-Q1，反映中间50%数据的离散程度，值越小，说明中间的数据越集中。

方差与标准差：根据全部数据进行计算，准确反映数据的差异程度，是实际应用最广泛的离散程度度量值。

变异系数(又称为离散系数/标准差系数/差异系数)，是测度数据离散程度的相对指标，计算公式：CV=标准差/均值

偏度系数(偏斜度)：SK<0:分布呈负偏态

SK>0:分布呈正偏态

峰度：分布集中趋势高峰的形状，常以正态分布为标准。

峰值(峰度系数)：KURT，反映与正态分布相比，某一分布的陡峭程度或平稳度:

K>0:扁平/平缓

K<0:尖峰

参考书籍：《数据分析的统计基础》《精通Excel数据统计与分析》

第二部分：假设检验

假设检验是分析样本指标与总体指标之间是否存在显著差异的。比如数学成绩一班和二班是否有显著差异这种问题。

假设检验通常要确定一个显著性水平：a，通常取0.05，0.01，表示置信区间，a越小，显著性越强，其中多取0.05.

P值是重要的指标，表示当原假设为真时，检验统计量接近实际观测值的概率，也就是说，P≥a时，在显著水平下接收原假设(接近实际)。

一、单样本t检验：对总体均值的假设

SPSS：分析-比较均值-单样本t检验

示例：比较A班数学成绩与本年级所有学生的数学成绩，若P值（表格中为Sig双侧）≥a，则说明A班均值与本年级均值有显著差异。

二、两独立样本t检验

目的：利用来自两个总体的独立样本，推断两个总体的均值是否存在显著性差异。

SPSS：分析-比较均值-独立样本T检验

检验变量：比较哪组值

分组变量（定义组）：按分组的变量是班级，如组1组2分别是1/2班。

示例：比较A班、B班本次考试的数学成绩是否有显著差异。

若P≥a，则说明二者样本均值接近。

三、配对样本t检验

1、同源配对：被测试对象同时、分别接受两种不同的处理。

示例：一些人随机分为两组，AB组同时分别得到数据。

2、自身配对一组同质被试，接受两种不同的处理得到的数据（处理前后）是否存在显著差异。

示例：学生某次考试语文与数学成绩的比较，或者学生在3月和5月数学成绩的比较，或者一种新教学方法的前后成绩。

SPSS：分析-比较均值-配对样本t检验

若P>a（通常a取0.05），则说明前后差异较小，数据接近；

若P<a，则说明前后差异较大，进而说明有显著变化。

a：置信区间若为95%，则a=0.05，即a=1-置信区间

四、Z检验：用于大样本（n>30）平均值差异性检验的方法，用标准正态分布的理论推断差异发生的概率，从而比较两个样本均值的差异是否显著。

示例：甲乙两台机器的产品强度均服从正态分布，判断能否在0.05的显著性水平下，两台机器生产的零件强度有无差别。

Excel：数据分析-z检验爽样本平均差检验

若检验结果z<z双尾临界值，说明二者接近，否则说明二者有显著差异。

第三部分方差分析

方差分析是从变量的方差入手，研究诸多控制变量中，哪些变量是对观测变量有显著影响的变量。

一组数据，许多因素互相制约又互相依存，方差分析的目的是通过数据分析，找出有显著影响的因素、各因素之间的交互作用，以及显著影响因素的最佳水平。

本质上，它研究的是分类型自变量对数值型因变量的影响，以及是否有“显著影响”。

一、单因素方差分析（SPSS）：单个因素对观测变量的影响

示例：比较不同的班级，学生的百米成绩是否有显著的差异（学生的体育成绩是否受班级因素的影响）

SPSS中，分析-比较均值-单因素ANOVA，因变量列表：百米成绩，因子：班级

两两比较（H）对话框中，勾选LSD（L）和Tamhane’sT2（M）复选框，显著性水平设置为0.05（α值）。

其中“两两比较”也称为“多重比较检验”，分析样本间产生差异的具体原因，若通过单因素方差分析判断出了变量对观测变量产生了影响，那么进一步还应该确定控制变量的不同水平对观测变量的影响程度如何。

假定方差相同，对应“假定方差齐性”。

假定方差不同，对应“未假定方差齐性”。

（1） LSD方法：最小显著性差异法，是t检验执行组均值之间的所有成对比较；

（2） Bonferroni方法：使用t检验在组均值之间执行成对比较，它可以控制总体误差率；

（3） Tamhane’sT2方法：当方差不相等时，基于t检验的保守成对比较。

当方差不齐的情况下，一般建议使用非参数估计的方法。

操作：单机继续，回到原对话框，单机选项弹出单因素ANOVA：选项对话框中各选项的含义：

（1）描述性：个案数，均值，标准差，标准误差，95%置信区间；

（2）固定和随机效果：显示固定和随机效应模型的标准差，标准误，95%置信区间和成分间方差估计。

a) 固定效应模型：结论仅限于选中的这些组（目前大数据在普及，通常情况下尽量分析全体数据）

b) 随机效应模型：结论需要推广到所代表的总体中（抽样估计）

（3）方差同质性检验：Levene统计量以检验组方差是否相等，不需要进行总体正态性的假设；

（4） Brown-Forsythe：计算Brown-Forsythe统计量以检验组均值是否相等，当方差不相等时，这种统计量优于F统计量；

（5） Welch：计算Welch统计量以检验组均值是否相等，当方差不相等时，这种统计量优于F统计量（同上）；

（6）均值图：显示一个绘制子组均值的图表；

（7）按分析顺序排除个案：给定分析中的因变量或因子变量有缺失值的个案不用于该分析（排除无值个案），同时也不使用超出为因子变量指定范围的个案；

（8）按列表排除个案：因子变量有缺失的个案，或包括在主对话框中的因变量列表上的任何因变量的值缺失的个案都排除在所有分析之外。如果尚未指定多个因变量，那么此选项不起作用。

分析解读数据：

（1） df为自由度，显著性即P值，若P<0.05，则所比较的数据有显著差异

（2） a.方差齐次性检验

若P>0.05，则说明各水平下观测变量总体的方差无显著差异，可继续作b多重比较分析；

b.多重分析比较：当方差齐，看LSD；方差不齐，看Tamhane

若P<0.05，则说明比较的均值有显著差异。

二、单因素方差分析（Excel）

示例：学生使用不同学习方法得到的成绩。

数据分析-分析工具：方差分析：单因素方差分析:

输入区域：将所有数据圈入。分组方式通常选列，选中标志位于第一行的复选框。

a=0.05

结果有SUMMARY和方差分析两部分。

SUMMARY：样本基本信息；

方差分析：主要看P-value即P值，若P<0.05，则证明不同因素对结果有显著影响。

三、双因素方差分析（Excel）

无重复作用双因素方差分析（不考虑两个因素之间的相互影响）
数据分析—方差分析：无重复双因素分析，选中标志，a值0.01，圈入全部数据。
分析：若P<0.01，则说明变量对结果有显著影响。
有重复作用双因素方差分析：两个因素之间存在相互影响，此处理方法是把交互作用当成一个新因素来处理，即把每种搭配AiBj看作一个整体Xij。
数据分析—方差分析：可重复双因素分析，输入区域：整个表格，注意每一样本的行数(通常是1)。
分析：样本P<0.05：不同样本的数据有差异；
列P<0.05：不同列之间有差异；
交互P<0.05：数据偏向某列，即某列数据比较特别。

第四部分相关（相关系数）

相关关系，也就是非确定性关系，指在两个变量中，当给定一个变量值后，另一个变量值可以在一定范围内变化。

示例：收入与教育水平，学生数学与物理成绩的关系。

一个变量的取值不能完全由另一个值确定。

相关分析可以在影响某个变量的诸多变量中判断哪些是显著的，哪些是关系不大的。

典型步骤：1.绘制两个变量的散点图；2.计算相关系数；3.相关系数的显著性检验。

1. 绘制散点图：使用Excel即可，比较直观。

2. 相关系数：r表示它们关系的密切程度:

a) r=±1：两变量完全线性相关；

b) r=0：两变量可能无规律，也可能具有某种曲线趋势；

c) r>0:正相关 r0：负相关

r取值范围的意义：

i.|r|≥0.8：高度相关；

ii. 0.5≦|r|<0.8:中度相关；

iii.0.3≦|r|<0.5：低度相关；

iv.|r|<.3：极弱，视为不相关。

3. SPSS实现多变量分析：

a) 打开数据，选择分析—相关—双变量；

b) 将待分析的项目（列的名称）移入右边的变量列表框，标记Pearson，显著性检验通常选双侧，表示事先不知相关方向，标注显著性相关，表明显著水平，输出结果在相关系数值右上方用*标示显著性为5%，用**标示显著性水平为1%；

c) 分析：值r为Pearson相关性。

0 0