深入浅出数据分析

来源：互联网发布：迪卡侬天猫知乎编辑：程序博客网时间：2024/05/19 22:27

1. 数据分析过程

通过分析费用、销量数据找出提高销量的所在？

引出分析步骤如下：

确定：客户将帮助你确定问题，你需要尽量从他那里多了解一些信息。

分解：将大问题划分为小问题，即将问题划分为可管理、可解决的组块。

将数据分解为更小的组块，需要自己提炼精确答案的量化值，尝试分解找出高效的比较因子，分解最重要因子。

进行有效的比较时数据分析的核心。

评估：根据基准假设进行比较。

决策：提出建议，将自己的设想和判断以合适的格式整理起来。

如果新信息确定你的决策存在问题，你得到的是不完整的信息，要重新回到起点，确定问题。

我们要用心智模型来理解世界，你对外界的假设和你确信的观点就是你的心智模型。确定问题要用正确的心智模型。

心智模型应当包括你不了解的因素，一定要指出不确定因素，小心防范病想办法填补知识。

总结：从大量数据文件中选取对分析目标有用的部分。

2. 检验你的理论

摆脱对观察数据的无限依赖，可靠的实证数据有助于理清因果关系，将让你的分析判断更有说服力。

统计与分析最基本的原理之一就是比较法，统计只有与其他统计相关联才能给人带来启发。比较越多，分析结果越正确，对于观察研究尤其如此。

观察分析法充满混杂因素，混杂因素就是研究对象的个人差异，这不是你试图进行比较的因素，最终会导致分析结果的敏感度变差。

如果他们的互相差异表现在你力求了解的某个变量方面，这种差异就是混杂因素。

为了控制观察研究混杂因素，有时要讲数据拆分为更小的数据块，使之更具同质性，即不包含那些有可能扭曲你的分析结果以及让你产生错误想法的内部偏差。

好的实验总是有一个控制组（对照组），使分析师能够将检验情况与现状进行比较。

总结：利用心智模型对问题清晰归纳，利用四象限、九宫格等能够更加充分的表述问题。

3. 寻找最大值

利用Excel软件包Solver帮助我们调整决策变量，找出解决方案和优化点。

考虑橡皮鸭、橡皮鱼两种玩具的生产时间和橡胶供应量，将决策变量、约束条件以及希望最大化目标合并为一个目标函数。

考虑生产时间，最多只能生产400只橡皮鸭、300只橡皮鱼，如下图：

再考虑橡胶供应量，最多生产橡皮鸭500只、橡皮鱼400只，如下图：

综合上述，可行区域如下图阴影部分：

利用函数插件Solver可以方便的解决最优化问题，

设置上述各变量对照下图：

但是这样的结果并没有带来好的销售结果，增加历史销售数据来分析趋势，即增加下个月各产品可以销售的最大值：

由此得出正确的结论。

总结：数据分析要得出正确结论，需要多维度、多维度组合的分析问题，不要怕维度多。

4. 图形让你更精明

炫目的图表设计如果不能表达数据的质量以及含义就能影响作出判断。没有故事的图表是不成功的，应该能够从图表中看出隐含的数据。

面对庞杂的数据，需要记住目标，目光停留在跟目标有关的数据上，无视其他。

只要数据图表能解决客户问题，不管精美还是平淡，优秀的数据图形也需要明确起步点。

为了形成优秀的图表，要明确实现客户目标的基本比较对象。

action：比较能够直接回答客户答案的三张表格，作图如下：

展示了数据

做了高明的比较

展示了多个变量

分析师用散点图发现因果关系，即一个变量影响另一个变量的关系。不必论证自变量时影响应变量的原因，我们终归是在探索数据，原因正是我们探索的目标。

最优秀的图形都是多元图形，能对三个以上变量进行比较就是多元图形，再加上有效的比较是数据分析的基础，尽量让图形多元化最有可能促成最有效的比较。

同时展示多张图形，展示更多变量。当你描述你的数据图形时，需要论证可互相换用的两种因果模型或图解，不仅展示你最喜欢的一面，还提出原理存在的问题。

总结：设计最优秀的多元图形，展示数据并进行目标比较。

5. 假设并非如此

收集信息，对一款产品如何面世或者判断比较产品间的优劣，如何筛选、排序各项准则。

整理出各种变量互相间的关系，正相关为＋，负相关为－。

现实中，各种原因呈网络关系而非线性关系，线性等于直觉，因此看出因果关系网络。用手头的资料进行假设检验，假设检验的核心是证伪，剔除无法验证的假设。

选出看上去最可信的一条、其余不做处理为满意法，证伪与此相反，但证伪对各种假设更为敏感，避免陷入认知陷阱。

对证伪法处理剩下的假设如何处理？按照证据对假设支持的强弱程度对假设进行排列，就有诊断性。由证据和假设看看哪条假设具有最强的证据支持。

＋表示证据支持假设，－表示证据不利假设，在剩下的三个假设中找出否定证据最少的一个假设。

新证据放入后再进行判断，得出最后正确的结论。

总结：理清判断规则，提供完备的证据集合，对假设进行充分检验。

6. 贝叶斯统计，利用基础概率和波动数据处理直接概率问题。

7. 主观概率，将严谨融入直觉，并利用标准偏差评估数据分布。

比如背水公司为一家在发展中市场模糊投资的公司，需要分析师帮助它得到所需的信息，制定妥善的投资决策。但是分析师们之间存在大量的分析，总结出他们之间存在分析之处，利用主观概率分析。

主观概率是根据规律进行分析的巧妙方法，尤其是在预测孤立事件却缺乏从前在相同条件下发生过事件的可靠数据的情况下。主观概率表如下：

利用散点图利用上述主观概率分析事件,主观概率是一种向别人精确传达你的想法和信念的富有启发性的表达方式：

适用标准偏差量度分析点和数据集平均值的偏差，主观概率偏离平均值的标准偏差越大，则分析师在假设成立的可能性方面的分歧越大。

Excel中计算标准偏差的公式为： STDEV(数据范围)

贝叶斯规则是修正主观概率的好办法，H代表假设，E代表新证据，在假设成立的条件下，证据出现的概率。

利用Excel实现上述贝叶斯计算如下：

总结：预测没有直接历史数据的事件概率，主观概率是一种分析方法。散点图和标准偏差在分析意见分歧方面异曲同工。

8.启发法，说服他人支持自己的方案或者如何更加正确的提出对事件的认识。

比如非盈利组织糟蹋集要证明它在改变市民乱扔垃圾方面的工作成效，它所造的公众调查无法覆盖减少散乱垃圾量这个目标，但是计算垃圾量不可行。

利用快剩树，快是费时不多，省是不需要大量认知资源，推断出市议会如何评估糟蹋集工作的快剩树如下：

提交环卫工人调查问卷、公众调查问卷，完成自助申请。

总结：利用快剩树等启发法，转换数据分析策略来实现分析目标。比如调整分析结构、分析层次凸显对目标表述更加契合的部分。

9. 直方图，迅速有效的汇总数据，量度数据的分布、差异和集中趋势等。

通过历年加薪纪录，分析提出加薪请求以及加薪幅度多少的合理性。但是数据庞大，如何发挥数据的作用，要对数据进行分类汇总。

用图形方式创建一个汇总，一目了然的观察整个数据集，即直方图。

安装运行R做直方图，hist(employee$received,breaks=50)，第一个自变量制定要用的数据，第二个自变量告诉R如何分组，hist告诉R运行直方图函数。

直方图不仅量度频数，还体现百分比。运行如下指令，得知人们的加薪分布：

sd(employee$received)：返回指定数据范围的标准偏差，加薪幅度与平均值的偏差，结果为2.43%

summary(employee$received)：显示实际加薪列的汇总统计值，平均值、中间值、峰值等。

将整个数据集拆分成几个子集，绘制一些直方图，子集代表不同群体，得出不同形状的直方图，比如：

hist(employee$received[employee$negotiated=FALSE],breaks=50)

hist(employee$received[employee$negotiated=TRUE],breaks=50)

得出如下的加薪结果分布情况，结论为大幅加薪全靠提要求。

结论：直方图在整体数据集分析中至关重要，综合绝对数值和百分比，通过对子集的对比观察能够得出针对目标的结论。

10.回归预测

根据职员要求加薪、实际加薪的历史记录做散点图，散点图显示两种变量，观察结果的成对关系：

employees<-read.csv("employees.csv".header=TRUE)

plot(employees$requested[employees$negotiated==TRUE],employees$received[employees$negotiated==TRUE])

利用平均值图形（一种散点图）预测每个区间的数值，显示X轴上每个区间相对应的Y轴数值。回归线对具有线性相关的数据很有用，计算相关性：

cor(employees$requested[employees$negotiated==TRUE],employees$received[employees$negotiated==TRUE])

线性回归方程计算如下：myLm<-lm(received[negotiated==TRUE]~requested[negotiated==TRUE],data=employees)

myLm$coefficients

得出回归方程：y=2.3+0.7x

结论：回归分析用于连续性数值型的预测，马尔可夫链并不适用此场景。

11.误差，指出合理误差可以让预测和信念更全面，懂得如何控制误差以及如何尽量降低误差从而提高预测可信度。

用回归方程预测数据范围以外的数值称为外插法，小心外插法。与内插法不同，内插法对数据范围内的点进行预测，这是回归的本来目的。因此，要使用外插法就要指定附加假设条件，明确表示不考虑数据集外发生的情况。

但是即使在数据范围以内，回归预测也存在很大的误差。机会误差＝实际结果与模型预测结果之间的偏差，统计学上又称为残差。对残差的分析是优秀的统计模型的核心，小心观察散点图上的残差。

指出误差病不意味着你的分析是错误的，客户越理解你的预测越能做出正确决策。定量的指出误差，给出机会误差的分布，统计典型点相对于回归线的平均偏移量，用均方根误差定量表示残差分布。均方根误差指出两个变量之间的关系，描述的是回归线周围的分布情况。

计算均方根误差：summary(myLm)$sigma

将数据分拆为几个组称为分割，如果为几个分组分别创建预测模型比单独使用一个模型更能减少误差，则应进行分割，从而有助于管理误差。满足优秀的回归分析兼具解释功能和预测功能这一前提。

myLmBig<-lm(received[negotiated==TRUE&requested>10]~requested[negotiated==TRUE&requested>10],data=employees)

myLmSmall<-lm(received[negotiated==TRUE&requested<=10]~requested[negotiated==TRUE&requested<=10],data=employees)

结论：制作图表标注error bar非常重要，表示数据的精确范围。通过分割管理误差在回归预测上很重要。

12.关系数据库

13.井然有序的整理数据，乱糟糟的数据毫无用处。不整齐的数据无法分割、无法套用公式、无法阅读，被人们视而不见也是常事。

用正则表达式清理LastName：NewLastName<-sub("\$.*\$","",hfhh$LastName)

排序让重复值集中出现：hfhhSorted<-hfhh[order(hfhh$PersonID),]

删除重复名字：hfhhNamesOnly<-hfhhSorted

hfhhNamesOnly<-unique(hfhhNamesOnly)

结论：对数据进行排序、分组有利于清晰分析，支持结论。

0 0