数据分析笔记

来源:互联网 发布:python twisted过时 编辑:程序博客网 时间:2024/06/07 12:21

       第一章:数据分析根本在于分解问题,为数据套上适当的心智模型和统计模型,可以分为四个步骤进行:

       1.确定

      确定问题,第一步就是了解问题,多向客户提问,确定目标。

       2.分解

      数据分析总的来说就是分解问题和数据,将大问题分解为小问题。

       3.评估

      对在前两步了解到的情况作出各种结论,多利用比较法,反向思考。

       4.决策

      把结论重新组合在一起,给出一个建议或则决策,如果发现数据与假设有矛盾,重新设立假设。

      

       统计模型取决于心智模型,对外界的假设和确定的观点就是心智模型。心智模型可能是先天禀赋,也可能是后天学会的理论。某些错误的观点导致了错误的心智模型建立,从而使得分析陷入歧途,得出不同的结果。比如:分析初就假设这种类型的商品只适用于(11-15)岁的小女孩,而忽视了其他类型的使用人群,基于这种心智模型,就会影响到你最终得出的结论不是去努力拓宽使用人群,而是增加在小女孩人群中的广告投放力度。

      心智模型应当包括你不了解的因素,只要能够明确不确定因素,你就会小心防范并想办法填补知识空白,继而提出更好的建议。数据分析中,了解自己的知识缺陷非常重要,未雨绸缪方能不测风雨。

 

         第二章:检验你的理论:好的AB测试;没有任何统计数据是绝对准确的,比较是破解观察数据不准备的法宝,数据只有对比才有意义;控制组:一组体现现状的处理对象,未经过任何新的处理。随机划分实验组和控制组。

       注意混杂因素:

     (混杂因素不是我们要比较的因素,而是研究对象的个人差异,它会导致分析结果的敏感度变差。)剔除混杂因素的方法:(1)拆分数据块,尽量保证小数据块的同质性(2)尽量做到样本随机。

 

         第三章:寻找最大值:利用规划求解;设定公式及所有约束条件,求可行区域内的最大解。

 

         第四章:数据图形化:数据图形化的根本在于正确比较,利用散点图发现因果。

 

         第五章:假设检验   

       核心是证伪法,通过每一条信息剔除基本不可能的假设;之后将各种因素之间建立正负相关性关联;每一条信息分别给各个假设赋正负值,拥有最大值的假设是最可能发生的。

 

         第六章:贝叶斯统计:贝叶斯很神奇:若默认患感冒,检验结果为阳性的概率为90%,或未患感冒,检验结果为阳性的概率为9%;如果你检验结果为阳性,感冒的概率为多少(1%的人患了感冒)。比如大家都认为A非常可能发生,突然收到消息说A很可能不发生;这是的做法不是让所有人重新评估A发生的概率,而是评估A如果发生收到这条消息的概率和A不发生收到这条消息的概率,之后利用贝叶斯进行计算。

 

         第七章:主观概率:将直觉固化为主观概率数据,用一个数字形式的概率来表示自己对某事的确信程度。贝叶斯规则是修正主观概率的好办法。用标准偏差确定分歧大小;整理数据和确定数据之间的关系,是数据分析的第一步。

 

         第八章:启发法:用一种更便于理解的属性代替一种难解的、令人困惑的属性。你是凭冲动做决定,还是凭几个精心选取的关键数据做决定?或是构建一个包含所有变量的模型,然后得出最佳答案?

        

         第九章:直方图
         直方图能体现数据的分布、差异、集中,软件R的使用。


         第十章:回归
         回归法可以洞悉一切。-1~0,0~1,越接近1-1相关性越低。


         第十一章:误差
         定量指出误差,降低误差提高数据可信度。


         第十二章:关系数据库
         使用数据库存储管理数据。


         第十三章:整理数据
         ExcelR、正则表达式,清洗数据。

 

实战要点

进行预测时必须要问的问题:1、是否有足够的数据进行预测;2、预测的准确性如何;3、定性or定量预测;4、客户可否顺利利用该预测;5、预测有何局限性

原创粉丝点击