数据分析笔记
来源:互联网 发布:python twisted过时 编辑:程序博客网 时间:2024/06/07 12:21
第一章:数据分析根本在于分解问题,为数据套上适当的心智模型和统计模型,可以分为四个步骤进行:
1.确定
确定问题,第一步就是了解问题,多向客户提问,确定目标。
2.分解
数据分析总的来说就是分解问题和数据,将大问题分解为小问题。
3.评估
对在前两步了解到的情况作出各种结论,多利用比较法,反向思考。
4.决策
把结论重新组合在一起,给出一个建议或则决策,如果发现数据与假设有矛盾,重新设立假设。
统计模型取决于心智模型,对外界的假设和确定的观点就是心智模型。心智模型可能是先天禀赋,也可能是后天学会的理论。某些错误的观点导致了错误的心智模型建立,从而使得分析陷入歧途,得出不同的结果。比如:分析初就假设这种类型的商品只适用于(11-15)岁的小女孩,而忽视了其他类型的使用人群,基于这种心智模型,就会影响到你最终得出的结论不是去努力拓宽使用人群,而是增加在小女孩人群中的广告投放力度。
心智模型应当包括你不了解的因素,只要能够明确不确定因素,你就会小心防范并想办法填补知识空白,继而提出更好的建议。数据分析中,了解自己的知识缺陷非常重要,未雨绸缪方能不测风雨。
第二章:检验你的理论:好的AB测试;没有任何统计数据是绝对准确的,比较是破解观察数据不准备的法宝,数据只有对比才有意义;控制组:一组体现现状的处理对象,未经过任何新的处理。随机划分实验组和控制组。
注意混杂因素:
(混杂因素不是我们要比较的因素,而是研究对象的个人差异,它会导致分析结果的敏感度变差。)剔除混杂因素的方法:(1)拆分数据块,尽量保证小数据块的同质性(2)尽量做到样本随机。
第三章:寻找最大值:利用规划求解;设定公式及所有约束条件,求可行区域内的最大解。
第四章:数据图形化:数据图形化的根本在于正确比较,利用散点图发现因果。
第五章:假设检验
核心是证伪法,通过每一条信息剔除基本不可能的假设;之后将各种因素之间建立正负相关性关联;每一条信息分别给各个假设赋正负值,拥有最大值的假设是最可能发生的。
第六章:贝叶斯统计:贝叶斯很神奇:若默认患感冒,检验结果为阳性的概率为90%,或未患感冒,检验结果为阳性的概率为9%;如果你检验结果为阳性,感冒的概率为多少(1%的人患了感冒)。比如大家都认为A非常可能发生,突然收到消息说A很可能不发生;这是的做法不是让所有人重新评估A发生的概率,而是评估A如果发生收到这条消息的概率和A不发生收到这条消息的概率,之后利用贝叶斯进行计算。
第七章:主观概率:将直觉固化为主观概率数据,用一个数字形式的概率来表示自己对某事的确信程度。贝叶斯规则是修正主观概率的好办法。用标准偏差确定分歧大小;整理数据和确定数据之间的关系,是数据分析的第一步。
第八章:启发法:用一种更便于理解的属性代替一种难解的、令人困惑的属性。你是凭冲动做决定,还是凭几个精心选取的关键数据做决定?或是构建一个包含所有变量的模型,然后得出最佳答案?
第九章:直方图
直方图能体现数据的分布、差异、集中,软件R的使用。
第十章:回归
回归法可以洞悉一切。-1~0,0~1,越接近1,-1相关性越低。
第十一章:误差
定量指出误差,降低误差提高数据可信度。
第十二章:关系数据库
使用数据库存储管理数据。
第十三章:整理数据
Excel、R、正则表达式,清洗数据。
实战要点
进行预测时必须要问的问题:1、是否有足够的数据进行预测;2、预测的准确性如何;3、定性or定量预测;4、客户可否顺利利用该预测;5、预测有何局限性
- 数据分析笔记
- 数据分析工具笔记
- Python数据分析笔记
- 数据分析自学笔记
- 数据分析笔记
- 数据分析学习笔记
- 数据分析学习笔记
- Python数据分析笔记
- 数据分析要点笔记
- Clojure数据分析秘笈 笔记
- 《深入浅出数据分析》笔记一
- 《深入浅出数据分析》笔记二
- 深入浅出数据分析 学习笔记
- 笔记《深入浅出数据分析》上
- 数据分析算法的笔记
- python数据分析学习笔记
- 探索性数据分析week1笔记
- 游戏运营笔记四数据分析
- 操作系统实验_lru
- 服务器关键业务的可靠性:一个9的差距
- [iBatis]加载xml时的异常
- synchronized 和 lock 锁的区别
- android虚拟机上安装SD卡
- 数据分析笔记
- io流温习---上传照片---测试类
- JSP技术模型(五)JSP隐含变量
- NYOJ 150 栈
- iOS学习——第五天练习
- 实现分页和页码跳转
- Cloud Foundry 源码解析一览(router)
- poj 3437
- android虚拟机SD卡文件的操作