数据分析的统计方法选择小结(变量之间的关联性分析)
来源:互联网 发布:什么是源码销售 编辑:程序博客网 时间:2024/06/15 20:41
数据分析的统计方法选择小结(变量之间的关联性分析)
一、两个变量之间的关联性分析
1.两个变量均为连续型变量
1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析
2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析
2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析
3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析
二、回归分析
1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
3.二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
2)配对的情况:用条件Logistic回归
(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
5.无序多分类有序的Logistic回归:应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素
2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用。
- 数据分析的统计方法选择小结(变量之间的关联性分析)
- 数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?-- 孙文亮
- 数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?
- 数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?
- 如何根据变量类型选择数据分析方法?
- BI数据分析方法小结
- BI数据分析方法小结
- 数据的查询、汇总 、统计和分析
- 基于Hadoop的地震数据分析统计
- 数据统计的错误分析与改进
- 关于App的数据统计和分析
- 统计方法的选择
- 选择一个股票数据分析的入口
- 两个Form窗体之间的关联性问题<跨窗体数据同步>
- 相关分析与回归分析变量选择方法(笔记)
- 数据挖掘的数据分析方法
- 变量的内存分析
- 空间分析:区域分析之基于shapfile的栅格数据统计
- Android线程操作类(暂停、重新开启、停止)
- spring通过@Configuration @Bean注入Bean
- 又是新的挑战
- bzoj2100 [Usaco2010 Dec]Apple Delivery(slf优化的spfa)
- Java中CAS详解(转)
- 数据分析的统计方法选择小结(变量之间的关联性分析)
- Python学习笔记-17.09.13
- BAPC 2016 The 2016 Benelux Algorithm Programming Contest------I: Older Brother
- php计算两个日期相差天数的方法
- bzoj 1047(单调队列)
- 养儿防老?
- 百度地图relase版本地图图层显示不出来
- textarea字数限制的解决方案
- 重写和重载