相关分析

来源:互联网 发布:在数组中添加元素 编辑:程序博客网 时间:2024/05/17 23:31

1 相关分析简介

  1. 相关分析简介
    • 现代自然科学研究, 经济检验, 企业管理等活动中普遍存在相互影响的关系
      • 函数关系是严格的确定对应关系,
      • 相关关系-是一种不要求确定性对应, 具有一定随机性的关系
    • 相关分析用来研究变量间相关关系
  2. 相关关系的种类
    • 按照相关关系的表现形态来划分, 可以分为线性相关和非线性相关
    • 按变量之间相互关系的方向, 分为正相关和负相关
    • 按变量之间相关的程度划分, 可以分为完全相关, 不相关, 和不完全相关
  3. 相关分析的主要内容

    相关分析是对相关关系密切程度的研究, 相关分析的主要内容为

    • 确定现象之间有无相关关系、
    • 确定相关关系的表现形式
    • 确定相关关系的密切程度和方向

      相关分析常通过图形 (散点图) 和数值 (相关系数) 两种方法来揭示事物之间统计关系的强弱 程度

  4. 绘制散点图

    scatter.png

2 Pearson相关分析

  1. Pearson 相关分析系数

    在相关分析中, 对于两个数值型变量, 通常采用Pearson相关系数来度量两 个变量之间的相关性,设 X=(x1,x2,,xn) , Y=(y1,y2,,yn) ,则变量 X 和 Y 的Pearson相关系数定义 为

    r(X,Y)=i=1n(xix¯)(yiy¯)i=1n(xix¯)2i=1n(yiy¯)2

    其中 x¯=1ni=1nxi, y¯=1ni=1nyi 为 X,Y 的均值

  2. Pearson 相关系数的含义和相关性是否显著的检验
    • Pearson 相关系数实际是两个中心化之后的两个变量的夹角余弦
    • 当两个变量完全正相关时(两向量方向完全相同), r=1
    • 若两个变量完全负相关, r=-1
    • 若两个变量无关(相互垂直), r=0
    • 在两个变量不相关的原假设下, 可以证明:
    t=rn21r2n-2

    据此可以检验两个变量之间的相关性是否显著

    • 缺点:如果X和Y为有序的等级变量, 此时数值上的加减没有意义, Pearson相关系数失去意 义, 为此我们考虑基于秩次的 Spearman 相关系数

3 Spearman相关分析

  1. Spearman 相关系数
    • Spearman相关系数常用来度量定序型变量之间的线性相关关系
    • 该系数的设计思想与Pearson简单相关系数完全相同
    • 由于变量不是定距型数据, 不能直接采用原始数据进行计算, 而是利用数据的秩
    • 所谓秩是指 xi 在 x1,,xn 中按照一定的准则排序的顺序
    • Spearman 相关系数的计算是将上述秩次带入到pearson 相关系数的计算公式中
  2. 变量的秩次
    • 利用两变量的秩次大小作线性相关分析, 对原始变量的分布不作要求.
    • 设 X=(x1,x2,,xn) 和 Y=(y1,y2,,yn) 为两个属性变量, 分别对A和 B从小到大进行排序, 求出秩次, 记为 UX, VY
    • 例如 X=(1,5,7,3,4), 1排在第一位, 秩为1, 5 排在第4位, 秩为4, 可 得 $UX$=(1,4,5,2,3),
  3. Spearman相关系数 的具体计算
    • 分别求出变量X 和 变量 Y 的秩次, 分别记为 UY=(U1,,Un),VY=(V1,,Vn),是取值1,,n 的数值变量
    • 计算 UX,VY 的 Pearson相关系数, 即为 变量 X 和Y 的 Spearman相关系数
      ρ(X,Y)=r(UX,VY)=i=1n(Uin+12)(Vin+12)i=1n(Uin+12)2i=1n(Vin+12)2=16i=1n(UiVi)2/(n(n21))
  4. Spearman 等级相关系数的含义
    • 当两变量完全正相关时, 有 UiVi=0,i=1,,ni=1n(UiVi)2=0 ,此时 ρ=1
    • 两变量完全负相关时, 有 Ui+Vi=n+1 ,此时 i=1n(UiVi)2 达到最大值, 此时 ρ=1
    • 当两个变量相关性较弱时, 变量秩的变化不具有同步性, ρ 趋向于0
  5. 用Spearman秩相关系数进行统计推断

    在原假设成立, 即两变量相互独立时, 可以得出Spearman秩相关系数的分布

    • 样本量较少时, Spearman相关系数服从 Spearman分布
    • 大样本情况下
      Z=ρn1N(0,1)
    • 可以通过计算Spearman秩相关系数和对应的尾概率确定两个变量的相关性是否显著

4 Kendall τ 相关分析

  1. Kendall τ 相关系数
    • Kendall τ 系数采用非参数检验方法度量定序变量之间的线性相关关系
    • 利用变量秩计算一致对(同序对) 数目 U 和非一致对(异序对) 数目 V 来生成
    • 显然, 如果两变量具有较强的正相关, 则一致对数目 U 较大, 非一致对数目 V 较小 , 负相关时情况恰好相反
  2. 采用kendall 相关系数进行相关性推断
    • kendall τ 统计量的数字定义为
      τ=(UV)2n(n1)
      • 小样本情况下, τ 服从 Kendall τ 分布
      • 大样本情况下, 采用的检验统计量为:
        Z=τ9n(n1)2(2n+5)

        可以证明, ZN(0,1)

5 相关分析的R实现

  1. 数据

    30名初中生的身高, 体重, 胸围, 坐高数据如下 求相关系数

    身高体重胸围腰围148417278139347176160497786149366779159458086142316676153437683150437779151427780139316874
  2. pearson 相关系数的计算
    options(digits=3)student<-read.table(file="data/student.csv",sep=",",header=F)names(student)<-c("sg","tz","xw","zg")cor(student)
          sg    tz    xw    zgsg 1.000 0.863 0.732 0.920tz 0.863 1.000 0.897 0.883xw 0.732 0.897 1.000 0.783zg 0.920 0.883 0.783 1.000
  3. Pearson相关系数的检验
    sg<-student$sgtz<-student$tzcor.test(sg,tz,method="pearson")
    Pearson's product-moment correlationdata:  sg and tzt = 9.05, df = 28, p-value = 8.394e-10alternative hypothesis: true correlation is not equal to 095 percent confidence interval: 0.730 0.933sample estimates:  cor0.863
  4. Spearman 相关系数的计算
    cor(student,method="spearman")
          sg    tz    xw    zgsg 1.000 0.852 0.746 0.949tz 0.852 1.000 0.897 0.894xw 0.746 0.897 1.000 0.813zg 0.949 0.894 0.813 1.000
  5. Spearman 相关系数的检验
    cor.test(student$sg,student$tz,method="spearman")
    Spearman's rank correlation rhodata:  student$sg and student$tzS = 664, p-value = 2.3e-09alternative hypothesis: true rho is not equal to 0sample estimates:  rho0.852警告信息:In cor.test.default(student$sg, student$tz, method = "spearman") :  无法给连结計算精確p值
  6. Kendall tau 相关系数
    cor(student,method="kendall")
          sg    tz    xw    zgsg 1.000 0.676 0.560 0.841tz 0.676 1.000 0.752 0.745xw 0.560 0.752 1.000 0.659zg 0.841 0.745 0.659 1.000

6 相关分析实现(Using Matlab)

  1. corr 函数说明
    1. corr 计算线性相关系数和秩相关系数
    2. RHO=corr(X) 返回 P ×P 矩阵, 矩阵元素为相应变量的先关系数
    3. RHO=corr(X,Y,...) 返回 P1-by-P2 矩阵, 矩阵元素对应 N-by-P1 and N-by-P2 matrices X and Y.
    4. [RHO,PVAL]=corr(...) 也返回 PVAL为检验向量不相关的 p-values 构成的矩阵, 若PVAL(i,j) 小于 0.05, 说明 RHO(i,j) 显著地偏离 0
    5. [...]=corr(...,'PARAM1',VAL1,'PARAM2',VAL2,...) 常见的参数如下
      • 相关系数类型 'type'
        1. 'Pearson' (默认值)计算Pearson 线性相关系数
        2. 'Kendall' 计算 Kendall's tau 相关系数
        3. 'Spearman' 计算 Spearman's rho.
      • 假设检验类型 'tail' 设定对立假设'both': 双边检验(默认值) ρ0 , 'right' , 右边检验ρ>0 , 'left', 左边检验 ρ<0
  2. 数据

    30名初中生的身高, 体重, 胸围, 坐高数据如下 求相关系数

    身高体重胸围腰围148417278139347176160497786149366779159458086142316676153437683150437779151427780139316874
  3. matlab 命令
    student=csvread('data/student.csv');[pearson,pval]=corr(student)[spearman,pval]=corr(student,'type','Spearman')[kendall,pval]=corr(student,'type','Kendall')
  4. pearson 相关系数
    pearson =    1.0000    0.8632    0.7321    0.9205    0.8632    1.0000    0.8965    0.8827    0.7321    0.8965    1.0000    0.7829    0.9205    0.8827    0.7829    1.0000pval =    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000
  5. Spearman 系数
    spearman =    1.0000    0.8522    0.7458    0.9490    0.8522    1.0000    0.8967    0.8944    0.7458    0.8967    1.0000    0.8129    0.9490    0.8944    0.8129    1.0000pval =    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000
  6. Kendall τ 系数
    kendall =    1.0000    0.6762    0.5598    0.8408    0.6762    1.0000    0.7515    0.7452    0.5598    0.7515    1.0000    0.6594    0.8408    0.7452    0.6594    1.0000PVAL =    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000    0.0000    0.0000    0.0000    0.0000    1.0000    0.0000    0.0000    0.0000    0.0000    1.000


原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 我退款了货到了怎么办 世纪天成账号被盗什么也没绑怎么办 韩国电话卡不想用怎么办2018 汽车没有年检交警抓到怎么办 ios软件未受信任怎么办 淘宝开店被管理了怎么办 微店网络异常025怎么办 商家给买家返款转错了怎么办 淘宝号限制下单怎么办 淘宝退货单号填错了怎么办 淘宝买家申请退款不退货怎么办 不支持7天无理由怎么办 淘宝上不给退货怎么办 网购衣服买小了怎么办 淘宝上全球购买到假货怎么办 京东全球购税费怎么办 代购被海关税了怎么办 网上买猫被骗了怎么办 苏宁账号被冻结怎么办 九州娱乐提款未到账怎么办 法院拍卖后不足的余款怎么办 购车后余款没拿怎么办? 抵押房屋被执行后余款怎么办 苏宁无敌券过期怎么办 被亚马逊自营跟卖怎么办 苏宁易购绑定手机后解绑不了怎么办 手机qq注册号码忘了怎么办 原创头条号被限制推荐了怎么办 为什么打开app有广告怎么办 苹果手机浏览器总是弹出广告怎么办 手机上打开页面出现广告怎么办 电脑下面的任务栏变宽了怎么办 酷派手机总是出现广告怎么办 电脑弹出的热点新闻关闭不了怎么办 京东老是弹广告怎么办 电脑右下角出现无法显示网页怎么办 电脑右下角广告关不了怎么办 qq邮箱被冻结了怎么办 手机qq群自动发广告怎么办 济宁学院考研和上课冲突怎么办 考研但是大四上课多怎么办