数据集的基本信息(二)

来源:互联网 发布:白手面板算法 编辑:程序博客网 时间:2024/06/05 09:05

  基本的介绍一些分布指标,稀疏性,缺失值和相关性。

  分布指标:  主要就是两个指标 ------- 偏度峰度

  可以由上一篇中带过的basicStats()函数获得,也可以由timeDate软件包中的skewness(),kurtosis()两个函数计算得到

 

  偏度:  它用于衡量数据的偏倚程度,也就是数据的对称程度。

  skewness( Insurance[,4:5]  )     #  当其值在[-1,1]是认为没有完全的偏移,绝对值大于1时,认为有显著的偏移

                                                      #   小于-1时,有明显的左偏趋势,反之,亦然

 

 

  峰度: 用于衡量分布形态的陡峭程度,值的大小代表其与正态分布的差异程度,值越小,差异越小。

 

  值很大,说明有较为陡峭的峰部,极可能存在异常值。

 

  稀疏性:一种生成稀疏数据集的方法。

  使用sparseMatrix()生成      # dims是设置维度的方法

 

 

  缺失性:

  使用md.pattern()来得到需要观测的值

   

  #  54的意思代表用54个数据是完整的 最左边的代表这样的个数有多少个 最右边的代表,它缺失的属性个数

  #  最下边的代表缺失该属性的个数  右下角为缺失个数的统计

 

  相关性:

  使用cor( ) 实现起来很简单,但是还有些细节问题要去更加的升入,另外相关系数的绝对值高于0.75,我们就认为它们的相关系数很高,但是不是绝对的,要看具体的问题。

 

  相关性的展示用plotcorr()这个函数。

0 0