数据集的基本信息（二）

来源：互联网发布：白手面板算法编辑：程序博客网时间：2024/06/05 09:05

基本的介绍一些分布指标，稀疏性，缺失值和相关性。

分布指标：主要就是两个指标 ------- 偏度和峰度

可以由上一篇中带过的basicStats()函数获得，也可以由timeDate软件包中的skewness(),kurtosis()两个函数计算得到

偏度：它用于衡量数据的偏倚程度，也就是数据的对称程度。

skewness( Insurance[，4:5] ) # 当其值在[-1,1]是认为没有完全的偏移，绝对值大于1时，认为有显著的偏移

# 小于-1时，有明显的左偏趋势，反之，亦然

峰度：用于衡量分布形态的陡峭程度，值的大小代表其与正态分布的差异程度，值越小，差异越小。

值很大，说明有较为陡峭的峰部，极可能存在异常值。

稀疏性：一种生成稀疏数据集的方法。

使用sparseMatrix()生成 # dims是设置维度的方法

缺失性：

使用md.pattern()来得到需要观测的值

# 54的意思代表用54个数据是完整的最左边的代表这样的个数有多少个最右边的代表，它缺失的属性个数

# 最下边的代表缺失该属性的个数右下角为缺失个数的统计