数据集的基本信息(二)
来源:互联网 发布:白手面板算法 编辑:程序博客网 时间:2024/06/05 09:05
基本的介绍一些分布指标,稀疏性,缺失值和相关性。
分布指标: 主要就是两个指标 ------- 偏度和峰度
可以由上一篇中带过的basicStats()函数获得,也可以由timeDate软件包中的skewness(),kurtosis()两个函数计算得到
偏度: 它用于衡量数据的偏倚程度,也就是数据的对称程度。
skewness( Insurance[,4:5] ) # 当其值在[-1,1]是认为没有完全的偏移,绝对值大于1时,认为有显著的偏移
# 小于-1时,有明显的左偏趋势,反之,亦然
峰度: 用于衡量分布形态的陡峭程度,值的大小代表其与正态分布的差异程度,值越小,差异越小。
值很大,说明有较为陡峭的峰部,极可能存在异常值。
稀疏性:一种生成稀疏数据集的方法。
使用sparseMatrix()生成 # dims是设置维度的方法
缺失性:
使用md.pattern()来得到需要观测的值
# 54的意思代表用54个数据是完整的 最左边的代表这样的个数有多少个 最右边的代表,它缺失的属性个数
# 最下边的代表缺失该属性的个数 右下角为缺失个数的统计
相关性:
使用cor( ) 实现起来很简单,但是还有些细节问题要去更加的升入,另外相关系数的绝对值高于0.75,我们就认为它们的相关系数很高,但是不是绝对的,要看具体的问题。
相关性的展示用plotcorr()这个函数。
- 数据集的基本信息(二)
- Lua的基本信息调试(二)
- 数据集基本信息查看
- Java反射二 获取类的基本信息
- Lucene二(域选项、文档基本信息、索引的增删改查)
- Lua的基本信息调试(一)
- Lua的基本信息调试(三)--lua_getstack
- linux 中文件(文件夹)的基本信息
- WEBERP实施:二,基本信息设置
- 杨勇的基本信息
- 数据库表的基本信息
- 心理控制的基本信息
- Web Workers 的基本信息
- oracle的基本信息查询
- Java 线程的基本信息
- 查看机器的基本信息
- 公众平台的基本信息
- Lua的基本信息调试
- 第五周 程序阅读——static(1)
- 派生类的指针绑定到基类的对象(编译通过,但结果不可预知)
- 多线程之生产者-消费者
- oracle登录无响应问题解决方法(oracle4612267补丁安装教程)
- 常用类"三"(BigInteger,BigDecimal,Date)
- 数据集的基本信息(二)
- Visual Studio工程里的自定义宏
- 蓝桥杯-基础练习-数列排序
- viewstatus
- 继承
- 计算机网络之 网络层
- 第五周 程序阅读——static(2)
- 值传递和引用传递-----函数参数传递的两种方式
- 黑马程序员——java语言基本组成1