learning R with swirl-looking at data

来源:互联网 发布:小智logo软件 编辑:程序博客网 时间:2024/05/21 23:42

  当你面对一个新的数据集的时候,你的第一件事是看着它,数据是什么形式的,是多少维的,变量名是什么,变量是怎么储存的?有遗漏的数据吗?数据有缺陷吗?这篇文章将教你回答上述问题并使用R的内置函数。

  数据经常被存储为data.frame类型,在R语言中对于这种类型,默认使用read.csv()和read.table()函数来读数据。既然它是data.frame类型的数据,则它是一个矩形,即有两维,你可以使用dim()函数来观察,如果你只想单独知道它的行,用nrow()函数,如果想单独知道它的列,用ncol()函数,如果你想知道这个数据集所占的空间,可以使用object.size()函数。

   使用names()函数,可以得到每一列变量的名字,例如:

head()函数允许你去预览数据集的前几列,一般而言,它给你展现前6行的数据,你可以通过增加第二个参数来修改你想展现的行数;tail()函数用来显示你数据集的最后几行,它默认的是看最后的15行。

从中,你可以看到有很多的NA值,他们是对丢失数据的占位符。使用summary()函数可以看到每个变量的分布以及有多少数据丢失了。summary()依赖于变量的类型,对每个变量有不同的输出。


  对于了解你的数据结构最有用的函数是str(),