R语言入门

来源:互联网 发布:mac层和物理层 知乎 编辑:程序博客网 时间:2024/06/17 11:11

setwd()   设置工作目录


getwd()   获取当前工作目录。

install.packages()    下载包。其中dependencies(默认为FALSE)可设置为TRUE 即 安装初始安装过程所依赖的程序包

包:arm  用于构建多水平/层次回归模型的程序包

   ggplot2 :创建高质量图形的首选程序包

  glmnet:包含Lasso和elastic-net的正则化广义线性模型

  igraph:简单的图及网络分析程序,用于模拟社交网络

  lme4:提供函数用于创建线性及广义混合效应模型

  lubridate :提供方便的函数,使在R环境中处理日期更加容易

  RCurl:提供libcurl库中HTTP协议交互的R接口,用于从网络中导入原始数据

  reshape:提供一系列工具用于在R中处理,聚合以及管理数据

  RJSOIN:提供读写JSON(javaScript Object Notation)数据的函数,用于解析来自网络API的数据

  tm:提供一系列文本挖掘函数,用于处理非结构化文本数据

  XML:用于解析XML及HTML文件,以便从网络中提取结构化数据

用R去读取数据,需要注意的是,字段是如何分割的,read.*函数会把字符串转换为factor类型。如果没有表头

需要把表头的参数设置为false,防止R默认把第一行当作表头。

最后,如果有空元素,则定义空字符串为na.string。

想操作数据框,特别是从外部数据源读入时,强烈建议手工查看一下数据先。比较好用的函数是head,打印前六条数据。

注意书写R的时候,是使用“,”来分割,而不是空格。

使用names可以读取列名,写入列名,很方便。

使用as.Date可以转换日期格式字符串

移除错误的数据行,可以使用ifelse函数来构建一个布尔值向量。这种机制在用于处理数据循环迭代式占优势。

在知道所需要列中的每一行字符串的长度之后,使用nchar函数,如果长度不等于多少,就返回FALSE,可以得到布尔值向量,用which函数,它返回一个包含FLASE值得向量

接下来,使用length函数计算向量的长度即可知道畸形数据的条数。