炼数成金---Rcur网络爬虫

来源:互联网 发布:网络直播招聘范文 编辑:程序博客网 时间:2024/06/09 15:34

week1:

在此课开始之前,因为没有R的基础,所以先把R语言大概了解了一下。

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

R语言源代码托管在github,具体地址可以看参考资料。
R语言的下载可以通过cran的镜像来查找,具体地址可以看参考资料。
R语言有域名为.cn的下载地址,其中一个由Datagurn,另一个由中国科学技术大学提供的。
R语言Windows版,其中由两个下载地点是Datagurn和USTC提供的。具体地址可以看参考资料。
 
CRAN为Comprehensive R Archive Network(R综合典藏网)的简称。它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。现时,全球有超过一百个CRAN镜像站。
 
R是一套由数据操作、计算和图形展示功能整合而成的套件。包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据分析工具,为数据分析和显示提供的强大图形功能,一套(源自S语言)完善、简单、有效的编程语言(包括条件、循环、自定义函数、输入输出功能)。
 
个人感觉同Python类似,依赖于不同的软件包(即插件)可以很方便地实现对应的功能!
 
============================================================================
1.开始配置R语言的环境
  --下载R源码
     (1)环境vmware10+ubuntu14
     (2)sudo apt-get update 
        (首次安装ubuntu之后,安装软件包,会提示Unable to locate package, 这需要apt-get update来更新源, 但是本地执行sudo apt-get update 命令后
出现了如下错误 Failed to fetch http://cn.archive.ubuntu.com/ubuntu****, 原因有3:
          1. 源太旧了 
          2.源连接不上
          3.网络不通!!
          解决:先检查3,配置vm与os之间网络连接,请参考[1]。
                    对于前面两个问题, sed  -i  's/us.***.com/mirrors.163.com/g'  /etc/apt/sources.list 更改源!  163的源还是不错的!
 
 
      (3) git clone  https://github.com/SurajGupta/r-source  安装R源码包,在github上! ---推荐4种从github上下载git库的方法,参考[2]
             出现了git没有安装,需要先安装git.
             sudo apt-get install git
 
 ---在linux上安装R
    
    配置: ./configure--prefix=<YOUR_R_HOME> --with-readline=yes --with-x=no (如果./configure没有权限,需要修改chmod u+x ./configure
           参数解释
  • prefix R安装目录,需要绝对路径,默认安装在R源代码目录下,建议指定特定目录,后续好维护。
  • with-readline 使用系统的readline库,如果系统上没有libreadline,此选项填“no”,但是强烈推荐使用此选项,否则编译出来的R极其难用(上下左右全部无效,囧!)。如何安装libreadline,参见这里。安装好libreadline后,但是R配置时找不到,可能是libreadline.so没有在系统目录(如/usr/local/lib)中,参见这篇文章排查问题。
  • with-x 表示是否使用X-Windows系统,也就是类Unix操作系统的GUI,由于我的服务器是没有安装这个的,所以这一项选择”no”(一般的服务器也不会安装这个)。

         配置完:make && make intall

在安装过程中,R有部分库依赖java,所以如果没有安装java,R安装扩展库时会异常结束,报告找不到java等信息,但是这个不影响使用。linux上安装java,可以参见这里,配置java环境变量,可以参见这里。

安装完后R后,还无法在系统任何目录下使用R,这一点比较麻烦,所以最好在系统目录下做一个软链接,方便后续操作,命令如下:

         ln -s <YOUR_R_HOME>/bin/R/usr/local/bin/R

 
 
      (4) 安装完成后,可以选择你需要的包。
          R的包(package)通常有两种:
1 binary package:这种包属于即得即用型(ready-to-use),但是依赖与平台,即Win和Linux平台下不同。
2 Source package: 此类包可以跨平台使用,但用之前需要处理或者编译(compiled)。
          1.可以通过选择菜单: 程序包->安装程序包->在弹出的对话框中,选择你要安装的包,然后确定。
          2.使用命令:
             安装包:install.packages("package_name", "dir")  
                                 package_name ---安装包的名字,注意大小写,dir--安装路径,默认情况下是安装在..\library 文件夹中的。
          3.本地安装:(已经下载了包的压缩文件,则可在本地安装)
1)linux环境编译运行:tar.gz文件
2)windows 环境编译运行 :.zip文件
3)MacOSg环境编译运行:.tgz文件
 
注:包安装好后,并不可以直接使用,如果在使用包中相关的函数,必须每次使用前包加载到内存中。通过library(package_name)来完成
 
4.加载包
   Library("包名“)
   Require("包名”)
 
5.查看包的相关信息:
   library(help=package_name)  --查看包help
   find.package() or .path.package()  --当前环境哪些包加载
   detach()  ---移除包出内存
   data(dsname, package="pkgname")   --把其他包的数据加载到内存中
    data(package="包名“)  ---查看这个包里面的包有哪些数据
    library()   ---列出所有安装的包
 
 更多包的函数,http://blog.sina.com.cn/s/blog_61f013b80100ljgq.html 
 
 
           
            
           
 
 

 

0 0