炼数成金---Rcur网络爬虫
来源:互联网 发布:网络直播招聘范文 编辑:程序博客网 时间:2024/06/09 15:34
week1:
在此课开始之前,因为没有R的基础,所以先把R语言大概了解了一下。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R语言源代码托管在github,具体地址可以看参考资料。
R语言的下载可以通过cran的镜像来查找,具体地址可以看参考资料。
R语言有域名为.cn的下载地址,其中一个由Datagurn,另一个由中国科学技术大学提供的。
R语言Windows版,其中由两个下载地点是Datagurn和USTC提供的。具体地址可以看参考资料。
CRAN为Comprehensive R Archive Network(R综合典藏网)的简称。它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。现时,全球有超过一百个CRAN镜像站。
R是一套由数据操作、计算和图形展示功能整合而成的套件。包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据分析工具,为数据分析和显示提供的强大图形功能,一套(源自S语言)完善、简单、有效的编程语言(包括条件、循环、自定义函数、输入输出功能)。
个人感觉同Python类似,依赖于不同的软件包(即插件)可以很方便地实现对应的功能!
============================================================================
1.开始配置R语言的环境
--下载R源码
(1)环境vmware10+ubuntu14
(2)sudo apt-get update
(首次安装ubuntu之后,安装软件包,会提示Unable to locate package, 这需要apt-get update来更新源, 但是本地执行sudo apt-get update 命令后出现了如下错误 Failed to fetch http://cn.archive.ubuntu.com/ubuntu****, 原因有3:1. 源太旧了2.源连接不上3.网络不通!!解决:先检查3,配置vm与os之间网络连接,请参考[1]。对于前面两个问题, sed -i 's/us.***.com/mirrors.163.com/g' /etc/apt/sources.list 更改源! 163的源还是不错的!
(3) git clone https://github.com/SurajGupta/r-source 安装R源码包,在github上! ---推荐4种从github上下载git库的方法,参考[2]
出现了git没有安装,需要先安装git.
sudo apt-get install git
---在linux上安装R
配置: .
/configure
--prefix=<YOUR_R_HOME> --with-readline=
yes
--with-x=no (如果./configure没有权限,需要修改chmod u+x ./configure
参数解释
- prefix R安装目录,需要绝对路径,默认安装在R源代码目录下,建议指定特定目录,后续好维护。
- with-readline 使用系统的readline库,如果系统上没有libreadline,此选项填“no”,但是强烈推荐使用此选项,否则编译出来的R极其难用(上下左右全部无效,囧!)。如何安装libreadline,参见这里。安装好libreadline后,但是R配置时找不到,可能是libreadline.so没有在系统目录(如/usr/local/lib)中,参见这篇文章排查问题。
- with-x 表示是否使用X-Windows系统,也就是类Unix操作系统的GUI,由于我的服务器是没有安装这个的,所以这一项选择”no”(一般的服务器也不会安装这个)。
配置完:make && make intall
在安装过程中,R有部分库依赖java,所以如果没有安装java,R安装扩展库时会异常结束,报告找不到java等信息,但是这个不影响使用。linux上安装java,可以参见这里,配置java环境变量,可以参见这里。
安装完后R后,还无法在系统任何目录下使用R,这一点比较麻烦,所以最好在系统目录下做一个软链接,方便后续操作,命令如下:
ln -s <YOUR_R_HOME>/bin/R/usr/local/bin/R
(4) 安装完成后,可以选择你需要的包。
R的包(package)通常有两种:
1 binary package:这种包属于即得即用型(ready-to-use),但是依赖与平台,即Win和Linux平台下不同。
2 Source package: 此类包可以跨平台使用,但用之前需要处理或者编译(compiled)。
1.可以通过选择菜单: 程序包->安装程序包->在弹出的对话框中,选择你要安装的包,然后确定。
2.使用命令:
安装包:install.packages("package_name", "dir")
package_name ---安装包的名字,注意大小写,dir--安装路径,默认情况下是安装在..\library 文件夹中的。
3.本地安装:(已经下载了包的压缩文件,则可在本地安装)
1)linux环境编译运行:tar.gz文件2)windows 环境编译运行 :.zip文件3)MacOSg环境编译运行:.tgz文件注:包安装好后,并不可以直接使用,如果在使用包中相关的函数,必须每次使用前包加载到内存中。通过library(package_name)来完成4.加载包Library("包名“)Require("包名”)5.查看包的相关信息:library(help=package_name) --查看包helpfind.package() or .path.package() --当前环境哪些包加载detach() ---移除包出内存data(dsname, package="pkgname") --把其他包的数据加载到内存中data(package="包名“) ---查看这个包里面的包有哪些数据library() ---列出所有安装的包更多包的函数,http://blog.sina.com.cn/s/blog_61f013b80100ljgq.html
0 0
- 炼数成金---Rcur网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- android Bitmap学习总结
- 纯虚函数可以定义了
- Ubuntu 下安装 JDK
- ORACLE 创建表空间,用户,权限
- hdu 1864 最大报销额 模型为简单的01背包
- 炼数成金---Rcur网络爬虫
- 设计模式--工厂模式
- Android-自定义圆角Toast提示框
- Struts2得到Request和Session
- 机房收费系统总结——代码独立性
- shell脚本中source aaa.sh时提示 source: not found
- poj 2562 Primary Arithmetic
- 2014阿里前端线上笔试题
- String常量池