R语言实现从豆瓣抓取数据
来源:互联网 发布:js限制数组长度 编辑:程序博客网 时间:2024/04/29 18:00
原文链接:http://xccds1977.blogspot.com/2013/06/r.html(需翻墙)
1.方法一:
library("RCurl")
library(XML)
movieScore <- function(x) { stopifnot(is.character(x)) #若不为tru,则调用stop # 提交搜索豆瓣表单 search <- getForm("http://movie.douban.com/subject_search", search_text = x) #search_text与x是name-value参数 searchweb <- htmlParse(search)#当content确定为HTML时,可使用htmlTreeParse # 解析搜索结果页面 resnodes <- getNodeSet(searchweb, "//div[@id='wrapper']//table[1]//a") #getNodeSet查找XML中的nodes if (is.null(resnodes)) return(NULL) else resurl <- xmlGetAttr(resnodes[[1]], name = "href") # 得到影片页面后第二次解析 resweb <- getURL(resurl, .encoding = "UTF-8") content <- htmlParse(resweb, encoding = "UTF-8") resnodes <- getNodeSet(content, "//div[@id='interest_sectl']//p[@class='rating_self clearfix']//strong") namenodes <- getNodeSet(content, "//div[@id='content']//h1//span") # 得到影片评分 score <- xmlValue(resnodes[[1]]) name <- xmlValue(namenodes[[1]]) return(list(name = name, score = score))}
movieScore("素媛")
2.方法二:
library(RJSONIO)library(RCurl)library(XML)movieScoreapi <- function(x) { api <- "https://api.douban.com/v2/movie/search?q={" url <- paste(api, x, "}", sep = "") res <- getURL(url) reslist <- fromJSON(res) name <- reslist$subjects[[1]]$title score <- reslist$subjects[[1]]$rating$average return(list(name = name, score = score))}movieScoreapi("辩护人")
3.网页数据抓取的步骤:
如果你对R不大熟悉,抓取这些表格也有更方便的法子,就是利用Chrome的扩展。有两个扩展值得推荐使用:一个扩展叫作table capture,它会自动找出网页中的若干表格,你只需选择所需的那个将其拷贝到剪贴板即可,然后再用下面的命令就可以读入到R中。
data <- read.table('clipboard',T)
另一个扩展叫作scraper。先选择你所需要的部分内容,然后右键选择scraper similar也能抓取表格,不过它会存到一个google doc中去。在天朝这玩意儿不大方便。
有些数据不是以表格方式出现的,例如用XML或是JSON方式储存的数据。在R中都有对应的包来处理。下面的示例即是用XML包来处理XML数据。在此之先你需要有一点关于XML和XPath的知识,首先处理的对象是这样一个页面:http://www.w3schools.com/xml/plant_catalog.xml
library(XML)xml.url <- "http://www.w3schools.com/xml/plant_catalog.xml"# 解析xml页面xmlfile <- xmlTreeParse(xml.url)# 观察对象属性class(xmlfile)# 获取根结点xmltop <- xmlRoot(xmlfile)# 用xmlValue函数获取叶结点处的值xmlValue(xmltop[[1]][[1]])xmlValue(xmltop[['PLANT']][['COMMON']])# xmlSApply类似于sapply函数,取出第一个子结点中的所有叶结点值xmlSApply(xmltop[[1]],xmlValue)# 进一步可以取出所有子结点中的叶结点值plantcat <- xmlSApply(xmltop, function(x) xmlSApply(x, xmlValue))# 将数据转为数据框plantcat_df <- data.frame(t(plantcat),row.names=NULL)plantcat_df[1:5,1:4]
有时候会遇到更为复杂的XML页面,此时的节点内含有参数值。如果要获取这些数据则需要使用getNodeSet()函数配合xmlValue()函数。当遇到更为复杂的数据,那我们只能用readLines读进来,再用字符串函数配合正则表达式来加以处理了。
0 0
- R语言实现从豆瓣抓取数据
- [R语言爬虫] 豆瓣网,10月图书抓取
- R语言实现简单的网页数据抓取
- 豆瓣影评数据抓取
- 【R语言 数据分析】豆瓣电影R语言爬虫和数据分析
- 从豆瓣中抓取图片以及音乐
- R语言实现数据挖掘
- R语言实现数据操作
- 学习利用R语言抓取上市公司的股票数据
- R语言:使用rvest包进行数据简单抓取
- R语言爬虫系列6|动态数据抓取范例
- 用R语言抓取豆瓣前250名的影片评分,并利用正则表达式进行数据处理
- htmlparser实现从网页上抓取数据
- 实现从网页上抓取数据(htmlparser)
- (三)R语言-从数据源获取数据
- 用Scrapy抓取豆瓣小组数据
- 用Scrapy抓取豆瓣小组数据(三)
- scrapy 抓取豆瓣数据(1)
- hpux同一个进程内不能重复attach同一块共享内存
- 太阳能热水工程_太阳能热水工程批发_太阳能热水工程价格
- C++ 面试题-01
- Myeclipse下java.lang.OutOfMemoryError: Java heap space的解决
- Eclipse代码launch指定MainClass
- R语言实现从豆瓣抓取数据
- android 实现QQ好友列表(扩展listview:ExpandableListView)
- 游戏开发(三)——WIN32 黑白棋(三)——游戏画面的现实
- Mac中找不到.bash_profile则自己创建.bash_profile文件
- jsoncpp在linux下的配置
- 化学发展中的人为
- PWM输入模式
- Android Resource介绍和使用
- [leetcode 26] Swap Nodes in Pairs