R语言:rvest抓取赶集网北京海淀区房产数据(应该有更好的办法)
来源:互联网 发布:开淘宝店做代理好不好 编辑:程序博客网 时间:2024/04/26 15:31
这个办法可能比较原始,但是部分解决了我的问题。第一个循环生成第一页的数据集。后面第二个循环,从第二页到第20页,把取到的数据合并到第一个数据集中。
现在的问题是汉字乱码,只好不收集汉字信息。
install.packages("rvest") library(rvest) rm(iDataAll) for(i in 1:1){ gurl <- paste0("http://bj.ganji.com/fang5/haidian/o",i,"/") print(gurl) tmp <- gurl %>% html_session %>% read_html(encoding="utf-8") %>% html_nodes("div.f-main-list>div>div") # 面积 iArea <- tmp %>% html_nodes("dl>dd[data-huxing]") %>% html_attr("data-area") %>% gsub(pattern="[^0-9]",replacement="") # 筛选朝向等数据 iTmp <- tmp %>% html_nodes("dl>dd[data-huxing]>span") %>% html_text # 提取价格 iPrice <- tmp %>% html_nodes("dl>dd>div.price>span:first-child") %>% html_text # 提取单价 iTime <- tmp %>% html_nodes("dl>dd>div.time") %>% html_text %>% gsub(pattern="[^0-9]",replacement="") %>% as.numeric # 合并数据框 iDataAll <- data.frame( iArea=iArea, iPrice=iPrice, iTime=iTime, stringsAsFactors=FALSE) } for(i in 2:20){ gurl <- paste0("http://bj.ganji.com/fang5/haidian/o",i,"/") print(gurl) tmp <- gurl %>% html_session %>% read_html(encoding="utf-8") %>% html_nodes("div.f-main-list>div>div") # 面积 iArea <- tmp %>% html_nodes("dl>dd[data-huxing]") %>% html_attr("data-area") %>% gsub(pattern="[^0-9]",replacement="") # 筛选朝向等数据 iTmp <- tmp %>% html_nodes("dl>dd[data-huxing]>span") %>% html_text # 提取价格 iPrice <- tmp %>% html_nodes("dl>dd>div.price>span:first-child") %>% html_text # 提取单价 iTime <- tmp %>% html_nodes("dl>dd>div.time") %>% html_text %>% gsub(pattern="[^0-9]",replacement="") %>% as.numeric # 合并数据框 iData <- data.frame( iArea=iArea, iPrice=iPrice, iTime=iTime, stringsAsFactors=FALSE) iDataAll <- rbind(iDataAll, iData) } iDataAll summary(iDataAll)
阅读全文
0 0
- R语言:rvest抓取赶集网北京海淀区房产数据(应该有更好的办法)
- R语言:使用rvest包进行数据简单抓取
- R语言网页抓取入门-rvest包
- 北京海淀区最有权威的翻译公司
- R语言rvest爬取
- R语言rvest包简介
- R语言rvest包爬取当当网单个商品的商品id,品牌,价格等商品属性
- 有没有更好的办法
- R语言rvest包3步爬取中国天气网国内所有城市(县)7天实时天气预报数据
- R语言rvest包4步爬取当当网某一商品类目下的所有商品属性信息
- R语言实现简单的网页数据抓取
- 学习利用R语言抓取上市公司的股票数据
- R语言实现从豆瓣抓取数据
- 使用rvest包抓取新浪财经A股交易数据
- 北京海淀区集体户口办理结婚登记手续的注意事项
- 赶集网借移动优势大规模布局互联网房产市场
- R语言爬虫之rvest包初试(一)
- 【R 语言爬虫】rvest 包实战链家爬虫
- 进程同步
- hive+hbase 细节详解
- AKKA日志
- 史上最全ajax全套讲解
- 1077. Kuchiguse (20)
- R语言:rvest抓取赶集网北京海淀区房产数据(应该有更好的办法)
- BZOJ 1046 [HAOI2007]上升序列 动态规划+贪心
- C++——【USACO 4.4.2】——Pollutant Control
- UVALive 7511 2015ECfinal
- Linux练习(5)
- Mybatis和Spring整合的几种方式
- 自己写的链表MyLinkind
- [LeetCode]169. Majority Element
- Java:final关键词使用(上)