一个RCurl抓取美团网信息的实例
来源:互联网 发布:留学读博士费用知乎 编辑:程序博客网 时间:2024/05/02 08:23
最近忽然想尝试用R做一个简单的网络爬虫,看了不少资料,查了不少技术牛人的代码,总算成功抓取了一份美团的团购信息,代码寄上,请行内人士多多指教。
library(RCurl)
library(XML)
urllist=0
page=1:5
urllist[page]= paste0("http://t.dianping.com/list/guangzhou-category_0?pageIndex=",1:5) #随便选取广州城市的团购信息,这里象征性的抓取5页
美食<-c() #构建相应的存储向量并初始化
团购信息<-c()
优惠价<-c()
原价<-c()
销售量<-c()
for(url in urllist)
{
temp=getURL(url,httpheader=myheader,encoding="UTF-8")
doc<-htmlTreeParse(temp, useInternal =TRUE)
food<-sapply(getNodeSet(doc,'//div[@class="tg-floor-item-wrap"]/a[@class="tg-floor-title"]/h3'),xmlValue) #抓取美食
美食<-c(美食,food)
tuangou<-sapply(getNodeSet(doc,'//div[@class="tg-floor-item-wrap"]/a[@class="tg-floor-title"]/h4'),xmlValue) #抓取团购信息
团购信息<-c(团购信息,tuangou)
youhui<-sapply(getNodeSet(doc,'//div/span[@class="tg-floor-price"]/span[@class="tg-floor-price-new"]'),xmlValue) #抓取优惠价
优惠价<-c(优惠价,youhui)
oldprice<-sapply(getNodeSet(doc,'//div/span[@class="tg-floor-price"]/span[@class="tg-floor-price-old"]'),xmlValue) #抓取原价
原价<-c(原价,oldprice)
quantity<-sapply(getNodeSet(doc,'//div/span[@class="tg-floor-sold"]'), xmlValue) #抓取销售量
销售量<-c(销售量,quantity)
}
广州美食<-data.frame(美食,团购信息,优惠价,原价,销售量) # 合成一个数据框
write.csv(广州美食,file="广州美食.csv")
- 一个RCurl抓取美团网信息的实例
- Rcurl抓取NCBI信息
- RCurl抓取团购信息
- RCurl抓取
- 利用RCurl包完成自己感兴趣的团购信息【批量】抓取
- RCurl汽车之家抓取
- 利用Http Analyzer与RCurl抓取脚本中隐藏的数据
- 实例讲解asp抓取网上房产的信息
- 实例讲解asp抓取网上房产的信息
- android 封装抓取网页信息的实例代码
- RCurl来了--从数据抓取讲起
- RCurl爬虫抓取验证码例子
- RCurl的强大
- 一个从别的网站抓取信息的例子(域名查询
- (网页抓取)一个用PHP实现的网页抓取的实例
- 实例讲解asp抓取网上信息
- scrapy抓取一个电影网站信息
- ASP 信息抓取的思路
- Roman to Integer
- 3D数学基础及图形与游戏开发的学习 (一)
- Android Service使用方法--简单音乐播放实例
- Facebook内部分享:25个高效工作的小技巧
- 智力题(第一集)
- 一个RCurl抓取美团网信息的实例
- 会员卡管理系统技术解析(十一)会员卡退领记录查询
- Python图像处理(6):分离土壤与植物
- 截图和压缩图片
- Linux-dd命令详解
- 南大莫砺锋教授结婚三十年纪念写给妻子的“赠内诗”十首
- ubuntu15.04下安装部署Solr5.1.0(结构介绍)
- java自动装箱和拆箱
- ubuntu平台编译opencv 3D项目一