微博抓取
来源:互联网 发布:2017高校网络舆情事件 编辑:程序博客网 时间:2024/05/20 11:51
1.微博抓取的含义
2.微博抓取的数据
微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、微文数、如果是转发的微博还包括转发者及转发者说的话的详细信息.
3.微博抓取的工具
a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据
b.新浪微博数据采集器 V1.0
4.微博抓取的方法
a.正则表达式,自己做爬虫。要解决两个问题:模拟登录和页面存储与数据处理
b.微博给的api,有每日使用次数的限制。由于请求方式的不同,导致返回的格式不同。常用的请求格式有两种:XML和JSON。
对于XML,使用JDOM4J的方式进行抓取,本身DOM的要求比较严格,因此对于那种一些用户偏好的个性化字符格式很难进行获取
对于JSON,是一种更加lightweighting的数据交换方式,文件不具有明显的强结构特征。
ex.新浪api 开发的流程
http://jelen-123.iteye.com/blog/1279563
App Key:3197495784App Secret:c2ba81f20da5807e5dccc1ae0166fc85
c.两者结合
d.map/reduce方法分布式获取微博信息
- 微博抓取
- 微博数据抓取
- 新浪微博内容抓取
- 爬虫抓取微博文章
- 新浪微博搜索结果数据抓取
- 新浪微博分享抓取图片标准
- 关于微博数据抓取的实践
- 进行微博数据抓取参考
- 微博抓取策略及实现
- 【分享】青岛爆炸事件微博抓取结果
- 新浪微博数据抓取(java实现)
- 腾讯微博数据抓取(java实现)
- 新浪微博关键字搜索结果抓取
- Java抓取新浪微博及评论
- Java抓取新浪微博首页数据
- 通过selenium抓取新浪微博
- 微博抓取之各种方法收集
- 微信抓取
- php中echo(),print(),print_r()的区别
- 学习使用solr(一),solr和tomcat的配置及数据库中表的全量索引(下)
- nanosleep纳秒级延迟
- windows azure虚拟机CentOS下更改mysql存储位置
- 关于js 的 match函数的一点个人理解(jquery.form.js match)
- 微博抓取
- 关于IE7 z-index问题完美解决方案
- Overload和Override的区别
- Developable Surface --Computer Graphic
- 网页文字纵向排版方法使用示例
- svn客户端常用命令和不常用命令
- 流水灯
- asp.net中ViewState状态还原
- MPI里有什么函数(这里安层划分,由上至下,各层不相干)