微博抓取

来源:互联网 发布:2017高校网络舆情事件 编辑:程序博客网 时间:2024/05/20 11:51

1.微博抓取的含义


2.微博抓取的数据

 微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、微文数、如果是转发的微博还包括转发者及转发者说的话的详细信息.


3.微博抓取的工具

a.ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据

b.新浪微博数据采集器 V1.0

4.微博抓取的方法

a.正则表达式,自己做爬虫。要解决两个问题:模拟登录和页面存储与数据处理

b.微博给的api,有每日使用次数的限制。由于请求方式的不同,导致返回的格式不同。常用的请求格式有两种:XML和JSON。

对于XML,使用JDOM4J的方式进行抓取,本身DOM的要求比较严格,因此对于那种一些用户偏好的个性化字符格式很难进行获取

对于JSON,是一种更加lightweighting的数据交换方式,文件不具有明显的强结构特征。


ex.新浪api 开发的流程

http://jelen-123.iteye.com/blog/1279563


App Key:3197495784App Secret:c2ba81f20da5807e5dccc1ae0166fc85


c.两者结合


d.map/reduce方法分布式获取微博信息