微博舆情 之 数据获取

来源:互联网 发布:eml打开软件 编辑:程序博客网 时间:2024/04/28 14:50

这篇主要讲一下当时获取微博内容时所采用的方法。
由于我们选取的是新浪微博,本身提供了一系列的API供调用,包括粉丝服务、微博、评论、用户、关系、账号接口等服务。现在的V2版又增加了收藏、搜索、提醒、位置服务、地理信息、地图引擎、支付等接口,并且采用Https协议,具有更高的安全性。

  • 应用

为了能够调用接口,需要以开发者的身份创建一个应用。

应用信息
创建好之后在应用信息里面会有基本信息、高级信息和测试信息。

1、在基本信息里面查看App Key 和App Secret,这两个是在授权别人访问自己应用及使用微博的评论回复时,需要使用。

2、在高级信息里面设计回调页面。这个回调页面是授权时需要使用的。可以填写默认的地址,也可以填写自己的应用。如果填写的是自己的应用,那么授权用户成功后,会跳转到你应用的地址。

3、如果应用还在测试阶段,那么,授权的对象,必须加入测试帐号才能进行微博相关的活动。并且授权期限是1天。测试帐号,在第二步的高级信息菜单的下一个菜单。

  • SDK

1、把App Key 和App Secret导入工程中
在Config.properties里
client_ID :appkey(创建应用获取到的appkey)
client_SERCRET :app_secret(创建应用获取到的appsecret)
redirect_URI : 回调地址(OAuth2的回调地址)

2、在WeiboConfig里更改下
props.load(Thread.currentThread().getContextClassLoader().getResourceAsStream(“config.properties”));

3、调用example里:OAuth4Code.java,运行,会弹出认证界面。

4、我们并不需要这个页面,而是需要该页面的地址,地址的最后是code=XXXXX,把XXXXX填到eclipse的控制台下。

5、回车,在最下面会得到access_token和uid,记下来,这两个参数很有用,一般来说需要用这两个参数来从服务器上抓取数据。

6、在调用类的时候,传入这两个参数就能够调用它的API得到结果了。


另外,对于爬虫的反爬机制,可以用下面两种方法来解决:

  • 模拟登陆
  • VPN
0 0
原创粉丝点击