(python)热门话题的某些微博评论和转发数的抓取
来源:互联网 发布:淘宝网厨房用品定时器 编辑:程序博客网 时间:2024/05/19 23:26
一:通过前一篇文章的方法提取热门话题,由于蛋疼的新浪wei~b~o~Api开发的太少,申请高级接口也很墨迹==,博主弄了好久没申请成功。自己只能通过热门话题搜索得到url,
然后爬数据,抓取发布微博的用户,以及对应微博的转发数和评论列表
二:例子:热门话题:“男生也来大姨妈”
result = urllib2.urlopen('http://s.weibo.com/weibo/%E7%94%B7%E7%94%9F%E4%B9%9F%E6%9D%A5%E5%A4%A7%E5%A7%A8%E5%A6%88&xsort=hot&Refer=hotmore')#打开你得到的urlres = result.read()reg3 = re.compile(r'<p class=\\"comment_txt\\" node-type=\\"feed_list_content\\" nick-name=\\"(?P<name>.+?)\\">')#通过审查元素列出正规表达式,提取微博昵称content = re.findall(reg3, res)print contentprint len(content)
#通过审查元素列出正规表达式,提取转发和评论数
<pre class="python" name="code">reg4 = re.compile(r'<ul class=\\"feed_action_info feed_action_row4\\">.+?<li>.+?<\\/li>.+?<li><a .+?><span .+?>.+?<em>(.+?)<\\/em><\\/span><\\/a><\\/li>.+?<li><a .+?><span .+?>.+?<em>(.+?)<\\/em><\\/span><\\/a><\\/li>.+?<li><a .+?><span .+?<\\/span><\\/a><\\/li>')
amount = re.findall(reg4, res)
print amountprint
len(amount)
结果如图:
解码一下昵称;这里由于得到的格式原因,无法轻快的用python print 得到汉字。所以只能借助解码工具。。希望有大神看到,能给个指导。
最后,我真想再吐槽一下xin浪的API接口,真是太让人失望了。各种没权限。开发的那些也都是亚美蝶的。看来挖掘机之路不好走,楼主得学好爬虫了。
0 0
- (python)热门话题的某些微博评论和转发数的抓取
- Python 获取新浪微博的热门话题 (API)
- 新浪微博数据挖掘(python)本周人们在讨论的热门话题的提取
- 使用javascript方式获取多说评论插件的文章评论数,转发数
- Python抓取网页云音乐指定歌手的歌曲和评论数量
- python抓取新浪微博评论并分析
- 评论抓取:Python爬取微信在APPStore上的评论内容及星级
- 【利用Python进行数据分析——经验篇2】计算微博转发/评论/点赞h指数的Python代码
- 一个网站的诞生03--抓取评论数最多的一万家餐厅
- (droid分享)新浪微博开发系列【十三】之微博的评论转发
- android 仿新浪微博转发 评论悬浮框的功能
- 微博登录及删除粉丝/转发/评论的脚本[更新中]
- 抓取大众点评评论的代码
- 关于淘宝网评论数据的抓取
- selenium 抓取 自己 评论的腾讯新闻
- 抓取豆瓣某本书的评论
- python爬取ajax动态生成的数据 以抓取淘宝评论为例子
- 通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据
- WPS的EXCLE宏
- 南阳35表达式求值(栈)
- debian下安装mysql
- 仿腾讯盖楼爬墙新闻评论的CSS实现
- PHP检测及判断手机登录用户是安卓或爱疯(iPhone)客户端
- (python)热门话题的某些微博评论和转发数的抓取
- sizeof(string)的问题(很经典)
- 一张图简单揭秘linux链表精华container_of()的实现
- 【leetcode】7—reverse integer
- 自述
- PostgreSQL(数据库)资料和分布式系统(Distributed System)资料与Go语言资料整理
- Matlab归一化
- 更新SDK和ADT后提示"This Android SDK requires Android Developer Toolkit version 23.x.x or above"
- Mac添加新建文本文档