Python 对新浪微博的元素 (Word, Screen Name)的词汇多样性分析
来源:互联网 发布:方维社区o2o系统 源码 编辑:程序博客网 时间:2024/05/21 11:09
CODE:
#!/usr/bin/python # -*- coding: utf-8 -*-'''Created on 2014-7-10@author: guaguastd@name: weiboLexicalDiversity.py'''if __name__ == '__main__': # get weibo_api to access sina api from sinaWeiboLogin import sinaWeiboLogin sinaWeiboApi = sinaWeiboLogin() # import sinaWeibo from sinaWeibo import extractWeiboEntities # import sinaWeoboStatuses from sinaWeiboStatuses import publicTimeline # import sinaWeiboFrequency from sinaWeiboLexicalDiversity import weibo_lexical_diversity, weibo_average_words # get the new 5 weibo weiboNum = 5 statuses = publicTimeline(sinaWeiboApi, weiboNum) status_texts,screen_names,words = extractWeiboEntities(statuses) for token in (words, screen_names): print '\rLexical diversity of %s: ' % token print weibo_lexical_diversity(token) for status in (status_texts,): print '\rAverage words of %s: ' % status print weibo_average_words(status)
RESULT:
Lexical diversity of [u'[moc\u8f6c\u53d1]2014\u65b0\u6b3e\u590f\u88c5\u5370\u82b1\u77ed\u8896\u8fde\u8863\u88d9\u9ad8\u7aef\u5927\u7801\u4e2d\u5e74\u5973\u88c5\u4fee\u8eab\u663e\u7626\u857e\u4e1d\u8fde\u8863\u88d9', u'http://t.cn/RvCLdgN', u'[\u795e\u9a6c]\u963f\u4f9d\u83b2\u8fde\u8863\u88d9', u'ccdd\u5973\u88c52014\u590f\u88c5\u65b0\u6b3e', u'\u97e9\u7248', u'\u5c0f\u9999\u98ce\u857e\u4e1d\u516c\u4e3b\u88d9', u'\u6b63\u54c1', u'http://t.cn/RvCyo4X', u'\u590f\u65e5\u5ea6\u5047\u6e05\u51c9\u88c5~~>>>>>>\u559c\u6b22\u70b9\u8fd9\u91cc\uff1ahttp://t.cn/RvEqd5R', u'\u6211\u6b63\u5728\u6b66\u4fa0\u5361\u724c\u624b\u6e38\u201c\u5927\u638c\u95e8\u201d\u4e2d\u51b2\u51fb\u8840\u6218\u699c\u5355\uff0c\u613f\u5404\u4f4d\u5927\u4fa0\u62d4\u5200\u76f8\u52a9\uff01\u6ce8\u518c\u5927\u638c\u95e8\uff0c\u586b\u5199\u6211\u7684\u9080\u8bf7\u7801\u30102zr7\u3011\uff0c\u5171\u540c\u83b7\u53d6\u4e30\u539a\u5956\u52b1\u3002http://t.cn/8FUZSTe', u'@\u5927\u638c\u95e8\u6e38\u620f', u'\u8f7b\u8f68\u65e9\u4e0a\u7684\u7a7a\u8c03\u5f00\u5f97\u7565\u5927']: 1.0Lexical diversity of [u'kathyisangel', u'wangbinrona', u'\u5168\u7403\u6d41\u884c\u670d\u9970\u6f6e\u7f8e\u98ce\u5c1a\u63a7', u'\u624b\u673a\u7528\u62372454403221', u'\u6b63\u76f4\u4f60\u4e00\u8138\u7684\u52c7\u6562\u541b']: 1.0Average words of [u'[moc\u8f6c\u53d1]2014\u65b0\u6b3e\u590f\u88c5\u5370\u82b1\u77ed\u8896\u8fde\u8863\u88d9\u9ad8\u7aef\u5927\u7801\u4e2d\u5e74\u5973\u88c5\u4fee\u8eab\u663e\u7626\u857e\u4e1d\u8fde\u8863\u88d9 http://t.cn/RvCLdgN', u'[\u795e\u9a6c]\u963f\u4f9d\u83b2\u8fde\u8863\u88d9 ccdd\u5973\u88c52014\u590f\u88c5\u65b0\u6b3e \u97e9\u7248 \u5c0f\u9999\u98ce\u857e\u4e1d\u516c\u4e3b\u88d9 \u6b63\u54c1 http://t.cn/RvCyo4X', u'\u590f\u65e5\u5ea6\u5047\u6e05\u51c9\u88c5~~>>>>>>\u559c\u6b22\u70b9\u8fd9\u91cc\uff1ahttp://t.cn/RvEqd5R', u'\u6211\u6b63\u5728\u6b66\u4fa0\u5361\u724c\u624b\u6e38\u201c\u5927\u638c\u95e8\u201d\u4e2d\u51b2\u51fb\u8840\u6218\u699c\u5355\uff0c\u613f\u5404\u4f4d\u5927\u4fa0\u62d4\u5200\u76f8\u52a9\uff01\u6ce8\u518c\u5927\u638c\u95e8\uff0c\u586b\u5199\u6211\u7684\u9080\u8bf7\u7801\u30102zr7\u3011\uff0c\u5171\u540c\u83b7\u53d6\u4e30\u539a\u5956\u52b1\u3002http://t.cn/8FUZSTe @\u5927\u638c\u95e8\u6e38\u620f ', u'\u8f7b\u8f68\u65e9\u4e0a\u7684\u7a7a\u8c03\u5f00\u5f97\u7565\u5927']: 2.4
0 0
- Python 对新浪微博的元素 (Word, Screen Name)的词汇多样性分析
- Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的词汇多样性分析
- Python 对新浪微博的博文元素 (Word, Screen Name)的频率分析
- Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的频率分析
- 词汇多样性
- 词汇多样性
- Python 提取新浪微博的博文中的元素(包含Text, Screen_name)
- 素材的多样性
- 企业信息化的多样性
- 基于用户的协同过滤算法的系统多样性分析
- Launch screen interface file base name 对导航栏和标签栏适配的作用
- 新浪微博python API的使用
- python编写的新浪微博爬虫
- 动态规划的多样性【PKU1157】
- Android的屏幕多样性支持
- Android的屏幕多样性支持
- Android的屏幕多样性支持
- 互联网行业的多样性思考
- 通过反射获取泛型<T>的class
- Android 线程刷新界面
- code review sum
- 【剑指offer】数值的整数次方
- 手机找回--两点间的距离
- Python 对新浪微博的元素 (Word, Screen Name)的词汇多样性分析
- 重载运算符+
- 传值
- 摘记
- centos 5 yum安装与配置vsFTPd FTP服务器
- 初级数据持久化
- 【OpenCV学习笔记】【异常处理】一(The Matrix is not continuous, thus its number of rows can not be changed)
- 为RT-Thread实现一个傻瓜式的工程向导工具(一)
- IOS 中级数据持久化 数据库