500万条微博数据来源分析
来源:互联网 发布:excel表导入sql数据库 编辑:程序博客网 时间:2024/05/16 14:47
最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析。下载地址是:http://www.nlpir.org/?action-viewnews-itemid-299
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果:
0 0
- 500万条微博数据来源分析
- 500万条微博数据来源分析
- 网站分析的数据来源
- jeecms数据来源异常分析
- oracle-初级-分析表数据来源
- 数据分析网站-竞品分析数据来源
- 数据来源
- galler3d的源码分析——数据来源
- 战略性情绪分析的5大数据来源
- 网站数据分析:如何追踪访客初始来源
- 大数据数据来源
- SAR图像数据来源
- 浅析起始来源数据
- JOB改造-数据来源
- show parameter数据来源
- 网上流传数据来源
- ffmpeg 自定义数据来源
- ffmpeg 自定义数据来源
- sql语句优化
- maven项目强制转换到jdk1.7 1.8
- 渗透工具sqlmap学习
- LeetCode Majority Element
- Android UI 优化(1)——使用HierarchyViewer工具
- 500万条微博数据来源分析
- 深入分析JavaWeb 5 -- Servlet开发
- ZIMG -- 高性能图片服务器浅谈
- SEVERE: Unable to process file
- Oracle 重新解析表中索引令其查询速度加快
- android-eclipse 批量打包
- Linux创建以当前日期命名的文件夹
- 线性表
- UITextFeild修改placeHolder的字号,颜色