500万条微博数据来源分析
来源:互联网 发布:matlab中对矩阵的提取 编辑:程序博客网 时间:2024/05/29 08:33
最近项目不是特别忙,想做一些微博方面的分析和处理工作,如果自己现爬取微博数据,积累数据比较慢,恰好看到北理工张华平老师分享的500万条微博数据,直接借用他的数据分析。下载地址是:http://www.nlpir.org/?action-viewnews-itemid-299
因为解压之后的文件较大,足有2.1G,并且对格式不是很清楚,直接打开也无法打开,于是先用文件分割工具将真格文件分割成多个较小的文件,了解好数据格式后采用Python读取数据并插入到MySQL数据库中。微博数据存放于数据库主要考虑这些数据还可以做其他方面的分析研究。
读取数据库中微博来源字段
统计每一条微博来源,存放于Dict中,计算相同的数目
对字典中的内容根据value由高到低排序
最终的统计分析效果:
阅读全文
0 0
- 500万条微博数据来源分析
- 500万条微博数据来源分析
- 网站分析的数据来源
- jeecms数据来源异常分析
- oracle-初级-分析表数据来源
- 数据分析网站-竞品分析数据来源
- 数据来源
- galler3d的源码分析——数据来源
- 战略性情绪分析的5大数据来源
- 网站数据分析:如何追踪访客初始来源
- 大数据数据来源
- SAR图像数据来源
- 浅析起始来源数据
- JOB改造-数据来源
- show parameter数据来源
- 网上流传数据来源
- ffmpeg 自定义数据来源
- ffmpeg 自定义数据来源
- 为包含指针的关联容器指定比较类型
- C--模块三--变量
- LeetCode 412. Fizz Buzz (int转string)
- 实验3 RTC定时器的应用及中断机制
- ubuntu ssh配置 + xshell
- 500万条微博数据来源分析
- 《高质量编程指南》笔记1
- 每个熊孩子背后都站着一对熊父母
- 阿里云服务器Tomcat、nginx无法访问——端口问题
- HAL so库加载机制---之一
- T
- 程序员面试金典——元素查找_____
- 欢迎使用CSDN-markdown编辑器
- 不可变类