学以致用——微博文章内容统计分析之一(Excel+GraphLab)

来源:互联网 发布:乐视手机4g网络信号差 编辑:程序博客网 时间:2024/05/20 06:06
记得以前一位同事说过,好的技术人员都是比较懒的,因为懒,他会想尽办法找到解决问题的最有效的方法。
如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?

为了分析在微博中总共分析了多少条使用“形色”软件识别出的花花草草,采用了以下步骤。

1. 使用微博的搜索功能,搜索出所有包含“形色”关键字的微博文章,得到“搜索结果”页。
2. 想通过Excel的数据导入功能直接从网站导入内容,出现Javascript错误,放弃。
3. 使用笨办法,将页面上的内容复制到剪贴板,然后,粘贴值到Excel。
4. 增加索引列(数字序号),通过排序,筛选出多余列并将其删除。
5. 灵活使用mod(), right(), left(), len(), mid(), find(), trim(), if(), text(), year(), month(), day(), minute(), hour()等函数,提取内容。
实例:
=IF(MOD(ROW(B2),2)=0,TRIM(LEFT(B2,FIND(" ",B2)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B2,FIND(" ",B2,1)+1,FIND(" ",B2,7)-FIND(" ",B2,1))),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("《",B3)+1,FIND("》",B3)-FIND("《",B3)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("★",B3)+5,FIND("O",B3)-FIND("★",B3)-6)),"")

提取前的微博页面纯文本如下所示:

预见未来to50
7月25日 20:25 来自 小米手机5
形色识别此图为飞廉——形色,遇见全世界的植物O网页链接 ​​​​
阅读 0  推广
转发
评论
ñ赞
c
预见未来to50
7月25日 20:24 来自 小米手机5
形色识别此图为蜀葵——形色,遇见全世界的植物O网页链接 ​​​​
阅读 0  推广
转发
评论
ñ赞
c
预见未来to50
7月24日 20:52 来自 小米手机5
形色识别此图为紫薇——形色,遇见全世界的植物O网页链接 ​​​​
阅读 0  推广
转发
评论
ñ赞
c


提取后的结果如下:
Date,Time,Plant
2017/4/2,11:57,蔓长春花
2017/4/2,11:58,垂丝海棠
2017/4/2,17:04,球序卷耳
2017/4/3,13:17,红花酢浆草
2017/4/3,13:18,蝴蝶花
2017/4/3,18:36,角堇
2017/4/3,18:39,四季海棠
2017/4/3,18:41,三色堇
2017/4/3,18:41,三色堇
2017/4/3,18:43,紫罗兰
2017/4/3,18:44,金鱼草
2017/4/3,18:45,野罂粟
2017/4/3,18:46,金鱼草
2017/4/3,18:48,毛茛
2017/4/4,21:34,碧桃
2017/4/8,21:01,杜鹃花
2017/4/8,21:03,丁香花
2017/4/13,13:09,地钱
2017/4/13,13:12,宝盖草
2017/4/13,13:13,黄连木
2017/4/13,13:15,榉树
2017/4/14,13:02,紫荆
2017/4/16,11:40,石楠
2017/4/16,16:01,鸡爪槭
2017/4/16,16:02,红花檵木
2017/7/24,20:52,紫薇
2017/7/25,20:24,蜀葵
2017/7/25,20:25,飞廉

怎么样?非结构化的数据转换为结构化数据后,是不是看着舒服多了?
接下来,可以用GraphLab分析、展现数据了。


可见,4、5月真是赏花好时节啊!
阅读全文
0 0
原创粉丝点击