学以致用——微博文章内容统计分析之一(Excel+GraphLab)
来源:互联网 发布:乐视手机4g网络信号差 编辑:程序博客网 时间:2024/05/20 06:06
记得以前一位同事说过,好的技术人员都是比较懒的,因为懒,他会想尽办法找到解决问题的最有效的方法。
如果不使用Excel函数,完全可以通过人肉的方式从微博中提取内容,但是,如果数据量很大、需要耗用很多时间怎么办?
为了分析在微博中总共分析了多少条使用“形色”软件识别出的花花草草,采用了以下步骤。
1. 使用微博的搜索功能,搜索出所有包含“形色”关键字的微博文章,得到“搜索结果”页。
2. 想通过Excel的数据导入功能直接从网站导入内容,出现Javascript错误,放弃。
3. 使用笨办法,将页面上的内容复制到剪贴板,然后,粘贴值到Excel。
4. 增加索引列(数字序号),通过排序,筛选出多余列并将其删除。
5. 灵活使用mod(), right(), left(), len(), mid(), find(), trim(), if(), text(), year(), month(), day(), minute(), hour()等函数,提取内容。
实例:
=IF(MOD(ROW(B2),2)=0,TRIM(LEFT(B2,FIND(" ",B2)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B2,FIND(" ",B2,1)+1,FIND(" ",B2,7)-FIND(" ",B2,1))),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("《",B3)+1,FIND("》",B3)-FIND("《",B3)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("★",B3)+5,FIND("O",B3)-FIND("★",B3)-6)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B2,FIND(" ",B2,1)+1,FIND(" ",B2,7)-FIND(" ",B2,1))),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("《",B3)+1,FIND("》",B3)-FIND("《",B3)-1)),"")
=IF(MOD(ROW(B2),2)=0,TRIM(MID(B3,FIND("★",B3)+5,FIND("O",B3)-FIND("★",B3)-6)),"")
提取前的微博页面纯文本如下所示:
预见未来to50
7月25日 20:25 来自 小米手机5
形色识别此图为飞廉——形色,遇见全世界的植物O网页链接
7月25日 20:25 来自 小米手机5
形色识别此图为飞廉——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
转发
评论
ñ赞
c
预见未来to50
7月25日 20:24 来自 小米手机5
形色识别此图为蜀葵——形色,遇见全世界的植物O网页链接
7月25日 20:24 来自 小米手机5
形色识别此图为蜀葵——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
转发
评论
ñ赞
c
预见未来to50
7月24日 20:52 来自 小米手机5
形色识别此图为紫薇——形色,遇见全世界的植物O网页链接
7月24日 20:52 来自 小米手机5
形色识别此图为紫薇——形色,遇见全世界的植物O网页链接
阅读 0 推广
转发
评论
ñ赞
c
转发
评论
ñ赞
c
提取后的结果如下:
Date,Time,Plant
2017/4/2,11:57,蔓长春花
2017/4/2,11:58,垂丝海棠
2017/4/2,17:04,球序卷耳
2017/4/3,13:17,红花酢浆草
2017/4/3,13:18,蝴蝶花
2017/4/3,18:36,角堇
2017/4/3,18:39,四季海棠
2017/4/3,18:41,三色堇
2017/4/3,18:41,三色堇
2017/4/3,18:43,紫罗兰
2017/4/3,18:44,金鱼草
2017/4/3,18:45,野罂粟
2017/4/3,18:46,金鱼草
2017/4/3,18:48,毛茛
2017/4/4,21:34,碧桃
2017/4/8,21:01,杜鹃花
2017/4/8,21:03,丁香花
2017/4/13,13:09,地钱
2017/4/13,13:12,宝盖草
2017/4/13,13:13,黄连木
2017/4/13,13:15,榉树
2017/4/14,13:02,紫荆
2017/4/16,11:40,石楠
2017/4/16,16:01,鸡爪槭
2017/4/16,16:02,红花檵木
2017/7/24,20:52,紫薇
2017/7/25,20:24,蜀葵
2017/7/25,20:25,飞廉
2017/4/2,11:57,蔓长春花
2017/4/2,11:58,垂丝海棠
2017/4/2,17:04,球序卷耳
2017/4/3,13:17,红花酢浆草
2017/4/3,13:18,蝴蝶花
2017/4/3,18:36,角堇
2017/4/3,18:39,四季海棠
2017/4/3,18:41,三色堇
2017/4/3,18:41,三色堇
2017/4/3,18:43,紫罗兰
2017/4/3,18:44,金鱼草
2017/4/3,18:45,野罂粟
2017/4/3,18:46,金鱼草
2017/4/3,18:48,毛茛
2017/4/4,21:34,碧桃
2017/4/8,21:01,杜鹃花
2017/4/8,21:03,丁香花
2017/4/13,13:09,地钱
2017/4/13,13:12,宝盖草
2017/4/13,13:13,黄连木
2017/4/13,13:15,榉树
2017/4/14,13:02,紫荆
2017/4/16,11:40,石楠
2017/4/16,16:01,鸡爪槭
2017/4/16,16:02,红花檵木
2017/7/24,20:52,紫薇
2017/7/25,20:24,蜀葵
2017/7/25,20:25,飞廉
怎么样?非结构化的数据转换为结构化数据后,是不是看着舒服多了?
接下来,可以用GraphLab分析、展现数据了。
可见,4、5月真是赏花好时节啊!
阅读全文
0 0
- 学以致用——微博文章内容统计分析之一(Excel+GraphLab)
- 学以致用——微博文章内容统计分析之二——我的电影(Excel+Spotfire)
- 学以致用——初次使用GraphLab Create分析数据
- 学以致用——Excel在统计分析中的应用—第十章—方差分析-有重复双因素方差分析工具的验证
- 学以致用——Excel连接Oracle生成iKB报告——Part3(功能优化)
- 学以致用——利用直方图分析个股涨幅(Excel+Spotfire)
- 学以致用——Excel连接Oracle生成iKB报告——Part1(使用VBA从数据库提取汇总数据)
- 学以致用——ikb知识库英文词条词频分析-Part3-使用Excel制作高频词标签云(VBA)
- 学以致用——英文姓名高词频分析-使用Excel制作高频词标签云(VBA)
- 学以致用——Excel连接Oracle生成iKB报告——Part2(Excel日报自动化的数据转换及用户界面)
- 学以致用——iKB知识库日报(改进版)
- 学以致用—二项分布(伯努利分布)概率分布图的绘制
- Excel在统计分析中的应用—第五章—统计指数-Part4- 综合指数(埃奇沃思指数)
- Excel在统计分析中的应用—第六章—抽样与抽样分布-Part3(分层抽样)
- 学以致用—股价月涨幅的计算
- .Net 读取Excel文章内容
- Excel在统计分析中的应用—第二章—描述性统计-Part3-偏度(偏斜度和矩偏度系数)
- Excel在统计分析中的应用—第二章—描述性统计-Part5-峰度(峰值和矩峰度系数)
- 【立体视觉】双目图像匹配
- Configuration(三)
- Java 读取目录下文件(按修改时间返回文件顺序)
- 【立体视觉】双目测距,生成视差图/深度图
- 字符串的相关函数
- 学以致用——微博文章内容统计分析之一(Excel+GraphLab)
- Oracle PL/SQL开发基础(第二十三弹:其他常用函数)
- 动态工厂 Bean和静态工厂Bean
- 研究如何升级ubuntu 内核
- 微信支付之企业付款
- laravel上传并导入excel
- 论文写作心得之一
- C语言实现简单的电子通讯录
- 导弹力学分析_4