最最最简单的URL聚类
来源:互联网 发布:多玩魔兽数据库7.0 编辑:程序博客网 时间:2024/05/16 15:34
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL
第一步:提取http链接
使用 Jsoup 来做
第二步:提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
cwiki,apache,org,confluence,display,mahout
第三步:聚类
参考一个基于Mahout与hadoop的聚类搭建
不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了
聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的
不要期望太多
第一步:提取http链接
使用 Jsoup 来做
- Document doc = Jsoup.parse(stream.getText())
- Elements links = doc.select("a[href]")
- for (Element element: links) {
- link = element.attributes().iterator().next().getValue()
- // link 就是链接
- println(link)
- }
第二步:提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
cwiki,apache,org,confluence,display,mahout
第三步:聚类
参考一个基于Mahout与hadoop的聚类搭建
不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了
聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的
不要期望太多
0 0
- 最最最简单的URL聚类
- 最最最简单的分页
- 最最最简单的计算器
- XUtils3框架最最最简单的使用
- Android 最最最简单的浏览器代码
- 最最最简单的C++缓存实现
- Fresco最最最简单使用
- Fresco最最最简单使用
- Fresco最最最简单使用
- Fresco最最最简单使用
- Fresco最最最简单使用
- socket实现最最最简单的http请求的数据
- Unity3d Action的最最最简单的使用
- 最最最简单的C#入门!!!(一)工欲善其事,必先利其器!
- 史上最最最简单的MVP教程
- 最最最最简单的Linux后门~~, HOHOHO~~
- 最最最黑暗的一天
- 单机架设最最最简单教程!
- java 基础知识汇总
- 雨滴
- 侠盗猎车手5(GTA5)50辆游戏豪车现实原型
- BinarySearch二分法查找
- 导入WeChatSDK_sample_Android项目报错
- 最最最简单的URL聚类
- java实现清理DNS Cache的方法
- UGUI之坑点小结
- redis学习
- FastJson转为对象
- mysql安装包的下载
- float**类型与float*
- VMware虚拟环境中Centos7 操作系统添加硬盘
- Unity3D项目优化:从Draw Calls到GC