最最最简单的URL聚类

来源:互联网 发布:多玩魔兽数据库7.0 编辑:程序博客网 时间:2024/05/16 15:34
我们要发现一个富文本中的http链接,发现一些群体行为,获取URL 

第一步:提取http链接 

使用 Jsoup 来做 
Java代码  收藏代码
  1. Document doc = Jsoup.parse(stream.getText())  
  2. Elements links = doc.select("a[href]")  
  3. for (Element element: links) {  
  4.     link = element.attributes().iterator().next().getValue()  
  5.     // link 就是链接  
  6.     println(link)  
  7. }  



第二步:提取向量 
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads 

cwiki,apache,org,confluence,display,mahout 


第三步:聚类
 
参考一个基于Mahout与hadoop的聚类搭建 

不要分词了,因为你已经分好词了。 
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了 

聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的 

不要期望太多
0 0
原创粉丝点击