Single-Pass聚类算法 及其在新事件探测中的应用
来源:互联网 发布:没银行卡开淘宝店 编辑:程序博客网 时间:2024/06/07 05:42
Single-pass算法的思想是:
按一定顺序依次读取数据,每次读取的新数据都和已经读取并聚类的数据进行比较,如果按照一定规则找到相应的近似组别,则将这个新数据归入这个类中,如果没有,则将这个新数据视为一个新类。就这样反复执行,直到所有的数据都读完。整个过程只对数据进行一次读取(single)。
Single-Pass算法又称单通道法或单遍法,是流式数据聚类的经典方法。对于依次到达的数据流,该方法按输入顺序每次处理一个数据,依据当前数据与已有类的匹配度大小,将该数据判为已有类或者创建一个新的数据类,实现流式数据的增量和动态聚类。
Single-Pass算法是一种增量算法,适合对流数据进行挖掘,而且算法的时间效率高;不足之处主要表现在该方法具有输入次序依赖特性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类结果。
Single-Pass聚类算法在新事件探测中的应用
将要检测的文档,可以视为按时间排序的文档流,该算法将按照这个流顺序顺次地处理每一个新的文档。
1 利用特征选取技术,对文档内容生成相对应的查询表示。
2 对新文档进行计算初始阈值。
3 将这篇新文档与内存中已存在的查询表示做比较。
4 如果这篇新文档较以前的查询表示并未超过其阈值,则将这个文档标记为其包含新事件。
5 如果这篇新文档触发了某个已有的查询,则将这个文档标记为不包含新事件。
6 读取下一篇文档,并继续以上过程。
这里将每篇文档的内容表示为一个查询(query)。如果一篇文档触发(trigger)了已存在的查询A,则认为这篇文档讨论了A查询中的事件,否则,将这篇文档视为包含新的事件。
--------------------------------------------------------------------------------------------------------------------
参考文献:
Ron Papka,James Allan.On-Line New Event Detection using Single-Pass Clustering.
- Single-Pass聚类算法 及其在新事件探测中的应用
- STK及其在雷达建模与探测仿真中的应用
- PING 在网络探测中的应用
- 基于Single-pass的文本话题聚类
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 凸包及其在ACM算法中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- 一致性哈希算法及其在分布式系统中的应用
- Storm入门教程:构建Topology(1)
- 无法定位程序输入点 InitializeCriticalSectionEx 于动态链接库 Kernel32.dll 上
- php中JSON的使用与转换
- UIWindows
- QThread使用——关于run和movetoThread的区别
- Single-Pass聚类算法 及其在新事件探测中的应用
- 数据库链接错误 : Access denied for user 'root'@'localhost' (using password: YES)
- CSS字体大小: em与px、pt、百分比之间的对比
- Machine Learning is Fun!
- 移动端H5页面的设计稿尺寸大小规范&注意事项
- 每天学点Python之布尔类型
- Android4.0中控制Toast时间
- hadoop2.6及HBase1.1节点日常维护
- 学习总结