第九篇论文读后总结-相似森林
来源:互联网 发布:java中offset什么意思 编辑:程序博客网 时间:2024/05/29 10:00
Similarity Forests
相似森林
Saket Sathe IBM T. J. Watson Research Center YorktownHeights, NY 10598
Charu C. Aggarwal IBM T. J. Watson Research Center Yorktown Heights, NY 10598
KDD’17, August 13–17,2017, Halifax, NS, Canada
本文讲了什么问题?
随机森林因其精确性和效率性,已经成为数据挖掘中最成功的分类算法之一;但是它的运用主要局限于多维数据中。本文提出了一种扩展随机森林的方法---随机森林,只要数据对象之间有相似之处就可以在数据对象之间进行计算。例如在很多应用数据中,像时间系列数据、离散序列或图中,高维表达也许是不存在的;但相似函数计算的问题已经得到很好的研究,并且有可能计算数据对象之间的相似性。但在很多领域中,计算相似性耗费耗时;因此本文也提出了将对象之间的距离转化为相似性的想法。
解决问题方法
SIMFOREST算法
假设对象 O1 . ..On 可以嵌入一些多维空间作为点X1 . . .Xn.,SimForest方法在数据对象中随机找到一对来确定一个方向,再把其他数据对象映射到这个方向上,通过方向上的相似分割点划分数据对象。如下图所示:
1.如上图所示,选择了Xi,Xj来确定一个方向,而其他点在这个方向上的投影如下计算:例如数据对象Ok在方向上的投影:
或
S代表相似度
2.分割点a的选择标准是它最小化子节点的加权基尼指数:
一个节点N的基尼指数为:
当N被分为两个子节点N1和N2,那么加权基尼指数为:
数据对象Ok归于决策树中的哪条路径要看是否:
- 第九篇论文读后总结-相似森林
- 第十篇论文读后总结-GiniClust(基尼聚类)
- 第八篇论文读后总结-使用合成梯度的解耦神经接口
- 深度森林论文阅读笔记
- 读论文 + 总结 + 笔记
- [技术讨论]看了73篇极限编程论文后的感觉和一点总结
- 读《论文与治学》后的感悟
- 随机森林总结
- 随机森林总结
- RandomForest随机森林总结
- 随机森林总结
- RandomForest随机森林总结
- 随机森林总结
- 随机森林学习总结
- 论文总结
- 【ZF】论文相似度检测 免费论文检测
- 文本、词相似度论文阅读笔记
- 论文读后总结1:一种对多元数据非监督异常点检测算法的对比评估
- Hibernate框架和MyBatis的区别总结
- 关于INT13H函数对U盘的读写
- 一些软件的 Basic Auth 行为
- Python可以被用来做哪些神奇好玩的事情
- java线程安全之线程通信(八)
- 第九篇论文读后总结-相似森林
- vue 起步走 --“安装篇”
- 多元时间序列分析基础二
- JS中for循环出现的问题:如何给li元素绑定事件,点击每个li元素弹出对应的索引?
- js window对象知识整理
- O
- 硬盘分区表知识—详解硬盘MBR
- linux deploy 挂载安卓上的资源
- 玩转 WebView ,突破系统限制,让缓存更简单,更灵活