斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解
来源:互联网 发布:时间管理的软件 编辑:程序博客网 时间:2024/06/16 17:13
今天学习局部敏感哈希,看斯坦福的课件,他在讲将7维Input matrix (Shingles x Documents)用MinHash处理成3维Signature matrix 时那一步里面结果怎么也对不上,就是这张熟悉的图:
描述是这样的:
我解读的应该是置换后一列中第一个是1的那行的行号,这样理解没什么问题吧,可是右边那个3*3的结果的表里咋没几个数对的上呢。
查了网上很多地方介绍这一步的时候都是我这么理解的,而他们用的材料大多是下面这版:
描述是这样的:
结果表中的数都对的上,这版课件是正确的,我一看这是11年的课件,而我用的是15年的课件。
那我用的课件里的结果是怎么来的呢,难道是错误的吗,经过弯弯绕绕的观察,我发现15年这批结果是这么来的,那张3*3的结果表中保存的是Input matrix经置换后某列出现的第一个1在置换前的行号。这到底是想干嘛,仔细看描述还真是有细微差别的,那就是the index of 和the number of 的区别。
那这两种做法那种比较正宗呢,11年版那种说法都在网上流传很多了,总不能是错的吧,于是去挖了挖其他历史版本,在斯坦福CS246该课件的14年版本中有所发现:
Note: Another (equivalent) way is to store row indexes
真是醉了,都行!
当然这本身只是Locality- Sensitive Hashing前的小菜,用什么距离用什么手段做映射关系不大,但是都要保证
这就不容易了,他说两种结果都行那肯定是要证明过的吧。
三个版本地址:
http://snap.stanford.edu/class/cs246-2011/handouts.html
http://snap.stanford.edu/class/cs246-2014/handouts.html
http://snap.stanford.edu/class/cs246-2015/handouts.html
- 斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解
- minHash(最小哈希)和LSH(局部敏感哈希)
- 文本局部敏感哈希-MinHash算法原理
- minHash(最小哈希)和LSH(局部敏感哈希)
- 数据挖掘之lsh minhash simhash
- 数据挖掘之lsh minhash simhash
- 数据挖掘之lsh minhash simhash
- 几种面向不同距离的局部敏感函数簇
- 海量数据挖掘MMDS week2: 局部敏感哈希Locality-Sensitive Hashing, LSH
- 海量数据挖掘MMDS week7: 局部敏感哈希LSH(进阶)
- 斯坦福iPhone开发课件
- MVC,斯坦福IOS课老师讲的
- 局部敏感哈希算法的实现
- 局部敏感哈希算法的实现
- LSH局部敏感哈希的介绍
- LSH local sensitive hash 局部敏感哈希简单理解
- 大数据下的相似度计算--minHash
- 不同版本的mysql数据迁移
- CSS3选择器(二)
- 第三节:欠拟合与过拟合的概念
- 手机充电器电路图应用讲解
- 在AngularJs中怎么设置请求头信息(headers)及不同方法的比较
- 软件文档概述(一)
- 斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解
- 字符串匹配的KMP算法
- VS2010输出标准信息(stdout)到output窗口
- MFC——属性页对话框的创建
- 黑马程序员—Java基础—IO4
- web.xml 通过contextConfigLocation配spring 的方式
- win7/9/10 U盘启动盘的制作
- uiautomator使用
- 可拖动的圆形进度条