斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解

来源:互联网 发布:时间管理的软件 编辑:程序博客网 时间:2024/06/16 17:13

        今天学习局部敏感哈希,看斯坦福的课件,他在讲将7维Input matrix (Shingles x Documents)用MinHash处理成3维Signature matrix 时那一步里面结果怎么也对不上,就是这张熟悉的图:



描述是这样的:



        我解读的应该是置换后一列中第一个是1的那行的行号,这样理解没什么问题吧,可是右边那个3*3的结果的表里咋没几个数对的上呢。

        查了网上很多地方介绍这一步的时候都是我这么理解的,而他们用的材料大多是下面这版:



描述是这样的:



        结果表中的数都对的上,这版课件是正确的,我一看这是11年的课件,而我用的是15年的课件。

        那我用的课件里的结果是怎么来的呢,难道是错误的吗,经过弯弯绕绕的观察,我发现15年这批结果是这么来的,那张3*3的结果表中保存的是Input matrix经置换后某列出现的第一个1在置换前的行号。这到底是想干嘛,仔细看描述还真是有细微差别的,那就是the index of the number of 的区别。

        那这两种做法那种比较正宗呢,11年版那种说法都在网上流传很多了,总不能是错的吧,于是去挖了挖其他历史版本,在斯坦福CS246该课件的14年版本中有所发现:



Note: Another (equivalent) way is to store row indexes大笑

真是醉了,都行!

当然这本身只是Locality- Sensitive Hashing前的小菜,用什么距离用什么手段做映射关系不大,但是都要保证



这就不容易了,他说两种结果都行那肯定是要证明过的吧。


三个版本地址:

http://snap.stanford.edu/class/cs246-2011/handouts.html

http://snap.stanford.edu/class/cs246-2014/handouts.html

http://snap.stanford.edu/class/cs246-2015/handouts.html

0 0
原创粉丝点击