CBIR速度--Hash

来源:互联网 发布:悬疑电影推荐 知乎 编辑:程序博客网 时间:2024/04/30 09:30

研究背景

d < 10 ~ 20, 存在次线性或者线性查找,性能也不错。但是随着维度的增加,时间和空间需要是指数级增加的。尤其是图像和文档的维度一般超多102甚至更多。

定义信息

最近邻:

给一个查询点q,找出距离q最近的点。
暴力线性查找的方式对大数据情况下可行性不太好。

Hamming Space

Hamming Space
Space 定义

Hamming Distance

两个相同长度的二进制string中不同的位置的数目
e.g
||1011101,1001001||H=2

LSH Families

A LSH family, H(c,r,P1,P2),有如下性质对于任意点p,qS
* 若||pq||r 那么Pr[h(p)=h(q)]P1
* 若||pq||cr 那么Pr[h(p)=h(q)]P2

HammingSpace举例

K-bit LSH Functions

g(p)=[h1(p),h2(p),...,hk(p)]T

  • Each hi 从H中随机选择,H 是LSH Families
  • Each hi 的结果是1bit
  • Pr(similar points collide)1(11P1)k
  • Pr(dissimilarpointscollide)Pk2

使用效果图

应用案例显示

参考内容

  1. 局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍
  2. Gionis, A.; Indyk, P.; Motwani, R. (1999). “Similarity Search in High Dimensions via Hashing”. Proceedings of the 25th Very Large Database (VLDB) Conference.
  3. http://people.csail.mit.edu/gregory/annbook/introduction.pdf
0 0
原创粉丝点击