最近邻搜索之乘积量化（Product Quantizer）理解（一）

来源：互联网发布：mac分区不动了编辑：程序博客网时间：2024/06/15 02:29

简介

Product Quantizer是由Herv´e J´egou等人2011年在IEEEE上发表的论文《Product Quantization for Nearest Neighbor Search》中提出来的。它的提出是为了在内存和效率之间求得一个平衡，既保证图像索引结构需要的内存足够，又使得检索质量和速度比较好。对于任何基于固定维数特征的事物，它可以应用到其索引结构的建立及检索上。它属于ANN(approximate nearest neighbor)算法。与它相关的算法有E2LSH（Euclidean Locality-Sensitive Hashing）， KD-trees，K-means。

主要思想

Product Quantizer翻译过来是乘积量化，从字面理解大概包括了两个过程特征的分组量化过程和类别的笛卡尔积过程。假设有一个数据集，那么K-means的做法就是给定类别数目K，目标函数是所有样本到类中心的距离和最小，迭代计算优化目标函数，得到K个类中心和每个样本所属的类别。目标函数不变，乘积量化的做法是：
（1）数据集为K个类别，每个样本以一个vector的形式表示，维数为d，将vector的各个分量分成m组。
（2）将所有vector的某组分量作为数据集，采用k-means算法得到这里写图片描述个类中心，运行m次k-means算法，则每组都有个类中心，记这个类中心为一个集合。
（3）将上述得到的m个集合做笛卡尔积，就得到整个数据集的类中心了。

下图辅助理解。
这里写图片描述
其实只要联系欧式空间中点的笛卡尔积就很好理解了。

举个栗子

这里写图片描述

注：例子中示意图引用自Jae-Pil Heo的论文《Distance Encoded Product Quantization》
（转载请注明作者和出处：http://blog.csdn.net/CHIERYU 未经允许请勿用于商业用途）

1 0