论文笔记及公式推导《Supervised Discrete Hashing》

来源：互联网发布：淘宝纸箱用什么机器编辑：程序博客网时间：2024/06/05 17:31

转载自http://jikaichen.com/2016/05/31/notes-on-sdh/，仅用作个人学习，如需删除，请联系本人。

原论文提出了一种解离散哈希问题的最优化方法，推出其闭式解。
笔者在阅读该论文的过程中，理解公式推导的过程中遇到了一些问题，现在将论文公式推导的详细内容记录于此。

原论文链接来自这里
http://arxiv.org/pdf/1508.07148.pdf

定义最优化问题

对于n个样本的数据集X=xini, 我们要将其每个样本编码成 L位的二进制码, B=bini∈−1,1L×n,即

x i \Rightarrow b i \in - 1, 1 L

一般做哈希问题需要利用类别信息，现定义一个线性多分类模型

y = G (b) = W ⊤ b = [w ⊤ 1 b, \dots, w ⊤ C b]

其中 wk∈RL×1wk∈RL×1 是第 kk 类的参数向量，总共有C个类，y是各个类别的激活值，最大值对应的类标即为该样本所属的类标。

定义 Problem(1) 如下：

min B, W, F \sum i = 1 n L (y i, W ⊤ b i ） + λ ∥ W ∥ 2 s.t. b i = sgn (F (x i)), i = 1, \dots, n .

其中F(⋅)是哈希函数，在接下来的讨论中还需要对它进行学习。λ 和它所在的是正则化项。

利用类似拉格朗日的方法，我们将Problem(1) 转化为Problem(2) ：

min B, W, F \sum i = 1 n L (y i, W ⊤ b i ） + λ ∥ W ∥ 2 + v \sum i = 1 n ∥ b i - F (x i) ∥ 2 s.t. b i \in - 1, 1 L

其中 vv惩罚系数。上述最优化问题仍然是非凸的，但是我们可以利用类似coordinate descent的方法，固定其它变量，最优化某一变量，再更换另外的变量，以此迭代。

求解问题

对 F(x)建模

这里可以采用任何适当的方法来构造F(x)，原文采用核函数的方法：

F (x) = P ⊤ ϕ (x)

其中

ϕ (x) = ⎡ ⎣ ⎢ ⎢ exp (∥ x - a 1 ∥ / σ) ⋮ exp (∥ x - a m ∥ / σ) ⎤ ⎦ ⎥ ⎥

其中ajmj=1是从样本集合随机选取的中心点, P∈Rm×L是映射矩阵，也是参数矩阵。

求解P

原文中直接给出了 P的闭式表达式，并没有推导过程，现将推导过程呈列如下：
上述最优化问题中的目标函数第一项和第二项与 P没有任何关系，而系数 v也可以去掉，将Problem(2)重写如下：

min P \sum i = 1 n ∥ b i - P ⊤ ϕ (x i) ∥ 2

这个问题等价于线性多分类问题，把这里的 bi看成ground-truth 标签, ϕ(xi) 是核映射过后的样本,P为参数矩阵.

再把上述问题重写成矩阵形式如下:

min P ∥ P ⊤ ϕ (X) - B ∥ 2

矩阵各个元素的平方和可以写成矩阵的迹的形式:

min P tr ((P ⊤ ϕ (X) - B) ⊤ (P ⊤ ϕ (X) - B))

接下来对上述表达式关于 P 求导。

\nabla P J (P) = \nabla P [tr ((P ⊤ ϕ (X) - B) ⊤ (P ⊤ ϕ (X) - B))] = \nabla P [tr (ϕ (X) ⊤ P P ⊤ ϕ (X) - ϕ (X) ⊤ P B - B ⊤ P ⊤ ϕ (X) + B ⊤ B)] = \nabla P [tr (ϕ (X) ⊤ P P ⊤ ϕ (X)) - tr (ϕ (X) ⊤ P B) - tr (B ⊤ P ⊤ ϕ (X)) + tr (B ⊤ B)] = \nabla P [tr (ϕ (X) ⊤ P P ⊤ ϕ (X)) - 2 tr (B ⊤ P ⊤ ϕ (X)) + tr (B ⊤ B)] = [ϕ (X) ϕ (X) ⊤ P + ϕ (X) ϕ (X) ⊤ P - 2 ϕ (X) B ⊤]

令上式等于0，解得：

P = (ϕ (X) ϕ (X) ⊤) - 1 ϕ (X) B ⊤

这里对上式求导的过程做几点说明：

矩阵的迹具有旋转不变性和转置不变性，上述推导中第三行到第四行中运行了此性质，
矩阵迹的性质详情参考维基百科trace词条的内容
:https://en.wikipedia.org/wiki/Trace_(linear_algebra)
矩阵的迹的求导过程中，普通函数求导的乘法法则在这里同样适用，上述推导中对第四行的第一项运用了该法则，即先对 P 求导，再对 P⊤ 求导，第四行第三项与P无关，求导直接丢弃。
关于含有矩阵迹的求导的详细内容可以参考该讲义的内容 http://cal.cs.illinois.edu/~johannes/research/matrix%20calculus.pdf
另外，普通矩阵的求导法则参见维基百科中matrix calculus词条的内容。
https://en.wikipedia.org/wiki/Matrix_calculus

求解W

将上述Problem(2)重写成矩阵形式的Problem(3)：

min B, W, F ∥ Y - W ⊤ B ∥ 2 + λ ∥ W ∥ 2 + v ∥ B - F (X) ∥ 2 s.t. B \in - 1, 1 L \times n

与求解P同理，求得：

W = (B B ⊤ + λ I) - 1 B Y ⊤

求解B

将Problem(3)展开，去掉与 B 无关的第二项，可以得到：

min B ∥ Y ∥ 2 - 2 tr (Y ⊤ W ⊤ B) + ∥ W ⊤ B ∥ 2 + v (∥ B ∥ 2 - 2 tr (B ⊤ F (X)) + ∥ F (X) ∥ 2) s.t. B \in - 1, 1 L \times n

又可以写成Problem(4)：

min B ∥ W ⊤ B ∥ 2 - 2 tr (B ⊤ Q) s.t. B \in - 1, 1 L \times n

其中Q=WY+vF(X)Q=WY+vF(X)

对Problem(3)转化为Problem(4)做几点说明：

∥Y−W⊤B∥2=∥Y∥2−2tr(Y⊤W⊤B)+∥W⊤B∥2, 这里可以理解为完全平方公式。这里的模是Frobenius norm，即每个元素的平方和。原矩阵的每一个元素都可以拆成完全平方，再求和即为等号右边的情况。
∥B∥2=L×n, 每个元素都是正负1，平方都为1.
去掉与 B 无关的项即可得到Problem(4)

令 z⊤ 为 B 的 l 行, B′是 B 除掉 z⊤一行的矩阵。同理，q⊤,Q,
,v⊤,W,
也是如此。
Problem(4)的第一项：

∥ W ⊤ B ∥ 2 = tr (B ⊤ W W ⊤ B) = c o n s t + ∥ z v ⊤ ∥ 2 + 2 v ⊤ W' ⊤ B' z = c o n s t + 2 v ⊤ W' ⊤ B' z

这是原文的推导，笔者理解了半天愣是没理解，只能将自己理解的推导过程给出：

∥ W ⊤ B ∥ 2 = ∥ [W' v ⊤] ⊤ [B' z ⊤] ∥ 2 = ∥ W' ⊤ B' + v z ⊤ ∥ 2 = ∥ W' ⊤ B' ∥ 2 + ∥ v z ⊤ ∥ 2 + 2 tr (z v ⊤ W' ⊤ B') = c o n s t + ∥ z v ⊤ ∥ 2 + 2 tr (v ⊤ W' ⊤ B' z) = c o n s t + ∥ z v ⊤ ∥ 2 + 2 tr ((W' v) ⊤ B' z) = c o n s t + ∥ z v ⊤ ∥ 2 + 2 v ⊤ W' ⊤ B' z = c o n s t + 2 v ⊤ W' ⊤ B' z

对上述推导做几点说明：

由于求的是矩阵的模，不妨将 W拆成上面的形式，即改变矩阵每一行的位置并不改变其模的大小，但是 B 也要做相应改变。
第五行到第六行的推导中，B′z 是一个列向量，W′v 是跟其同维的列向量，那么 (W′v)⊤B′z 就是一个标量，标量的迹就是它本身。
∥zv⊤∥2=tr(vz⊤zv⊤)=nv⊤v=const

Problem(4)的第二项：

tr (B ⊤ Q) = tr (B' ⊤ Q' + z q ⊤) = tr (B' ⊤ Q') + tr (z q ⊤) = c o n s t + q ⊤ z

因此，Problem(4)可以重写成Problem(5)

min z (v ⊤ W' ⊤ B' - q ⊤) z s.t. z \in - 1, 1 n

此问题为最小化问题，则其最优解为系数向量符号函数的相反数，即：

z = sgn (q - B' ⊤ W' v)

阅读全文

1 0

论文笔记及公式推导 《Supervised Discrete Hashing》

定义最优化问题

求解问题

对 F(x)建模

求解P

求解WW

求解BB

论文笔记及公式推导《Supervised Discrete Hashing》

求解W

求解B