ITQ迭代量化方法解析

一.问题来源

　　来源于换关键字，从LSH转换为hash检索，这要感谢李某。

二.解析

　　笔者认为关键思想是数据降维后使用矩阵旋转优化，其他和LSH一样的。

2.1 PCA降维

　　先对原始空间的数据集 X∈Rn×d 用PCA进行降维处理，设经过PCA降维后的数据集为 V∈Rn×c ，该问题就可以转化为将该数据集中的数据点映射到一个二进制超立方体的顶点上，使得对应的量化误差最小，从而而已得到对应该数据集优良的二进制编码。

　　对于PCA降维部分，不做详解。设 v∈Rc 为原特征空间中某一数据点经过PCA降维后的表示形式，对应在超立方体中的顶点用 sgn(v)∈{−1,1}c 来表示，要使量化误差最小，即 v∈Rc 与 sgn(v)∈{−1,1}c的欧式距离最小，即 min||sgn(v)−v)||2 ，对于所有的数据点进行二进制编码后用B表示，PCA降维后 V=X×W，对整个数据集为 min||B−V||2 。由于对矩阵进行旋转可以降低量化误差。

2.2 ITQ优化求解

　　对投影后的矩阵V进行随机旋转后，量化误差降低至0.93，对于找到的最优的旋转矩阵，量化误差降低至0.88(矩阵与正交矩阵相乘实际上就是对矩阵做旋转)。基于这样一个事实，考虑将投影后的数据集V进行旋转变换， min||B−V||2 便变换为 min||B−VR||2 ，R为旋转矩阵。整个问题域就变成了 min||B−VR||2 的优化问题，即找出最优的旋转矩阵R和与之对应的编码B。该式的优化可以采用交替跌倒的求解方法：先生成随机矩阵并对其进行SVD分解得到对应的正交矩阵作为R的初始值，然后固定R求B， B=sgn(V×D) （注意这里截距 b=0 ,因为在原空间已对数据中心化，非常重要）,B求出来再通过对 B×V 进行SVD更新R，交替迭代若干次即可，文中选用的是50次。

　　通过上面过程便可经过PCA降维后的数据完成编码过程，后面的相似性采用汉明距离进行度量，这里不赘述。

　　总结一下，整个过程可以概括为：先对数据集进行PCA降维，然后寻找量化误差最小的旋转矩阵即可得到对应该最优旋转矩阵下的特征向量的二进制编码。

　　参考：CVPR 2011《Iterative Quantization: A Procrustean Approach to Learning Binary Codes》论文阅读笔记。

　　http://blog.csdn.net/xiaoshengforever/article/details/20719485

时间： 2024-10-09 23:21:24

ITQ迭代量化方法解析

一.问题来源

二.解析

2.1 PCA降维

2.2 ITQ优化求解

ITQ迭代量化方法解析的相关文章

Map容器——HashMap及常用API，及put,get方法解析，哈希码的产生和使用

清除浮动方法解析

【Android 多媒体开发】 MediaPlayer 状态机接口方法解析

用json方法解析webqq好友列表文本

用原始方法解析复杂字符串，json一定要用JsonMapper么？

IOS开发之——四种方法解析Jason数据（转）

JSON.parse() 方法解析一个JSON字符串

js 将json字符串转换为json对象的方法解析（转）

activity生命周期中方法解析