phash图像识别应用

基于感知哈希算法的视觉目标跟踪

http://blog.csdn.net/zouxy09/article/details/17471401

基于感知哈希算法的视觉目标跟踪

[email protected]

http://blog.csdn.net/zouxy09

偶然看到这三篇博文[1][2][3],提到图片检索网站TinEye和谷歌的相似图片搜索引擎的技术原理。以图搜图搜索引擎的使命是:你上传一张图片,然后他们尽全力帮你把互联网上所有与它相似的图片搜索出来。当然了,这只是他们认为的相似,所以有时候搜索结果也不一定对。事实上,以图搜图三大搜索引擎除了上面的老牌的TinEye和Google外,还有百度上线不算很久的新生儿:百度识图。之前听余凯老师的一个Deep Learning的讲座,里面很大一部分就介绍了百度识图这个产品,因为它是Deep Learning在百度成功上线的一个应用。里面详尽的把百度识图和谷歌的PK了一番。如果我没有听错和记错的话,余凯老师所介绍的百度识图也是应用了卷积神经网络CNN的,还有非常霸气的一点是:余凯老师说百度几乎都是监督学习!在厦门还是哪,有200人每天给百度标数据。这财力,气度全在上面了,没什么好说的了。

跑题了,我们回到这三篇博文提到的谷歌的以图搜图搜索引擎,博文中提到,这个网站提到了该引擎实现相似图片搜素的关键技术叫做“感知哈希算法”(Perceptual hash algorithm),它的作用是对每张图片生成一个“指纹”(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。(不知道是不是真的那么简单,哈哈)

但在这里,我考虑的不是图片检索,而是跟踪。因为既然它可以衡量两个图片的相似性,那么我就在想,那它就可以拿来做目标跟踪了,只要在每一帧找到和目标最相似的地方,那个就是目标了。这个和之前写的模板匹配的原理是差不多的,只是之前模板匹配采用的相似度度量是两个图片的相关性,这里用的是“hash指纹”。另外,详细的描述请参考上面三篇博文,这里先稍微总结下感知哈希算法的实现过程,然后给出自己简单实现目标跟踪的代码。

一、感知哈希算法

1、基于低频的均值哈希

一张图片就是一个二维信号,它包含了不同频率的成分。如下图所示,亮度变化小的区域是低频成分,它描述大范围的信息。而亮度变化剧烈的区域(比如物体的边缘)就是高频的成分,它描述具体的细节。或者说高频可以提供图片详细的信息,而低频可以提供一个框架。

而一张大的,详细的图片有很高的频率,而小图片缺乏图像细节,所以都是低频的。所以我们平时的下采样,也就是缩小图片的过程,实际上是损失高频信息的过程。

均值哈希算法主要是利用图片的低频信息,其工作过程如下:

(1)缩小尺寸:去除高频和细节的最快方法是缩小图片,将图片缩小到8x8的尺寸,总共64个像素。不要保持纵横比,只需将其变成8*8的正方形。这样就可以比较任意大小的图片,摒弃不同尺寸、比例带来的图片差异。

(2)简化色彩:将8*8的小图片转换成灰度图像。

(3)计算平均值:计算所有64个像素的灰度平均值。

(4)比较像素的灰度:将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0。

(5)计算hash值:将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。组合的次序并不重要,只要保证所有图片都采用同样次序就行了。(我设置的是从左到右,从上到下用二进制保存)。

计算一个图片的hash指纹的过程就是这么简单。刚开始的时候觉得这样就损失了图片的很多信息了,居然还能有效。简单的算法也许存在另一种美。如果图片放大或缩小,或改变纵横比,结果值也不会改变。增加或减少亮度或对比度,或改变颜色,对hash值都不会太大的影响。最大的优点:计算速度快!

这时候,比较两个图片的相似性,就是先计算这两张图片的hash指纹,也就是64位0或1值,然后计算不同位的个数(汉明距离)。如果这个值为0,则表示这两张图片非常相似,如果汉明距离小于5,则表示有些不同,但比较相近,如果汉明距离大于10则表明完全不同的图片。

2、增强版:pHash

均值哈希虽然简单,但受均值的影响非常大。例如对图像进行伽马校正或直方图均衡就会影响均值,从而影响最终的hash值。存在一个更健壮的算法叫pHash。它将均值的方法发挥到极致。使用离散余弦变换(DCT)来获取图片的低频成分。

离散余弦变换(DCT)是种图像压缩算法,它将图像从像素域变换到频率域。然后一般图像都存在很多冗余和相关性的,所以转换到频率域之后,只有很少的一部分频率分量的系数才不为0,大部分系数都为0(或者说接近于0)。下图的右图是对lena图进行离散余弦变换(DCT)得到的系数矩阵图。从左上角依次到右下角,频率越来越高,由图可以看到,左上角的值比较大,到右下角的值就很小很小了。换句话说,图像的能量几乎都集中在左上角这个地方的低频系数上面了。

pHash的工作过程如下:

(1)缩小尺寸:pHash以小图片开始,但图片大于8*8,32*32是最好的。这样做的目的是简化了DCT的计算,而不是减小频率。

(2)简化色彩:将图片转化成灰度图像,进一步简化计算量。

(3)计算DCT:计算图片的DCT变换,得到32*32的DCT系数矩阵。

(4)缩小DCT:虽然DCT的结果是32*32大小的矩阵,但我们只要保留左上角的8*8的矩阵,这部分呈现了图片中的最低频率。

(5)计算平均值:如同均值哈希一样,计算DCT的均值。

(6)计算hash值:这是最主要的一步,根据8*8的DCT矩阵,设置0或1的64位的hash值,大于等于DCT均值的设为”1”,小于DCT均值的设为“0”。组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。

结果并不能告诉我们真实性的低频率,只能粗略地告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变,hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。

与均值哈希一样,pHash同样可以用汉明距离来进行比较。(只需要比较每一位对应的位置并算计不同的位的个数)

二、基于感知哈希算法的视觉跟踪

和前面说的那样,对于感知哈希算法的视觉跟踪,思想很简单,我们把要跟踪的目标保存好,计算它的hash码,然后在每一帧来临的时候,我们扫描整个图像,计算每个扫描窗口的hash码,比较它和目标的hash码的汉明距离,汉明距离距离最小的扫描窗口就是和目标最相似的,也就是该帧的目标所在位置。为了加速,我们只在上一帧目标的周围图像区域进行扫描。为了适应目标的变化,我们还需要在成功跟踪后的每一帧更新我们要跟踪的目标。

当时看到这个东西的时候,感觉很简单,然后就花了点时间动手写了下代码,不知道代码是否正确,如有错误,还望大家不吝指点。我的代码是基于VS2010+ OpenCV2.4.2的。基础的均值哈希和pHash都实现了,切换只需要在改变代码里面跟踪的那个函数的flag即可。代码可以读入视频,也可以读摄像头,两者的选择只需要在代码中稍微修改即可。对于视频来说,运行会先显示第一帧,然后我们用鼠标框选要跟踪的目标,然后跟踪器开始跟踪每一帧。对摄像头来说,就会一直采集图像,然后我们用鼠标框选要跟踪的目标,接着跟踪器开始跟踪后面的每一帧。具体代码如下:

hashTracker.cpp

[cpp] view plaincopy

  1. // Object tracking algorithm using Hash or pHash code
  2. // Author : zouxy
  3. // Date   : 2013-12-21
  4. // HomePage : http://blog.csdn.net/zouxy09
  5. // Email  : [email protected]
  6. #include <opencv2/opencv.hpp>
  7. using namespace cv;
  8. using namespace std;
  9. // Global variables
  10. Rect box;
  11. bool drawing_box = false;
  12. bool gotBB = false;
  13. // bounding box mouse callback
  14. void mouseHandler(int event, int x, int y, int flags, void *param){
  15. switch( event ){
  16. case CV_EVENT_MOUSEMOVE:
  17. if (drawing_box){
  18. box.width = x-box.x;
  19. box.height = y-box.y;
  20. }
  21. break;
  22. case CV_EVENT_LBUTTONDOWN:
  23. drawing_box = true;
  24. box = Rect( x, y, 0, 0 );
  25. break;
  26. case CV_EVENT_LBUTTONUP:
  27. drawing_box = false;
  28. if( box.width < 0 ){
  29. box.x += box.width;
  30. box.width *= -1;
  31. }
  32. if( box.height < 0 ){
  33. box.y += box.height;
  34. box.height *= -1;
  35. }
  36. gotBB = true;
  37. break;
  38. }
  39. }
  40. // calculate the hash code of image
  41. Mat calHashCode(Mat image)
  42. {
  43. resize(image, image, Size(8, 8));
  44. Scalar imageMean = mean(image);
  45. return (image > imageMean[0]);
  46. }
  47. // calculate the pHash code of image
  48. Mat calPHashCode(Mat image)
  49. {
  50. Mat floatImage, imageDct;
  51. resize(image, image, Size(32, 32));
  52. image.convertTo(floatImage, CV_32FC1);
  53. dct(floatImage, imageDct);
  54. Rect roi(0, 0, 8, 8);
  55. Scalar imageMean = mean(imageDct(roi));
  56. return (imageDct(roi) > imageMean[0]);
  57. }
  58. // get hamming distance of two hash code
  59. int calHammingDistance(Mat modelHashCode, Mat testHashCode)
  60. {
  61. return countNonZero(modelHashCode != testHashCode);
  62. }
  63. // tracker: get search patches around the last tracking box,
  64. // and find the most similar one using hamming distance
  65. void hashTrack(Mat frame, Mat &model, Rect &trackBox, int flag = 0)
  66. {
  67. Mat gray;
  68. cvtColor(frame, gray, CV_RGB2GRAY);
  69. Rect searchWindow;
  70. searchWindow.width = trackBox.width * 3;
  71. searchWindow.height = trackBox.height * 3;
  72. searchWindow.x = trackBox.x + trackBox.width * 0.5 - searchWindow.width * 0.5;
  73. searchWindow.y = trackBox.y + trackBox.height * 0.5 - searchWindow.height * 0.5;
  74. searchWindow &= Rect(0, 0, frame.cols, frame.rows);
  75. Mat modelHashCode, testHashCode;
  76. if (flag)
  77. modelHashCode = calHashCode(model);
  78. else
  79. modelHashCode = calPHashCode(model);
  80. int step = 2;
  81. int min = 1000;
  82. Rect window = trackBox;
  83. for (int i = 0; i * step < searchWindow.height - trackBox.height; i++)
  84. {
  85. window.y = searchWindow.y + i * step;
  86. for (int j = 0; j * step < searchWindow.width - trackBox.width; j++)
  87. {
  88. window.x = searchWindow.x + j * step;
  89. if (flag)
  90. testHashCode = calHashCode(gray(window));
  91. else
  92. testHashCode = calPHashCode(gray(window));
  93. int distance = calHammingDistance(modelHashCode, testHashCode);
  94. if (distance < min)
  95. {
  96. trackBox = window;
  97. min = distance;
  98. }
  99. }
  100. }
  101. model = gray(trackBox);
  102. cout << "The min hanming distance is: " << min << endl;
  103. }
  104. int main(int argc, char * argv[])
  105. {
  106. VideoCapture capture;
  107. // from video
  108. capture.open("david.mpg");
  109. bool fromfile = true;
  110. // from camera
  111. //capture.open(0);
  112. //bool fromfile = false;
  113. //Init camera
  114. if (!capture.isOpened())
  115. {
  116. cout << "capture device failed to open!" << endl;
  117. return -1;
  118. }
  119. //Register mouse callback to draw the bounding box
  120. cvNamedWindow("hashTracker", CV_WINDOW_AUTOSIZE);
  121. cvSetMouseCallback("hashTracker", mouseHandler, NULL );
  122. Mat frame, model;
  123. capture >> frame;
  124. while(!gotBB)
  125. {
  126. if (!fromfile)
  127. capture >> frame;
  128. imshow("hashTracker", frame);
  129. if (cvWaitKey(20) == ‘q‘)
  130. return 1;
  131. }
  132. //Remove callback
  133. cvSetMouseCallback("hashTracker", NULL, NULL );
  134. Mat gray;
  135. cvtColor(frame, gray, CV_RGB2GRAY);
  136. model = gray(box);
  137. int frameCount = 0;
  138. while (1)
  139. {
  140. capture >> frame;
  141. if (frame.empty())
  142. return -1;
  143. double t = (double)cvGetTickCount();
  144. frameCount++;
  145. // tracking
  146. hashTrack(frame, model, box, 0);
  147. // show
  148. stringstream buf;
  149. buf << frameCount;
  150. string num = buf.str();
  151. putText(frame, num, Point(20, 30), FONT_HERSHEY_SIMPLEX, 1, Scalar(0, 0, 255), 3);
  152. rectangle(frame, box, Scalar(0, 0, 255), 3);
  153. imshow("hashTracker", frame);
  154. t = (double)cvGetTickCount() - t;
  155. cout << "cost time: " << t / ((double)cvGetTickFrequency()*1000.) << endl;
  156. if ( cvWaitKey(1) == 27 )
  157. break;
  158. }
  159. return 0;
  160. }

三、实验结果

我们还是和之前一样,用在目标跟踪领域一个benchmark的视频-david来测试下代码的效果。如下图所以,每帧的帧号在左上角所示。这里的初始框是我随意画的,所以你的结果和我的有可能不同。下图的结果是使用pHash的,pHash比均值hash要好,但耗时也增加了不少。另外,我的代码没有经过优化的,写着玩嘛,哈哈。

四、思考

看到这个算法的时候,第一个感觉就是,这太简单了吧,它真的有效吗?像下图左那样,它的hash值的图压根就看不出是个什么东西了,居然还能做相似的匹配,而且一定情况下,还是挺有效的。

这种简单的比较得到0和1编码还让我想到了经典的LBP特征,如上图右,不同在于LBP是每个像素点与邻域比较,而hash是与整幅图的均值比较。所以LBP可以保存明暗这种过渡的边缘,而hash保存的是图像整体的精简版的低频分量。

这也让人困惑在简单与复杂的抉择之间,它们的考量也非三言两语能避之。也许算法之美一定程度上能从其简单和有效处得以瞥见吧。

另外,我还特意检索了一下,暂时还没有搜到基于感知哈希算法的视觉跟踪,不知道会不会对大家有所启发。(发论文的,求挂名哦,哈哈^-^)

五、参考文献:

[1] Google 以图搜图 - 相似图片搜索原理 -Java实现

[2] 看起来像它——图像搜索其实也不难

[3] 相似图片搜索的原理

[4] 最简单的目标跟踪(模版匹配)

时间: 2024-08-08 04:00:08

phash图像识别应用的相关文章

看起来像它——图像搜索其实也不难 (图像相似,图像指纹,phash hash,图像搜索) 使用时候记得看这文章的评论

链接: http://pan.baidu.com/s/1o7ScyVo 密码: h8eb    这个文章的代码 另一个类似的代码  链接: http://pan.baidu.com/s/1hsFDCNy 密码: jxus http://blog.csdn.net/luoweifu/article/details/8220992                 使用时候记得看这文章的评论 看起来像它——图像搜索其实也不难 标签: pHash图像搜索图像识别图片搜索算法 2012-11-24 23:

Atitit图像识别的常用特征大总结attilax大总结

1.1. 常用的图像特征有颜色特征.纹理特征.形状特征.空间关系特征. 1 1.2. HOG特征:方向梯度直方图(Histogram of Oriented Gradient, HOG)1 1.3. (二)LBP特征 LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子4 1.4. :它具有旋转不变性和灰度不变性等显著的优点.它是首先由T. Ojala, M.Pietik?inen, 和D. Harwood 在1994年提出,用于纹理特征提取.而且

图像识别引擎-引擎收集知识地图~

图像识别引擎-引擎收集知识地图 识图如今搜索结果还是不够理想,有非常大的提升空间.以下介绍几个比較专业的图片搜索引擎. 1: https://images.google.com/ http://www.google.com/imghp (旧版:http://similar-images.googlelabs.com) 临时的替代品:http://54.250.200.50/imghp http://203.208.46.200/imghp Google实验室类似图片搜索:输入一个关键词后,比如"

相似图片搜索原理二(phash—c++实现)

前段时间介绍过相似图片搜索原理一(ahash) http://blog.csdn.net/lu597203933/article/details/45101859,它是基于内容检索最简单的一种:这里介绍它的增强版本感知哈希算法(perceptual hash, phash).它主要也是用缩略图搜原图并能达到较好点的效果. 理论部分: 理论部分主要包括以下几个步骤: <1> 图像缩放-将图像缩放到32*32大小 <2>灰度化-对32*32大小的图像进行灰度化 <3>离散余

图像识别DM8127开发攻略——序

DAVINCI(ARM+DSP)开发攻略已经整整两年多没写东西了,自从写完DAVINCI DM3730的开发攻略,就基本没什么精力去写,一直在忙DM3730平台客户定制的产品设计和大规模量产的任务. 2015年-2016年-2017上半年爆炸性的出货,公司只好全力去支持大客户,保证产品的质量.还有得了一个可爱的小宝宝,里里外外的事情重重压过来,不得不去处理,结果博客和公司网站基本处在停止更新状态,毕竟这年头大环境是实业误国,投机"兴邦",在这种情况下科技公司全力赚点伙食费不容易,所以博

从原理到代码:大牛教你如何用 TensorFlow 亲手搭建一套图像识别模块 | AI 研习社

从原理到代码:大牛教你如何用 TensorFlow 亲手搭建一套图像识别模块 | AI 研习社 PPT链接: https://pan.baidu.com/s/1i5Jrr1N 视频链接: https://v.qq.com/x/page/n0386utnrb0.html?start=492

答题卡图像识别 需求分析、市场分析和技术实现

答题卡图像识别 需求分析.市场分析和技术实现 一.需求分析 一.以接口的方式开发此需求: 1:接收图片 以上传的方式把图片发送到接口. 2:识别图片 接口接收到图片后,进行图像识别. 3:返回数据 返回识别后的JSON格式数据. 二.答题卡图片识别的具体要求: 图片是通过手机.相机.扫描仪等设备拍照而来,其中手机.相机拍出的照片会出现像素低.图像不正.聚焦不清楚等问题: 1:图片只要是人眼能看清楚的即可完成识别: 2:800万像素以上的手机拍的照片能进行识别: 3:聚焦不清楚时也可以进行识别:

Opencv图像识别从零到精通(26)---分水岭

分水岭是区域分割三个方法的最后一个,对于前景背景的分割有不错的效果. 分水岭分割方法,是一种基于拓扑理论的数学形态学的分割方法,其基本思想是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域称为集水盆,而集水盆的边界则形成分水岭.分水岭的概念和形成可以通过模拟浸入过程来说明.在每一个局部极小值表面,刺穿一个小孔,然后把整个模型慢慢浸入水中,随着浸入的加深,每一个局部极小值的影响域慢慢向外扩展,在两个集水盆汇合处构筑大坝,即形成分水岭. 分水岭

使用 MNIST 图像识别数据集

下载代码示例 机器学习领域中最迷人的主题之一是图像识别 (IR). 使用红外系统的示例包括使用指纹或视网膜识别的计算机登录程序和机场安全系统的扫描乘客脸寻找某种通缉名单上的个人. MNIST 数据集是可用于实验的简单图像集合­沙用红外的算法. 这篇文章并介绍了一个相对简单 C# 程序,向您介绍的 MNIST 数据集,这反过来你接触到红外的概念. 它不太可能你会需要使用红外大多数软件应用程序,但我觉得你可能有用的信息在这篇文章为四个不同的原因. 第一,没有更好的方法,了解的 MNIST 数据集和