《How hard can it be? Estimating the difficulty of visual search in an image》发表于2016年CVPR上,这篇文章是老师推荐的,需要说明的是它的model相对来说简单,而其真正的想法才是比较新颖的。
作者做的主要工作是提出了一种在视觉搜索中衡量图像的搜索难度的方法。我们知道人的视觉在进行搜索时,首先对搜索图像进行观察,获取图像中的有特征的重要主体,再搜寻与其相似的图像,即先对图像进行抽象,再进行搜索。在当前的研究中,大多数人都在研究如何提高搜索精度,但是作者却在思考,什么样的图片是容易被检索的,什么样的是难被检索的。打个比喻,有一根绳子,有人说1米,有人说2米,到底是多少呢,我们得拿一把尺子来测量一下,作者提出的方法就相当于“尺子”,解决一种度量问题,类似于秦始皇统一度量衡,以后大家都要拿这个来衡量,所以这是一种开创性的工作。
作为一种开创性的工作,数据一般需要自己获取,所以第一部分作者也是花了大量的精力标记数据,提出用人的反应时间作为标记;随后作者证明了图像的搜索难度与人的反应时间是成正比的,即用时间标记是合理的;然后作者从人的认知角度分析了影响图像搜索难易的七大因素,并分别分析各自的影响程度;之后作者提出自己的模型CNN + v-SVR和图像难度分数的计算方法:对该图片的所有标记时间的几何中值(时间连乘的平方根)作为难度分数;与baselines比较,获得比较好的效果;最后作者提出了本模型在弱监督目标定位和半监督目标分类领域能也能起到作用,并给出实验证明。详细说明请参看另一篇博客:http://blog.csdn.net/helloeveryon/article/details/51893251
模型很简单,但是这种思路值得学习。由于博客上不能上传PPT,所以我就直接贴图了。需要PPT的同学们可以留言。