首次曝光!在线视频衣物精确检索技术_开启刷剧败明星同款时代

原文地址

CVPR是由全球最大的非营利专业技术学会IEEE(电气和电子工程师协会)举办的计算机视觉领域的国际顶会,2017CVPR收到超过2500篇论文投递,最终收录不到800篇,阿里巴巴集团iDST和AI LAB 有多篇论文被收录。

今天为大家深入解读被CVPR 2017收录的论文之一、来自阿里巴巴iDST 视频分析团队的《从视频到电商:视频衣物精确检索》。

《从视频到电商:视频衣物精确检索》围绕视频电商业务场景,提出了一个在线视频衣物精确检索系统。该系统能够满足用户在观看影视剧时想要同时购买明星同款的需求。

整个系统采用了目前最先进的衣物检测和跟踪技术。针对明星同款检索中存在的多角度、多场景、遮挡等问题,提出可变化的深度树形结构(ReconfigurableDeep Tree structure)利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。


论文技术在天猫魔盒视频中应用

业务场景及研究问题:视频电商中的衣物精确匹配

早在2014年,阿里与优酷土豆发布视频电商战略,称未来可以实现边看边买,使得视频电商的概念,继微博电商,朋友圈电商之后浮出水面。电商平台拥有少量商品,而视频网站具有巨大的流量,二者结合是发展的必然结果。电商平台可以借助视频网站的流量来实现导流和平台下沉,而视频网站则需要通过广告点击和商品成交来实现流量变现,因此二者的结合可谓一拍即合。

视频电商的商业主旨是打造以视频为入口的购物服务,视频中出现所有物体都可能是商品,提供包括边看边买、明星同款、广告投放等服务,它集娱乐、休闲、购物于一体,给用户构造出一种“身临其境”情境营销,或者是明星同款的冲动式消费。视频电商目前已经不是停留在概念层次了,视频网站向电商的导流转化也一直在不断的尝试中。

影视剧中的服饰存在较大的差异性和异构性,同一个目标往往展现出较大的差异。服饰购物图像通常具有杂乱、多样的背景,而且常在户外拍摄。多样化的背景可能是建筑物,街道、风景、汽车等多种情况。由于自然场景下受到光线、角度、大小、分辨率、几何学和光度学的变化等影响,使得服饰呈现出现的外形极为复杂,即使是同一件服饰也会出现变化较大的效果。

同时在线网站为更好地展示服饰的效果,通常聘请时尚模特穿着所售商品,模特/人物姿势变化也是导致服饰变化的一个重要因素。由于以上这些因素,使得视频明星同款搜索成为了一个极具挑战性的技术问题。

网络结构及技术细节

AsymNet网络结构:整个Asymnet深度神经网络结构如图1所示。当用户通过机顶盒(天猫魔盒)观看视频时,该网络将从电商网站(淘宝、天猫)检索到与之匹配的衣服,并推荐给用户。

为忽略复杂背景对检索结果的影响,更准确的进行服装定位,我们首先应用服饰检测技术,提取得到服饰区域一组候选框。然后对这些候选框进行跟踪,得到明星同款在视频中的的运动轨迹。对于衣物候选区域和运动轨迹我们分别利用用图像特征网络(IFN)和视频特征网络(VFN)进行特征学习。

考虑到服装的运动轨迹,衣物精确检索问题被定义为不对称(多对单)匹配问题,我们提出可变化的深度树形结(Reconfigurable Deep Tree Structure),利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。后续本文将详细介绍模型的各个部分。


图 1 Asymnet深度神经网络结构

图像特征网络(IFN):传统CNN网络要求输入图像为固定的227x227(因为CNN网络中的卷积层需要有一个确定的预定义的维度)。在视频电商业务场景中,因为衣物检测候选框为任意大小,尺度变化很大,传统CNN网络无法进行有效的特征学习。

针对这一问题,我们利用空间金字塔池化结构(SPP)体系结构,如图2所示。它通过空间池聚合最后一个卷积层的特征,从而使池区域的大小与输入的大小无关。


图 2 Asymnet图像特征网络(IFN)

视频特征网络 (VFN):为了更好的考虑视频的空间序列模式,进一步提高衣物检索的性能。基于 LSTM,我们提出了视频特征网络 (VFN),如图3所示。其中实验验证明两层堆叠式 LSTM 结构能够在视频特征学习中得到最佳性能。


图 3 Asymnet视频特征网络(VFN)

相似性网络:明星同款匹配不同于近似衣物检索,精确匹配要求完全一致。在完全一致的要求下,传统的通过相似性计算来进行检索的方法,不能满足明星同款精确匹配要求。已有的方法通常将精确匹配问题转换为一个二分类问题,但这种方式适应性差,只能利用单一时刻的视频帧。

为了能够利用整个衣物运动轨迹,我们提出了如下的可变化的深度树形结构(ReconfigurableDeep Tree structure)将匹配问题转换为逻辑回归问题。匹配网络拟采用基于混合专家系统的逻辑回归网络。该结构可以认为是对现有attention模型的一种扩展,可以用来解决多模型融合问题。


图 4 Asymnet相似性网络

整个模型的目标函数是综合考虑每一帧的匹配结果,得到基于整个衣物运动序列和电商衣物的相似性,整个系统可以建模为对如下目标公式进行求解:

类似于attention机制,我们提出如下后验概率模型,来对上式进行求解:

得到如下梯度并采用端到端方式进行网络学习。

试验结果:我们利用业务数据和最新的衣物检索方法进行了对比,试验结果如下表所示。相对于alexnet,Asymnet在前20的检索精确率指标上,其性能几乎提高了进一倍。

相对于其他2种网络CS和RC,我们发现RC的性能略优于CS,因为RC具有较强的识别能力差异较小(采用多任务学习)。甚至在对于某些类别(无明显差别)RC在精确率上甚至略好于AsymNet,但是总的来说AsymNet比目前现有的方法拥有更好的性能。因为Asymnet可以处理现有的视频的时空动态变化,并结合自动视频帧的自动调节炉排判别信息的融合策略。

原文地址

时间: 2024-10-16 03:02:27

首次曝光!在线视频衣物精确检索技术_开启刷剧败明星同款时代的相关文章

转:基于内容的视频分析与检索

摘要 文章简要介绍了从基于内容的视频分析与检索问题的提出到所涉及的关键技术以及目前研究状况,并简要介绍了现阶段在这方面的研究热点及以后要做的工作. 一.问题的提出: 互联网的出现给人类带来了很大的便利,特别是实现资源共享之后的互联网,但面对这浩如烟海的资源到底哪些是对自己有利用价值的呢?而90年代以来,多媒体技术和网络技术的突飞猛进,人们正快速的进入一个信息化社会.现代技术已能运用各种手段采集和生产大量各种类型的多媒体信息数据,出现了数字图书馆.数字博物馆.数字电影.可视电话.交互电视.会议电视

金融银行在线视频开户

近年来,金融业竞争日益严峻,国内各商业银行在传统业务上遭遇到了非银行金融机构,和国内外同行的替代挑战.面对日益激烈的竞争环境,国内各家商业银行不得不通过各种"升级"转型变革来重蓄新的核心竞争力.尤其是面对近来余额宝事件等互联网的金融冲击,迫使银行的转型速度加快. 各种转型创新模式层出不穷,如以民生银行为首的跨界联姻的转型模式,建行的"三综合"转型,农行的网点软转行,--伴随全行业变革的潮流,不断升级的转型巨轮推动着中国银行业的滚滚向前.金融投资行业的在线视频远程鉴证

移动应用和游戏开发两个阶段在线视频培训的未来计划

在51CTO学院开线上视频课程已经3个多月了,也上了不少课.不过发现还有很多课没有开.现在就将未来的开课计划公布一下.计划分为两个阶段.第一阶段主要是Cocos2d-x和Cocos2d-js的游戏开发培训.涉及到了<征服C++ 11>.<从零开始掌握Cocos2d-x 3.x>(共12季).<Cocos2d-x 3.x项目实战:仿微信飞机大战>.<Cocos2d-x 3.x项目实战:星空大战>,这是目前已经发布的4个课程,正在逐步更新中... 未来还会发布&

Fms3和Flex打造在线视频录制和回放

本博推荐文章快速导航: Sql Server2005 Transact-SQL 新兵器学习MCAD学习 代码阅读总结 ASP.NET状态管理 DB(数据库)WAPWinFormFlex,Fms aierong原创技术随笔 .net,Flex,Fms,视频会议,视频聊天相关开发技术大本营 博客园 首页 博问 闪存 新随笔 联系 订阅 管理 随笔-122  文章-0  评论-3956 Fms3和Flex打造在线视频录制和回放 Flex,Fms3系列文章导航 Flex,Fms3相关文章索引 本篇是视频

4K超清,2500万人在线,猫晚直播技术全解读

2018天猫双11已经过去一周,各路快递也在快马加鞭送到大家手中.但对于剁手党而言,天猫双11也不仅仅是简单意义上的"买买买",更是一场边看边玩的狂欢盛宴. 作为双11的必备节目,今年的猫晚通过优酷.浙江卫视.东方卫视进行了全程网络直播和电视直播,吸引了超过全球超过2.4亿人收看.猫晚期间,优酷基于阿里云最新的广播级高可靠直播方案,为近2500万的观众带来了超高清.流畅的观看体验. 大家一定还记得今年俄罗斯世界杯期间,阿里云承包了全网70%的直播流量,其实,本次猫晚直播解决方案带来了全

如何更好地学习在线视频课程?

如何更好地学习在线视频课程? ?Lander Zhang 专注外企按需IT运维服务,IT Helpdesk 实战培训践行者博客:https://blog.51cto.com/lander 51CTO讲师首页:https://edu.51cto.com/lecturer/733218.html轻松进外企:IT Helpdesk工程师实战自学之路:博文介绍:https://blog.51cto.com/lander/2413018视频课程专题系列:https://edu.51cto.com/topi

科技文献检索(八)——检索技术

1.布尔检索 Boolean 用布尔逻辑算符来规定检索词之间的逻辑关系的一种检索技术 种类:逻辑与(AND.*).逻辑或(OR.+).逻辑非(NOT.-) ☆广泛应用于搜索引擎和数据库 (1)逻辑“与”——and:* 用于概念交叉和限定.起缩小检索范围和提高文献查准率的作用 例如:查有关“大学生信息素养”方面的文章 大学生 and 信息素养 大学生*信息素养 (2)逻辑“或”——or:+:| 用于概念并列和补充.可扩大检索范围,提高查全率. 例如:检索“未成年人”方面的文献 未成年人 or 儿童

超碰在线视频

超碰在线视频在哪能看?超碰的最新地址是什么? 请认真看完本文,你就知道不需要超碰网站就能在线看成年人的片了!!!!! 以前超碰很火爆的,只要是想看哪种片子,直接到超碰网站上面就能看了.相信只要是前几年上网的人群,都知道超碰视频的网站吧,那个时候打开超碰视频网站就可以看了,很爽的.不过超碰视频网站现在已经被关掉了,真正的超碰网站已经打不开了. 目前网上搜到的超碰网站,都是假的,不能观看,全部都是广告,大家不要相信.所以大家也不要到处去找超碰在线视频网站,或者超碰的最新地址.因为真正的超碰网站已经不

青青草在线视频

相信很多人都听说过青青草在线视频网站,因为青青草在线视频能播放和观看很多成年人的内容,所以在该网站观看视频的人数特别多,导致该网站特别出名.正所谓枪打出头鸟,最后导致这个青青草在线视频网站,被封掉了.我们在也无法找到这个真正的青青在线视频网站了.但是现在搜索青青草在线视频,仍然可以搜到很多的所谓青青草在线视频,但全部都是假的,很多网站都是病毒,或者是一些假网站,根本就没有我们要看的电影.相信很多人都在到处搜索青青草在线视频,实际上大家根本就找不到真正的青青草在线视频,因为真正的网站已经被封掉了.