StartDT AI Lab | 数据增强技术如何实现场景落地与业务增值?

有人说,「深度学习“等于”深度卷积神经网络算法模型+大规模数据+云端分布式算力」。也有人说,「能够在业内叱咤风云的AI都曾“身经百战”,经历过无数次的训练与试错」。以上都需要海量数据做依托,对于那些数据量匮乏的领域,就衍生出了数据增强技术。即,根据一个原始数据,稍作改动,变成一个对于AI来说的全新的数据。

01 为什么做数据增强?

数据规模的重要性到底怎样呢?可以说,深度学习的火热和蓬勃发展,直接源于普林斯顿大学教授李飞飞及她所带领的团队创作的一个包含百万级图片的数据集ImageNet。工业级人脸识别模型的训练,也是动辄百万级、千万级的人脸图片数量。深度学习是基于大数据的一种方法,我们当然希望数据的规模越大、质量越高越好,模型才能够有着更好的泛化能力。但大家都知道,海量数据的标注是一件非常庞大、非常耗时耗力耗金的工作,能标注的数据往往十分有限,同时,我们希望数据能覆盖各种场景,然而实际采集数据的时候,往往很难覆盖掉全部的场景。这时数据增强是扩充数据样本规模的一种有效的方法。

02 如何进行数据增强?

数据增强可以分为常规的数据增强和特殊的数据增强。常规的数据增强方法又可分为:空间几何变换类(水平垂直翻转、随机裁剪、旋转、仿射变换、透视变换)、色彩类(随机亮度、饱和度、色调)、噪声类(椒盐噪声、高斯噪声、频域噪声)、随机擦除、锐化、模糊等;然而,特殊的数据增强有着各种各样的形式,为应对不同的视觉任务以及应用场景,所采用的增强方式也会随之不同。对于某个深度学习任务,并非所有的数据增强方法都有作用,接下来将详细介绍StartDT AI Lab是如何采用数据增强技术实现场景落地与业务增值的。

商品检测、分类任务中的数据增强技术

“无人货柜”、“无人店”等应用场景下,智能算法引擎的任务就是检测并识别商品。为了提高我们视觉模型的精度与泛化能力,除了采用一些常规的数据增强外,我们还使用了多样本融合的数据增强,例如Mix-up、Sample-Pairing等。Mix-up是一种将多张图片按一定权值融合在一起的数据增强方法;此外,一些基于强化学习的数据增强方式也给我们带来了相当可观的算法收益,例如谷歌的Auto-Augment。Auto-Augment的做法是通过强化学习的方法,以不同的数据增强方法为搜索空间,搜索对于当前深度学习任务有效的数据增强方法的组合;另外,还有一些增强正样本或负样本以控制正负样本均衡的数据增强方法。

人脸识别中的数据增强技术

人脸数据的不同个体之间相似程度较高,并且涉及个人隐私问题,这些问题给人脸数据的收集、清洗以及标注工作带来了巨大的困难与挑战。此外,人脸识别在我们的实际应用场景属于开放性场景,摄像头的安装位置、光照、遮挡等等因素造成了人脸数据分布的不确定性与复杂性。公开数据集虽然在数量级上较为可观,但是其仍然存在一定问题。不同Face ID下的图片个数、人脸的姿态、光照条件、图像质量等存在巨大差异,造成了样本不均衡。如果直接采用这些数据进行算法模型训练,很难满足实际应用的需求。为此,我们采用了数据增强技术很大程度上解决了以上问题。

?人脸姿态变换:采用传统图像处理算法与GAN生成对抗网络结合的方式,实现通过单幅人脸图像模拟任意姿态的人脸图像。

人脸姿态变化

?人脸属性修改:利用GAN生成对抗网络,实现人脸属性的修改,包括表情、配饰、发型等。

人脸属性修改(眼镜佩戴与否)

?结合传统方法和深度学习方法:对人脸图像进行去(加)噪、去(模拟)模糊、超分辨(降质)等处理,从而获取不同质量的人脸数据。

行人重识别中的数据增强技术

在“奇点识客”系统中,RE ID(行人重识别)技术作为人脸识别技术的一个重要补充,用于行人跨域追踪。然而,现场摄像头画面之间、现场摄像头画面行人数据分布与公开数据集之间都存在巨大domain差异,因此采用公开数据集训练的Re-ID模型在该场景下的准确率较低,无法满足实际需求。针对此问题,我们采用生成对抗网络(GAN)将公开数据集中的行人转化成实际场景下的图像风格,重新进行训练后,模型准确率提升了50%以上。此外,我们还通过GAN的方式实现行人姿态的变化,以提高数据集的多样性;通过注意力机制,强化学习行人除衣着之外的特征(头部,四肢等),以解决行人换衣导致的准确率下降的问题。

行人风格转换

数据增强是增大数据规模,减轻模型过拟合的有效方法,数据增强技术作为视觉智能引擎的助燃剂,不断为之提供动力,并为StartDT AI Lab的算法落地提供强有力的支持。

原文地址:https://www.cnblogs.com/StartDT/p/12063718.html

时间: 2024-10-28 16:33:08

StartDT AI Lab | 数据增强技术如何实现场景落地与业务增值?的相关文章

StartDT AI Lab | 视觉智能引擎——从Face ID说起,浅析顾客数字化

"顾客就是上帝",这句西谚揭示了顾客占据着商业活动中心地位这一客观规律.为了能更好地服务顾客,优化商家自身的服务与产品,对顾客的分析与需求调研一直是商业经营分析中的重中之重. 在商业互联网化.社会数字化的今天,这一规律越发明显.从Web1.0时×××始,Cookie就被发明出来,用以对"顾客"进行数字化描述和建档并归一化其互联网下的数字行为. 其后的Web2.0时代,随着移动互联网的发展,个人生活中的屏-人机交互端口变多了,原先用Cookie对 "顾客&q

StartDT AI Lab | 视觉智能引擎——Re-ID赋能线下场景顾客数字化

人货场的思路是整个新零售数字化链路的核心,人是整个业务生命周期的起始点,图像算法的首要目标就是从图像中得到“人” .前一篇我们主要讲了Face ID的发展,Face ID帮助商家赋能了线下用户画像,把视觉计算的热情带到支付.安防等各行各业. 诚然,分析人的方式多种多样,各种分析行人的算法中,Face算法在其中有着得天独厚的优势,它在验证身份方面是最精准的(可以精确到支付验证),但Face算法在数量统计的准确度肯定不是最优的.因为很多场景下的Face ID受到了光照遮挡的影响,质量参差不齐,所以基

深度学习中的数据增强技术(二)

上篇文章介绍了深度学习中数据增强技术的应用,及部分TensorFlow实现代码.废话不说了,这篇接着介绍: TensorFlow实现图片数据增强 注:类似的方法放在了代码中注释的部分,实际调试时可以分别打开运行 ③图像色彩调整 import matplotlib.pyplot as plt import tensorflow as tf # 读取图片 image_data = tf.gfile.FastGFile("data/dog3.jpg", 'br').read() # 4中调整

腾讯技术工程 |腾讯AI Lab刷新人脸识别与检测两大测评国际记录,技术日调用超六亿

2017年12月18日,深圳 - 腾讯AI Lab研发的Face R-FCN和FaceCNN算法分别在国际最大.最难的人脸检测平台WIDER FACE与最热门权威的人脸识别平台MegaFace多项评测指标中荣膺榜首,刷新行业纪录,展现其在计算机视觉领域中,特别是人脸技术上的强劲实力. 研究上,目前腾讯AI Lab已通过arXiv平台发表论文公开人脸检测算法部分技术细节,促进企业与学界"共享AI"研究成果:应用上,该人脸技术已接入腾讯互联网+公共服务平台等多个应用场景,每日技术调用量超六

数据增强(尚未完成)

1. 为什么需要数据增强? (1)数据增强是扩充数据样本规模的一种有效的方法,深度学习是一种基于大数据的方法,数据的规模越大.质量越高就越好,模型也能够拥有更好的泛化能力.然而在实际采集数据的时候,往往很难覆盖全部的场景,比如光照条件,那么在训练模型的时候,就需要加入光照方面的数据增强: (2)即使拥有大量数据,也应该进行数据增强,这会有助于增加数据集中相关数据的数量.通过增强数据集,可以防止神经网络学习到不想关的模式,避免了过拟合,根本上提升了整体性能. 假设数据集有两个类别,如下图,左边是品

字节码增强技术探索

1.字节码 1.1 什么是字节码? Java之所以可以“一次编译,到处运行”,一是因为JVM针对各种操作系统.平台都进行了定制,二是因为无论在什么平台,都可以编译生成固定格式的字节码(.class文件)供JVM使用.因此,也可以看出字节码对于Java生态的重要性.之所以被称之为字节码,是因为字节码文件由十六进制值组成,而JVM以两个十六进制值为一组,即以字节为单位进行读取.在Java中一般是用javac命令编译源代码为字节码文件,一个.java文件从编译到运行的示例如图1所示. 图1 Java运

腾讯技术工程 | 腾讯AI Lab 现场陈述论文:使众包配对排名聚合信息最大化的 HodgeRan

前言:腾讯AI Lab共有12篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议AAAI 2018.腾讯技术工程官方号编译整理了现场陈述论文<使众包配对排名聚合信息最大化的 HodgeRank>(HodgeRank with Information Maximization for Crowdsourced Pairwise Ranking Aggregation),该论文被AAAI 2018录用为现场陈述报告(Oral Presentation),由中国科学院信息工程研究所.腾讯AI

CVPR 2018 | 腾讯AI Lab入选21篇论文详解

近十年来在国际计算机视觉领域最具影响力.研究内容最全面的顶级学术会议CVPR,近日揭晓2018年收录论文名单,腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论. 去年CVPR的论文录取率为29%,腾讯AI Lab 共有6篇论文入选,点击 这里可以回顾.2017年,腾讯 AI Lab共有100多篇论文发表在AI顶级会议上,包括ICML(4篇).ACL(3篇).NIPS(8篇)等. 我们还坚持与学界.企业界和行业「共享AI+未来」,已与美国麻省理工大学.英国

腾讯 AI Lab 计算机视觉中心人脸 &amp; OCR团队近期成果介绍(3)

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:周景超 在上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享. 1 人脸进展 人脸是最重要的视觉信息之一.以貌识人.以貌取人是人的本性,也是最自然.最常用的身份确认和交互方式之一.互联网和移动互联网上每天上传和传播的天文数字级别的照片中有很大一部分都是和人脸相关的(比如国际知名互联网公司Facebook每天都有亿级以上的海量人脸照片和视频上传),因此人脸检测与识别技术在学术界和工业界都备受关注