面向视频的全新AI架构 —— 阿里云智能视觉技术全解

我们都知道,AI技术正在以可见的速度被应用于各行各业,然而绝大部分业务场景想应用AI技术,都需要算法工程师根据自身业务的标注数据,来进行单独训练,才能打磨出合适的AI模型。如此一来,如何以最低的门槛和成本,实现AI技术落地变成了行业急需解决的问题。

市场上的AI服务非常多,但是在视觉领域,通用的AI服务主要是基于图像的架构来做的,视频时代已经到来,基于图像的AI架构是否还能被广泛应用?阿里云视频云团队专注于视频领域,所以在针对视频的AI处理方面也有独特的思考和实践。3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,阿里云高级计算专场周源针对图像和视频的AI处理有什么不同?团队是如何基于视频构建全新的AI架构?针对AI大量的数据、训练效果不够好、时间与成本消耗大等痛点,他们如何解决等以上问题做了悉数解答。

一、市场上通用的图像架构是怎样的?
市场上大部分AI的服务,输入的都是图像,也就是图片文件,是基于图片进行处理。在业界,图像的算法比较成熟,数量也较多,从大类来看有图像分类、检测、识别、分割等等。大部分AI服务的架构也是基本类似,一般包含图像算法层、引擎框架层、资源管理层、硬件基础层,之后基于各自的业务领域知识,构建一个面向特定领域的AI推理服务,然后通过API提供对外的访问。

二、挑战:视频与图像的不同
随着现在视频(直播、点播、短视频)的越来越广泛应用,内容从原先的图像分析升级到视频分析。因为复用已有的技术以及架构的改造成本等等因素,一般的AI服务一般会保持现有的框架,不同是把视频转换成图像来进行处理。一般做法是按照固定的时间间隔采样截取视频的图像信息,这样整个服务架构不需要做任何改动,只是在最上面一层增加了视频帧截取和结果汇聚的服务。

当然,这个架构在视频时代就会存在很多问题:

  1. 时效性差
    因为增加了视频截帧和结果汇聚这样的中间操作,所以处理时间长;视频下载下来,处理后图片再上传,网络传输也会导致时效性变差;举个例子,在相同画质下,使用一张张图片组成的视频,和H.264编码的视频,大小的比是10:1,图片是10倍于视频的存储量。
  2. 稳定性
    视频截帧一般会采用开源的FFmpeg,如果遇到问题需要解决,比较依赖于开源社区。比如格式和编码的兼容性、直播、点播中遇到数据异常、时间戳不准、定制协议、分辨率切换、卡死等。
  3. 复杂性高
    把视频转换成批量的图片,就需要对这些临时的图片进行管理,另外还涉及顺序处理、异步操作、网络抖动等问题,需要关注的非核心业务功能就要求非常多,导致业务系统整体的复杂性变高。
  4. 信息丢失
    截帧是一种采样,会引起信息丢失,丢失的信息中很有可能包含了关键图像。另外,截帧的处理是对没有时间信息的图像结果的简单累加,效果也不理想。

既然有这么多问题,基于视频的AI计算该怎么做呢?
三、阿里云解决方案:面向视频的新架构
周源所在的阿里云视频云团队,具有多年音视频编解码、媒体处理相关技术经验,他们推出的面向视频的新架构是:把视频作为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程能够大幅度缩短处理时间,从时间维度提升分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。

新架构具有以下几个特点:

  1. 时效性高
    相较于之前多余的截帧、上传等一系列操作,新方案不产生临时图片,同时能减轻存储的带宽和空间需求。能充分利用视频的并行分片机制,大幅度缩短整体处理时间。
  2. 复杂性低
    面向视频的架构,视频处理和AI计算集成在一起,简化了对图片的处理过程,进而简化整个处理逻辑,降低复杂度。
  3. 稳定性高
    阿里云视频云团队是具有10多年丰富视频处理经验的专业团队,兼容性、运维各种问题都不需要用户考虑。
  4. 效果更佳
    对离散的图像结果按照时间的关系进行更合理的汇聚,获得更优的效果。

四、AI应用的痛点和解法
周源团队自研的新架构很好的解决了图像AI架构时效性差、稳定性差、复杂度高、效果不佳的问题。然而在AI的应用上,开发者也会关注到一些其他问题,比如:

目前,分类算法有ResNet、Inception、VGG等等,识别算法有FasterRCNN、SSD、YOLO等等,物体检测、人脸识别算法也有很多,那么如何选择最适合自己的呢?
针对自身业务标注数据,需要大量人力投入,同时真实数据少,采集十分困难,通常需要花费非常多的视觉才能够收集足够多的数据,怎么办?
每次模型训练时间长、反馈慢,训练好的模型更是需要复杂的上线流程,整体业务反馈太慢,怎么办?
智能视觉产品针对关键的数据和时间问题,给出了如下解法:

  1. 选择最合适的算法
    基于阿里巴巴在视频和AI领域的长期积累,已经帮大家选择好了算法,现在推出的是分类和识别,之后将推出更多算法。
  2. 迁移学习——少量数据快速训练
    迁移学习的基本原理是,根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征,并且通过在浅层网络中复用这些基础特征,来减少标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减少数据需求,进一步减少计算量,达到缩短新模型训练时间的效果,使业务迭代更快。

  1. 数据增广——少量数据更优效果
    在深度学习层面,在其他条件相同的情况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果一定需要更多的数据,这需要花费大量的人力去标注。

智能视觉采用数据增广策略,增加数据的多样性,加强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增加数据量的同时保持增广数据的真实性,实现了少量数据情况下效果增强10-15%的训练效果,同时有效降低标注数据的人力和时间成本。

智能视觉可以帮助零算法基础的用户,快速训练自己领域的定制化模型,仅需要少量标注数据,完成快速的模型生成、增强的场景效果,并将训练模型转换成高可用、弹性可扩展的视频AI服务,让用户能够以最低的成本实现AI技术的落地。

原文地址:https://blog.51cto.com/14031893/2373036

时间: 2024-08-03 02:40:14

面向视频的全新AI架构 —— 阿里云智能视觉技术全解的相关文章

新商业云:阿里云智能总裁张建锋首次亮相的信号

2019,将是数字化转型的加速之年,由消费者驱动的商业模式变革,将持续而深入的发生.根据Gartner 2019年首席信息官议程调查,亚太区的数字化业务正从初步试点迈入大规模应用,而通过数字渠道增加客户互动是亚太区数字化转型进入扩展阶段的主要推动因素.Gartner调查显示,47%的亚太地区CIO表示其所在企业已经更改了业务模式或者正在更改过程之中:40%的亚太地区CIO表示,不断变化的消费者需求正在推动其业务模式的转变. 但正如iPhone带来的移动商业变革那样,数字化转型并不意味着简单把PC

ET城市大脑出海:阿里云发展世界级创新技术业务

在微软CEO萨提亚·纳德拉的新书<刷新:重新发现商业与未来>中,强调微软的核心竞争力在于多样化和包容性(Inclusion).纳德拉说微软的使命是服务于全球市场,微软技术必须反映全球市场的需求,这就包括多样化和囊括多种选择与视角."在创造多样化和包容性业务时,微软将处于最佳状态." 作为到目前为止最成功的全球化软件产品供应商,微软一直是中国软件与技术公司的梦想:成为中国的微软.创造中国自己的世界级软件,这是中国创新一直在追赶但从未能超越的高度.2018年1月29日,马来西亚

阿里云性能监控 ARMS 全真3D拓扑揭秘

摘要: 微服务架构下,各类服务之间存在着错综复杂的依赖关系.一旦业务出现问题,追查问题源头就好比大海捞针,没有头绪.但业务不等人,此时,在最短的时间内定位问题根源是开发和运维人员对微服务监控产品的核心诉求. 传统的监控产品提供了表格(table).表单(form)和仪表盘(dashboard)三种展现形式,因其局限性,并无法完整和直观的提供监控详情,以快速定位问题. 微服务架构下,各类服务之间存在着错综复杂的依赖关系.一旦业务出现问题,追查问题源头就好比大海捞针,没有头绪.但业务不等人,此时,在

阿里云服务器vpn配置详解(测试成功)

阿里云服务器配置详解(测试成功) 我的操作环境:阿里云香港节点云服务器,操作系统:CentOS 6.3 64位 名词解释:pptp是VPN服务器类型之一,PPP是一种数据链路层协议,iptables是IP信息包过滤系统.   [正文] 1 服务器端安装软件 1.1 首先安装ppp,命令:   yum install ppp pptpd iptables 提示Complete! ,安装成功:   2 配置pptp 2.1编辑/etc/pptpd.conf,命令如下 [[email protecte

阿里云智能验证

需要知道 accessKey,accessSecret 需要开通智能认证功能 <?php include_once './aliyun-php-sdk-core/Config.php'; use afs\Request\V20180112 as Afs; $accessKey = !empty($_REQUEST['accessKey']) ? trim($_REQUEST['accessKey']) : ''; $accessSecret = !empty($_REQUEST['accessS

ZooKeeper架构 :分布式过程协同技术详解

引言 构建分布式系统并不容易.然而,人们日常所使用的应用大多基于分布式系统,在短时间内依赖于分布式系统的现状并不会改变.ApacheZooKeeper旨在减轻构建健壮的分布式系统的任务.ZooKeeper基于 分布式计算的核心概念而设计,主要目的是给开发人员提供一套容易理解和开发的接口,从而简化分布式系统构建的任务.即使有了ZooKeeper,但开发中分布式处理的环节并不是微不足道的事情,因此我们编写了这本书,通过这本书可以让你快速熟悉如何通过Apache ZooKeeper构建分布式系统.我们

单颗GPU计算能力太多、太贵?阿里云发布云上首个轻量级GPU实例

摘要: 阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在硅谷举办的2019年NVIDIA GPU技术大会(GTC)上,阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹性开展业务. 在该实例发布之前,业内均采用以单颗物理GPU为单位的

云栖大会压轴好戏 阿里云发布视频云V5计划与系列新产品

9月25 - 27日,2019云栖大会如期召开.在大会最后一天下午,阿里云智能视频云分论坛为今年的云栖大会献上了一场精彩的压轴好戏. 视频云V5计划发布 使能生态合作伙伴 会上,阿里云智能研究员金戈进行<视频云新“三网一云”,驱动行业应用创新>主题演讲,并发布视频云V5计划. 金戈表示:阿里云将全面打造新“三网一云”的产业布局,基于领先的视频和网络技术.阿里云达摩院的AI技术与阿里巴巴商业场景实践三级先发优势,凭借视频云多年沉淀的直播网.点播网和音视频通信网三大视频技术的融合应用,和一系列围绕

阿里云升级人工智能战略,用大数据AI备战新七年大考

"拥有了数据的积累,机器将替代人类的智商,我们判断人工智能的时代已经到来."这是阿里云总裁胡晓明在2016年8月10日举办的阿里云栖大会·北京峰会上对外表达的观点,他说:"我们认为人类一定会进入数据时代,我们认为人类一定会进入到人工智能的时代." 2016年,阿里云正在跨越七年之痒.2009年2月,飞天正式写下第一行代码,由此拉开了阿里云的历史.七年后,德意志银行2016年4月的研究报告指出,在中国云计算市场,阿里的云计算业务规模是第二名腾讯的10倍.阿里云进入全球