人工智能数据标注这些年:从幕后到前台丨曼孚科技

“你了解人工智能行业吗?”?

10个人中可能有9个人会给出肯定的回答。

“你了解数据标注行业吗?”

10个人中可能有9个人会茫然地摇头。

与处在聚光灯中心的人工智能科技公司不同,数据标注行业长期处于聚光灯之外的灰色地带,很长一段时间内都是被边缘化乃至低视的一个存在。

不过,随着时代发展带来需求的改变,数据标注行业也在发生着日新月异的变化,开始从幕后走向前台。

一.幕后:粗放与混乱交织

数据标注行业里流传着这样的一段话:“有多少智能,就有多少人工”。

这句话在某种程度上道出了人工智能的本质。

事实上,现阶段让AI提升认知世界能力的最有效途径仍然是监督学习,而目前AI算法能学习的数据,几乎全部都是通过人力逐一进行标注而得来的。

一张经过数据标注后的图片(来源:曼孚科技)

需求即意味着市场,据相关机构预测,未来几年,国内数据服务市场将达上百亿。

如此庞大的市场规模,让很多人都想趁机分一杯羹,于是大大小小的标注团队如雨后春笋一样大量出现。

然而,问题也随之而来。

与人工智能高科技含量不同,数据标注仍属于劳动密集型产业,且模式通常以外包形式为主。

标注员每天从事标框、拉点等重复枯燥的工作,劳动力水平参差不齐导致产出的标注数据质量偏低,无法满足AI企业的需求,影响AI产品商业化落地进程。

与此同时,低端产能过低的技术含量,也使数据标注行业几乎没有任何壁垒限制,很多标注团队随意拉进来几个人经过简单培训就可以接业务了。

这样的后果就是行业混乱且竞争加剧,绝大部分标注团队只能存活于产业链最底层,压价情况严重,甚至接不到业务导致生存艰难。

二.前台:AI对于高质量数据的依赖

人工智能行业内有一个很重要的共识:

数据集质量的高低直接决定最终模型效果的好坏。

换句话说,数据对于模型性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。

随着AI企业商业化落地进程的加快,越来越多的企业开始意识到标注数据的重要性。

以自动驾驶为例,目前很多企业都已经生产出自己的无人驾驶汽车样车,并频频出现在公共视野内。

然而,虽然这些样车在实验室内表现良好,但距离真正的商用仍然有很遥远的距离,一个很重要的原因就是真实路况场景与实验室场景差距过大。

自动驾驶标注场景(来源:曼孚科技)

在实验室内,只需要少量的道路数据即可满足实验的需要,但是到了真实的道路上,无人驾驶汽车将会遇到很多无法预知的情况,在没有足够数据支撑的前提下,车载电脑无法做出自己的判断,导致潜在的风险剧增。

因此,以自动驾驶企业为代表的众多AI企业对数据标注行业提出了更高的要求,数据标注行业已然开始处于聚光灯的焦点,从幕后走向了前台。

三.未来:智能化、精细化、场景化

AI数据是人工智能的重中之重。众所周知,人工智能的三驾马车是算法、算力与数据,其中数据是人工智能行业的发展基石。

随着人工智能行业商业化落地进程的加快,AI数据服务领域泥沙下沉,清泉上涌,行业变革已初露端倪。未来,智能化、精细化、场景化将是数据标注行业的主要发展方向。

智能化,即意味着标注工具AI化。以曼孚科技自研的语音标注工具为例,AI预标注技术可以自动识别转写语音数据,标注员只需要在工具预标注的结果上略作修改即可,这在提升标注效率的同时也减轻了对于人力的依赖。

精细化,即意味对标注数据集质量与细节提出了新的要求。以往数据集的准确率可能达到90%以上即可满足要求,但随着AI商业化落地进程的加快,AI企业对于标注数据的质量要求达到了95%,甚至99%以上,同时更加注重细节,比如曼孚科技在进行自动驾驶领域数据标注业务时,项目方会对诸如情绪捕捉、疲劳驾驶等等提出更加细节化的标注需求。

精细化标注能力(来源:曼孚科技)

场景化,即意味数据标注行业要满足多样化应用场景标注需求。以计算机视觉领域为例,目前数据标注可以应用在自动驾驶、无人机、AI教育、工业机器人、新零售、安全防护等场景中。每一个应用场景都有自己的数据类型与具体标注要求,因此极为考验数据标注企业的场景化标注能力。

可以预见的是,未来几年数据标注行业将迎来一场大变革,理念更先进、技术更硬核、服务更专业的AI数据服务企业将会把数据标注行业带入全新的精细化运营时代。

而未来,相信随着5G技术的逐步应用,数据与5G的结合将碰撞出更多创新火花,共同托起AI发展的基石。

原文地址:https://blog.51cto.com/14624568/2480495

时间: 2024-10-09 21:49:39

人工智能数据标注这些年:从幕后到前台丨曼孚科技的相关文章

数据标注,自动驾驶汽车的新“引擎”丨曼孚科技

伴随着计算机视觉技术的日臻成熟,出行生态不断智能化,这其中典型的应用场景就是汽车自动驾驶. 1.汽车自动驾驶真的来了 2018年,世界上首个无人出租车正式上路.这是硅谷初创公司 Drive.ai 在美国得克萨斯州 Frisco 实现的第一批无人出租车出行. 国内领域,百度是汽车自动驾驶行业的佼佼者.今年11月30日,百度在广州开启了RoboTaxi的试运营服务,这是百度的自动驾驶出租车在长沙试运营后,又一个城市开始了自动驾驶汽车的试运营. 如果算上滴滴年底在上海推出自动驾驶出租车的计划,2019

破局AI落地难,数据标注行业需率先变革丨曼孚科技

?2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业显然萧条了很多. 究其原因,“AI落地难”要负主要责任. 从自动化时代到智能化时代,人工智能创造的价值在不断增长.与此同时,业务场景的精细度与复杂度也在不断提升,为人工智能技术的落地带来一系列挑战. 以国内人工智能企业为例.目前国内几个较大的人工智能独角兽企业,商业化落地主要集中在金融.安防监控.手

数据安全,安防数据标注行业的核心命脉丨曼孚科技

在人工智能迅猛发展的今天,我们正在享受着智能安防带来的安全感. 智能安防除了可以实时监测正在发生的各种状况以外,还可以对内容进行分析预测,提取其中关键信息(如车牌.人脸.动作等),起到"防患于未然"的作用. 在当下AI行业普遍遭遇"落地难"的大背景下,智能安防可谓是人工智能落地应用的典型范例,为其他行业的AI场景化落地应用提供了实质性的参考. 然而,与其他行业更注重模型与数据质量不同,智能安防领域更加注重数据的安全性,尤其是标注数据的安全性. 作为人工智能行业的基础

破局自动驾驶落地难,数据标注行业变革是关键丨曼孚科技

随着过去几年自动驾驶"风口"兴起,越来越多的资本与研发力量投入到自动驾驶领域. 相关机构预测,半自动驾驶和全自动驾驶汽车未来几十年的市场潜力巨大.到2035年,仅中国就将有约860万辆自动驾驶汽车,其中约340万辆为全自动无人驾驶,520万辆为半自动驾驶. 不过,自动驾驶是一个相当复杂的工程系统,需要众多技术的融合与精度配合,且不可能依赖资本的力量在短时间内迅速爆发,自动驾驶商业化还面临方方面面的挑战.所以一直以来,自动驾驶给人的感觉都是"热度很高但距离很远". 自

数据标注在无人机领域中的具体应用丨曼孚科技

随着AI技术在无人机领域的大规模应用,无人机开始变得越来越智能化. 不仅可以做到实时跟踪锁定拍摄,实时处理目标信息,还可以做到自动识别躲避障碍.? 这些动作的背后是无人机计算机视觉技术的突破. 计算机视觉技术,简单来说就是摄像头+传感器结合计算机模拟类似人眼与大脑的功能,来感知周围三维空间,进而识别物体.判断运动状态以及其他. 在无人机领域,计算机视觉技术主要解决两个问题.一个是距离感知,一个是目标检测. 距离感知,即实时感知周围环境,主要解决的是自动识别躲避障碍问题.空中环境虽然不如地面环境复

数据标注在新零售领域中的具体应用丨曼孚科技

零售业是劳动密集型行业,其中收银结算成本在总成本中占据相当比重. 随着深度学习发展,借助图像识别技术实现零售行业的降本增效已是大势所趋.? 目前主要流行的一种智能货柜解决方案是"视觉识别解决方案",即以图像识别为技术核心,摄像头.主板为硬件核心,对目标产品进行目标检测和分类,实现自动识别与结算,提升购物体验与节省人力成本. 目前,此类解决方案已经在部分地区开始商用.然而,在实际应用的过程中,部分问题也开始逐渐暴露,核心点集中于物品的识别准确率上. 智能货柜售卖的商品最常见的是饮料和盒装

标注案例分享:道路病害图片数据标注项目丨曼孚科技

无论是水泥路面还是沥青路面,在通车使用一段时间之后,都会出现各种损坏.变形及其它缺陷,这些统称为道路病害. 常见的病害类型有:龟裂.坑槽.车辙.松散.沉陷.桥头涵顶跳车.表面破损等等,这些道路病害的存在不仅会影响到道路的正常使用,还会增加潜在的交通隐患,影响行车安全. 因此,及时发现并处理道路病害是一件非常现实的需求.以往,发现道路病害主要依赖于人力巡检,随着人工智能计算机视觉技术的发展,目前已经实现通过机器自动检测识别各种道路病害. 不过机器本身是并不具备识别各种道路病害的能力,前期机器学习依

数据标注案例分享:车辆前置摄像头数据采集标注项目丨曼孚科技

?在自动驾驶技术中,感知是最基础的部分,没有对车辆周围三维环境的定量感知,就犹如人没有了眼睛,无人驾驶的决策系统就无法正常工作. 与其他应用场景相比,自动驾驶的应用场景相对复杂,尤其面对复杂多变的路况环境,感知技术的突破需要依赖相应的数据采集标注项目的支持. 一.项目背景 车辆前置道路信息采集主要解决两个个关键需求: 1. 障碍物的距离信息;2. 相对速度向量. 通过对障碍物的连续追踪,根据距离的变化和时间间隔得到相对速度信息,以满足自动驾驶相关业务的需求. 多城市多道路,会带来不同的路况,信号

人工智能_智能安防:数据采集与数据标注

智能安防是人工智能与信息技术结合的关键领域,对于城市与民生发展有重要的意义.通过生物识别.行为监测等技术手段,广泛地应用于城市道路监控.车辆人流监测.公共安全防范等领域. 智能安防数据采集与标注,为智能安防等研发企业提供所需算法训练场景的数据采集与标注服务,覆盖智能安防主流应用场景,自建标注基地. 1.智能安防数据采集 覆盖智能安防主流应用场景,拥有物理与复杂条件场景搭建经验,交付能力强. 支持常见采集类型,如: 人脸采集 道路视频采集 车辆采集 动作采集等 2.智能安防数据标注 自建标注基地,