浅谈数据标注平台运营模式

现如今,AI行业发展火热各大巨头都投入巨资在此领域布局,智能驾驶、人脸识别以及近段时间正火的AI养猪都是AI技术应用在实际生活上的体现,毫不夸张的说AI技术正在逐渐改变我们的生活而我们的生活也将因此变得更美好。
AI的发展离不开数据标注的支持,在此不再详谈数据标注和人工智能的关系,感兴趣的可以可以查看《人工智能之数据标注》

一、常见的数据标注平台

由于数据标注的重要性和高质量标注好数据的稀缺性在催生了一大批专职做数据标注团队的同时也催生了一批数据标注平台,比较有名的有百度众测、京东众智、龙猫数据、数据堂等。众所周知百度在互联网大厂是最早开始且投入巨资研Ai 技术的,所以百度众测平台的任务大部分都是百度内部的需求,他们也会接受其他AI公司的数据需求,但是在数据量和价格上会有限制。相比百度而言其他几家数据标注平台就比较亲民一些了,中小型的AI公司的需求一般都会接受。为什么这个地方没有提到大型AI公司呢?那是因为大型AI公司一般都会自建平台且有专门的数据标注团队负责公司的数据需求。

二、数据标注平台的业务模式

(1)众包模式:
现在数据标注通常采取众包的模式,众包模式的优点就是成本较低响应较快。这种模式适用较简单的项目如点点拉框等项目。发布者往往将任务详细介绍和题目一同发送到平台上供广大数据标注兼职人员作答。但众包模式有一个很明显的问题就是质量较难把控,因为众包模式是面向大众的你并不知道在给你做标注的是什么人,他们可能是厨师,是全职太太,是老师每个人对规则的理解不尽相同且不可避免的会有一部分对任务乱答一通影响项目质量。为此各平台也会使用一些方式减少问题的产生提高项目质量。比如增加改判环节一道题在答完之后会由他人进行改判如若判错则不获得任务报酬,此外为防止错判维护答题人员利益还会设置申诉环节使答题人员对有疑问的题目进行申诉。设置标注人员级别,标注人员任务正确率较高答题数较多则能慢慢提高等级解锁更多任务获得更多的任务报酬且有机会进入改判环节成为改判员。
(2)外包模式
外包模式与众包模式相对是将任务外包给专门的数据标注公司和团队,在项目一开始会对项目整体进行评估然后针对项目整体进行报价由数据标注公司自行安排培训安排人手,只需要保证在项目截止日期前保质保量交付数据即可。这种模式的优势就是数据质量和项目周期有保证。但是响应速度较慢成本较高,因为一开始需要安排竞标且平台需要安排专门的项目人员进行项目对接和项目跟进。现如今国内专门做数据标注的团队较多,但是大多数只是以工作室和几十人的小团队为主且业务类型集中在简单的拉框图像标注上。也有一些的较大型的公司如贵州的梦动科技已经形成产业化带动了当地的发展。又或者是“点我科技”他们自建有平台可以自研工具同时担任着数据标注平台和数据标注公司两种角色。
基于以上两种业务模式的答题模式:
A模式:A模式指只进行一次答题模式,后续没有改判操作。这种模式应用较少主要用于较简单正确率要求不高的项目。
AC模式:AC模式指在答题完成后会有一个改判流程,改判员只能对题目进行正误的判断不能在答题的基础上进行操作。
ACC模式:ACC模式和AC模式的主要区别是AC模式不能够之前的答题情况作出更改,而

三、制约数据标注平台发展的因素

  1. 业务模式
    一个好的业务模式能不断拔高一个平台的业务上限,上面介绍的两种常见的业务模式(众包模式和外包模式)因为他们都有各自的优缺点,所以单一的使用任何一种业务模式都是不可行的。单存使用众包模式会带来项目质量难以把控,风险高的问题,且众包模式只适合承接比较简单的需求。单一使用外包模式则会造成对数据标注团队的过度依赖,降低整个平台的活力,造成平台现有人力资源的浪费。
    对此我们需要两种模式兼用初期需要投入一定的资源建立自已平台的众包团队,这个人数一定要多只有这样才能保证有足够的活跃人数能够完成数据标注任务,同时还要一直有众包任务才能保证这些人一直活跃。众包团队建立起来之后我们就可以将简单的任务通过众包模式发放出去,一些复杂专业性比较高的任务则通过外包模式发放出去即可。
  2. 数据标注团队
    一个数据标注平台必须要足够的数据标注团队才能承接更多的需求,为了增加平台上入驻的团队数量我们需要提高平台内部的活跃度同时平台上有足够的任务。每个标注团队往往都有擅长的业务类型,我们也需要根据不同团队的特点发放给他们不同的任务。
  3. 任务需求
    一个平台要想不断发展一定要有足够的任务,增加平台承接的任务则需要提高平台的知名度,提高平台的知名度可以通过广告投放,客户口碑传播,搜索优化等方式。同时还需要一个有力的商务团队。

原文地址:https://blog.51cto.com/14065470/2355532

时间: 2024-08-22 22:19:53

浅谈数据标注平台运营模式的相关文章

张小龙浅谈微信公众平台的意义

腾讯高级副总裁张小龙表示:微信公众平台,就是在移动互联网时代,让企业和个人以更简捷的形式提供服务给有需要的人. 张小龙浅谈微信公众平台的意义,布布扣,bubuko.com

浅谈php设计模式(1)---工厂模式

一.接口继承直接调用 先看看这样一段代码: 1 <?php 2 3 interface db{ 4 function conn(); 5 } 6 7 class dbmysql implements db { 8 public function conn(){ 9 echo "连接到了mysql"; 10 } 11 } 12 13 class dbsqlite implements db{ 14 public function conn(){ 15 echo "连接到了

浅谈设计模式3-模板方法模式

模版方法模式,个人认为还是用处比较多的一个设计模式,而且也是比较好学和理解的一个.依然来通过模拟一个场景来慢慢了解. 现在我们来实现一下泡茶这个过程.首先我们需要烧开一壶水,然后往茶壶中放茶叶,加入开水,等待茶泡好. 经过前两次的分享,大家应该具备了基本的面向对象的思想了,这里就不再用面向过程的方式演示了. 首先,有一种普通人,他泡茶的方式是这样的 public class Common     { public void MakeTea()         {             Heat

浅谈JavaScript中的原型模式

在JavaScript中创建对象由很多种方式,如工厂模式.构造函数模式.原型模式等: <pre name="code" class="html">//工厂模式 function createPerson(name,age,job) { var o = new Object; o.name = name; o.age = age; o.job = job; o.sayName = function() { alert(this.name); } retur

浅谈数据初始化方法

浅谈数据初始化方法 在定制开发的信息化项目实施过程中,我们发现衡量一个项目成功与否,关键看以下三个指标: v人: 系统的利益相关人的需求是否都得到了满足: v系统:软件本身是否可用.易用.稳定.有效率: v数据:数据是否准确.可靠.稳定支持业务的运作: 从这个角度来说,数据在信息系统项目实施过程中有着举足轻重的地位,特别是数据初始化的成功与否是源头和决定因素.下面将数据初始化的过程分解为八个步骤,以确保数据初始化过程的严谨性和科学性. 步骤一:系统数据库表的分析:对信息系统数据库表进行分析,了解

浅谈为什么广告平台这么多?

不知不觉间,DevStore收录了102家广告平台开发者服务,占网站总数的近七分之一,相对于其他类型的开发者服务,是同类中比较多的收录.为什么这么多移动广告平台,而且一个产品通常是一个公司,一个团队来运作,甚至有些公司都运营了好几年,是市场缺口太大还是服务本身的原因? 1.移动广告平台所服务的对象为两个,一个是开发者,另一个是广告主. 2.运营模式是首先开发者根据应用将广告平台提供的sdk嵌入到应用中,当使用应用的用户点击了广告,广告主就会根据相应的计费方式付费给开发者,计费方式通常有三种:CP

浅谈命令查询职责分离(CQRS)模式

在常用的三层架构中,通常都是通过数据访问层来修改或者查询数据,一般修改和查询使用的是相同的实体.在一些业务逻辑简单的系统中可能没有什么问题,但是随着系统逻辑变得复杂,用户增多,这种设计就会出现一些性能问题.虽然在DB上可以做一些读写分离的设计,但在业务上如果在读写方面混合在一起的话,仍然会出现一些问题. 本文介绍了命令查询职责分离模式(Command Query Responsibility Segregation,CQRS),该模式从业务上分离修改 (Command,增,删,改,会对系统状态进

浅谈安卓中的MVP模式

端午放假,天气下雨,于是乎在家撸一下博客,本篇博客将为大家解析MVP模式在安卓中的应用. 本文将从以下几个方面对MVP模式进行讲解: 1.  MVP简介 2.  为什么使用MVP模式 3.  MVP模式实例 4.  MVP中的内存泄露问题 1.  MVP简介: 随着UI创建技术的功能日益增强,UI层也履行着越来越多的职责.为了更好地细分视图(View)与模型(Model)的功能,让View专注于处理数据的可视化以及与用户的交互,同时让Model只关系数据的处理,基于MVC概念的MVP(Model

浅谈“数据”

如今是一个信息的时代,计算机和网络的飞速发展给我们的生活带来了便利,我们几乎已经离不开信息.可以说,信息就是数据! 先从计算机的诞生谈起,最初计算机的产生是为了替代人进行大规模的计算.计算机主要的两个部件是CPU和硬盘,CPU的作用是用于控制和计算数据,硬盘是为了永久保存数据.至于内存是临时缓存数据的,指令和数据都转换成了二进制数据.硬件用于传递和保存数据,软件对数据进行处理.输入设备是为了接收用户输入的数据,输出设备是将计算机进行处理后的数据显示给用户.至此可以说计算机是以数据为中心的. 从一