随着人工智能在实践上的不断突破,越来越多的创业公司加入到AI相关业务的创业大潮,伴随着这股潮流关于AI投资也持续高涨,无论是从投资金额,还是投资频次上看都表明市场对AI市场发展的信心与日俱增。
一、 什么是数据标注
确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到“智能”的目的。而数据标注就是帮助机器去学习去认知数据中的特征。比如我们要让机器学习认知汽车,我们直接给机器一个汽车的图片它是无法识别的,我们必须对汽车图片进行标注打上标签注明“这是一个汽车”,当机器获得大量打上标签的汽车图片进行学习之后,我们再给机器一个汽车的图片,机器就能知道这是一个汽车了。
二、 数据标注的类型
数据标注的类型非常多,比如文本分类,图片拉框,语音转写,人像打点等。下面我以京东众智平台(https://biao.jd.com/) 常见的标注业务为例简单讲解一下数据标注的类别及其用途。
1. 图片拉框:拉框标注算是最常见的一种标注形式了而且对标注人员的要求也较低。常见的拉框有人体拉框,车辆拉框,主要应用在人体识别,物体识别等领域。
2. 人脸打点:这种标注不仅仅局限在人脸打点上还有包括人体外轮廓打点等。要求比较细致对每个点的位置都会有要求。主要应用于人脸识别,人体识别等领域。
3. 语音转写:语音转写指听一段语音,标注人员把所听到语音的内容转录出来。主要应用于语音识别领域。
4. OCR转写:OCR转写一般要求框选出图片中的文字等需要转写的区域并将框选部分的文字转录出来。主要应用于文字识别领域。
5. 文本分类:这类项目一般是判别文本中语句的类别,或者判别文本包含的情感(正向、中性,负向)。主要应用于智能客服等领域。
6. 采集类项目:采集类项目一般不会通过平台进行大部分都是在线下进行,使用工具也比较多样,常见的类型有语音采集,视频采集,人脸采集,采集的数据一般都会进行清洗后才能投入使用。
除此之外数据标注的种类还有很多,在此就不一一介绍了,想详细了解的可以关注我们的其他文章。。
人们在谈到大数据人工智能等词汇的时候,往往会想到AI算法,数据挖掘、机器学习之类高深的内容。然而如果没有大量的精准的数据做支持再好的算法也是无法实现的。之后我会给大家介绍下标注好的数据是如何起作用的,为何它如此重要。
原文地址:http://blog.51cto.com/14065470/2346007