在之前的内容中讲过确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到“智能”的目的。而数据标注就是帮助机器去学习去认知数据中的特征。比如我们要让机器学习认知汽车,我们直接给机器一个汽车的图片它是无法识别的,我们必须对汽车图片进行标注打上标签注明“这是一个汽车”,当机器获得大量打上标签的汽车图片进行学习之后,我们再给机器一个汽车的图片,机器就能知道这是一个汽车了。
下面简单讲一下在算法模型中训练集,测试集,验证集的概念。比如我们有一批标注好的数据我们可以拿出60%作为训练集交给机器识别学习初步建立算法模型,再拿出20%的数据作为验证集验证机器识别的准确性对模型进行初步评估并根据识别结果调整模型参数重新建立模型。最后再拿出20%的数据作为测试集用来评估模最终模型的泛化能力,最终结果不能作为调参的依据。
我们还可以这样理解:
训练集-----------学生的课本;学生 根据课本里的内容来掌握知识。
验证集------------作业,通过作业可以知道 不同学生学习情况、进步的速 度快慢。
测试集-----------考试,考的题是平常都没有见过,考察学生举一反三的能力。
以上三种集的划分比例不是固定的,对于百万级别的数据集,我们可以采用98%/1%/1%的规则来划分数据集。
最早这些标注数据需要那些研究AI算法的工程师在实验室中完成,但是随着人工智能在商用场景的落地这些待标注的数据呈“指数型”增长,工程师们根本无力完成那么多数据,基于此一些专门的数据标注众包平台和数据标注公司应运而生,如百度众测,京东众智,数据堂,龙猫数据等。
×××发布的《新一代人工智能发展规划》显示,到2020年,我国人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。AI行业的快速发展需要海量高质量的标注数据作为支撑,截止目前国内已有大小近千家数据标注公司,共20余万名数据标注员。
数据标注行业发展到现在已经不是简单的拉框打点就能满足的了,市场提出了更高的要求首先从标注的复杂程度看,以无人驾驶的汽车框标注为例,以前是只需要标注基本轮廓就可以了,现在不只是从2D平面进化到3D立体,还要标注车头的方向。从人员要求方面看,之前是有初高中文化足以胜任数据标注这份工作,现在则普遍要求专科本科的学历,而且有些标注项目还需要专业人士来进行,比如涉及金融,医疗等行业的数据标注项目。
数据标注这个行业本质上讲是一个劳动密集型行业,大部分人从事着简单劳动,只不过披上了人工智能这件光鲜的外衣。人工智能的发展将会取代很多行业,未来数据标注行业会不会也被取代也还未知。
原文地址:http://blog.51cto.com/14065470/2349464