数据标注就是使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。
数据标注的对象主要分为文本、图片、音频、视频四个种类:
文本标注主要包括情感分析、知识库、关键词提取、文字翻译、搜索引擎优化等。就比如,识别一句话蕴含的情感,翻译等等;
图片标注主要包括图像分割 、物体检测 、图像语义理解、图像生成 、图片加注等服务;
音频标注主要包括对全球主要语言和语料、包括方言、特殊情景语音进行识别标注,语音识别等等;
视频标注主要包括对视频中出现的物体、文字、语音、情景等进行标注。
由于数据标注属于AI公司中较为费时、费力的工作,因此大公司一般都将数据标注的工作外包给专业的数据服务平台。让专业的公司去做专业的事情,不仅提升了效率,而且实现了低成本高精度的标注。
几种分类名称:
1)Classification标注,是对图片进行分类,比如是给定的图片是狗的图片还是猫的图片;
2)Detection标注,是对图片中出现的物体检测位置,比如图片中出现了猫,常见的Detection标注是把猫用一个矩形框圈起来。
3)Segmentation标注,是对图片进行切割,比如图片中出现了猫,常见的Segmentation标注是把猫的轮廓用线画出来。
4)Caption标注,简单说就是看图说话,就是给定一个图片,用一句话描述图片中发生的事情。
5)Attribute标注,是标注图片中出现物体的属性,比如图片中出现了猫,常见的Attribute标注就是标注猫的形状、颜色、品种等等。
链接:https://www.zhihu.com/question/31210148/answer/181742167
原文地址:https://www.cnblogs.com/cxhzy/p/10863820.html