NLP文本标注工具与平台(数据标注公司)

最近在做NLP相关项目,包括句法分析、情感分析等,有大量数据需要标注。我评估了几个文本标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考。

文本标注平台(标注外包公司)

数据标注公司的工作比较多样,文本数据标注是最基础的,另外语音、图片、视频标注也都可以做。目前这个行业良莠不齐,有的平台技术实力强,有品牌背景,比如京东众智、百度众包,数据保密做得好。有的平台是专门做代理的,你的数据需求交给他,他转手就分包给下一层。下面介绍几个平台,也综合了其他博主的一些意见,如下:

京东众智

标注质量比较高,项目交付准时,数据隔离方案可以不出自己的服务器完成标注,比较重视客户的数据安全。也提供私有化部署服务。

百度众测

标注能力比较广泛,百度进入标注行业比较久,积累了较多的众包用户。不过我个人不看好众包模式,因为质量比较难把控。

figure-eight

国外知名的数据标注平台,国外好多大公司都与它有合作。需求方可以自行配置标注工具和相应的label,直接在平台上发任务,没有客户经理沟通…这可能对国内客户不太友好。

文本标注工具(开源)

1. Prodigy

  Website: https://prodi.gy/docs/

  Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

2. DeepDive (Mindtagger):前端比较简单,用户界面友好。

  介绍:http://deepdive.stanford.edu/labeling

  前端代码:https://github.com/HazyResearch/mindbender

3.  BRAT

  介绍:http://brat.nlplab.org/index.html

  在线试用:http://weaver.nlplab.org/~brat/demo/latest/#/

  代码:https://github.com/nlplab/brat

4. IEPY :工程比较完整,有用户管理系统。前端略重,对用户不是非常友好

  代码:https://github.com/machinalis/iepy

  说明:http://iepy.readthedocs.io/en/latest/index.html

原文地址:https://www.cnblogs.com/ai-nlp-cv/p/9882213.html

时间: 2024-08-03 18:30:23

NLP文本标注工具与平台(数据标注公司)的相关文章

视频数据标注工具与平台(数据标注公司)

最近在做相关项目,评估了多个数据标注工具,也接触了几家数据标注公司和平台,总结如下,供各位参考. 视频数据标注平台(标注外包公司) 数据标注公司的工作比较多样,但视频标注对工具要求稍高一些,能在线上做的平台不是特别多,主要还是语音.图片标注.目前这个行业良莠不齐,有的平台技术实力强,有品牌背景,比如京东众智.百度众包,数据保密做得好.有的平台是专门做代理的,你的数据需求交给他,他转手就分包给下一层.下面介绍几个平台,也综合了其他博主的一些意见,如下: 京东众智 标注质量比较高,项目交付准时,数据

PDF文件如何标注,怎么使用PDF标注工具

我们在使用文件的时候需要给文件的部分添加标注,能够更加直观的了解文件,但是有很多小伙伴们对于PDF文件怎么添加标注都不知道,也不知道PDF标注工具要怎么使用,那么下面就跟大家分享一下怎么使用PDF标注工具在PDF中添加标注的,一起来看看吧. 操作软件:迅捷PDF编辑器https://pc.qq.com/detail/7/detail_23407.html 1.在百度中搜索并下载一款PDF编辑器https://www.xunjiepdf.com/editor,在编辑器中把需要编辑的PDF文件打开.

(转)蘑菇街如何通过构建平台搞定数据标注难题?

在许多学术界和工业界人士努力下,先后在多个领域诞生了开放数据集,从入门的 MNIST,再到大名鼎鼎的 Image Net,涵盖了通用场景.但在实际的业务通常碰到某些细分领域没有开放数据集,比如服装的类型和风格,这就要求自己构建训练数据集,或自力更生,或临时雇用外包人员 (自己提供工具),甚至全权委托给专业标注公司 (无需提供标注工具,成本高).蘑菇街有大量数据标注的需求,综合成本.效率等因素考虑,我们建设了统一的标注平台,支撑众多的标注业务,部分样图请见如下 常见的标注场景 从领域角度,蘑菇街的

数据标注平台—竞品分析

前言:排版真的很丑,我已经尽力了…… 以后相关产品的文章,可能不会在博客园发布,我会写在知乎(最近决定要在知乎装逼),有兴趣的朋友可以关注一下:https://www.zhihu.com/people/zhang-cheng-liang-64.祝各位19年快乐! 一.项目背景 在进行用户访谈的过程中,有多位受访者对公司内部开发的标注工具满意度不高,纷纷表示希望有一个操作更为方便.上手快.不卡的标注工具,基于此展开本竞品分析. 工具满意度 期待目标产品的特性 二.竞品概述 在竞品选择上,我们对标s

NLP(十四)自制序列标注平台

背景介绍 ??在平时的NLP任务中,我们经常用到命名实体识别(NER),常用的识别实体类型为人名.地名.组织机构名,但是我们往往也会有识别其它实体的需求,比如时间.品牌名等.在利用算法做实体识别的时候,我们一般采用序列标注算法,这就对标注的文本格式有一定的要求,因此,一个好的序列标注的平台必不可少,将会大大减少我们标注的工作量,有效提升算法的更新迭代速度. ??本文将介绍笔者的一个工作:自制的序列标注平台.我们以时间识别为例.比如,在下面的文章中: 按计划,2019年8月10日,荣耀智慧屏将在华

浅谈数据标注平台运营模式

现如今,AI行业发展火热各大巨头都投入巨资在此领域布局,智能驾驶.人脸识别以及近段时间正火的AI养猪都是AI技术应用在实际生活上的体现,毫不夸张的说AI技术正在逐渐改变我们的生活而我们的生活也将因此变得更美好.AI的发展离不开数据标注的支持,在此不再详谈数据标注和人工智能的关系,感兴趣的可以可以查看<人工智能之数据标注> 一.常见的数据标注平台 由于数据标注的重要性和高质量标注好数据的稀缺性在催生了一大批专职做数据标注团队的同时也催生了一批数据标注平台,比较有名的有百度众测.京东众智.龙猫数据

数据标注自动化工具Snorkel

我知道你已经用上了最先进的深度学习模型,不过,还在人工标注数据吗?这有点过时了!快来了解下Snorkel -- 最新的基于弱监督学习的大规模训练数据标注神器! 要快速掌握机器学习应用的开发,推荐汇智网的机器学习系列教程. 现在的机器学习尤其是深度学习模型很强大,但是训练这些模型需要大量的标注数据集!传统的人工标注方式成本非常高,而且很耗时间,在有些情况下根本就是不现实的,例如可能涉及到隐私的问题.当需要领域专家才能够进行数据的标注时,这一问题变得更加糟糕 .而且,随着时间的推移,标注任务有可能也

标注工具

一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理.利用该工具可以方便的获得各项NLP任务需要的标注语料.以下是利用该工具进行命名实体识别任务的标注例子. WeTest舆情团队在使用:http://wetest.qq.com/bee/ 使用案例:http://blog.csdn.net/owengbs/article/details/49780225 . . 二.VS标注工具--La

人工智能之数据标注

随着人工智能在实践上的不断突破,越来越多的创业公司加入到AI相关业务的创业大潮,伴随着这股潮流关于AI投资也持续高涨,无论是从投资金额,还是投资频次上看都表明市场对AI市场发展的信心与日俱增. 一. 什么是数据标注 确立一个算法模型需要使用大量标注好的数据去训练机器让机器去学习其中的特征以达到"智能"的目的.而数据标注就是帮助机器去学习去认知数据中的特征.比如我们要让机器学习认知汽车,我们直接给机器一个汽车的图片它是无法识别的,我们必须对汽车图片进行标注打上标签注明"这是一个