Linguistic Data Consortium (LDC)

搞NLP的人经常会听到一个神秘的名字LDC,因为大量的论文所使用的数据都来自于LDC,本文就来揭露其神秘面目。

About LDC:

LDC,全名Linguistic Data Consortium,是一个由大学、图书馆、企业、政府、研究机构共同合办的联合企业。
成立于1992年,目前由宾夕法尼亚大学主要运营。
LDC最初的角色只是保存与分发科研要用到的语言数据,后来有钱了,就也自己收集、自己构建一些数据,渐渐发展成现在的规模:拥有非常多的语言数据资源,成为主要的科研语言资源管理分发机构。
现在每年LDC大概新增30~36个语料。

Join LDC:

任何机构交钱就可以加入LDC,加入后就成为了LDC的会员,购买语料可以享受会员价(对于很多语料来说就是免费,主要是老版本语料)。
以PTB语料为例,会员价0,非会员价1700刀。
那么会员价是多少呢?

对于非盈利机构,价格2400刀/年
对于盈利性机构,价格24000刀/年

在会员期间获取的数据即使不是会员了也可以永久使用(但是盈利性机构不知道是不是这样……网站上写的很模糊)。
想要把数据拷贝给别人也是要单独交钱的,不过会员依旧有优惠。

Data:

LDC的语料还是很丰富的,中英日法阿拉伯,各种语言,各种语料,五花八门,不过也都真心贵啊= =

浏览全部语料:https://catalog.ldc.upenn.edu/byyear

Data Scholarships:

LDC给穷学生提供了免费申请数据的机会……
申请人需要满足两个条件:

1、是在校本科生或研究生(没有博士?还是说graduate student包含了博士?),而且所在学校没有买LDC的数据。
2、本人有很好的研究计划而且是真穷……支付不起那个数据费用。

申请人要提交申请说明自己要哪个数据、做什么研究、成功几率有多大,此外,还要申请人的导师或系主任提供证实。

一年有两个申请期,春秋各一次。

----

下面开始个人吐槽:

黑……真TM黑……
不过想想visual studio要上千刀,matlab要上千刀……我真有点怀疑要多有钱才能搞学术……

ref:

https://www.ldc.upenn.edu/about/ldc-overview

LDC语料下载:https://catalog.ldc.upenn.edu/LDC2013T11

时间: 2024-07-29 13:00:28

Linguistic Data Consortium (LDC)的相关文章

Penn Treebank

NLP中常用的PTB语料库,全名Penn Treebank. Penn Treebank是一个项目的名称,项目目的是对语料进行标注,包括词性标注以及句法分析. 语料来源为:1989年华尔街日报 语料规模:1M words,2499篇文章 语料价格:$1700 Penn Treebank项目有两个发行版,Treebank-2与Treebank-3,委托Linguistic Data Consortium (LDC) 发行与收费. 这两个版本的语料内容是一样的,除了发行时间不清楚还有啥区别…… re

6 Useful Databases to Dig for Data (and 100 more)

6 Useful Databases to Dig for Data (and 100 more) You already know that data is the bread and butter of reports and presentations. Data makes your presentation solid. It backs up the ideas you are selling. It gives people reasons to listen to you. Ho

自然语言处理第二讲:单词计数

自然语言处理:单词计数 这一讲主要内容(Today): 1.语料库及其性质: 2.Zipf 法则: 3.标注语料库例子: 4.分词算法: 一. 语料库及其性质: a) 什么是语料库(Corpora) i. 一个语料库就是一份自然发生的语言文本的载体,以机器可读形式存储: ii. 一种平衡语料库尝试在语言或者其他领域具有代表性: b) 译者注:平行语料库与平衡语料库的特点与区别 i. 平行语料库通常是由双语或多语的对应语料构成,常常是翻译文本构成.例如:Babel English-Chinese

NLP常用信息资源

ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文.http://www.aclweb.org/anthology-new/ LDC: The Linguistic Data Consortiumhttp://www.ldc.upenn.edu/ 知网http://www.keenage.com/ WordNethttp://wordnet.princeton.edu/ 中文自然语言处理开放平台http://www.nlp.org.cn/ AAAI Top

自然语言处理资源总结

我爱自然语言,是自然语言的一个博客群 http://www.aclweb.org/anthology-new/ 自然语言问题列表 http://www.newsmth.net/bbsdoc.php?board=NLP 自然语言处理课程在线学习网站 https://www.coursera.org/ ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文. http://www.aclweb.org/anthology-new/ LDC: The Linguis

国内可外用免费语料库下载资源汇总, 语言翻译必备:国内外23个语料库推荐

国内可外用免费语料库下载资源汇总 (一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2.古代汉语语料库http://www.cncorpus.org/login.aspx网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词

标注工具

一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理.利用该工具可以方便的获得各项NLP任务需要的标注语料.以下是利用该工具进行命名实体识别任务的标注例子. WeTest舆情团队在使用:http://wetest.qq.com/bee/ 使用案例:http://blog.csdn.net/owengbs/article/details/49780225 . . 二.VS标注工具--La

国内可用免费语料库(已经整理过,凡没有标注不可用的链接均可用)

(一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2古代汉语语料库http://www.cncorpus.org/login.aspx 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词频统计.字频统计软件,基于国家语

【转】国内可用免费语料库

(一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2古代汉语语料库http://www.cncorpus.org/login.aspx 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词频统计.字频统计软件,基于国家语