国内可用免费语料库(已经整理过,凡没有标注不可用的链接均可用)

(一) 国家语委

1国家语委现代汉语语料库http://www.cncorpus.org/

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

2古代汉语语料库http://www.cncorpus.org/login.aspx

网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

(二) 北京大学计算语言学研究所

1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。

(三) 北京语言大学

汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp

语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

(四)台湾中央研究院

中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

1现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/

专 门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性 的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

2古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw

古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

3近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/

为 应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的 重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

4树图数据库http://treebank.sinica.edu.tw/

「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

5中英双语知识本体词网http://bow.sinica.edu.tw/

结合词网,知识本体,与领域标记的词汇知识库。

6搜文解字http://words.sinica.edu.tw/

包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

7文国寻宝记http://www.sinica.edu.tw/wen/

在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

8唐诗三百首http://cls.admin.yzu.edu.tw/300/

以 国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作 者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入 诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

9汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/

包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

10红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

(五)中国传媒大学

1中国传媒大学文本语料库检索系统
http://ling.cuc.edu.cn/RawPub/

2在线分词标注系统
http://ling.cuc.edu.cn/cucseg/
3新词语研究资源库
http://ling.cuc.edu.cn/newword/web/index.asp
4音视频语料检索系统
http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)

(六)哈尔滨工业大学

1哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

(七)清华大学

汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

(八)香港教育学院

语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc

自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech
Communities)共时语料库。
本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

(九)中国科学院计算技术研究所

跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级)

目前的双语句对数据库中有约180,000对已对齐的中英文句子。

本数据库支持简单的中英文查询服务。
查询结果包括句对编号、中文句子、英文句子、句对来源。

(十)中文语言资源联盟

中文语言资源联盟http://www.chineseldc.org/

(Chinese Linguistic Data
Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC
将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源)

时间: 2024-10-10 01:05:17

国内可用免费语料库(已经整理过,凡没有标注不可用的链接均可用)的相关文章

【转】国内可用免费语料库

(一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2古代汉语语料库http://www.cncorpus.org/login.aspx 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词频统计.字频统计软件,基于国家语

国内可外用免费语料库下载资源汇总, 语言翻译必备:国内外23个语料库推荐

国内可外用免费语料库下载资源汇总 (一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2.古代汉语语料库http://www.cncorpus.org/login.aspx网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词

网络免费API接口整理

从网上看到一些免费API接口,在个人开发小程序等应用练手时可试用. 各类无次数限制的免费API接口整理,主要是聚合数据上和API Store上的一些,还有一些其他的. 聚合数据提供30大类,160种以上基础数据API服务,国内最大的基础数据API服务,下面就罗列一些免费的各类API接口. 聚合的免费API接口数据: 手机号码归属地API接口:https://www.juhe.cn/docs/api/id/11 历史上的今天API接口:https://www.juhe.cn/docs/api/id

各类无次数限制的免费API接口整理

各类无次数限制的免费API接口整理,主要是聚合数据上和API Store上的一些,还有一些其他的. 聚合数据提供30大类,160种以上基础数据API服务,国内最大的基础数据API服务,下面就罗列一些免费的各类API接口. 聚合的免费API接口数据: 手机号码归属地API接口:https://www.juhe.cn/docs/api/id/11 历史上的今天API接口:https://www.juhe.cn/docs/api/id/63 股票数据API接口:https://www.juhe.cn/

关于sws安全助手企业政府版的停止维护以及无法购买(官方已公开永久可用免费序列号并将软件开源)

sws安全助手企业政府版官方公布的永久可用系列号:XGVPP-NMH47-7TTHJ-W3FW7-8HV2C 安装程序官网下载地址:https://swssoftwareshare.gitee.io/swsvirusscan/sws安全助手企业政府版.exe (本来进入安装程序下载还需要一个动态密码,但现在因为停止维护所以已经解除了安装程序保护,只需要序列号就可以离线激活) 由于技术短缺原因,sws组织在2018年宣布sws安全中心停止维护,并且于最近开源了此软件,公开了永久免费序列号. 原文地

Linux高可用集群方案之配置heartbeat v2基于haresources配置文件的httpd高可用集群

本章主要配置heartbeat v2基于haresources配置文件的httpd高可用集群.  ll  本文导航    · 前期准备   · 安装heartbeat v2   · node1.node2主机安装httpd   · shared-nfs主机安装nfs   · 配置httpd高可用集群   · 客户端访问测试  ll  要求  完全掌握heartbeat v2基于haresources配置文件的httpd高可用服务.   前期准备  1.heartbeat服务主机规划 主机 接口

httpclient检查某个链接是否可用

private boolean checkUrlIsValid(String url) { CloseableHttpClient httpClient = HttpClients.createDefault(); RequestConfig requestConfig = RequestConfig.custom().setSocketTimeout(10000).setConnectTimeout(5000) .build(); HttpGet httpGet = new HttpGet(u

电话号码生成器手机版,苹果和安卓手机均可用

电话号码生成器手机版的,它有电话号码生成器安卓版和电话号码生成器苹果版,也就是安卓apk和苹果ios,都是手机可以用的软件app.在这有一个需要强调的地方就是这个软件并不是拿来生成手机号作为手机卡来用的,它生成的号码不能拿来作为手机卡打电话给别人也不能接收验证码信息的.它的作用是给一些想找客沪客源的人用的,一般是手机徽信伽人方面用的多. 这个手机版的app使用的方法很简单的,第一步呢,就是在软件上选择省份城市,软件就能给你自动呈现这个城市的所有号段,包括前三和中间四位给你,你选好了就点获取号码就

IT教程视频

声明:以下视频均来自与互联网各个高级培训机构内部视频,我们能保证大部分的链接均可用.但不能保证所有的视频内容都是最新的.如果想要实时跟进各个培训机构的内部视频建议您关注微信公众号(BjieCoder):八戒程序猿 已此方式来导航查看你所需要的视频资料:(word2013) IOS: 千锋3G学院IOS开发视频教程-愤怒的小鸟 链接:http://pan.baidu.com/s/1eS4yQtk 密码:flyb ios cocos2d-x 基础+高级+实战(完整) 链接:http://pan.ba