CCAE词频表(转)

http://www.wordfrequency.info/

Word frequency data

Corpus of Contemporary American English


Purchase data

Overview
Using the data
Compare 100k/60k

100,000 word list
  Samples
  Compare
  FAQ / questions

5,000-60,000 lemma lists
   Samples / formats
   Compare
   Free list (5,000)

Spanish data
Portuguese data

Related sites
  Full-text data
  Collocates
  N-grams
  WordAndPhrase
  Academic vocabulary
  corpus.byu.edu

Contact us


This site contains what we believe is the most accurate frequency data of English, and it comes in a number of different formats (see samples: 100,000 and 60,000 word lists, and a comparison of the two lists).

For the 5,000-60,000 word lists, you can download a simple word list, frequency by genre, or as an eBook or a printed frequency dictionary. For the 100,000 word list, you can see detailed frequency information for many genres in several different corpora. In addition to word frequency data, you can also download up to 155 million n-grams, and 4.3 million collocates.

Any frequency list is only as good as the corpus (collection of texts) that it is based on. The 5,000-60,000 word lists are based on the only large, genre-balanced, up-to-date corpus of American English -- the 450 million word Corpus of Contemporary American English(COCA). The 100,000 word list supplements this COCA data with detailed frequency data from the 400 million word Corpus of Historical American English, the British National Corpus, and the Corpus of American Soap Operas (for very informal language).

Short samples (see more)

rank   lemma / word PoS frequency dispersion
7309   attic n 2711 0.91
17311   tearful j 542 0.93
27303   tailgate v 198 0.85
37310   hydraulically r 78 0.83
47309   unsparing j 35 0.83
57309   embryogenesis n 22 0.66
rank lemma / word PoS disp totFreq spok fic mag news acad M1 M2 N1 N2 A1 A2
25083 piglet n 0.88 239 20 97 54 46 22 10 2 3 3 0 2
25088 woodsman n 0.70 300 10 176 77 12 25 1 2 1 3 2 0
25090 candied j 0.87 242 17 49 102 73 1 0 1 2 1 0 0
25093 metacognitive j 0.69 306 0 0 0 0 306 0 0 0 0 0 0
25107 industry-wide j 0.89 236 16 2 64 109 45 19 10 2 1 10 6
25108 health-food j 0.85 246 10 19 154 55 8 6 4 7 1 0 2
25110 posterior n 0.88 240 6 30 36 27 139 0 5 4 0 0 99
时间: 2024-07-29 00:11:37

CCAE词频表(转)的相关文章

利用python进行数据分析--(阅读笔记一)

以此记录阅读和学习<利用Python进行数据分析>这本书中的觉得重要的点! 第一章:准备工作 1.一组新闻文章可以被处理为一张词频表,这张词频表可以用于情感分析. 2.大多数软件是由两部分代码组成:少量需要占用大部分执行时间的代码,以及大量不经常执行的“粘合剂代码”. cython已经成为python领域中创建编译型扩展以及对接c/c++代码的一大途径. 3.在那些要求延迟性非常小的应用程序中(例如高频交易系统),为了尽最大可能地优化性能,耗费时间使用诸如C++这样更低级.更低生产率的语言进行

总是在起头可是能怎么办呢 Python数据分析

目录 前言1 第1章准备工作5 本书主要内容5 为什么要使用Python进行数据分析6 重要的Python库7 安装和设置10 社区和研讨会16 使用本书16 致谢18 第2章引言20 来自bit.ly的1.usa.gov数据21 MovieLens1M数据集29 1880—2010年间全美婴儿姓名35 小结及展望47 第3章IPython:一种交互式计算和开发环境48 IPython基础49 内省51 使用命令历史60 与操作系统交互63 软件开发工具66 IPythonHTMLNoteboo

主题模型之潜在语义分析(Latent Semantic Analysis)

主题模型(Topic Models)是一套试图在大量文档中发现潜在主题结构的机器学习模型,主题模型通过分析文本中的词来发现文档中的主题.主题之间的联系方式和主题的发展.通过主题模型可以使我们组织和总结无法人工标注的海量电子文档.较早的主题模型有混合语言模型(Mixture of Unigram),潜在语义索引(Lantent Semantic Index,LSI),概率潜在语义索引(Probabilistic Latent Semantic Indexing,PLSI).主题模型中文档是由主题组

用C++处理文本的例子

最近又萌生了背单词的想法.在网上找到了一个词频表,里面包含使用频率最高的两万个单词,是 pdf 格式的,由于要把单词导入到手机软件中,我首先将它转化成了 txt 格式.转换后得到的文本格式很乱,有很多地方的顺序乱了,但是都是一个数字(单词使用频率的排名)后面紧接着一个单词,于是我考虑用程序把格式整理一下.目标效果是,每一行两个字符串,第一个字符串是排名,第二个字符串是相对应的单词,单词按照使用频率由高到低排序. 脚本语言处理文本似乎更方便一些,我只会一点 Python,而且并不是很熟悉.我对 C

Stanford机器学习[第六讲]-朴素贝叶斯算法

引文:由于之前讲过了朴素贝叶斯的理论Stanford机器学习[第五讲]-生成学习算法第四部分,同时朴素贝叶斯的算法实现也讲过了,见机器学习算法-朴素贝叶斯Python实现.那么这节课打算讲解一下朴素贝叶斯算法的具体计算流程,通过一个具体的实例来讲解. PS:为了专注于某一个细节,本章节只抽取了视频的一部分来讲解,只讲解一个贝叶斯算法的计算流程,关于视频里面的具体内容请参考下面的视频链接. 讲解的实例是一个文本分类的例子,区分一句话是粗鲁的还是文明的,类别标签只有Yes或No,表示是粗鲁的和不是粗

R语言-文本挖掘

---恢复内容开始--- 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 library(devtools) library(tm) library(jiebaR) library(jiebaRD) library(tmcn) library(NLP)library(wordcloud2) 2.导入数据 news <- readLines('E:\\Udacity\\Data Analysis High\\R\\R_Study\\高级课程代码\\数据集\\第一

记忆单词方法汇总

对于所有学习英语的人来说,单词是最先要过的一道坎,背单词就像是「磨刀」,只有词汇量够了,学起英语才来能「不误砍柴工」.假如你的英语有了一次飞跃性的提升,其中的一个原因肯定会是因为词汇量提高了.背单词的方法可谓是各式各样,其中不乏把人带跑偏的方法,而且标题往往越是耸人听闻的就越可能把人带跑偏.奶酪想从「高效方法论」的角度来谈背单词,提供高效背单词的思路以及具体行之有效的操作方法,本文近一万字,花更少时间来掌握更多的词汇量是这篇文章的最大价值. 一.记忆的本质是什么? 奶酪的学霸标签是从初中开始才有

运用jieba库分词

---恢复内容开始--- 运用jieba库分词 一.jieba库基本介绍 1.jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语         - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 2.jieba分词的原理 Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率         - 汉字间概率大的组成词组,形成分词结果 - 除了分词,用户还可以添加自定义的词组

字符串操作练习:星座、凯撒密码、99乘法表、词频统计预处理

  1.实例:输出12个星座符号,以反斜线分隔 for i in range(9800,9812): print(chr(i),end='\\') 2.实例:恺撒密码的编码 s = input("请输入凯撒的明文密码:") 2 for i in s: 3 if ord("a") <= ord(i) <= ord("z"): 4 print(chr(ord("a") + (ord(i) - ord("a&q