NLTK中的词性

NOUN n,VERB v ,ADJ a, ADV r, ADJ_SAT s

NOUN: [(‘s‘, ‘‘), (‘ses‘, ‘s‘), (‘ves‘, ‘f‘), (‘xes‘, ‘x‘),

(‘zes‘, ‘z‘), (‘ches‘, ‘ch‘), (‘shes‘, ‘sh‘),

(‘men‘, ‘man‘), (‘ies‘, ‘y‘)],

VERB: [(‘s‘, ‘‘), (‘ies‘, ‘y‘), (‘es‘, ‘e‘), (‘es‘, ‘‘),

(‘ed‘, ‘e‘), (‘ed‘, ‘‘), (‘ing‘, ‘e‘), (‘ing‘, ‘‘)],

ADJ: [(‘er‘, ‘‘), (‘est‘, ‘‘), (‘er‘, ‘e‘), (‘est‘, ‘e‘)],

ADV: [],

ADJ_SAT:[(‘er‘, ‘‘), (‘est‘, ‘‘), (‘er‘, ‘e‘), (‘est‘, ‘e‘)]

pos_tag(word_tokenize("John‘s big idea isn‘t all that bad.")) # doctest: +SKIP

[(‘John‘, ‘NNP‘), ("‘s", ‘POS‘), (‘big‘, ‘JJ‘), (‘idea‘, ‘NN‘), (‘is‘,

‘VBZ‘), ("n‘t", ‘RB‘), (‘all‘, ‘DT‘), (‘that‘, ‘DT‘), (‘bad‘, ‘JJ‘),

(‘.‘, ‘.‘)]

1.      CC      Coordinating conjunction 连接词

2.     CD     Cardinal number  基数词

3.     DT     Determiner
 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a)
few,(a) little,other,another.

4.     EX     Existential there 存在句

5.     FW     Foreign word 外来词

6.     IN     Preposition or subordinating conjunction 介词或从属连词

7.     JJ     Adjective 形容词或序数词

8.     JJR     Adjective, comparative 形容词比较级

9.     JJS     Adjective, superlative 形容词最高级

10.     LS     List item marker 列表标示

11.     MD     Modal 情态助动词

12.     NN     Noun, singular or mass 常用名词 单数形式

13.     NNS     Noun, plural  常用名词 复数形式

14.     NNP     Proper noun, singular  专有名词,单数形式

15.     NNPS     Proper noun, plural  专有名词,复数形式

16.     PDT     Predeterminer 前位限定词

17.     POS     Possessive ending 所有格结束词

18.     PRP     Personal pronoun 人称代词

19.     PRP$     Possessive pronoun 所有格代名词

20.     RB     Adverb 副词

21.     RBR     Adverb, comparative 副词比较级

22.     RBS     Adverb, superlative 副词最高级

23.     RP     Particle 小品词

24.     SYM     Symbol 符号

25.     TO     to 作为介词或不定式格式

26.     UH     Interjection 感叹词

27.     VB     Verb, base form 动词基本形式

28.     VBD     Verb, past tense 动词过去式

29.     VBG     Verb, gerund or present participle 动名词和现在分词

30.     VBN     Verb, past participle 过去分词

31.     VBP     Verb, non-3rd person singular present 动词非第三人称单数

32.     VBZ     Verb, 3rd person singular present 动词第三人称单数

33.     WDT     Wh-determiner 限定词(如关系限定词:whose,which.疑问限定词:what,which,whose.)

34.     WP      Wh-pronoun 代词(who whose which)

35.     WP$     Possessive wh-pronoun 所有格代词

36.     WRB     Wh-adverb   疑问代词(how where when)

转载自:这里

时间: 2024-10-11 07:13:54

NLTK中的词性的相关文章

nltk中的三元词组,二元词组

在做英文文本处理时,常常会遇到这样的情况,需要我们提取出里面的词组进行主题抽取,尤其是具有行业特色的,比如金融年报等.其中主要进行的是进行双连词和三连词的抽取,那如何进行双连词和三连词的抽取呢?这是本文将要介绍的具体内容. 1. nltk.bigrams(tokens) 和 nltk.trigrams(tokens) 一般如果只是要求穷举双连词或三连词,则可以直接用nltk中的函数bigrams()或trigrams(), 效果如下面代码: 1 >>> import nltk 2 >

NLTK中的Stemmers

Stemmers 在英语中,一个单词常常是另一个单词的"变种",如:happy=>happiness,这里happy叫做happiness的词干(stem).在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾. 本文主要介绍nltk中Stemmer的用法 Porter Stemmer 应用最为广泛的.中等复杂程度的.基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)

结巴分词中的词性对照

计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类) 22. 时间词(1个一类,1个二类) 23. 处所词(1个一类) 34. 方位词(1个一类) 35. 动词(1个一类,9个二类) 36. 形容词(1个一类,4个二类) 37. 区别词(1个一类,2个二类) 38. 状态词(1个一类) 39. 代词(1个一类,4个二类,6个三类) 310. 数词(1个一类,1个二类) 411. 量词(1

中文分词工具jieba中的词性类型

jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素.形容词代码为 a,语素代码g前面置以A. a 形容词 取英语形容词 adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码 a和副词代码d并在一起. an 名形词 具有名词功能的形容词.形容词代码 a和名词代码n并在一起. b 区别词 取汉字“别”的声母. c 连词 取英语连词 conjunction的第1个字母. dg 副语素 副词性语素.副词代码

在nltk中调用stanfordparser处理中文

出现unicode decode error 解决办法是修改nltk包internals.py的java()下增加cmd的参数,cmd = ["-Dfile.encoding=UTF-8"] + cmd,(https://github.com/nltk/nltk/issues/929) 另外需要注意unicode和str的区别.

Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器

http://www.52nlp.cn/python%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%AE%9E%E8%B7%B5-%E5%9C%A8nltk%E4%B8%AD%E4%BD%BF%E7%94%A8%E6%96%AF%E5%9D%A6%E7%A6%8F%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%99%A8 原文地址:https://www.cnblogs.com/lhuser/p/

python+NLTK 自然语言学习处理五:词典资源

前面介绍了很多NLTK中携带的词典资源,这些词典资源对于我们处理文本是有大的作用的,比如实现这样一个功能,寻找由egivronl几个字母组成的单词.且组成的单词每个字母的次数不得超过egivronl中字母出现的次数,每个单词的长度要大于6. 要实现这样的一个功能,首先我们要调用FreqDist功能.来得到样本字母中各个字母出现的次数 puzzle_letters=nltk.FreqDist('egivrvonl') for k in puzzle_letters: print(k,puzzle_

Python自然语言工具包(NLTK)入门

在本期文章中,小生向您介绍了自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库.称为“文本处理”的程序设计是其基本功能:更深入的是专门用于研究自然语言的语法以及语义分析的能力. 鄙人并非见多识广, 语言处理(linguistic processing) 是一个相对新奇的领域.如果在对意义非凡的自然语言工具包(NLTK)的说明中出现了错误,请您谅解.NLTK 是使用 Python 教学以及实践计算语言学的极好工具.此外,计

【NLP】干货!Python NLTK结合stanford NLP工具包进行文本处理

干货!详述Python NLTK下如何使用stanford NLP工具包 作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Speech tag, POS-tag).命名实体识别(Named Entity Recognition, NER).句法分析(Syntactic Parse)等各项 NLP 领域的功能.