Wordnet的一些简单使用

转载请说明出处:http://www.cnblogs.com/KingKou/p/4121373.html

1.简介

  Wordnet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的大型的英语词典,WordNet的开发有两个目的:

  1.它既是一个字典,又是一个辞典,它比单纯的辞典或词典都更加易于使用。

  2.支持自动的文本分析以及人工智能应用。

  在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连

接。(一个多义词将出现在它的每个意思的同义词集合中)。

2.使用

2.1 直接调用

  直接使用wn.exe程序,命令行格式如下:

  Wn  [单词] [options] [search_option]

 Options:

  -h:会在显示结果前面显示帮助信息

  -g:显示同义词相关的文本注释,一般是释义+例句

  -a:在每一种sense前,显示字典撰写者的文件信息

  -o:显示同义词的偏移量

  -s:显示所有同义词的单词编号

  -l:显示wordnet的版权、版本、许可证信息

  -n#:只查找单词的第#个释义的信息

  -over:显示单词的所以释义的整体信息

search_option:

  -syns (n | v | a | r ):显示单词的同义词和直接上位词的同义词集。同义词以使用频率排序。括号里的是对应的词性(名词,动词,形容词,副词)

  -simsv:显示动词的同义词和包含单词的直接上位词的同义词集合。同义词按照语义相似度分组

  -ants (n | v | a | r ):显示单词的反义词集

  -faml (n | v | a | r ):显示单词是否常见,和一词多义信息

  -hype (n | v ):递归地显示单词上位词树。(单词 IS A KIND OF _____ relation)

  -hypo (n | v ):显示直接上位词(_____ IS A KIND OF 单词 relation)

  -tree (n | v ):递归显示单词的下位词树

  -coor (n | v ):显示每个同义词的直接上位词及上位词的直接上位词

  -deri (n | v ):显示派生名词和动词之间的联系形式。如goodness

  -domn (n | v | a | r ):显示单词所属的类,如good的副词

  -domt (n | v | a | r ):显示所有被分在单词所在领域的所有成员

  -subsn:显示实体的部件关系。HAS SUBSTANCE关系(tree)

  -partn:显示部分关系,比如头的部分是耳朵,脸,鼻子,之类的。HAS PART关系

  -membn:显示成员关系,比如people有成员citizen。HAS MEMBER关系

  -meron:显示上面三个全部信息

  -hmern:显示成员树。这是一个递归树,会显示单词的所有成员和他的上位词(people)

  -sprtn:显示包含单词的实体(PART OF关系)

  -smemn:显示包含这个单词为成员的实体,MEMBER OF关系

  -ssubn:显示包含这个单词为部件关系的实体,SUBSTANCE OF关系

  -holon:显示所有上述三个关系

  -hholn:递归显示part of关系

  -entav:显示蕴含关系,通常是动词(push)

  -framv:显示示例

  -causv:导致关系

  -pert (a | r ):pertainyms

  -attr (n | a ):名词形容词的相互显示

  -grep (n | v | a | r ):显示包含单词的词

2.2 nltk接口调用

  Nltk中也带有wordnet,但是调用方式有所不同,调用方式如下:

  from nltk.corpus import wordnet as wn

  首先,是我们常用同义词的调用:

  wn.synsets(‘motorcar‘)

  结果:[Synset(‘car.n.01‘)]

  因为‘motorcar‘只有一个意思,所以结果只有一个,那就是’car’作为名词的第一种释义。

  我们也可以这样调用,获取单词指定词性、释义的同义词集:
  >>> wn.synset(‘car.n.01‘).lemma_names

  结果:

  [‘car‘, ‘auto‘, ‘automobile‘, ‘machine‘, ‘motorcar‘]

  如果我们不知道单词第I个释义的意思,我们可以调用definition查看,以便更精确地使用。

  >>> wn.synset(‘car.n.01‘).definition

  结果:

  ‘a motor vehicle with four wheels; usually propelled by an internal combustion engine(内燃机)‘

  我们还可以调用examples查看具体例句:

  >>> wn.synset(‘car.n.01‘).examples

  结果:

  [‘he needs a car to get to work‘]

  在语言学中,有一个重要的任务,就是消歧,我们使用lemma(词条),可以获得一对一的同义词配对。

  >>> wn.synset(‘car.n.01‘).lemmas ①

  结果:

  [Lemma(‘car.n.01.car‘), Lemma(‘car.n.01.auto‘), Lemma(‘car.n.01.automobile‘),

  Lemma(‘car.n.01.machine‘), Lemma(‘car.n.01.motorcar‘)]

  ① 这是所有的词条,结果和上面直接查看同义词的是一样的

  >>> wn.lemma(‘car.n.01.automobile‘)  ②

  结果:

  Lemma(‘car.n.01.automobile‘)

  ② 我们可以判断特定两个词是否满足要求

  >>> wn.lemma(‘car.n.01.automobile‘).synset ③

  结果:

  Synset(‘car.n.01‘)

  ③  获取词条对应的同义词

  >>> wn.lemma(‘car.n.01.automobile‘).name ④

  结果:

  ‘automobile‘

  ④ 获取词条的名字

  通过上面,我们可以获得一种获得同义词的方法:

  >>> wn.synsets(‘car‘)

  [Synset(‘car.n.01‘), Synset(‘car.n.02‘), Synset(‘car.n.03‘), Synset(‘car.n.04‘),

  Synset(‘cable_car.n.01‘)]

  >>> for synset in wn.synsets(‘car‘):

  ... print synset.lemma_names

  ...

  [‘car‘, ‘auto‘, ‘automobile‘, ‘machine‘, ‘motorcar‘]

  [‘car‘, ‘railcar‘, ‘railway_car‘, ‘railroad_car‘]

  [‘car‘, ‘gondola‘]

  [‘car‘, ‘elevator_car‘]

  [‘cable_car‘, ‘car‘]

  把得到的结果合并区set()即可获得单词的同义词。

  另外一种获得同义词,或者说是同类词的方法,就是上位词和下位词。比如’car’:

  >>> motorcar = wn.synset(‘car.n.01‘)

  >>> types_of_motorcar = motorcar.hyponyms()

  >>> types_of_motorcar[26]

  Synset(‘ambulance.n.01‘)

  >>> sorted([lemma.name for synset in types_of_motorcar for lemma in synset.lemmas])

  [‘Model_T‘, ‘S.U.V.‘, ‘SUV‘, ‘Stanley_Steamer‘, ‘ambulance‘, ‘beach_waggon‘,

  ‘beach_wagon‘, ‘bus‘, ‘cab‘, ‘compact‘, ‘compact_car‘, ‘convertible‘,

  ‘coupe‘, ‘cruiser‘, ‘electric‘, ‘electric_automobile‘, ‘electric_car‘,

  ‘estate_car‘, ‘gas_guzzler‘, ‘hack‘, ‘hardtop‘, ‘hatchback‘, ‘heap‘,

  ‘horseless_carriage‘, ‘hot-rod‘, ‘hot_rod‘, ‘jalopy‘, ‘jeep‘, ‘landrover‘,

  ‘limo‘, ‘limousine‘, ‘loaner‘, ‘minicar‘, ‘minivan‘, ‘pace_car‘, ‘patrol_car‘,

  ‘phaeton‘, ‘police_car‘, ‘police_cruiser‘, ‘prowl_car‘, ‘race_car‘, ‘racer‘,

  ‘racing_car‘, ‘roadster‘, ‘runabout‘, ‘saloon‘, ‘secondhand_car‘, ‘sedan‘,

  ‘sport_car‘, ‘sport_utility‘, ‘sport_utility_vehicle‘, ‘sports_car‘, ‘squad_car‘,

  ‘station_waggon‘, ‘station_wagon‘, ‘stock_car‘, ‘subcompact‘, ‘subcompact_car‘,

  ‘taxi‘, ‘taxicab‘, ‘tourer‘, ‘touring_car‘, ‘two-seater‘, ‘used-car‘, ‘waggon‘,

  ‘wagon‘]

  在调用wordnet的exe程序时,我们知道有从属关系,成员关系,蕴含关系之类的,在nltk,它们是这样的:

  >>> wn.synset(‘tree.n.01‘).part_meronyms()    【部分】

  [Synset(‘burl.n.02‘), Synset(‘crown.n.07‘), Synset(‘stump.n.01‘),

  Synset(‘trunk.n.01‘), Synset(‘limb.n.02‘)]

  >>> wn.synset(‘tree.n.01‘).substance_meronyms()    【实质】

  [Synset(‘heartwood.n.01‘), Synset(‘sapwood.n.01‘)]

  >>> wn.synset(‘tree.n.01‘).member_holonyms()   【成员】

  [Synset(‘forest.n.01‘)]

  >>> wn.synset(‘mint.n.04‘).part_holonyms()

  [Synset(‘mint.n.02‘)]

  >>> wn.synset(‘mint.n.04‘).substance_holonyms()

  [Synset(‘mint.n.05‘)]

  下面是蕴含关系:

  >>> wn.synset(‘walk.v.01‘).entailments()

  [Synset(‘step.v.01‘)]

  >>> wn.synset(‘eat.v.01‘).entailments()

  [Synset(‘swallow.v.01‘), Synset(‘chew.v.01‘)]

  >>> wn.synset(‘tease.v.03‘).entailments()

  [Synset(‘arouse.v.07‘), Synset(‘disappoint.v.01‘)]

  相对来说,个人感觉反义词做的就比较简陋:

  >>>wn.lemma(‘supply.n.02.supply‘).antonyms()

  [Lemma(‘demand.n.02.demand‘)]

  Nltk有个功能,能根据内部的关系树,计算两个词之间的相似度:

  >>>lim=wn.synset(‘limousine.n.1‘)

  >>>amb=wn.synset(‘ambulance.n.1‘)

  >>>lim.lowest_common_hypernyms(amb)

  [Synset(‘car.n.01‘)]

  我们可以看出,“‘limousine(豪华轿车)”和“‘ambulance(救护车)”的共同点(也就是公共上位词)是“car”。此外,我们还可以得到他们的相似度:

  >>>lim.path_similarity(amb)

  0.3333333333333333

  还可以看他们的最近举例,举例越近,相似度越高:

  >>>lim.shortest_path_distance(amb)

  2

  

  上面列举了NLTK的一些常用的命令,基本上wordnet中的命令,在NLTK都包括了,还有一些,比如offset等,有需要的时候可以参考链接1。

参考链接:

  1. nltk官方文档:

http://www.nltk.org/api/nltk.corpus.reader.html#module-nltk.corpus.reader.wordnet

  1. wordnet

http://wordnet.princeton.edu/

时间: 2024-11-13 07:59:01

Wordnet的一些简单使用的相关文章

NLP—WordNet——词与词之间的最小距离

WordNet,是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典.它不是光把单词以字母顺序排列,而且按照单词的意义组成一个"单词的网络".我们这次的任务就是求得词与词之间的最短路径,是对"图"这个数据结构再次灵活运用. 以下为SentiWordNet_3.0.0_20130122.txt文件截图: 应考虑如何存储"单词的网络",此程序是以词作为基本单元,词与词之间的联系是通过语义. 我们简单地构

NLTK学习笔记(二):文本、语料资源和WordNet汇总

[TOC] 语料库基本函数表 示例 描述 fileids() 语料库中的文件 fileids([categories]) 对应分类中的语料库文件 categories() 语料库的分类 categories([fileids]) 文件对应的语料库分类 raw(fileids=[f1,f2..],categories=[c1,c2...]) 对应文件和分类中原始内容.参数可以式空 words(fileids=[f1,f2..],categories=[c1,c2...]) 对应文件和分类的词汇.参

简单读懂人工智能:机器学习与深度学习是什么关系

引言:随着AlphaGo战胜李世石,人工智能和深度学习这些概念已经成为一个非常火的话题.人工智能.机器学习与深度学习这几个关键词时常出现在媒体新闻中,并错误地被认为是等同的概念.本文将介绍人工智能.机器学习以及深度学习的概念,并着重解析它们之间的关系.本文将从不同领域需要解决的问题入手,依次介绍这些领域的基本概念以及解决领域内问题的主要思路.本文选自<Tensorflow:实战Google深度学习框架>. 从计算机发明之初,人们就希望它能够帮助甚至代替人类完成重复性劳作.利用巨大的存储空间和超

wordnet的一些入门性介绍

关于wordnet的介绍很多,中英文都有,我这里主要是参考了别人的.自己组织了一下. 1.简介 1.1关于词典 Wordnet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的大型的英语词典,WordNet的开发有两个目的: 1.它既是一个字典,又是一个辞典,它比单纯的辞典或词典都更加易于使用. 2.支持自动的文本分析以及人工智能应用. 在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,这是传统词典所不具有的,WordNet最具特色之处是根据

C# Ping 简单使用

编程过程中,有时候需要判断主机是否在线,最简单的方法就是使用Windows的Ping命令看看能否ping通.看到网上很多文章,说用C#去调用windows的ping.exe,然后解析返回的字符串.我觉得这种方式太麻烦了,就做一下简单判断,不想弄那么麻烦. 查了一下,C#专门提供了一个Ping类,与Windows下的ping命令类似: 命令空间: System.Net.NetworkInformation; 使用方法: bool online = false; //是否在线 Ping ping =

自动生成简单四则运算的C语言程序

该程序是在博客园里面找的,具体是谁的找了半天没找到,无法提供它原本的链接.由于自己写的过于简单,且有一些功能暂时无法实现,所以就找了一个来应付作业,望原谅.在这个程序的源码中我改了一个错误的地方,源码中有这样一个随机数发生器的初始化函数的语句:"srand((unsigned)time(NULL))".srand函数是随机数发生器的初始化函数.但是正确的写法应该是:srand(unsigned( time(NULL))):为了防止随机数每次重复,常常使用系统时间来初始化,即使用time

Mysql的锁机制与PHP文件锁处理高并发简单思路

以购买商品举例: ① 从数据库获取库存的数量. ② 检查一下库存的数量是否充足. ③ 库存的数量减去买家购买的数量(以每个用户购买一个为例). ④ 最后完成购买. 仅仅这几行逻辑代码在并发的情况下会出现问题,自己可以想象一下. 这里暂时就不测试了,下面会针对并发的处理给出测试结果. 创建表: CREATE TABLE `warehouse` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT 'id', `stock` int(11) NOT NULL

Winfrom 简单的安卓手机屏幕获取和安卓简单操作

为啥我要做这个东西了,是因为经常要用投影演示app ,现在有很多这样的软件可以把手机界面投到电脑上 ,但都要安装,比如说360的手机助手,我又讨厌安装,于是就自己捣鼓了下 做了这个东西, 实现了以下简单功能   1.屏幕获取(因为是截图方式获取的,所以有点卡顿) 2.实现点击功能,并在点击的时候出现一个手势图标,方便用户观看 3.实现简单的滑动功能 4.实现在界面上画图功能 5.实现拖拽安装apk功能 操作说明:鼠标左边 模拟手机点击,中键停止/开始刷新界面(画图的时候不能刷新),右键去掉画图内

iOS instruments之ui automation的简单使用(高手绕道)

最近使用了几次instruments中的automation工具,现记录下automation的简单使用方法,希望对没接触过自动化测试又有需求的人有所帮助.  UI 自动测试是iOS 中重要的附加功能,它由名为"Automation"的新的工具对象支持.Automation工具的脚本是用JavaScript语言编写,主要用于分析应用的性能和用户行为,模仿/击发被请求的事件,利用它可以完成对被测应用的简单的UI测试及相关功能测试. 一. 简单的录制脚本 打开xcode,这里用我为我家亲爱