wordnet的一些入门性介绍

关于wordnet的介绍很多,中英文都有,我这里主要是参考了别人的。自己组织了一下。

1.简介

1.1关于词典

  Wordnet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的大型的英语词典,WordNet的开发有两个目的:

  1.它既是一个字典,又是一个辞典,它比单纯的辞典或词典都更加易于使用。

  2.支持自动的文本分析以及人工智能应用。

  在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,这是传统词典所不具有的,WordNet最具特色之处是根据词义而不是词形来组织词汇信息,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。(一个多义词将出现在它的每个意思的同义词集合中)。

1.2 WordNet单词体系中相关概念

1.2.1一些心理学的假设

  尽管名词层级的一般结构是由上下位关系(hyponymy/hypernymy)产生的,但这些知识在人脑的词库中如何表示并不清楚。我们不妨假设概念的细节是由区别特征来刻画的。例如,知更鸟(robin)是一种鸟,有颜色,会唱歌,等等;显然,我们不仅要在robin和bird之间建立起上下位关系,还需要将“颜色”(color),歌唱(singing),飞(flying)等特征跟robin关联起来。此外,robin还需要从bird那里继承一些特征,比如恒温脊椎动物(warm-blooded vertebrate),有喙(beak),翅膀(wings),羽毛(feathers),孵蛋(lay eggs),等等。为了达到上述目的,至少要考虑以下三方面的特征:

(1)属性(attributes): 是知更鸟属(redbreasted),恒温脊椎动物,

(2)部件(Parts):beak, feathers, wings

(3)功能(functions): sings, flies, lays eggs

  属性的值由形容词表达。例如,“size”和“color”是 “robin”(知更鸟)的两个属性。而知更鸟的size则由形容词“small”(小)来描述;color则由形容词“red”来描述。名词由此可以看作是属性词的论元。例如 SIZE (robin) = small, COLOR (robin) = red

  在WordNet中,{robin}和{red}之间不直接发生关联,而是通过{color}跟{red}之间发生关联。

  friendliness(友好性)是dog的一个属性,因此我们可以说“ a dog can be friendly or unfriendly ”,但 “ stingy dog ”或“ shallow dog ”就只能解释为比喻用法。因为 generosity 和 depth 都不是 dog 的正常属性。

1.2.2 WordNet中的语义关系

  WordNet中包含各种关系。

1)反义关系

  反义关系(antonymy)是很难定义的一种语义关系。一个词x的反义词有时并不是非x。例如,“富有(rich)”和“贫穷(poor)”是一对反义词,但是要说某个人不富有并不意味着一定穷;许多人认为自己既不富也不穷。反义词似乎是一种简单的对称关系,实际上却是相当复杂的。反义词是一种词形间的语义关系,而不是词义间的语义关系。例如,词义{升高,上升}和{下落,下降}可能在概念上是相对的,其中[升高/下落]是反义词,[上升/下降]也是反义词。但是,如果说“升高”与“下降”与“上升”于“下落”是否是反义词,就要考虑一下了。所以有必要区分词形之间的语义关系和词义之间的语义关系。反义关系为WordNet中的形容词和副词提供了一种中心组织原则。

2)同义词

  WordNet的组织方式是提供语义关系的指针,而不是罗列特征。WordNet中的名词由同义词集合(synset)组成,synset之间有指针指示它们的语义关系(上下位关系)。在WordNet中,特征信息并不是以明确的显性形式来定义上下位关系或名词的层级关系。

3)上下位关系

  与同义词和反义词都是词形之间的词汇关系不同,上位关系(hypernymy)/下位关系(hyponymy)是词义之间的语义关系。例如:{樟树}是{树}的下位词,{树}又是{植物}的上位词。下位/上位关系也称为从属/上属关系,子集/超集关系,或ISA关系。如果以英语为母语接受以“An x is a (kind of) y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是下位概念和上位概念的关系。上下位关系具有某种限制,而且是一种不对称的关系。通常情况下,一个同义词集合如果有与之是下位概念和上位概念的关系的同义词集合,则也只有惟一的一个。即便是不惟一,同为上位概念的关系的同义词集合之间差别也是非常小的。这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。这样的层次表达方法,Touretzky称作继承体系,它意味着下位词继承了上位词更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。例如,“枫树”继承了其上位词“树”的属性,但却以其坚硬的木质、叶片的形状等特性区别于其他的树。这种方法为WordNet中的名词提供了一种核心的组织原则。

句子“ A pistol is more dangerous than a rifle ”(手-枪比步-枪更危险)显示的意义是可以理解的。而“ A pistol is more dangerous than a gun ” (手-枪比-枪更危险)和“ A gun is more dangerous than a pistol ”就都不好理解(Bever and Rosenbaum 1970)。很显然,语言学上,比较句中两个比较项不能是上下位关系的两个词。而这条句法规则要发挥作用,必须基于给定的名词上下位关系知识基础上。

再看一个例子,“ I gave him a good novel, but the book bored him ”容易理解,但“ I gave him a good novel, but the catsup bored him ”就让人费解。 因为词汇知识告诉我们,novel是book(有上下位关系),但不是catsup(番茄酱)。显然,要得出上述判断,也必须依赖名词之间的上下位关系。

再一个例子,一些动词的搭配选择限制也表明名词上下位关系的重要性。比如动词“drink”的直接宾语可以是 beverage (饮料)的任何一个下位词。这也暗示有关名词的上下位关系的知识应该以一种人们能够快速访问和搜索到的方式存贮。

  WordNet的组织方式是提供语义关系的指针,而不是罗列特征。WordNet中的名词由同义词集合(synset)组成,synset之间有指针指示它们的语义关系(上下位关系)。在WordNet中,特征信息并不是以明确的显性形式来定义上下位关系或名词的层级关系。

4)部分关系

  同义关系,反义关系和上下位关系都是比较容易理解的语义关系。另一种语义关系称为“部分-整体关系”(简记为HASA),语言学家称之为部分词(meronym)/整体词(holonym)的关系。如果以英语为母语接受以“A y is an x”或“An x is a part of y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是部分概念和整体概念的关系。部分关系也具有某种限制,且是不对称的关系,可以构造一种部分等级关系。

5)继承/蕴涵(entailment)

  有些动词之间存在蕴涵关系,如snore(打鼾)蕴涵了sleep(睡觉)。“He is snoring”蕴涵了“He is sleeping”。动词之间的蕴涵关系很像名词中的meronymy(整体部分关系)。

人们接受上述事实,就可以认为这样的动词对是部分-整体关系的,如drive 是 ride的一部分;snoring 和 dreaming(做梦)是sleeping的一部分等。因为当一个人drive(驾驶)的时候,他必然是ride(乘)在交通工具上的。从时间性上讲,前一个动词必然在后一个动词发生的时段内。

最后附上一张名词语义网络的示例

6)致使语义关系(The cause relation)

  这种关系连带两个动词概念,一个是因(如give),另一个是果(如have)。英语中词汇化的致使动词对的例子如:show - see(展现 - 看见)和 fell - fall (击倒 - 倒)等。

  此外,WordNet包含从致使(causative)动词和及物动词,到相应的非致使动词和不及物动词的CAUSE语义关系指针。这主要出现在变化动词中。例如blacken, develop, break, shrink等。大多数非致使动词暗示了一个有生施事或无生的致使动因(如The glass door broke -- The storm/ The children broke the glass door)。少数动词只跟无生致使动因相关,如The wooden deck molded -- All that rain molded the wooden deck。比较:The house sitter molded the wooden deck是不合法的句子。致使动词也系统地出现在运动动词中,如bounce, roll, blow等等。(She blew a soap bubble in his face -- The soap bubble blew in his face)。Carter(1976)提到,致使关系是蕴涵关系中的一种特殊情形:如果V1必引起V2,则V1也就蕴涵V2。比如expel/驱逐和 leave/离开,或bequeath/遗赠和own/拥有。跟所有的蕴涵关系一样,致使关系是单向的(unidirectional)。

1.2.2 其他一些概念

下面,我们介绍WordNet名词体系中一些重要概念。

(1)    独立起始概念(Unique Beginner)

  如果有一同义词集合(即概念)没有上位同义词集合(即上位概念),则称之为独立起始概念。在WordNet名词体系中,共有25个独立起始概念。其他名词通过上位/下位关系与这25个独立起始概念构成25个独立的层次结构。也就是说,标识着某个起始概念特点的属性将它的所有下位概念所继承,而这个起始概念就可以看作为是该语义领域内的所有概念(同义词集合)的一个原始语义元素。如表1所示。

表2 WordNet名词体系的25个独立起始概念

(2) 词典编撰ID(Lexicographer ID)

  每一个同义词集合(synonymy set)均有惟一的一个编号,这个编号就称为词典编撰ID(Lexicographer ID)。

(3) 概念链(Concept Chain)

  概念链一般的定义是这样一种结构::=(C,<),其中C代表的是概念集合,<代表概念间的下位/上位关系。也就是说概念链是由C概念集合中的概念通过概念间的上位/下位关系连接而成。

(4) WordNet名词体系中的概念链(Concept Chain)

  在WordNet名词体系中,我们定义概念链(Concept Chain)如下:

  L:=((C,<)<UBCi),其中UBCi表示WordNet名词体系的一个独立起始概念,C代表的是概念集合,<代表概念间的下位/上位关系。也就是说概念链是以一个独立起始概念UBCi为链首,通过概念间的上位/下位关系连接与C概念集合连接而成。同时C概念集合中的概念也是通过概念间的上位/下位关系进行连接。如图1所示。

  图1展示的就是一个概念链的示意范例。小三角形代表的是词“football”。每一个小圆圈都代表WordNet中的一个同义词集合(也就是概念)。小圆圈旁边的注释就是该同义词集合的内容。注释中的数字是该同义词集合的词典编撰ID(Lexicographer ID)。这个示意范例表达的是:词“football”有两个义项,即它在两个同义词集合中出现,也就是对应图中的两个小圆圈。小圆圈之间用带箭头的线连接,表示的是小圆圈所代表的概念通过下位/上位关系联系起来,从而构成概念链。概念链的首端对应的就是WordNet中的独立起始概念。比如:概念链ch1可以表示为:(3255461)<(2681909)<(3289024)<(3174243)<(3443493)<(19244)<(2645)<(16236)<(1740)。其中(3255461)作为概念链的末端代表的是词“football”的一个义项,而(1740)是WordNet中的独立起始概念,成为概念链的首端。概念“game equipment”(3289024)是概念“ball”(2681909)的上层概念,表达的语义更抽象。

1.3 Wordnet的不足

  1.WordNet并不把词语分解成更小的有意义的单位(这是义素分析法的方法);WordNet也不包含比词更大的组织单位,如脚本、框架之类的单位(这是框架语义学的方法);

  2.WordNet不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。例如,WordNet中没有将racquet(网球拍)、ball(球)、net(球网)等词语以一定方式联系到一起。

  3.WordNet中缺少关于词语的句法信息;

  4.WordNet中缺少不同词类词语间的关系(scholar – teacher -/-teach);

  5.WordNet中没有“IS-NOT-A-KIND-OF”这样的关系;

  6. WordNet中没有区分“IS-A-KIND-OF”和“IS-USED-AS-A-KIND-OF”两种关系,比如,“A thrush is a bird”是前一种关系,而“An adornment is a decoration”则是后一种关系。更典型的例子也许是“Chicken is a kind of bird”和“Chicken is a kind of food”。

  更多说明请参考:http://blog.chinaunix.net/uid-9631117-id-2399942.html

时间: 2024-11-05 17:25:06

wordnet的一些入门性介绍的相关文章

2)Linux程序设计入门--进程介绍

2)Linux程序设计入门--进程介绍 Linux下进程的创建 前言: 这篇文章是用来介绍在Linux下和进程相关的各个概念.我们将会学到: 进程的概念 进程的身份 进程的创建 守护进程的创建 1.进程的概念 Linux操作系统是面向多用户的.在同一时间可以有许多用户向操作系统发出各种命 令.那么操作系统是怎么实现多用户的环境呢? 在现代的操作系统里面,都有程序和进程 的概念.那么什么是程序,什么是进程呢? 通俗的讲程序是一个包含可以执行代码的文件 ,是一个静态的文件.而进程是一个开始执行但是还

Seq2Seq和Attention机制入门详细介绍

1.Sequence Generation 1.1.引入 在循环神经网络(RNN)入门详细介绍一文中,我们简单介绍了Seq2Seq,我们在这里展开一下 一个句子是由 characters(字) 或 words(词) 组成的,中文的词可能是由数个字构成的. 如果要用训练RNN写句子的话,以 character 或 word 为单位都可以 以上图为例,RNN的输入的为前一时间点产生的token(character 或 word) 假设机器上一时间点产生的 character 是 “我”,我们输出的向

机器学习入门 - 1. 介绍与决策树(decision tree)

机器学习(Machine Learning) 介绍与决策树(Decision Tree) 机器学习入门系列 是 个人学习过程中的一些记录与心得.其主要以要点形式呈现,简洁明了. 1.什么是机器学习? 一个比较概括的理解是: 根据现有的数据,预测未来 2.核心思想 : Generalization 可以理解为,归纳.概括.就像是人的学习一样,找出一件事物与与一件事物的联系 3.归纳性的机器学习(Inductive machine learning) 其核心思想是使用训练数据,并从其中摸索出一套适用

MongoDB入门简单介绍

有关于MongoDB的资料如今较少,且大多为英文站点,以上内容大多由笔者翻译自官网,请翻译或理解错误之处请指证.之后笔者会继续关注MongoDB,并翻译“Developer Zone”和“Admin Zone”的相关内容,敬请期待下期内容. MongoDB是一个基于分布式文件存储的数据库开源项目.由C++语言编写.旨在为WEB应用提供可护展的高性能数据存储解决方式. 它的特点是高性能.易部署.易使用,存储数据很方便.主要功能特性有:*面向集合存储,易存储对象类型的数据. *模式自由.*支持动态查

史上最简单的Hibernate入门简单介绍

事实上Hibernate本身是个独立的框架,它不须要不论什么web server或application server的支持.然而,大多数的Hibernate入门介绍都加入了非常多非Hibernate的东西,比方: Tomcat, Eclipse, Log4J,Struts, XDoclet, 甚至JBoss.这easy让人产生Hibernate复杂难懂的误解,特别是打击了刚開始学习的人的积极性. 在这篇文章将不涉及Eclipse, log4j, Struts, Tomcat, XDoclet,

数据结构与算法入门-算法介绍(python版本)

//2020.02.29数据结构与算法入门(python版本)第1章 评判算法的优劣指标有哪些?课时1:算法的基本概念 1.算法Algorithm是一个计算过程,是指解决一个问题的方法.2.数据结构是指数据存储的一种结构方式,是静态的.3.程序=数据结构+算法(尼古拉斯凯奇说过的一句著名的话).课时2:时间复杂度介绍 1.估计不同算法运行的快慢方式:时间复杂度2.时间复杂度是指:用来评估算法运行效率的一个式子(单位),与电脑的配置无关,与算法的运行量无关: 3.时间复杂度的表示方法一般使用O(n

HBase系统入门--整体介绍

转自:http://www.aboutyun.com/thread-8957-1-2.html 问题导读:1.HBase查询与写入哪个更好一些?2.HBase面对复杂操作能否实现?3.Region服务器由哪2部分构成?扩展:4.HBase能否实现join操作?5.二级索引的作用是什么? 前言如今在软件开发领域,谈及大数据已经是家常便饭.笔者相信在未来几年内,大数据的运算和存储一定会成为企业关注的核心.在此普及一个概念,什么级别的数据才能称之为大数据?如果你存储在DB中的数据达到了PB或者单表过亿

Maven入门-1.介绍及搭建开发环境

####?一.Maven介绍 Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具.Maven是一个项目管理工具,它包含了一个项目对象模型?(Project?Object?Model),一组标准集合,一个项目生命周期(Project?Lifecycle),一个依赖管理系统(Dependency?Management?System),和用来运行定义在生命周期阶段(phase)中插件(plugin)目标(goal)的逻辑.所有的项目配置信息都被

u/COS-II之入门与介绍20160525

说一下刚学习uCOS的心得1)首先强调一下实时操作系统(RTOS)的特点,最明显的是提供及时响应和高可靠性2)基于实施操作系统的应用程序设计中,其中很重要的一个概念是"任务",任务设计也就是任务函数的设计是整个整 个应用程序的基础,其他软件设计工作都是围绕来展开的3)用户任务函数中,必须包含至少一次的系统服务函数(一般是等待类的函数以便其他函数有机会得以运行),否则优 先级更低的任务将无法得到运行的机会,中断服务程序不能调用该类函数即一些等待函数,防止中断服务程序被打断4)任务函数分为