关于wordnet的介绍很多,中英文都有,我这里主要是参考了别人的。自己组织了一下。
1.简介
1.1关于词典
Wordnet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的大型的英语词典,WordNet的开发有两个目的:
1.它既是一个字典,又是一个辞典,它比单纯的辞典或词典都更加易于使用。
2.支持自动的文本分析以及人工智能应用。
在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,这是传统词典所不具有的,WordNet最具特色之处是根据词义而不是词形来组织词汇信息,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。(一个多义词将出现在它的每个意思的同义词集合中)。
1.2 WordNet单词体系中相关概念
1.2.1一些心理学的假设
尽管名词层级的一般结构是由上下位关系(hyponymy/hypernymy)产生的,但这些知识在人脑的词库中如何表示并不清楚。我们不妨假设概念的细节是由区别特征来刻画的。例如,知更鸟(robin)是一种鸟,有颜色,会唱歌,等等;显然,我们不仅要在robin和bird之间建立起上下位关系,还需要将“颜色”(color),歌唱(singing),飞(flying)等特征跟robin关联起来。此外,robin还需要从bird那里继承一些特征,比如恒温脊椎动物(warm-blooded vertebrate),有喙(beak),翅膀(wings),羽毛(feathers),孵蛋(lay eggs),等等。为了达到上述目的,至少要考虑以下三方面的特征:
(1)属性(attributes): 是知更鸟属(redbreasted),恒温脊椎动物,
(2)部件(Parts):beak, feathers, wings
(3)功能(functions): sings, flies, lays eggs
属性的值由形容词表达。例如,“size”和“color”是 “robin”(知更鸟)的两个属性。而知更鸟的size则由形容词“small”(小)来描述;color则由形容词“red”来描述。名词由此可以看作是属性词的论元。例如 SIZE (robin) = small, COLOR (robin) = red
在WordNet中,{robin}和{red}之间不直接发生关联,而是通过{color}跟{red}之间发生关联。
friendliness(友好性)是dog的一个属性,因此我们可以说“ a dog can be friendly or unfriendly ”,但 “ stingy dog ”或“ shallow dog ”就只能解释为比喻用法。因为 generosity 和 depth 都不是 dog 的正常属性。
1.2.2 WordNet中的语义关系
WordNet中包含各种关系。
1)反义关系
反义关系(antonymy)是很难定义的一种语义关系。一个词x的反义词有时并不是非x。例如,“富有(rich)”和“贫穷(poor)”是一对反义词,但是要说某个人不富有并不意味着一定穷;许多人认为自己既不富也不穷。反义词似乎是一种简单的对称关系,实际上却是相当复杂的。反义词是一种词形间的语义关系,而不是词义间的语义关系。例如,词义{升高,上升}和{下落,下降}可能在概念上是相对的,其中[升高/下落]是反义词,[上升/下降]也是反义词。但是,如果说“升高”与“下降”与“上升”于“下落”是否是反义词,就要考虑一下了。所以有必要区分词形之间的语义关系和词义之间的语义关系。反义关系为WordNet中的形容词和副词提供了一种中心组织原则。
2)同义词
WordNet的组织方式是提供语义关系的指针,而不是罗列特征。WordNet中的名词由同义词集合(synset)组成,synset之间有指针指示它们的语义关系(上下位关系)。在WordNet中,特征信息并不是以明确的显性形式来定义上下位关系或名词的层级关系。
3)上下位关系
与同义词和反义词都是词形之间的词汇关系不同,上位关系(hypernymy)/下位关系(hyponymy)是词义之间的语义关系。例如:{樟树}是{树}的下位词,{树}又是{植物}的上位词。下位/上位关系也称为从属/上属关系,子集/超集关系,或ISA关系。如果以英语为母语接受以“An x is a (kind of) y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是下位概念和上位概念的关系。上下位关系具有某种限制,而且是一种不对称的关系。通常情况下,一个同义词集合如果有与之是下位概念和上位概念的关系的同义词集合,则也只有惟一的一个。即便是不惟一,同为上位概念的关系的同义词集合之间差别也是非常小的。这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。这样的层次表达方法,Touretzky称作继承体系,它意味着下位词继承了上位词更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。例如,“枫树”继承了其上位词“树”的属性,但却以其坚硬的木质、叶片的形状等特性区别于其他的树。这种方法为WordNet中的名词提供了一种核心的组织原则。
句子“ A pistol is more dangerous than a rifle ”(手-枪比步-枪更危险)显示的意义是可以理解的。而“ A pistol is more dangerous than a gun ” (手-枪比-枪更危险)和“ A gun is more dangerous than a pistol ”就都不好理解(Bever and Rosenbaum 1970)。很显然,语言学上,比较句中两个比较项不能是上下位关系的两个词。而这条句法规则要发挥作用,必须基于给定的名词上下位关系知识基础上。
再看一个例子,“ I gave him a good novel, but the book bored him ”容易理解,但“ I gave him a good novel, but the catsup bored him ”就让人费解。 因为词汇知识告诉我们,novel是book(有上下位关系),但不是catsup(番茄酱)。显然,要得出上述判断,也必须依赖名词之间的上下位关系。
再一个例子,一些动词的搭配选择限制也表明名词上下位关系的重要性。比如动词“drink”的直接宾语可以是 beverage (饮料)的任何一个下位词。这也暗示有关名词的上下位关系的知识应该以一种人们能够快速访问和搜索到的方式存贮。
WordNet的组织方式是提供语义关系的指针,而不是罗列特征。WordNet中的名词由同义词集合(synset)组成,synset之间有指针指示它们的语义关系(上下位关系)。在WordNet中,特征信息并不是以明确的显性形式来定义上下位关系或名词的层级关系。
4)部分关系
同义关系,反义关系和上下位关系都是比较容易理解的语义关系。另一种语义关系称为“部分-整体关系”(简记为HASA),语言学家称之为部分词(meronym)/整体词(holonym)的关系。如果以英语为母语接受以“A y is an x”或“An x is a part of y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是部分概念和整体概念的关系。部分关系也具有某种限制,且是不对称的关系,可以构造一种部分等级关系。
5)继承/蕴涵(entailment)
有些动词之间存在蕴涵关系,如snore(打鼾)蕴涵了sleep(睡觉)。“He is snoring”蕴涵了“He is sleeping”。动词之间的蕴涵关系很像名词中的meronymy(整体部分关系)。
人们接受上述事实,就可以认为这样的动词对是部分-整体关系的,如drive 是 ride的一部分;snoring 和 dreaming(做梦)是sleeping的一部分等。因为当一个人drive(驾驶)的时候,他必然是ride(乘)在交通工具上的。从时间性上讲,前一个动词必然在后一个动词发生的时段内。
最后附上一张名词语义网络的示例
6)致使语义关系(The cause relation)
这种关系连带两个动词概念,一个是因(如give),另一个是果(如have)。英语中词汇化的致使动词对的例子如:show - see(展现 - 看见)和 fell - fall (击倒 - 倒)等。
此外,WordNet包含从致使(causative)动词和及物动词,到相应的非致使动词和不及物动词的CAUSE语义关系指针。这主要出现在变化动词中。例如blacken, develop, break, shrink等。大多数非致使动词暗示了一个有生施事或无生的致使动因(如The glass door broke -- The storm/ The children broke the glass door)。少数动词只跟无生致使动因相关,如The wooden deck molded -- All that rain molded the wooden deck。比较:The house sitter molded the wooden deck是不合法的句子。致使动词也系统地出现在运动动词中,如bounce, roll, blow等等。(She blew a soap bubble in his face -- The soap bubble blew in his face)。Carter(1976)提到,致使关系是蕴涵关系中的一种特殊情形:如果V1必引起V2,则V1也就蕴涵V2。比如expel/驱逐和 leave/离开,或bequeath/遗赠和own/拥有。跟所有的蕴涵关系一样,致使关系是单向的(unidirectional)。
1.2.2 其他一些概念
下面,我们介绍WordNet名词体系中一些重要概念。
(1) 独立起始概念(Unique Beginner)
如果有一同义词集合(即概念)没有上位同义词集合(即上位概念),则称之为独立起始概念。在WordNet名词体系中,共有25个独立起始概念。其他名词通过上位/下位关系与这25个独立起始概念构成25个独立的层次结构。也就是说,标识着某个起始概念特点的属性将它的所有下位概念所继承,而这个起始概念就可以看作为是该语义领域内的所有概念(同义词集合)的一个原始语义元素。如表1所示。
表2 WordNet名词体系的25个独立起始概念
(2) 词典编撰ID(Lexicographer ID)
每一个同义词集合(synonymy set)均有惟一的一个编号,这个编号就称为词典编撰ID(Lexicographer ID)。
(3) 概念链(Concept Chain)
概念链一般的定义是这样一种结构::=(C,<),其中C代表的是概念集合,<代表概念间的下位/上位关系。也就是说概念链是由C概念集合中的概念通过概念间的上位/下位关系连接而成。
(4) WordNet名词体系中的概念链(Concept Chain)
在WordNet名词体系中,我们定义概念链(Concept Chain)如下:
L:=((C,<)<UBCi),其中UBCi表示WordNet名词体系的一个独立起始概念,C代表的是概念集合,<代表概念间的下位/上位关系。也就是说概念链是以一个独立起始概念UBCi为链首,通过概念间的上位/下位关系连接与C概念集合连接而成。同时C概念集合中的概念也是通过概念间的上位/下位关系进行连接。如图1所示。
图1展示的就是一个概念链的示意范例。小三角形代表的是词“football”。每一个小圆圈都代表WordNet中的一个同义词集合(也就是概念)。小圆圈旁边的注释就是该同义词集合的内容。注释中的数字是该同义词集合的词典编撰ID(Lexicographer ID)。这个示意范例表达的是:词“football”有两个义项,即它在两个同义词集合中出现,也就是对应图中的两个小圆圈。小圆圈之间用带箭头的线连接,表示的是小圆圈所代表的概念通过下位/上位关系联系起来,从而构成概念链。概念链的首端对应的就是WordNet中的独立起始概念。比如:概念链ch1可以表示为:(3255461)<(2681909)<(3289024)<(3174243)<(3443493)<(19244)<(2645)<(16236)<(1740)。其中(3255461)作为概念链的末端代表的是词“football”的一个义项,而(1740)是WordNet中的独立起始概念,成为概念链的首端。概念“game equipment”(3289024)是概念“ball”(2681909)的上层概念,表达的语义更抽象。
1.3 Wordnet的不足
1.WordNet并不把词语分解成更小的有意义的单位(这是义素分析法的方法);WordNet也不包含比词更大的组织单位,如脚本、框架之类的单位(这是框架语义学的方法);
2.WordNet不是在文本和话语篇章水平上来描述词和概念的语义,因此WordNet中没有包含指示词语在特定的篇章话题领域的相关概念关系。例如,WordNet中没有将racquet(网球拍)、ball(球)、net(球网)等词语以一定方式联系到一起。
3.WordNet中缺少关于词语的句法信息;
4.WordNet中缺少不同词类词语间的关系(scholar – teacher -/-teach);
5.WordNet中没有“IS-NOT-A-KIND-OF”这样的关系;
6. WordNet中没有区分“IS-A-KIND-OF”和“IS-USED-AS-A-KIND-OF”两种关系,比如,“A thrush is a bird”是前一种关系,而“An adornment is a decoration”则是后一种关系。更典型的例子也许是“Chicken is a kind of bird”和“Chicken is a kind of food”。
更多说明请参考:http://blog.chinaunix.net/uid-9631117-id-2399942.html