最近对Freebase和DBpedia有点兴趣,但是不知道他的明确概念,具体用法,所以通过网上信息做一下介绍。
直接将信息框数据存入RDF(Resource Description Framework)数据。
由于单纯的使用自然语言对文档等预料进行提取的时候,得到的结实体、概念或者谓词都是相互独立的,所以从语意角度而言,不给予对得到的结果进一步使用。总结而言,
一个是资源无法关联到相关类别;二是对于一个实体的各种属性,例如汽车的engine,production这样的属性,可能语义并不明确。这也是为什么需要一个基于映射的信息框抽取。
基于映射的信息框抽取
由于信息框的多样性以及上文所讨论的,“生”数据质量有待提高,基于映射的信息框抽取被提出。
它完成了将一个Infobox对应到一个DBpedia的本体(ontology)中。其中Infobox的属性对应了 为此,常常采用另外的结构对其进行抽取和存储,这样就可以更加准确、具有语义的将Infobox的信息映射出来。
DBpedia的基于映射抽取器为了实现映射的准确性和实时性,允许用户新建和编辑,和Wikipedia的开发性相“映射”。 DBpedia同时提供了三个工具,分别是映射检验器、抽取测试器、映射工具,供用户使用。 http://mappings.dbpedia.org
URI模式
对于每一个Wikipedia中的文章,将会有一些URI与之对应。
自然语言处理抽取
DBpedia提供了关于自然语言处理的数据集,目前有四个:话题标签(topic signatures),文法类别(grammatical gender), 词汇(lexicalization),和主题概念(thematic concept)。
a)
Lexicalization:
这是为了给出DBpedia中的别名统计信息而生成的数据集。它的作用是,给定一个词语,可以判断它可能表示的所有概念,包括以这个词为名字或别名的所有概念。同时会给出一个“分数”,这个分数表示了利用这个词表示这个概念的概率。
b)
Topic signatures:
也就是给DBpedia中的每个resource(就是与Wikipedia中的网页对应的资源)制作一个话题标签,以概括这个资源所围绕的话题。这个数据集的产生过程是:
Wikipeida中出现的每个词都是一个维度,每个DBpedia中的resource被表达成一个空间向量(VSM),对应这个多维空间中的一个点。对于每个与某resource
相关的词,计算其的tf-idf的权重,然后选择出与这个resource关联最近的一些词,作为这个resource的话题标签。
c)
Thematic:
这个抽取器旨在对DBpedia中的概念确定其主题,在Wikipedia中,许多类别下都有一篇文章来交待这个类别的主题,DBpedia利用这个,标注了概念或实体的主题。
d)
Grammatical gender:
这个部分可以针对Person这个本体,进行性别分析。在从Wikipedia到DBpedia的映射中,如果出现了Person这种实体,则统计这篇文章中出现的表征性别的形容词、代词等,然后以统计的方法确定这个人的性别。
DBpedia本体
DBpedia本体目前包括了320个类别,类别之间包含层次关系,深度可以达到5,深度控制在5以内是为了便于数据的使用,比如可视化或者导航。同时有1650个不同的属性来描述这些类别。