DBpedia Introduction

最近对Freebase和DBpedia有点兴趣,但是不知道他的明确概念,具体用法,所以通过网上信息做一下介绍。

直接将信息框数据存入RDF(Resource Description Framework)数据。

由于单纯的使用自然语言对文档等预料进行提取的时候,得到的结实体、概念或者谓词都是相互独立的,所以从语意角度而言,不给予对得到的结果进一步使用。总结而言,

一个是资源无法关联到相关类别;二是对于一个实体的各种属性,例如汽车的engine,production这样的属性,可能语义并不明确。这也是为什么需要一个基于映射的信息框抽取。

基于映射的信息框抽取

由于信息框的多样性以及上文所讨论的,“生”数据质量有待提高,基于映射的信息框抽取被提出。

它完成了将一个Infobox对应到一个DBpedia的本体(ontology)中。其中Infobox的属性对应了 为此,常常采用另外的结构对其进行抽取和存储,这样就可以更加准确、具有语义的将Infobox的信息映射出来。

DBpedia的基于映射抽取器为了实现映射的准确性和实时性,允许用户新建和编辑,和Wikipedia的开发性相“映射”。 DBpedia同时提供了三个工具,分别是映射检验器、抽取测试器、映射工具,供用户使用。 http://mappings.dbpedia.org

 URI模式

对于每一个Wikipedia中的文章,将会有一些URI与之对应。

自然语言处理抽取

DBpedia提供了关于自然语言处理的数据集,目前有四个:话题标签(topic signatures),文法类别(grammatical gender), 词汇(lexicalization),和主题概念(thematic concept)。

a)

 Lexicalization: 

这是为了给出DBpedia中的别名统计信息而生成的数据集。它的作用是,给定一个词语,可以判断它可能表示的所有概念,包括以这个词为名字或别名的所有概念。同时会给出一个“分数”,这个分数表示了利用这个词表示这个概念的概率。

b)

 Topic signatures: 

也就是给DBpedia中的每个resource(就是与Wikipedia中的网页对应的资源)制作一个话题标签,以概括这个资源所围绕的话题。这个数据集的产生过程是:

Wikipeida中出现的每个词都是一个维度,每个DBpedia中的resource被表达成一个空间向量(VSM),对应这个多维空间中的一个点。对于每个与某resource

相关的词,计算其的tf-idf的权重,然后选择出与这个resource关联最近的一些词,作为这个resource的话题标签。

c)

 Thematic: 

这个抽取器旨在对DBpedia中的概念确定其主题,在Wikipedia中,许多类别下都有一篇文章来交待这个类别的主题,DBpedia利用这个,标注了概念或实体的主题。

d)

 Grammatical gender: 

这个部分可以针对Person这个本体,进行性别分析。在从Wikipedia到DBpedia的映射中,如果出现了Person这种实体,则统计这篇文章中出现的表征性别的形容词、代词等,然后以统计的方法确定这个人的性别。

DBpedia本体

DBpedia本体目前包括了320个类别,类别之间包含层次关系,深度可以达到5,深度控制在5以内是为了便于数据的使用,比如可视化或者导航。同时有1650个不同的属性来描述这些类别。

时间: 2024-10-09 12:41:44

DBpedia Introduction的相关文章

Spring AOP之Introduction(@DeclareParents)简介

Spring的文档上对Introduction这个概念和相关的注解@DeclareParents作了如下介绍: Introductions (known as inter-type declarations in AspectJ) enable an aspect to declare that advised objects implement a given interface, and to provide an implementation of that interface on be

Introduction and Basic concepts

1 Network Edge The device such as computers and mobiles connect to the Internet. So they are referred as end systems(who run the application programs) sitting at the edge of the Internet. And we use host and end system interchangeably, that is host=e

Introduction to Machine Learning

Chapter 1 Introduction 1.1 What Is Machine Learning? To solve a problem on a computer, we need an algorithm. An algorithm is a sequence of instructions that should be carried out to transform the input to output. For example, one can devise an algori

The basic introduction to MIX language and machine

reference: The MIX Computer, The MIX Introduction sets, The basic info storage unit in MIX computer is the byte, which stores positive values in the range of 0 to 63. In MIX, Byte only has 6 bytes, and the word Byte refer to MIX 6-byte. A MIX word is

PyQt5 Introduction and components

在开始写代码以前,对PyQt5整体大致了解一下还是有必要的.这方面的东西看看PyQt5官方给出的文档就好,下面就是我从文中截取的部分内容: Introduction PyQt5 is a set of Python bindings for v5 of the Qt application framework from The Qt Company. Qt is a set of C++ libraries and development tools that includes platform

[stm32参考手册] 1、Introduction

STM32F101xx, STM32F102xx, STM32F103xx, STM32F105xxand STM32F107xx advanced ARM-based 32-bit MCUs 本资料覆盖范围: 这本资料提供完整的关于上述系列STM单片机的存储器和外设的使用方法.在整个文档中(除非特别说明)是把这几类单片机归于STM32F10XXX系列的. 注:STM32F10XXX是一个包含的各种不同存储器尺寸,不同封装和不同外设的微处理器家族. 其他相关资料引导: 关于订货编号.电气和物理性

〈Effective C++〉读书笔记--Introduction

Introduction 1.Learning the fundamentals of a programming language is one thing; learning how to design and implement effective programs in that language is something else entirely. 想起<重构>里面说的一句话,写出计算机能理解的代码很容易,但是写好人能理解的代码不容易 2.A declaration tells c

[转]A plain english introduction to cap theorem

Kaushik Sathupadi Programmer. Creator. Co-Founder. Dad. See all my projects and blogs → A plain english introduction to CAP Theorem You’ll often hear about the CAP theorem which specifies some kind of an upper limit when designing distributed systems

和Keyle一起学StrangeIoc &ndash; Introduction

Strange: the IoC framework for Unity Strange attractors create predictable patterns, often in chaotic systems. 在混乱的系统中创造出一个可以预测的模式 . Introduction StrangeIoc主要用于C#与Unity3d,我们已经在IOS,Web,Android项目中成功运用,他包含了如下功能,其中大部分功能都是可选的 Strange is a super-lightweigh