观点 - 论语义网和知识图谱的区别

Q:语义网和知识图谱有区别吗?如果有,区别何在?

当下关于知识图谱的讨论越来越热烈,但是经常听到有人用“语义网”来代替“知识图谱”,或者说认为知识图谱本质上就是语义网。这种想法不无道理,我也聚德这两者很大程度上是相通的,甚至知识图谱本来本就脱胎于语义网(Google收购Freebase改造后推出Google Knowledge Graph)。然而,我个人认为语义网和知识图谱还是有区别的。

首先从两者的源流来看。

语义网是Tim Berners Lee 在1998年提出来的概念。他本人在当年W3C的《Semantic Web Road map》里面对语义网的描述是:

Machine-Understandable information: Semantic Web

The Semantic Web is a web of data, in some ways like a global database.

他的理想和1990年提出Word Wide Web的时候并没有大不同,都是整合全球的信息,让每个人都能触达每一份信息。差别是1998年的时候World Wide Web 本质是是一个全球文件系统 (global file system),因为web上的内容绝大多数都是HTML文件,以及少量的PDF、视频、音频之类的多媒体文件。他希望更进一步,把web变成一个全球数据库 (global database)。这样一来不仅每个人能得到每一份信息,而且机器也能处理这些信息(即便在今天,机器处理文本信息都是的能力都还是不如处理数据库中结构化信息的能力)。

知识图谱是Google在2012年提出来的概念。Google的做法是在自家建立了一个大型的图数据系统,把自己的信息组织成一个图谱。有了这个图数据系统,Google在搜索上的能力上升了一个台阶,最起码多了一道新的程序,而且和原本基于向量空间模型的方案很不同。有了知识图谱后,Google不仅仅能返回信息量大但密度低文档,还能返回信息量小但密度高的知识卡片。

我认为语义网和知识图谱,两者的最初的动机是不一样的。一个是开放的、共享的、全球的数据库,另一个是封闭的、排外的、自家的数据库(虽说Google的数据也是全球范围的)。目标的不同会导致方法的不同。

语义网使用的数据模型RDF和W3C制定的语义网技术栈就是围绕其开放性、共享性、全球性等特点设计的。1998年时数据库采用的主流的数据模型是关系数据模型(现在也是)。但是关系数据库的一个缺点是需要事前定义好schema,也可以认为是表结构和表关系。这就带来几个问题,最大的问题是改动起来很麻烦,当数据量极大的时候成本会很高。所以语义网采用的数据模型是RDF。RDF最初其实不是数据模型,而是一种数据交换格式,由Ramanathan V. Guha在苹果公司开发,最初名叫Meta Content Framework,后来改进成Resource Description Framework。用RDF对数据建模,不需要事先定义schema,所以也有人把RDF称作schemaless的建模语言。RDF本质上也是对实体和关系建模,首先用Unicode将数据(实体entity、关系predicate和字面量literal)编码,然后用URI唯一标识实体和关系。这样一来,一个RDF数据模型也成了一个图数据模型,各种实体通过关系链接在一起,实体又有自己属性(字面量),形成了一个网。为什么使用URI来标识?我认为这是因为语义网上的数据应该像文档一样能被访问,而文档就是通过URI访问的,于是这个传统就被应用到语义网上了。至于为什么文档用URI标识,Tim Berners Lee的原话是:

A Uniform Resource Identifier (URI) provides a simple and extensible means for identifying a resource

更多URI的好处可以查看相应的RFC文档

知识图谱呢?一说起知识图谱,人们想起的应该不是一个开放共享的全球数据库,而是一个自有的图数据系统,就好像自家的关系数据库一样。Google的知识图谱就是一个私有的图数据系统。互联网是全体使用,全体维护的(W3C之类的也是公共组织),但是Google的知识图谱是一个自家使用,自家维护的数据库。既然是自家经营、自负盈亏,而且规模也没有全球数据库那么大、功能上也不要求全世界的人自由编辑,那就可以怎么容易怎么来。想一下互联网和自家的文件系统。我们自己的文件系统可不是网状的而是树状的,标识用的是文件名而不是URI。当然我们可以把文档转化成HTML文档,把个文档连城一个网,然后放在服务器上,那么网上其他人就可以通过URI访问了。而且现在我们也不是把文档直接放在服务器目录下,而是放进数据库,需要时用后台程序从该数据库中把相应内容调出来,加上HTML模板渲染成一个HTML文档,然后发到客户端去。

所以现在工业界做知识图谱,做的都是像Google那样自家的数据库,底层可以用的是关系数据库,或者改造后的关系数据库,如postgresql,配合一些nosql的数据库。对于数据模型,目前业界采用的主流图数据模型是LPG(Labeled Property Graph)。其标准是Apache的TinkerPop。至于LPG和RDF的优劣势对比,这是一篇典型的文章,作者是Neo4j的开发者。虽然里面一些观点我很不同意,但作为思考的起点还是不错的。(PS:本人不在工业界,本段观点纯属道听途说。)

经过以上对比,我认为语义网和知识图谱不是一个东西,他们的目标和使用的技术都不一样。但既然有人把它们混在一起说,那就说明这两个东西还是很像的。事实上也确实如此,它们本质上都是图数据模型,应该都可以做(至少大部分)相同的事情。而且两者之间转换起来也很简单。Google的知识图谱就是从Freebase导入的,Freebase就是一个语义网项目,使用了RDF模型、用URI标识数据、能用SPARQL查询数据、还定义了自己的本体结构。而现行的图数据库,要把数据导出成RDF也不难,Neo4j就支持直接导出RDF数据。

如今语义网和知识图谱都很繁荣,应该都是前景不错的研究和产业方向。



本作品首发于简书博客园平台,采用知识共享署名 4.0 国际许可协议进行许可。


本文直接或间接地使用了以下著作的内容:

  1. Tim Berners Lee 《Semantic Web Roadmap》
  2. Amit Singhal 《Introducing the Knowledge Graph: things, not strings》
  3. Tim Berners Lee 《RFC3986》

    ······

原文地址:https://www.cnblogs.com/zrq96/p/10327620.html

时间: 2024-11-08 23:30:00

观点 - 论语义网和知识图谱的区别的相关文章

[期末复习]《语义网与知识图谱》期末复习(一)

上海大学<语义网与知识图谱>期末复习(一) 前言 这个课..不太喜欢.但是不能挂呀!平常的话感觉很难听得进去,因为没有任何先导课,直接上这个确实有点难受,那个老师感觉得到他想表达很多东西,但是有些东西确实表达不够明确,每节课听得都迷迷糊糊,毕竟是一个前沿的东西,如果不是一线战斗的老师,估计很多概念都很难讲清楚吧. 以上均胡扯,万一我有哪天真的用上了呢?(见鬼了). 下面复习主要集中在可能的考点复习上,均个人感觉哪里可能出题等等. 之前总结过rdf/rdfs.turtle和owl语法,所以这里前

[期末复习]《语义网与知识图谱》期末复习(二)

<语义网与知识图谱>期末复习(二) 这次老师发了个最终版的pdf帮助我们复习,那我就重来. 基本 语义web的组成:语义web信息的开放标准.从web描述信息中进一步获取语义的方法. 本体:本体是一种形式化的,对共享概念体系的明确而又详细的说明.提供一种共享词表.核心是分类体系. RDF使用有向图作为数据类型. RDF-Literals 即文本或者说是字符串,在rdf图种用方框表示. RDF表示 一个三元组包含 主语:URIs和空节点 谓语:URIs(通常被成为属性) 宾语:URIs.空节点或

典型的知识库/链接数据/知识图谱项目

典型的知识库/链接数据/知识图谱项目 2016年12月27日 Huajun 留下评论 从人工智能的概念被提出开始,构建大规模的知识库一直都是人工智能.自然语言理解等领域的核心任务之一.下面首先分别介绍了早期的知识库项目和以互联网为基础构建的新一代知识库项目.并单独介绍了典型的中文知识图谱项目. 1. 早期的知识库项目 Cyc  :  Cyc是持续时间最久,影响范围较广,争议也较多的知识库项目.Cyc是在1984年由Douglas Lenat开始创建.最初的目标是要建立人类最大的常识知识库.典型的

知识图谱文献综述(第一章)

既然决定了以知识图谱作为研究方向,文献综述是必不可少的. 本文主要总结<知识图谱发展报告(2018)-中国中文信息学会> 1. 知识图谱的研究目标与意义 (略) 2. 知识工程的发展历程 3. 知识图谱技术 人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将 人们对世界认知联系在一起的纽带.知识图谱以结构化的形式描述客观世界中概 念.实体及其关系.实体是客观世界中的事物,概念是对具有相同属性的事物的 概括和抽象.本体是知识图谱的知识表示基础,可以形式化表示为,O={C,H, P

知识图谱相关会议之观后感分享与学习总结

2015年6月27日,清华大学FIT楼多功能报告厅,中国中文信息学会青年工委系列学术活动--知识图谱研究青年学者研讨会. 由于我毕设是与知识图谱.实体消歧.实体对齐.知识集成相关的,所以去听了这个报告:同时报告中采用手写笔记,所以没有相应的PPT和原图(遗憾),很多图是我自己画的找的,可能存在遗漏或表述不清的地方,请海涵~很多算法还在学习研究中,最后希望文章对大家有所帮助吧!感谢那些分享的牛人,知识版权归他们所有. 目录: 一.面向知识图谱的信息抽取技术 二.常识知识在结构化知识库构建中的应用

语义网—RDFS

首先推荐介绍语义网基础知识书籍,<语义网技术体系> 瞿裕忠,胡伟,程龚. 2015 RDFS(Resource Description Framework Schema)是在RDF的基础上,提供了一个以"http://www.w3.org/2000/01/rdf-schema#"为命名空间的词汇表,作为用户描述特定领域中类和属性的标准.与XML Schema和XML的关系不同,RDFS只是一组特别的RDF词汇,定义了RDF数据中使用的词汇及其语义. 在RDF中,类(Clas

ADL100(1)-liukang-面向知识图谱的问答系统

1. 问答系统 定义: 根据问题(query)直接搜索出答案,而不是文档 2. 基于知识图谱的问答系统 分类: 1)语义解析(Semantic Parsing): 问句转化为形式化查询语句,结构化查询得到答案 2)语义检索(Answer Retrieval):简单搜索得到候选答案,利用问题和候选答案做相似度匹配 3. 知识问答的主要方法 1)符号语义解析 2)基于语义检索的知识图谱问答 3)神经符号计算(就是用上了神经网络,做符号生成呀,做匹配呀) 4. 语义表示 1)lambda-演算逻辑表达

搜索引擎和知识图谱那些事 (上).基础篇

这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理.发展经历和应用等知识.希望文章对你有所帮助~如果有错误或不足之处,还请海涵.(参考资料见后) 一. 搜索引擎 (一).搜索引擎的四个时代 根据张俊林大神的<这就是搜索引擎>这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代: 1.史前时代:分类目录的一代 这个时代成为"导航时代",Yahoo和国内hao123是这个时代的代表.通过人工搜集整理,把属于各个类别的高质量网站或网页分类,用户通过分级目录来查找

第二章 知识图谱——机器大脑中的知识库

第二章 知识图谱——机器大脑中的知识库 作者:刘知远(清华大学):整理:林颖(RPI) 版权所有,转载请注明出处 知识就是力量.——[英]弗兰西斯·培根 1 什么是知识图谱 在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页.从诞生之日起,搜索引擎就是这样的模式,直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案.如下图所示,当用户输