知识图谱表示

概念:

知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。

表示方法:传统+向量

传统的知识图谱表示方法是采用OWL、RDF、RDFS(改进)等本体语言进行描述;

RDF:(Resource Description Framework,资源描述框架)

RDF由节点和边组成,节点表示实体/资源、属性,边则表示了实体和实体之间的关系以及实体和属性的关系,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。简单来说,就是表示事物的一种方法和手段。RDF形式上表示为SPO三元组,资源——关系——资源。

表示方法一:

表示方法二:N-Triples表示

<http://www.kg.com/person/2> <http://www.kg.com/ontology/chineseName> "川普"^^string.
<http://www.kg.com/person/2> <http://www.kg.com/ontology/position> "美利坚第45任总统"^^string.
<http://www.kg.com/person/2> <http://www.kg.com/ontology/wife> "梅拉尼娅-特朗普"^^string.
<http://www.kg.com/person/2> <http://www.kg.com/ontology/nation> "USA"^^string.
<http://www.kg.com/person/2> <http://www.kg.com/ontology/age> "72"^^int.
<http://www.kg.com/person/2> <http://www.kg.com/ontology/belongparty> <http://www.kg.com/Party/2018>.
<http://www.kg.com/party/2018> <http://www.kg.com/ontology/name> "republic"^^string.
<http://www.kg.com/party/2018> <http://www.kg.com/ontology/fonder> "汉尼巴尔·哈姆林"^^string.
<http://www.kg.com/party/2018> <http://www.kg.com/ontology/born> "1854"^^data.

@prefix person: <http://www.kg.com/person/> .
@prefix party: <http://www.kg.com/party/> .
@prefix : <http://www.kg.com/ontology/> .

person:1   :chineseName "川普"^^string;
           :position "美利坚第45任总统"^^string;
           :wife "梅拉尼娅-特朗普"^^string;
           :nation "USA"^^string;
           :age "72"^^int;
party:2018 :name "汉尼巴尔·哈姆林"^^string;
           :born "1854"^^data.

RDFS:(RDF Schema)

RDFS在RDF的基础上定义了类(class)、属性(property)以及关系(relation)来描述资源,并且通过属性的定义域(domain)和值域(range)来约束资源。RDFS在数据层(data)的基础上引入了模式层(schema),模式层定义了一种约束规则,而数据层是在这种规则下的一个实例填充。

 

OWL:(Web Ontology Language,网络本体语言)

OWL是对RDFS关于描述资源词汇的一个扩展,OWL中添加了额外的预定于词汇来描述资源,具备更好的语义表达能力。在OWL中可以声明资源的等价性,属性的传递性、互斥性、函数性、对称性等等,具体见OWL的词汇扩展。

向量Embedding:TranE、TranH、TranM等

随着深度学习的发展与应用,我们期望采用一种更为简单的方式表示,那就是【向量】,采用向量形式可以方便我们进行之后的各种工作,比如:推理,所以,我们现在的目标就是把每条简单的三元组< subject, relation, object > 编码为一个低维分布式向量。

TranE:

将每个三元组实例(head,relation,tail)中的关系relation看做从实体head到实体tail的翻译,通过不断调整h、r 和 t(head、relation和tail的向量),使(h + r) 尽可能与 t 相等,即 h + r = t

TransE 是基于实体和关系的分布式向量表示,由 Bordes 等人于2013年提出,受word2vec启发,利用了词向量的【平移不变现象】。

例如:C(king)−C(queen)≈C(man)−C(woman)   其中,C(w)就是word2vec学习到的词向量表示。

TransE 定义了一个距离函数 d(h + r, t),它用来衡量 h + r 和 t 之间的距离,在实际应用中可以使用 L1 或 L2 范数。在模型的训练过程中,transE采用最大间隔方法,最小化目标函数,目标函数如下:

其中,S是知识库中的三元组即训练集,S’是负采样的三元组,通过替换 h 或 t 所得,是人为随机生成的。γ 是取值大于0的间隔距离参数,是一个超参数,[x]+表示正值函数,即 x > 0时,[x]+ = x;当 x ≤ 0 时,[x]+ = 0 。算法模型比较简单,梯度更新只需计算距离 d(h+r, t) 和 d(h’+r, t’)。

缺点:

虽然TransE模型的参数较少,计算的复杂度显著降低,并且在大规模稀疏知识库上也同样具有较好的性能与可扩展性。但是TransE 模型不能用在处理复杂关系上 ,原因如下:以一对多为例,对于给定的事实,以姜文拍的民国三部曲电影为例,即《让子弹飞》、《一步之遥》和《邪不压正》。可以得到三个事实三元组即(姜文,导演,让子弹飞)、(姜文,导演,一步之遥)和(姜文,导演,邪不压正)。按照上面对于TransE模型的介绍,可以得到,让子弹飞≈一步之遥≈邪不压正,但实际上这三部电影是不同的实体,应该用不同的向量来表示。多对一和多对多也类似。

TranH:

TranH为了解决TranE一对多的问题:

把h和t 投影到一个超平面,得到投影向量h,r⊥,然后关系作为在这两个投影向量之间的平移。
对于每一种关系都要训练出一个超平面和与之对应的关系r,参数量有所增加。

TranR:

TransR 认为实体空间和关系空间应该是不同的。
实体 h 和 t 映射到关系空间中再做这种平移变换。

对于每一个关系有一个与之对应的r和 Mr

摘抄:

https://blog.csdn.net/baijinswpu/article/details/81185965

https://blog.csdn.net/weixin_40871455/article/details/83341561

https://blog.csdn.net/OCR207208207208/article/details/93490339

原文地址:https://www.cnblogs.com/Lee-yl/p/11986513.html

时间: 2024-10-07 11:22:33

知识图谱表示的相关文章

Atitit &#160;补充说明 sql知识图谱与线路图attilax总结补充说明

Atitit  补充说明 sql知识图谱与线路图attilax总结补充说明 1. 常见编程语言的分类  :命令式语言.函数式语言.逻辑语言1 1.1. 按照编程语言的代际划分,又2gl,3gl,4gl,5gl   ,sql属于4gl1 1.2. 按照领域范围可分为通用语言与dsl领域特定语言,sql语言属于dsl1 2. 如何判断一门编程语言完备不完备,为什么脚本语言往往不完备?1 2.1. Sql语言又多少内置函数?2 2.2. Sql语言中的变量与数据结构,很多是表和视图一类复合结构2 2.

技术人,为什么需要构建知识图谱

这个时代,信息极大丰富,人每时每刻都被各种各样的知识.信息轰炸着.如何有效的选择对自己有价值的知识,如何构建一个独属于自己的知识体系并让它为自己创造价值,变得越来越重要.只有知识经过了你的选择和应用,内化为自己的隐性经验,纳入到你的知识体系中,才能真正地为你创造财富. 怎样才能建立自己的知识体系呢? 选择方向,设定目标 学习.实践.输出.内化 同主题扩散 运用工具整理记录知识图谱 迭代与更新知识图谱 有目标,才有知识体系 如果只能选择一个方向,你希望在什么方向上做到出类拔萃? 对这个问题的思考,

搜索引擎和知识图谱那些事 (上).基础篇

这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理.发展经历和应用等知识.希望文章对你有所帮助~如果有错误或不足之处,还请海涵.(参考资料见后) 一. 搜索引擎 (一).搜索引擎的四个时代 根据张俊林大神的<这就是搜索引擎>这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代: 1.史前时代:分类目录的一代 这个时代成为"导航时代",Yahoo和国内hao123是这个时代的代表.通过人工搜集整理,把属于各个类别的高质量网站或网页分类,用户通过分级目录来查找

程序员进阶路上不能错过的史上最全技术知识图谱秘籍

今天在技术大海中游啊游游啊游,哇啊哈哈 ^_^发现了一份非常有用的超级技术图谱诶! 强烈推荐啊!!本文原作者是易宝支付技术经理/架构师李艳鹏,这是鹏哥多年来积累和收集的技术知识技能图谱,有的是鹏哥原创总结的最佳实践,有的是小伙伴们的分享. 其实,每个秘籍图谱里面的内容都是互联网高并发架构师应该了解和掌握的知识.鹏哥索性就把这些图谱都收集在一起,并且进行了归类,便于大家查找和学习.图谱也暗含着他的一个小目标:想把更多的技术图谱和思维导图汇集在一起,成为互联网上“最全的技术图谱”. 这份技术知识图谱

程序员不能错过的技术知识图谱,进阶路上必备神器。

本文转载自李亚鹏 本文是鹏哥多年来积累和收集的技术知识技能图谱,有的是鹏哥原创总结的最佳实践,有的是小伙伴们的分享. 其实,每个秘籍图谱里面的内容都是互联网高并发架构师应该了解和掌握的知识.鹏哥索性就把这些图谱都收集在一起,并且进行了归类,便于大家查找和学习. 暂把标题定为:"史上最全的技术知识图谱秘籍",暗含着鹏哥的一个小目标:想把更多的技术图谱和思维导图汇集在一起,成为互联网上"最全的技术图谱". 这份技术知识图谱秘籍真的很棒,场主极力推荐分享给身边的技术人儿.

机器学习知识图谱

引言:人类的未来就是失控,就是人与机器共生.共存.机器越来越人性化, 人越来越机器化.<失控>这本书,主要就体现了这一思想.本文选自<全栈数据之门>一书. 琅琊榜首,江左梅郎,得之可得数据科学之天下. 电视剧<琅琊榜>是一部良心好剧,精心制作的剧情,外加画面精美和台词的古典韵味,说其是一部男人的宫斗剧也不假,但更是一部数据分析的作品.其中,最让人感到神奇的是琅琊阁中神奇的情报分析中心,简直就是 一整套完整的数据分析流程,采集江湖与朝廷上重要人物.事件的信息,放到一个大的

【翻译】知识图谱介绍:事物,而非字符串

翻译辛格尔博士对知识图谱的介绍,原文链接:https://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html?hl=zh_CN 搜索,大多与发现--人类基本对学习和拓宽其视野的需求--有关.但对用户而言,进行搜索仍然需要大量困难的工作.因而今天我非常兴奋地推出知识图谱,它将更快.更容易地帮助你发现新信息. 比如搜索[泰姬陵],在过去四十年里,搜索基本上都是在匹配查询的关键词,对一个搜索引擎而言,[

知识图谱+金融

在整个技术链条中,知识图谱居于核心的地位,可以说是金融报表电子化(以XBRL 为代表)以来又一次质的飞跃.知识图谱是金融数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,是把人的经验和人脉逐步变成可重用.可演化.可验证.可传播的知识模型的方法.在系统的构造中,知识图谱弥补原有数据库的不足,把机器学习.自然语言处理.深度学习这些知识提取方法,领域词表.分类树.词向量.本体这些知识表现方法,RDF数据库和图数据库这些知识存储方法,和语义搜索.问答系统.分面浏览器这些知识检索方法粘合

小程序的10点洞见-未来知识图谱

刚看到公众号未来知识图谱一篇关于小程序的文章,感觉不错,转载一下. 1. 理想情况:以后用户的手机就是5个App+其他小程序.除了少数几个国民应用,几百万App演变成小程序. 2. 以前做APP创业,你会纠结先做安卓还是先做iOS.小程序加入后,你完全不用纠结了,先做小程序.哪怕小程序不适合,没关系,先做最小可行产品让用户体验,测试反馈,反正开发成本很小. 3. 有可能造成的权力结构演变:App式微,小程序崛起.目前很多人还看不出,不过你想想高频应用跟低频应用的比例,如果这个比例是1比99.那么

构建知识图谱,让自己更值钱

现在这个时代,信息极大丰富,知识浩如烟海,每个人每时每刻都被各种各样的知识.信息轰炸着,如何有效的选择对自己有价值的知识,如何构建一个独属于自己的知识体系并让它为自己创造价值,变得越来越重要. 泛泛地讲,知识就是财富,信息就是财富,具体到个体身上,只有知识经过了你的选择和应用,内化为自己的隐性经验,纳入到你的知识体系中,才能真正地为你创造财富. 那么,怎样才能建立自己的知识体系呢? 构建个人知识系统的一般要经历下面这些过程: 选择方向,设定目标 学习.实践.输出.内化 同主题扩散 运用工具整理记