通用知识图谱VS行业知识图谱

??众所周知,知识图谱是Google于2012年提出,用来优化搜索结果。经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用。按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱。

This is why a “web” of notes with links between them is far more useful than a fixed hierarchical system…Cicles and arrows leaves one free to describe the interrelationships between things in a way that tables, for example, do not. The system we need is like a diagram of circles and arrows, where circles and arrows can stand for anything.

???????????????????Information Management: A proposal 1989 , Tim Berners-Lee

This is a pity , as in fact documents on the web describe real objects and imaginary concepts, and give particular relationships between them but we could not process them at all…

???????????????????Tim Berners-Lee, Inventor of the Web, @WWW Geneva,1994

web of Texts, Web of documents -> Web of Objects, Web of Data, Web of Things

谷歌知识图谱: Things not strings

1. 通用知识图谱

??Google所提出的知识图谱即为通用知识图谱,他是面向全领域的。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。由于它强调的是广度,因而更多的是强调实体,很难生成完整的全局性本体层的统一管理。通用知识图谱一些常见的项目如下

2.1 通用图谱案例

2.1.1 CYC

??Cyc是在1984年由Douglas Lenat开始创建。 最初的目标是要建立人类最大的常识知识库。典型的常识知识如“Every tree is a plant”等。

??Cyc知识库主要由术语Terms和断言Assertions组成。Terms包含概念、关系和实体的定义。Assertions用来建立Terms之间的关系,这既包括事实Fact描述,也包含规则Rule的描述。

??最新的Cyc知识库包含有50万条Terms和700万条Assertions。Cyc的主要特点是基于形式化的知识表示方法来刻画知识。形式化的优势是可以支持复杂的推理。但过于形式化也导致知识库的扩展和应用的灵活性不够。Cyc提供开放版本OpenCyc

2.1.2 WordNet

??WordNet是著名的词典知识库,主要用于词义消歧。WordNet由普林斯度大学认知科学实验室从1985年开始开发

??WordNet主要定义了名词、动词、形容词和副词之间的语义关系。例如名词之间的上下位关系,动词之间的蕴涵关系等。WordNet3.0已经包含超过15万个词和20万个语义关系

2.1.3 FreeBase

??[谷歌知识图谱的前身正是由众包方式构建的FreeBase,通过开源免费吸引用户贡献数据,增值的应用及技术服务收费

2.1.4 DBpedia

??DBpedia 是一个大规模的多语言百科知识图谱,可视为是维基百科的结构化版本。DBpedia 使用固定的模式对维基百科中的实体信息进行抽取,包括abstract、infobox、category 和 page link 等信息。图 2 示例了如何将维基百科中的实体“Busan”的 infobox 信息转换成 RDF 三元组。DBpedia 目前拥有 127 种语言的超过两千八百万个实体与数亿个 RDF 三元组,并且作为链接数据的核心,与许多其他数据集均存在实体映射关系。而根据抽样评测[96],DBpedia 中 RDF 三元组的正确率达 88%。DBpedia 支持数据集的完全下载。

??此外,DBPedia还与FreeBase, OpenCYC, Bio2RDF等多个数据集建立了数据链接

2.1.5 NELL

??NELL(Never Ending Language Learner, 这个名字与2030永不停歇的知识引擎有异曲同工之妙,理想是丰满的,现实是骨感的,不评价)是卡内基梅隆大学开发的知识库。NELL主要采用互联网挖掘的方法从Web自动抽取三元组知识。

??NELL的理念是:给定一个初始的本体(少量类和关系的定义)和少量本体,让机器能够通过自学习的方式不断的从Web学习和抽取新的知识。目前NELL已经抽取了400多万条高置信度的三元组知识

2.1.6 Yago

??Yago 是一个整合了维基百科与 WordNet[97]的大规模本体,它首先制定一些固定的规则对维基百科中每个实体的 infobox 进行抽取,然后利用维基百科的category进行实体类别推断(Type Inference)获得了大量的实体与概念之间的 IsA 关系(如:“Elvis Presley” IsA “American Rock Singers”),最后将维基百科的 category 与 WordNet 中的 Synset(一个 Synset 表示一个概念)进行映射,从而利用了 WordNet 严格定义的 Taxonomy 完成大规模本体的构建。随着时间的推移,Yago 的开发人员为该本体中的 RDF 三元组增加了时间与空间信息,从而完成了 Yago2[98]的构建,又利用相同的方法对不同语言维基百科的进行抽取,完成了 Yago3的构建。目前,Yago 拥有 10 种语言约 459 万个实体,2400 万个 Facts,Yago 中 Facts的正确率约为 95%。Yago 支持数据集的完全下载。

2.1.7 Wikidata

??Wikidata 是一个可以自由协作编辑的多语言百科知识库,它由维基媒体基金会发起,期望将维基百科、维基文库、维基导游等项目中结构化知识进行抽取、存储、关联。Wikidata 中的每个实体存在多个不同语言的标签,别名,描述,以及声明(statement),比如 Wikidata 会给出实体“London”的中文标签“伦敦”,中文描述“英国首都”以及图 3 给出了一个关于“London”的声明的具体例子。“London”的一个声明由一个 claim 与一个 reference 组成,claim 包括property:“Population”、value:“8173900”以及一些 qualifiers(备注说明)组成,而 reference 则表示一个 claim 的出处,可以为空值。目前 Wikidata 目前支持超过 350 种语言,拥有近 2500 万个实体及超过 7000 万的声明,并且目前 Freebase 正在往 Wikidata 上进行迁移以进一步支持 Google 的语义搜索。Wikidata 支持数据集的完全下载。

2.1.8 BabelNet

??BabelNet 是目前世界范围内最大的多语言百科同义词典,它本身可被视为一个由概念、实体、关系构成的语义网络(Semantic Network)。BabelNet 目前有超过 1400 万个词目,每个词目对应一个 synset。每个 synset 包含所有表达相同含义的不同语言的同义词。比如:“中国”、“中华人民共和国”、“China”以及“people’srepublic of China”均存在于一个 synset 中。BabelNet 由 WordNet 中的英文 synsets 与维基百科页面进行映射,再利用维基百科中的跨语言页面链接以及翻译系统,从而得到 BabelNet 的初始版本。目前 BabelNet 又整合了 Wikidata、GeoNames、OmegaWiki 等多种资源,共拥有 271 个语言版本。由于 BabelNet 中的错误来源主要在于维基百科与 WordNet 之间的映射,而映射目前的正确率大约在 91%。关于数据集的使用,BabelNet 目前支持 HTTP API 调用,而数据集的完全下载需要经过非商用的认证后才能完成。

2.1.9 ConceptNet

ConceptNet 是一个大规模的多语言常识知识库,其本质为一个以自然语言的方式描述人类常识的大型语义网络。ConceptNet 起源于一个众包项目 Open Mind Common Sense,自 1999 年开始通过文本抽取、众包、融合现有知识库中的常识知识以及设计一些游戏从而不断获取常识知识。ConceptNet 中共拥有 36 种固定的关系,如 IsA、UsedFor、CapableOf 等,图 4 给出了一个具体的例子,从中可以更加清晰地了解 ConceptNet 的结构。ConceptNet 目前拥有 304 个语言的版本,共有超过 390 万个概念,2800 万个声明(statements,即语义网络中边的数量),正确率约为 81%。另外,ConceptNet 目前支持数据集的完全下载。

2.1.10 Microsoft Concept Graph

??Microsoft Concept Graph 是一个大规模的英文 Taxonomy,其中主要包含的是概念间以及实例(等同于上文中的实体)概念间的 IsA 关系,其中并不区分 instanceOf 与 subclassOf 关系。Microsoft Concept Graph 的前身是 Probase,它过自动化地抽取自数十亿网页与搜索引擎查询记录,其中每一个 IsA 关系均附带一个概率值,即该知识库中的每个 IsA 关系不是绝对的,而是存在一个成立的概率值以支持各种应用,如短文本理解、基于 taxonomy 的关键词搜索和万维网表格理解等。目前,Microsoft Concept Graph 拥有约 530 万个概念,1250 万个实例以及 8500 万个 IsA 关系(正确率约为 92.8%)。关于数据集的使用,MicrosoftConcept Graph 目前支持 HTTP API 调用,而数据集的完全下载需要经过非商用的认证后才能完成。

2.1.11 Zhishi.me

??Zhishi.me 是第一份构建中文链接数据的工作,与 DBpedia 类似,Zhishi.me 首先指定固定的抽取规则对百度百科、互动百科和中文维基百科中的实体信息进行抽取,包括 abstract、infobox、category 等信息;然后对源自不同百科的实体进行对齐,从而完成数据集的链接。目前 Zhishi.me 中拥有约 1000 万个实体与一亿两千万个 RDF 三元组,所有数据可以通过在线 SPARQL Endpoint 查询得到。

2.1.12 Zhishi.schema

??Zhishi.schema 是一个大规模的中文模式(Schema)知识库,其本质是一个语义网络,其中包含三种概念间的关系,即equal、related与subClassOf关系。Zhishi.schema抽取自社交站点的分类目录(Category Taxonomy)及标签云(Tag Cloud),目前拥有约40万的中文概念与150万RDF三元组,正确率约为84%,并支持数据集的完全下载。

2.1.13 XLore

??XLore 是一个大型的中英文知识图谱,它旨在从各种不同的中英文在线百科中抽取 RDF 三元组,并建立中英文实体间的跨语言链接。目前,XLore 大约有 66 万个概念,5 万个属性,1000 万的实体,所有数据可以通过在线 SPARQL Endpoint 查询得到。

2.2 通用图谱特点

??通用图谱基本包含以下特点:

  • 面向通用领域
  • 以常识性知识为主
  • 形态通常为结构化的百科知识、
  • 强调的是知识的广度
  • 使用者一般是普通用户

2. 行业知识图谱

??号称“硅谷最神秘科技公司”的Palantir是行业知识图谱领域的典型代表,其软件允许客户对大量的敏感数据进行语义关联分析,以防止欺诈,确保数据安全等。17年对Palantir做个系统调研,动态本体的理念是业内应该吸收和参考的点,后续也计划对于Palantir做一个系统介绍

??行业知识图谱相对通用知识图谱拥有如下特性:

  • 面向特定领域的知识图谱。
  • 用户目标对象需要考虑行业中各种级别的人员,不同人员对应的操作和业务场景不同,因而需要一定的深度与完备性。
  • 行业知识图谱对准确度要求非常高,通常用于辅助各种复杂的分析应用或决策支持。
  • 有严格与丰富的数据模式,行业知识图谱中的实体通常属性比较多且具有行业意义。

??每个行业数据各有其特点,但通用的特点可以总结为以下四点:

  • 数据来源多:内部数据、互联网数据、第三方数据。
  • 数据类型多:包含结构化、半结构化、非结构化数据,且后两者越来越多。
  • 数据模式无法预先确定:模式在数据出现之后才能确定;数据模式随数据增长不断演变。
  • 数据量大:在大数据背景下,行业应用的数据的数量通常都以亿级别计算,存在通常在TB、PB级别甚至更多。

??行业知识图谱已经在以下很多领域有了很好的应用,下面会举一些案例进行介绍。需要说明的是通用知识图谱与行业知识图谱并不是相互对立,而是相互补充的一个关系,利用通用知识图谱的广度结合行业知识图谱的深度,可以形成更加完善的知识图谱。通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中。两者是相辅相成,可以结合使用的

2.1 行业知识图谱案例

2.1.1金融行业图谱

??首先看金融领域,目前金融证券领域应用主要侧重于两个方面,一个是企业知识图谱,另一个是金融交易知识图谱

2.1.1.1 企业知识图谱

??企业数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据等。

??利用知识图谱融合以上企业数据,根据交流,例如PlantData、同盾等都做了企业知识图谱,并在企业知识图谱之上利用图谱的特性,针对金融业务场景研发了一系列的图谱应用,需要强调的是技术无罪,合法合规。

??以下6大功能为常用的企业知识图谱应用。

??1)企业风险评估

??基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据,利用图计算等方法构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。

??2)企业社交图谱查询

??基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。

??3)企业最终控制人查询

??基于股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门。

??4)企业之间路径发现

在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。

??5)企业之间路径发现

??基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程。

??6)企业之间路径发现

??用户可以通过输入自然语言问题,系统直接给出用户想要的答案。

2.1.1.2 金融交易知识图谱

??金融交易知识图谱在企业知识图谱之上,增加交易客户数据、客户之间的关系数据以及交易行为数据等,利用图挖掘技术,包括很多业务相关的规则,来分析实体与实体之间的关联关系,最终形成金融领域的交易知识图谱。

??有了这样一个交易知识图谱之后,可以支持如下的应用

??1) 辅助信贷审核

??基于知识图谱数据的统一查询,全面掌握客户信息;避免由于系统、数据等孤立造成的信息不一致造成信用重复使用、信息不完整等问题。

??2) 反欺诈

??不一致性验证可以用来判断一个借款人的欺诈风险,类似交叉验证。比如借款人A和借款人B填写的是同一个公司电话,但借款人A填写的公司和借款人B填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。

??组团进行欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。如下图可以看出贷款人A、B和C之间没有直接的关系,但通过知识图谱可以很容易的看出这三者之间都共享着某一部分信息,存在一定的组团骗贷风险。

??3) 其他

  • 异常分析(异常交易、异常客户)
  • 失联客户管理
  • 精准营销

    ……

2.1.2 医疗知识图谱

??知识图谱与医疗数据的结合形成医疗知识图谱,医疗数据包括:医疗专业知识、医疗文献、医疗常识、电子病历大数据、医案、现有医疗资源、疾病库、指南与规范。

行业内比较知名的应用和项目如下

2.1.3.1 中医药知识平台

??中医药知识平台(http://www.tcmkb.cn)是一个针对中医药知识体系系统梳理、建模和展示的平台,它以图形可视化方式展示核心概念之间的关系,辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。

??其优势在于与阅读文献等手段相比,可大幅度节约知识检索获取时间。

2.1.3.2 Open PHACTS

??欧盟重大联合攻关项目,面向药物研发的开放数据访问平台,其核心就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持

2.1.3.3 Watson

??IBM 的 Watson 机器人已经在医院里辅助医生对病人进行医疗诊断。安德森癌症中心联合IBM Watson开展终结癌症的任务,其底层核心就是用了知识图谱相关技术。

2.1.3 其他行业知识图谱

??知识图谱在许多其他行业也有应用,这里篇幅有限,我们仅列出方向及应用点。

  • 农业
  • 识别作物危害
  • 政府行业
  • 政府大数据管理
  • 客服系统
  • 基于知识图谱的智能客服系统

    ……

2.2 行业图谱特点

??对比通用图谱,行业图谱一般包含以下特点:

  • 面向某一领域
  • 基于行业数据构建
  • 强调知识的深度
  • 强调知识的可靠性
  • 潜在使用人员是行业人员

参考文献

[1] 知识图谱研究进展

[2] 行业知识图谱构建与应用

[3] 知识图谱方法、实践与应用

原文地址:https://www.cnblogs.com/TaoOrigin/p/12207836.html

时间: 2024-11-05 21:43:38

通用知识图谱VS行业知识图谱的相关文章

NLPIR搭建行业知识图谱实现智能客服应用

近几年,随着人工智能技术的深入发展及在各行各业加快落地化部署,客服行业已逐渐成为了人工智能技术众多落地应用中的重点应用场景.不少企业已经采用了智能客服机器人来替代大部分人工客服,并组建了智能化客服系统,由原来的大量人工客服模式转变为智能客服机器人+少量人工客服模式.智能客服机器人能全渠道连接客户,覆盖与客户接触的各类渠道,支持网页.QQ.H5.APP.微信公众号.微博等在线沟通,具备PC端和移动端全面接入能力,全方位连接并随时响应客户沟通需求.智能客服特点:24小时秒级响应,自动化智能回复解答客

去哪里学习行业知识?

得益于toC市场的快速发展和各种细分行业领域的平台建设者们,现在想学习行业知识要比以前方便太多了.如果想在几天时间内快速对一个行业有个粗浅的了解,有这么一些手段: 知乎.可以在短短一个话题下面看到投资人.学者.管理者.执行者不同的看法,经常有人推荐一些行业细分的专家和论坛. 专家.论坛.如果想进一步深入了解,根据上面步骤找到推荐的专家或论坛,经常会找到一些比较系统的书籍.经验分享,一般都会有专业化运作的微博.微信公众号,看看更新频次,也能对这个行业的发展情况有个大致的了解.有些行业专家还会开一些

让人迷茫的三十岁,从专业技能、行业知识和软实力的人才三角谈起

  --------我今年三十岁,我很迷茫,不知道未来该选择什么发展方向. 一.背景 这是我无意中在社区微信群中看到的一位年轻的开发者说的话,之前他也经常会在技术群中抛出一些有深度有内容的问题,并能积极乐观的进行问题思考和探寻技术解决方案,有时候可能会错误的以为他这样一位热爱学习的开发者,在公司也一定是技术的引领者,对自己的职场规划有着清楚的认识. 所以他抛出这样的问题着实有点意外,不过细想之后,或许也属实正常是.对于30岁左右的开发者来说,从20出头的毛头小伙,逐渐成长为家庭和公司的顶梁柱,如

Atitit 如何设置与安放知识的trap陷阱  知识聚合 rss url聚合工具 以及与trap的对比

Atitit 如何设置与安放知识的trap陷阱  知识聚合 rss url聚合工具 以及与trap的对比 1.1. 安放地点 垂直知识网站csdn cnblogs等特定频道栏目,大牛博客 1 1.2. 如何捕获英文知识 使用推酷等聚合网站..以及到英文站点rss捕获 1 1.3. rss url聚合工具 atiplat_spider 1 1.4. Atiitt捕猎打猎工具---mini陷阱 捕鱼工具trap 瓶子 1 1.5. str(gle sejyi等) 2 1.6. 小河石头搞个ho sh

Google为知识图添加健康知识,搜索结果将直接回答健康相关问题

Google 的官方博客今天刊登了产品经理 Prem Ramaswami 的文章,称搜索巨头已为其知识图(Knowledge Graph)添加了更多的医疗保健知识,几天后用户搜索医疗相关问题时将可以获得直接回答. 人生有很多要素,包括金钱.地位.财富.事业.家庭.子女等等,但是在所有这些要素里面,健康是1,其余一切都是0,有了健康,其他的 0 才有意义,没了健康,其余一切都归0.这一点在 Google 的搜索里面也有所体现,每 20 次搜索中就有 1 次搜索是与健康相关的. 但是按照 Prem

联想也杀入知识共享,行业又要大变天?

日前,联想推出了国内首家IT科技领域知识问答平台——知了问答,已正式上线接受用户的“检验”,随后联想股票也随之大涨.联想这类IT巨头杀入知识共享,足见这个市场的巨大潜力所在.自从共享经济席卷了整个国内市场后,各类平台已在交通出行.房屋短租等领域展开了激烈的竞争,知识共享市场也不甘于风平浪静,随着联想这类巨头的加入,整个知识共享格局又将迎来新的变化. 我们将知识共享经济平台分为两种类型,一类是以分答.知乎live为代表的泛娱乐化综合平台:一类是以联想知了问答为代表的专业垂直知识共享平台.那么,知识

H.264行业知识

H.264 是MPEG-4标准所定义的最新格式,代表最新技术水平的视频编码格式之一,有的也称AVC.H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5-2倍.与MPEG-2和MPEG-4 ASP等压缩技术相比,H.264压缩技术将大大节省用户的下载时间和数据流量收费.尤其值得一提的是,H.264在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少

【基础知识】环形变压器基础知识及问答(1)

一.电源变压器的基本参数: 1.额定功率:是指变压器工作时的最大负载功率,是在规定的频率和电压下,变压器长期工作,而不超过规定温升的输出功率. 2.额定电压:指在变压器的线圈上所允许施加的电压,工作时不得大于规定值. 3.电压比:指变压器初级电压和次级电压的比值,有空载电压比和负载电压比的区别,空载是指变压器没有接任何电器时的状态,负载是指通电时变压器有连接电器使用的状态,空载电压都会比负载电压大. 4.工作频率:变压器铁芯损耗与频率关系很大,所以应根据使用频率来设计和使用,这种频率称工作频率.

2016年4月26日作业(项目整体绩效评估、信息安全相关知识、信息工程监理知识)

一.项目整体绩效评估1.三E审计是什么的合称?(记)P524 答:绩效审计(三E审计)是经济审计.效率审计和效果审计的合称,因为三者的第一个英文字母均为E,故称三E审计.2.霍尔三维结构是从哪三个方面考察系统工程的工作过程的?P528 答:从逻辑.时间.知识三方面考查系统工程的工作过程.3.投资回收期的公式?(记,并理解) 答:投资回收期公式为:(累计净现金流量开始出现正值的年份数)-1+(上年累计净现金流量的绝对值/当前净现金流量).二.信息安全相关知识1.在三安系统三维空间示意图中,X,Y,