大规模、高质量的金融知识图谱,如何自动化构建?

知识图谱(Knowledge Graph, KG)本质上是一种大规模语义网络,包含实体、概念及其之间的各类语义关系,目前已经成为认知智能的基石,是发展人工智能的核心技术,它让机器语言认知、可解释人工智能成为可能,能够显著增强机器学习的能力,将成为与数据驱动相并列的一种非常重要的解决问题的方式。

最近几年,以知识图谱为代表的智能化技术正在触及越来越多领域,许多企业都已将人工智能升格为企业的核心战略。目前在金融领域,知识图谱等人工智能技术也正在赋能越来越多的业务,推动金融更加智能化。

金融KG的挑战与机遇

在金融知识图谱构建的早期探索中,有人认为只有股票、期货、上市公司与金融密切相关。但是在实际应用中,几乎万事万物在某种意义下都与金融相关,比如某地区突发一场龙卷风,可能影响农作物产量,进而影响农业机械的出货量,最终影响某家生产农用发动机的上市公司股价。

类似这样的关联分析,正是我们期望智能金融实现的,而这样的深度关联分析,显然十分容易超出任何专家系统的预先设定的知识边界。因此,某种意义上,知识是普遍关联的,金融领域知识库的构建,也要面临与通用知识库相同的挑战。

此外,需求多样、规模巨大、要支撑的业务系统很庞杂、企业能够投入的资源有限等问题,在金融知识图谱的构建中也带来了一定的挑战,尤其在数据方面,一旦具体到某个特定金融场景,数据可能很稀疏,并且分布不均匀,质量低下。

不过,在金融领域数据不足的场景,往往专家知识丰富,结构化数据不多的场景,往往文本数据丰富,这些都是金融知识图谱的机遇。再加上目前深度模型丰富,各种方法并存,互联网上已经存在一些高质量图谱可以充分利用,都为图谱的构建提供了有利条件。

金融KG的构建需要大规模自动化吗?

知识图谱源于传统知识工程,在上世纪七十年代,传统知识工程主要依赖专家去描述某个领域的本体,通过人工的方式来完成知识的表达和获取。很显然,现今金融场景的数据规模非常大,需要发展数据驱动的、自下而上的自动化方法,来高效地实现图谱构建。

知识图谱的构建有三大关键要素:人——整个知识图谱构建的发起者、是数据的标注者,并且支持最终的验证;模型——现在大量采用的知识图谱构建方法,主要是机器学习的模型;数据——模型使用的是有标注数据或者无标注数据。

大规模自动化知识图谱的构建同样需要考虑到上述三要素,控制人力成本、实现大规模知识获取,同时保证知识图谱的质量,构建足够普适、轻量、廉价的知识图谱。根据目前学界的经验,可以参考以下一些基本原则。

端到端模型优于流水线方案

所谓“端到端”,就是从原始数据输入到任务结果输出,整个训练和预测过程,都是在模型里完成的。流水线(pipeline)技术是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术,相对来说容易导致错误的传播和积累,导致最后的准确率不佳。在准确率差不多的情况下,可以优先考虑采用端到端的方案,降低特征工程的人工代价,避免错误传播。

有海量数据时,无监督方法更合适

无监督方法和有监督方法的选择是有条件的,在有海量数据的情况下,无监督方法是比较合适的。近年来行业中发展了大量的无监督词汇挖掘方法,尤其在实体识别方面,目前已有不错的效果。融合多种统计特征是取得较好效果的关键,同时需要注意,特征比模型重要。

任何一个领域的智能化,往往都是从这个领域的词汇知识挖掘开始的,金融领域也应如此。这跟人的学习类似,人去了解一个新的领域,也是先学习这个领域的基本词汇,了解词汇的概念、上下位词、同意词、简称等。让机器获取词汇知识,往往需要无监督的方法,因为很多场景缺少标准数据,但是往往有充足的文本,只要文本量足够大,通过使用无监督的办法可以高效、准确地挖掘出该领域的词汇。

充分利用行为数据

知识图谱的构建,除了从文本里挖,或者从已有的关系表格里转换,还可以通过深挖用户的行为数据来构建。诸如电商、搜索等场景,有丰富的用户行为数据,这些搜索日志可以很好地帮助我们构建词汇之间的一些关系,比如搜索“Fintech”的人总是会点开金融科技相关的文档,那么“Fintech”很有可能就是“金融科技”的同义词。

很多企业内部也有搜索平台,对于知识图谱的构建同样具有价值。通过充分挖掘搜索日志等用户行为数据,挖掘词汇之间的关系,有助于知识图谱的构建。

统计模型需与符号知识结合

相比于单一的统计模型,统计模型与符号知识相结合会更加有效。金融领域有丰富的符号知识,例如专家规则等,这些知识可以帮助提升统计模型的效果。例如在给实体打标签的时候,可以初步构造出一些约束,举个简单的例子,如果xx是个人,他肯定不会是一本书;如果他是一名企业家,他肯定是个人物。这些约束的本质是符号化的知识,充分利用先验知识构造各种约束,是有效提升模型效果的关键思路。

符号知识还可以用来构造注意力机制。现在注意力对于深度学习模型来说很重要,简单地说就是打权重。比如在“她已经用苹果十年了”这句话中,当我们给“苹果”这个词打标签,“移动电话”的标签要比“水果”的标签合适。利用符号知识去构造深度模型里面的注意力机制,有助于做到真正的知识引导,使得效果更好。

间接知识引导优于直接数据驱动

深度学习模型本质上是直接数据驱动,但在一些情况下,需要先从数据中去挖掘一些pattern,再把pattern融合到深度模型中,会取得更好的效果。有的人在做关系抽取的时候,会将其建模成关系分类,但是事实上可以从语料中挖掘主题词增强输出描述,使用主题模型挖掘关系标签的相关主题词,利用主题词增强关系标签描述,从而显著提升关系抽取的准确率。

用图模型增强可解释性

图模型很普适,有非常强的表达能力,并且可解释、可控,便于调整。可解释性决定了人工智能系统的决策结果能否被人类采信。比如在金融领域的智能投资决策,即便人工智能决策的准确超过90%,但是如果系统不能给出作出决策的理由,投资经理或者用户恐怕也是十分犹豫的。

专家知识库可作为种子样本

在数据样本标注方面,如果既有专家构建的知识体系,也有自动构建的知识体系,利用专家构建的小规模知识体系作为数据驱动的种子样本,是有效降低人工标注的重要思路之一,可以降低模型构建的代价。

此外,对于实际落地来说,复合架构非常重要,比如统计+规则可以有效解决样本分布不均匀给单一模型带来的挑战;众包化验证不可或缺,因为总有一些知识正确与否的验证是要交给人类自身的;在知识图谱的更新方面,可以利用互联网热点来驱动图谱更新,因为只有互联网上的热点实体,其事实才有可能改变,冷门实体(例如秦始皇这种历史词条)一般不会发生变化。

原文地址:https://www.cnblogs.com/chenyusheng0803/p/12109839.html

时间: 2024-10-10 08:49:46

大规模、高质量的金融知识图谱,如何自动化构建?的相关文章

知识图谱研究进展

在原文<知识图谱研究进展>基础上上做了相应的调整和补充 本文首先简要回顾知识图谱的历史,探讨知识图谱研究的意义.其次,介绍知识图谱构建的关键技术,包括实体关系识别技术.知识融合技术.实体链接技术和知识推理技术等.然后,给出现有开放的知识图谱数据集的介绍.最后,给出知识图谱在情报分析中的应用案例. - 漆桂林.高桓.吴天星 东南大学计算机科学与工程学院 本文节选自<情报工程>2017 年第 1 期,知识图谱专题稿件. 1 知识图谱构建技术 ??本节首先给出知识图谱的技术地图,然后介绍

第二章 知识图谱——机器大脑中的知识库

第二章 知识图谱——机器大脑中的知识库 作者:刘知远(清华大学):整理:林颖(RPI) 版权所有,转载请注明出处 知识就是力量.——[英]弗兰西斯·培根 1 什么是知识图谱 在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页.从诞生之日起,搜索引擎就是这样的模式,直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案.如下图所示,当用户输

[转载] 知识图谱——机器大脑中的知识库

原文: http://book.thunlp.org/knowledge_graph/ 第二章 知识图谱--机器大脑中的知识库 Published by  liuzy on July 6, 2015 作者:刘知远(清华大学):整理:林颖(RPI) 版权所有,转载请注明出处 知识就是力量.--[英]弗兰西斯·培根 1 什么是知识图谱 在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页.从诞生之日起,搜索引擎就是这样的模式,直

这是一份通俗易懂的知识图谱技术与应用指南

从一开始的Google搜索,到现在的聊天机器人.大数据风控.证券投资.智能医疗.自适应教育.推荐系统,无一不跟知识图谱相关.它在技术领域的热度也在逐年上升. 本文以通俗易懂的方式来讲解知识图谱相关的知识.尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶段需要考虑的问题都给予了比较详细的解释. 对于读者,我们不要求有任何AI相关的背景知识. 目录: 概论 什么是知识图谱 知识图谱的表示 知识抽取 知识图谱的存储 金融知识图谱的搭建 定义具体的业务问题 数据收集 & 预处理 知识图谱的设计

通用知识图谱VS行业知识图谱

??众所周知,知识图谱是Google于2012年提出,用来优化搜索结果.经过多年的发展,知识图谱在人工智能的许多行业都拥有了成熟落地的应用.按照知识图谱的覆盖面来看,主要分为通用知识图谱与行业知识图谱. This is why a "web" of notes with links between them is far more useful than a fixed hierarchical system-Cicles and arrows leaves one free to d

知识图谱相关会议之观后感分享与学习总结

2015年6月27日,清华大学FIT楼多功能报告厅,中国中文信息学会青年工委系列学术活动--知识图谱研究青年学者研讨会. 由于我毕设是与知识图谱.实体消歧.实体对齐.知识集成相关的,所以去听了这个报告:同时报告中采用手写笔记,所以没有相应的PPT和原图(遗憾),很多图是我自己画的找的,可能存在遗漏或表述不清的地方,请海涵~很多算法还在学习研究中,最后希望文章对大家有所帮助吧!感谢那些分享的牛人,知识版权归他们所有. 目录: 一.面向知识图谱的信息抽取技术 二.常识知识在结构化知识库构建中的应用

知识图谱构建浅析

知识图谱应用如图所示,目前各大互联网公司已落地多个知识图谱产品,或者正在积极构建知识图谱,图谱技术成为"兵家必争"之地. 1. 什么是知识图谱? 知识图谱(Knowledge Graph)的概念由谷 歌 2012 年正式提出,旨在实现更智能的搜索引擎,并且于 2013 年以后开始在学术界和业界普及,并在智能问答.情报分析.反欺诈等应用 中发挥重要作用. 知识图谱以语义网( Semantic Web) 和领域本体( Ontology) 为其关键技术的大规模语义网络知识库. Knowled

知识图谱基础知识之三——知识图谱的构建过程

前两次介绍了知识图谱的基本概念和知识图谱的构建方式,这次介绍一个知识图谱系统的构建过程. 1 知识图谱的总体构建思路 如图所示,从原始的数据到形成知识图谱,经历了知识抽取.知识融合(实体对齐).数据模型构建.质量评估等步骤. 原始的数据,按照数据的结构化程度来分,可以分为结构化数据.半结构化数据和非结构化数据,根据数据的不同的结构化形式,采用不同的方法,将数据转换为三元组的形式,然后对三元组的数据进行知识融合,主要是实体对齐,以及和数据模型进行结合,经过融合之后,会形成标准的数据表示,为了发现新

十四,教育知识图谱的概念模型与构建方法研究

论文名称:教育知识图谱的概念模型与构建方法研究 李振,周东岱. 研究对象以知识图谱为基础,构建教育知识图谱概念模型,对其智能化构建方法进一步研究. 研究动机 知识图谱相比其他知识建模方法,能够表达更广泛的知识内容及语义关联关系,构建自动化程度高. 在知识粒度,领域适应性,构建方法方面均可深入研究. 文献综述 主要知识图谱模型理解,对构建方法深入学习研究. 对模型结构,构成要素,及要素阐述内容进行记录理解. 学习本知识图谱构建方法,及各步骤采取模型方法(条件随机场模型来完成知识元抽取,Aprior