人物关系挖掘方案设计

背景

拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。

要解决的问题

1、识别人名:ner 命名实体识别。

2、识别两个人是有关系的;

  人名共现来说明两个人之间有关系;

  词向量计算词与词之间的相似度来说明两个人之间关系。

3、人物关系挖掘。

  两个人名满足某种依存模式,则将两个人名和关系抽取出来。

  用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注

  依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);

技术方案、基于依存句法的人物关系抽取

核心工程

模式_实例1

两人名实体同时位于主语,并列关系

例如:1914年,孔祥熙与宋霭龄于日本结婚。

利用哈工大语言云进行句法分析得到结果如下:

模式_实例2

  两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。

  例如:邓超的妻子孙俪也是著名演员。

  使用句法分析得到结果如下:

模式_实例3

  两人名实体位于宾语,修饰关系

  例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。

模式_实例4

  两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词。

  例如“子路师从孔子”

模式_实例5

  关系名为主语、人名2为宾语,这种情况时,选取谓语动词“是”作为特征词。

  例如“禹智皓的哥哥是韩国男歌手禹泰云”

训练数据

部分训练样本

金城武在经济公司的安排下师从歌手陈升
子路师从孔子
禹智皓的哥哥是韩国男歌手禹泰云
贾巴里·帕克的父亲桑尼·帕克是前NBA球员   APP
邓超的妻子孙俪也是著名演员  APP两人名实体同时位于主语,修饰关系
1914年,孔祥熙与宋霭龄于日本结婚    两人名实体同时位于主语,并列关系
他的妻子以往被认为是洪秀全的妹妹洪宣娇  两人名实体位于宾语,修饰关系
韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成
刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细

  

优化方案

  指代消解。针对那些语句中有代词情况,考虑采用指代消解方案进行优化!

   提高精准度特殊处理方式:

    1、特定关系,必须满足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷

    2、...

数据评估——衡量方法的优劣

1、大多采用准确率和召回率和F1值来衡量方法的优劣。

2、F1值为准确率和召回率的加权几何平均值,具体定义如下。

  β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。

数据评估方式

  数据标注:

    1) 先跑出一版数据,然后再数据上做正确的标注;

  评估方式:

    1) 关系挖掘数据评估;

    2) 内链数据评估;

  新闻数据评估:

     1) 近似认为与原语料相同,进行数据类挖掘;

参考资料

人物关系抽取

人物关系抽取_文库

推荐

原文地址:https://www.cnblogs.com/baochuan/p/9089515.html

时间: 2024-08-19 00:22:22

人物关系挖掘方案设计的相关文章

雍正剑侠图人物关系图(2014-11-24 更新)思海整理

雍正剑侠图人物关系图(2014-11-24 更新)网址:http://www.thinksea.com/hd/yzjxt/思海整理 http://www.thinksea.com/

基于共现发现人物关系的python实现

基于共现发现人物关系的python实现 参考链接: 提取<釜山行>人物关系, 用Python的networkx绘制精美网络图 1.共现关系 在文献计量学中,关键词的共词方法常用来确定该文献集所代表学科中各主题之间的关系.而在这里,我们需要通过分析一篇小说或剧本,来分析剧中各个角色之间的人物关系.两者有很相同的地方. 一般我们认为,在一篇文章中的同一段出现的两个人物之间,一定具有某种关联,因此我们的程序的大致流程也可以确定下来.我们可以先做分词,将每一段中的人物角色抽取出来,然后以段落为单位,统

【 D3.js 高级系列 — 2.0 】 机械图 + 人物关系图

机械图(力路线图)结合老百姓的关系图中的生活,这是更有趣. 本文将以此为证据,所列的如何图插入外部的图像和文字的力学. 在[第 9.2 章]中制作了一个最简单的力学图.其后有非常多朋友有疑问,基本的问题包含: 怎样在小球旁插入文字 怎样将小球换为别的图形 怎样插入图片 怎样限制小球运动的边界 本文将对以上问题依次做出讲解.当中前三点是 SVG 元素的问题.和 D3 无多大关联. 1. SVG 图片 SVG 的图片元素的具体讲解可看[官方文档-图片].通常,我们仅仅须要使用到图片元素的五个属性就够

人物关系网络图可视化

1.  https://www.zhihu.com/question/38777475 gephiGephi - The Open Graph Viz Platform 2.Xmind 3.

Gephi可视化西游记人物关系图

Gephi 项目网址:http://gephi.github.io/ Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具.可用作:探索性数据分析,链接分析,社交网络分析,生物网络分析等. 总之,用Gephi你可以画出很酷的图形,例如: 版权声明:本文为博主原创文章,未经博主允许不得转载.

用D3.js画的人物关系demo

### Demo1功能 *** * 支持节点拖拽 * 支持节点拖拽并固定位置 * 支持鼠标浮到节点显示节点信息 * 支持鼠标浮到节点隐藏不相关的节点及线 * 支持画布整体缩放移动 ### Demo2功能 *** * 支持节点拖拽 * 支持节点拖拽并固定位置 * 支持鼠标浮到节点显示节点信息 * 支持双击节点隐藏不相关的节点及线 可以累加双击的节点 * 支持双击画布空白处还原显示所有节点信息 * 支持画布整体缩放移动 效果预览

人地关系第一期挖掘结果校验报告与工作规划

这是15年初,在高德负责数据挖掘团队所做的人地挖掘的一份报告,后续经过几版的迭代,应该是累计国内最全的家和公司位置挖掘,已经应用在多个产品线上.过一段时间分享下具体的实现方法. 1. 摘要 人地关系的家和公司挖掘,经过三轮迭代,融合了AMap和开放平台用户数据,挖掘出来3.32亿名用户的常驻地,家和公司(截至2015-05-01).其中针对amap日活用户而言,家的总体覆盖率达到77.32%,公司的总体覆盖率达到80.17%.我们采用了两份不同样本集来对挖掘结果校验,交通订阅样本共计5269条,

在大数据分析/挖掘领域,哪些编程语言应用最多?

Tim Roy ,原来我也在这里 9 人赞同 更新一下答案—— 之前我提到用R,后来我自己也觉得有点撑不住,应该是技术不行吧.还是建议往Python方向发展. Python不局限于数据分析,还有许多其他用途,有利于拓展视野.同时如果把它作为一门入门语言,它的简洁性.严格的缩进.丰富的第三方库都能帮助初学者很好地入门. 传送一个在数据分析.挖掘方面,有哪些好书值得推荐? - 书籍推荐肖大神推荐的书籍都可以参考,其中有不少优秀教材,都是以Python作为编程工具的,比Machine Learning

中智讯-数据分析与挖掘技术实验室建设方案

中智讯(武汉)科技有限公司数据分析与挖掘技术实验室建设方案 1 实验室项目建设背景1.1 项目建设背景随着全球数据量的爆炸式增长和数据挖掘技术的发展,数据分析与数据挖掘技术正在以空前的速度产生和积累,对数据分析和数据挖掘的人才需求也快速增加.进入 2014 年,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.目前,大数据正在开启一次重大的时代转型,其影响力包括传统的金融.医疗保健.市场业.零售业.制造业.司法.工程和