基于维基百科的中文命名实体关联度计算

基于维基百科的中文命名实体关联度计算（出自北方工业大学报）

基本的假设是wiki页面中每个链接都指向一个命名实体。通过链接来计算关联度。

每个维基百科页面都有唯一的标识符，命名实体关联度是指命名实体的相关性．关联度是一个数值，取值范围为（０，１）．一个命名实体与本身的关联度为１，如果两个命名实体的相关性为０，则它们的关联度为０．

论文中两个机制：重定向机制、消岐机制。

命名实体关联度计算公式

其中,ＥＮ１、ＥＮ２表示２个命名实体；

ａ表示命名实体ＥＮ１页面所含链接数；

ｂ表示命名实体ＥＮ２页面所含链接数；

ｃ表示ＥＮ１和ＥＮ２页面共现链接数；

ｗ为全部的维基页面．

时间： 2024-11-04 11:09:31

基于维基百科的中文命名实体关联度计算的相关文章

维基实体相关度计算笔记

读清华大学刘知远老师的今年的一篇IJCAI文章Representation Learning for Measuring Entity Relatedness with Rich Information. 相比词汇相似度计算,维基实体相关度计算更加挖掘维基百科语料库的特性.其相关性计算大致分为三类: 1. text-theoretic 利用维基百科语料的海量特性.通过统计的方法进行词汇表征(word representation).传统方法简单地以维基article(不知道怎么翻译合适)为基础构

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规模最大和增长最快的开放式的在线百科系统,其典型

URL 编码转换（中文->English）wiki ,Wikipedia,维基百科,PPT,PDF

wiki :URL 编码转换 (中文->English)wiki ,Wikipedia,维基百科, 1. 原始URL: https://zh.wikipedia.org/wiki/維基 2. 复制后得到的编码后的URL: https://zh.wikipedia.org/wiki/%E7%B6%AD%E5%9F%BA 1 使用微软提供的源代码,一切正常显示: PPT,pdf 1 <iframe src='https://view.officeapps.live.com/op/embed.asp

基于keras的BiLstm与CRF实现命名实体标注

众所周知,通过Bilstm已经可以实现分词或命名实体标注了,同样地单独的CRF也可以很好的实现.既然LSTM都已经可以预测了,为啥要搞一个LSTM+CRF的hybrid model? 因为单独LSTM预测出来的标注可能会出现(I-Organization->I-Person,B-Organization ->I-Person)这样的问题序列. 但这种错误在CRF中是不存在的,因为CRF的特征函数的存在就是为了对输入序列观察.学习各种特征,这些特征就是在限定窗口size下的各种词之间的关系. 将

基于深度学习做命名实体识别

基于CRF做命名实体识别系列用CRF做命名实体识别(一) 用CRF做命名实体识别(二) 用CRF做命名实体识别(三) 摘要 1. 之前用CRF做了命名实体识别,效果还可以,最高达到0.9293,当然这是自己用sklearn写的计算F1值, 后来用**conlleval.pl**对CRF测试结果进行评价,得到的F1值是**0.9362**. 2. 接下来基于BILSTM-CRF做命名实体识别,代码不是自己写的,用的github上的一个大佬写的,换了自己的数据集,得到最终的结果是0.92. 3.

开源共享一个训练好的中文词向量（语料是维基百科的内容，大概1G多一点）

使用gensim的word2vec训练了一个词向量. 语料是1G多的维基百科,感觉词向量的质量还不错,共享出来,希望对大家有用. 下载地址是http://pan.baidu.com/s/1pLGlJ7d 密码:hw47 包含训练代码.使用词向量代码.词向量文件(3个文件) 因为机器内存足够,也没有分批训练.所以代码非常简单.也在共享文件里面,就不贴在这里了.

用深度学习做命名实体识别(四)——模型训练

通过本文你将了解如何训练一个人名.地址.组织.公司.产品.时间,共6个实体的命名实体识别模型. 准备训练样本下面的链接中提供了已经用brat标注好的数据文件以及brat的配置文件,因为标注内容较多放到brat里加载会比较慢,所以拆分成了10份,每份包括3000多条样本数据,将这10份文件和相应的配置文件放到brat目录/data/project路径下,然后就可以从浏览器访问文件内容以及相应的标注情况了. 链接:https://pan.baidu.com/s/1-wjQnvCSrbhor9x3G

业务流程建模标记法(维基百科)

原文 https://zh.wikipedia.org/wiki/%E4%B8%9A%E5%8A%A1%E6%B5%81%E7%A8%8B%E5%BB%BA%E6%A8%A1%E6%A0%87%E8%AE%B0%E6%B3%95 业务流程建模标记法(BPMN, Business Process Modeling Notation)[译注1]是工作流中特定业务流程的图形化表示法.它由业务流程管理倡议组织(BPMI, Business Process Management Initiative)开发

命名实体如何进行概念消歧?

1 引言 ???????命名实体概念消歧是命名实体消歧(英语:Named Entity Disambiguation)的一个重要研究子领域(命名实体概念可见本文3.1章).什么叫概念消歧了?在这里举一个简单例子进行说明,一个命名实体"天龙八部",它有许多个不同的含义,其中有电视剧类的含义,电视剧含义有好几个,如"1997黄日华版电视剧"."1982年TVB版本电视剧"."2003年内地胡军版电视剧".""2