<知识库的构建> 2-1 有名字的实体的识别 Named Entity Recognition

引自Fabian Suchanek的讲义。

总结:NER是为了从语料库中找到实体的名字,即要识别语料库中哪写单词使我们想读出来的。NER的实现主要有两种方法,一种是字典法,另一种是正则表达式法。传统字典法就是把entity放入字典中去找是否有对应的名字,很慢,所以后期有了新字典法,即Trie。正则部分强调了如何根据language的形态写出对应的正则。所以重点是要知道实现NER的两种方法及其优缺点及如何用正则描述language。

被命名的实体Named entity:带名字的entity

被命名实体的识别NER:在语料库中找到实体的名字

字典Dictionary(传统):一组实体名称

若该实体在字典中有,则能查找到其名称

缺点:慢

所以有了新版的Dictionary,即Trie

单词查找树Trie:一颗树状图,节点为boolean,正确或错误,边为要读的字母

我们说一个单词可以被Trie找到即:此单词中所有的字母都被Trie的根读,直至遇到一个节点,并且此节点标注True

添加字符串,那么Trie上如何添加叶子和枝:

-      若要添加的单词是KB中单词的前缀:则把新单词的末端之后的节点改为True

-      其他单词:在根处,根据新单词的字母,添加叶和枝

在实际应用中:用Trie读单词,度的过程中遇到T即可返回match

关于Tries的小tips:取消大小写,使Trie尽可能符合要读的单词,……

Trie的优缺点:

-      优点:快快快

-      缺点:

n   必须预先就有一个Trie

n   不能处理单词的变体,例如过去式,etc

n   必须进行维护以读新单词

n   不能处理无限的单词,例如名字

小练习:在一个Trie上添加单词

正则表达式 Regex

字母Alphabet:符号的集

单词 Word:一系列的符号

语言Language:单词形成的集合

小练习

L1 ={Arthur Dent, Ford Prefect, ...}                                [A-Z][a-z]+ [A-Z][a-z]+

L2 ={1900, 1901, 1982, 2013, 2017, ...}                         [0-9] [0-9] [0-9] [0-9]

L3 ={0, 1, 2, 3, 4, 5, 6, 7, 8, 9}                                           [0-9]

L4 ={a, ab, abb, bbba, aaabbab, ababa, ...}                  (a|b)+

L5 ={a, b, aa, bb, aaa, bbb, ...}                                        (a+|b+)

L6 ={a, aa, aaa, ...}                                                            (a+)

L7 ={, ab, abab, ababab, ...}                                            (ab)*

L8 ={c, ca, caa, caaa, ...}                                                   c(a)*

L9 ={, a, aa, aaa, ...}                                                          a*

补充:

L(.) = {.}       任意标志

L(a[2,4]) 要a组成所有长度2到长度为4的序列

正则的作用:定义数字,电话,HTML的标签,etc

给正则起名named regexes:最好用类似于digits,separator,pattern等的名字

正则表达式组Regex group:一系列用正则表达的式子

例如:the answer to [a-z]+, the [a-z]+ and [a-z]+

这里面包含4个正则组,3个[a-z]+,和 [a-z]+ and [a-z]+

原文地址:https://www.cnblogs.com/mengzizhao/p/8378696.html

时间: 2024-11-05 15:47:48

<知识库的构建> 2-1 有名字的实体的识别 Named Entity Recognition的相关文章

&lt;知识库的构建&gt; 3-1 被命名的实体识别分类 NERC

引自Fabian Suchanek的讲义. 总结:主要讲了NERC的四种方式, NERC Feature,NERC rules, NERC ML和statistical NERC.NERC Feature主要讲在一个窗口中,其他token可以根据三种不同的features定下自己是什么分类,从而定义主token是什么分类.NERC rules主要讲述一种建立rules来判断token分类的方法,若某个句子或某个部分中的词满足该rule中的特征,那么就可以知道主token是哪一类,当然在面对非常大

&lt;知识库的构建&gt; 4-2 实例提取 Instance Extraction

引自Fabian Suchanek的讲义. 总结:介绍了isA这种二元关系和它的应用即推理Taxonomy以得到完整的Taxonomy,再就是介绍了set expansion方法,从种子出发,找到文本中两个与种子相同的实例,就把该文本中其他的实例都添加至种子表中来逐渐的提取实例的方法,此方法也可以应用于HTML表格中. isA(X,Y) : 是一个表示XY之间的二元关系,若成立则X是Y的子集 Hearst Pattern:是一段文本,表示了isA这种二元关系 例如:Homer is a sing

&lt;知识库的构建&gt; 2-2 检测 Evaluation

引自Fabian Suchanek的讲义. 总结:有三个指数可以看出算法是否好,精确度precision,召回率recall和F1指数.所以本章重点为记忆这三种计算方式. 黄金标准Golden Standard:任务执行在语料库后我们所期待的结果 对的:output与golden standard的交集 精确度 Precision:对的/output的长度 召回率 Recall:对的/golden standard的长度 Precision和Recall的关系:二者不可能都高,一定是一高一低.

&lt;知识库的构建&gt; 3-2 条件随机场Condition Random Field

@font-face { font-family: "Cambria Math"; }@font-face { font-family: "DengXian"; }@font-face { font-family: "@DengXian"; }p.MsoNormal, li.MsoNormal, div.MsoNormal { margin: 0cm 0cm 0.0001pt; font-size: 12pt; font-family: &quo

&lt;知识库的构建&gt; 6-2 决定性 Decidability

总结:这个章节随他而去吧 可决定问题:可以回答yes或no的问题 不可决定问题:不能回答yes或no的问题 例如:这个程序是否能停止 Entscheidungs problem:半决定问题 FOL是不可决定问题 原文地址:https://www.cnblogs.com/mengzizhao/p/8383401.html

&lt;知识库的构建&gt; 5-3 马尔科夫逻辑 Markov logic

引自Fabian Suchanek的讲义. 总结:马尔科夫你需要知道这么几个点: 第一个是要知道如何形成马尔科夫随机场的条件,就是当有多个随机变量满足:Xi只由他的邻居决定,至于邻居是可以形成无向图,邻居是点,邻居和邻居的连线是边. 第二个要清楚的是Hammersley-Clifford-Theorem形成的条件,很容易,是说马尔科夫随机场里面的P都大于0的时候,这个也叫作矢量化,在CRF里面有提到,也就是当P大于0的时候,x也就是一条一条的rules,当他们成立的时候的概率等于势函数的乘积.

30 天学习 30 种新技术系列 - SegmentFault【转】

body { font-family: Microsoft YaHei UI,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5; } html, body { } h1 { font-size:1.5em; font-weight:bold; } h2 { font-size:1.4em; font-weight:bo

第二章 知识图谱——机器大脑中的知识库

第二章 知识图谱——机器大脑中的知识库 作者:刘知远(清华大学):整理:林颖(RPI) 版权所有,转载请注明出处 知识就是力量.——[英]弗兰西斯·培根 1 什么是知识图谱 在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页.从诞生之日起,搜索引擎就是这样的模式,直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案.如下图所示,当用户输

[转载] 知识图谱——机器大脑中的知识库

原文: http://book.thunlp.org/knowledge_graph/ 第二章 知识图谱--机器大脑中的知识库 Published by  liuzy on July 6, 2015 作者:刘知远(清华大学):整理:林颖(RPI) 版权所有,转载请注明出处 知识就是力量.--[英]弗兰西斯·培根 1 什么是知识图谱 在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页.从诞生之日起,搜索引擎就是这样的模式,直