最大熵依存句法分析器的实现

这是一个判别式汉语句法分析器的Java实现，基于最大熵模型和最大生成树模型，实现了中文依存句法的自动分析，在封闭测试集（取自训练集）上取得了99.20%的准确率（UA），分析速度达到 570.7句/秒。判别式的分析方法该方法采用条件概率模型，将所有依存关系概率的累积作为目标函数的score，取score最大的依存关系树作为输出。最大生成树模型最大生成树模型(maximum spanning trees, MST) 定义整棵句法树的打分是树中各条边打分的加权和：s 表示打分值，y 是句子x 的一棵依...

继续阅读：码农场 » 最大熵依存句法分析器的实现

原文链接：http://www.hankcs.com/nlp/parsing/to-achieve-the-maximum-entropy-of-the-dependency-parser.html

时间： 2024-10-20 14:41:34

最大熵依存句法分析器的实现的相关文章

生成式依存句法分析器的简单实现

生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵.句法分析中,生成模型的构建主要使用三类信息:词性信息.词汇信息和结构信息.前二类很好理解,而结构信息需要特殊语法标记,不做考虑.本文主要利用了词汇+词性生成联合概率模型,使用最大生成树Prim算法搜索最终结果,得到了一个简单的汉语依存句法分析器.基本思路统计词语WordA与词语WordB构成依存关系DrC的频次,词语WordA与词性TagB构成依存关系DrD的频次,词性TagA与词语WordB构成依存关系DrE的频

转：NLP+句法结构（三）︱中文句法结构（CIPS2016、依存句法、文法）

NLP+句法结构(三)︱中文句法结构(CIPS2016.依存句法.文法)转自:https://www.cnblogs.com/maohai/p/6453389.html 摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P8 -P11 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj.bcebos.com/cips2016.pdf 一.依存句法分析依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的

parsing:NLP之chart parser句法分析器

完整代码实现放在我的github上:click me 一.任务要求实现一个基于简单英语语法的chart句法分析器. 二.技术路线 ????????采用自底向上的句法分析方法,简单的自底向上句法分析效率不高,常常会重复尝试相同的匹配操作(回溯之前已匹配过).一种基于图的句法分析技术(Chart Parsing)被提出,它把已经匹配过的结果保存起来,今后需要时可直接使用它们,不必重新匹配.(动态规划) chart parsing的数据表示: p图(chart)的结点表示句子中词之间的位置数字 p非

HanLP自然语言处理包开源（包含源码）

支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析.CRF依存句法分析).提供Lucene插件,兼容Lucene4.x. HanLP: Han Language Processing 汉语言处理包 HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用.HanLP

word2vec skip-gram系列2

CBOW和Skip-gram模型 word2vec有两个模型,分别是CBOW和Skip-gram模型.这两个模型又都可以有两种优化方法.分别是 Hierarchical Softmax与Negative Sampling .所以实现word2vec有四种方式: 2013年末,Google发布的word2vec引起了一帮人的热捧.在大量赞叹word2vec的微博或者短文中,几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力了".但实际上,简单

中文句子相似度之計算與應用

原文:http://www.aclweb.org/anthology/O05-1008 中文句子相似度之计算与应用郑守益梁婷国立交通大学信息科学系摘要近年來受惠于国内外各项语料库资源的建置及网际网路上的大量中文语料,使计算机语文辅助教材的涵盖层面日趋广泛.因此如何产生大量且具高质量之辅助教材日益受到许多自然语言处理研究者的重视.有鉴于此,本論文提出以中文句子相似度为基础的研究与应用.相似度的计算乃考虑句子的组合及聚合性.我们实作此一应用,并提出解决未知词的语意计算问题的方法.实验结果显示

最大熵模型

我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险.在信息处理中,这个原理同样适用.在数学上,这个原理称为最大熵原理(the maximum entropy principle). 让我们看一个拼音转汉字的简单的例子.假如输入的拼音是"wang-xiao-bo",利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字"王小波"和&quo

cs224n第六讲依存分析

1.句法结构:成分结构和依存结构两种角度的语言结构: 句子成分语法=短语结构语法=上下文无关语法 Constituency = phrase structure grammar = context-free grammars(CFGs) 依存句法结构(找到词之间的依赖关系,或者说是修饰关系,一般用箭头来表示) Dependency structure 依存句法的难点:依附的语义模糊性标注型数据的发展:通用依存树库的建立,给自然语言处理的工作带来很多方便 2.依存句法结构依存语法和依存结构

自然语言分析工具Hanlp依存文法分析python使用总结（附带依存关系英文简写的中文解释）

最近在做一个应用依存文法分析来提取文本中各种关系的词语的任务.例如:text='新中国在马克思的思想和恩格斯的理论阔步向前': ps:这里马克思和恩格斯原来我是用的毛zd和邓xp,但是系统说这两个名字违规了........我很爱国的好不好!!!!!! 我需要提取这个text中的并列的两个关系,从文中分析可知,"马克思的思想"和"恩格斯的理论"是两个并列关系的短语,所以想要将其提取出来: 首先大致了解一下依存文法分析的前提条件,将句子分词并进行词性标注,这一步非常关键

猜你喜欢

Linux中查看文件命令

cat命令:查看文件内容例如:cat -n /etc/passwd 查看passwd文件并且加行号 cat -b /etc/passwd 查看passwd文件空行不加行号 cat -ns /et ...

总结一些PHP文件函数有哪些

简单整理一些PHP的操作文件常用函数: filetype() 获取文件类型函数 is_dir() 判断给定的文件名是否是一个目录 is_executable() 判断给定文件是否是可执行 is_fi ...

3-5-表达式求值-栈和队列-第3章-《数据结构》课本源码-严蔚敏吴伟民版

课本源码部分第3章栈和队列 - 表达式求值 ——<数据结构>-严蔚敏.吴伟民版源码使用说明链接??? <数据结构-C语言版>(严蔚敏,吴伟民版)课本源 ...

怎么给qt程序添加版本信息

windows下的可执行文件的属性中有版本这个信息,她含有版本信息,描述,版权等等.对于qt的程序,要含有这样的信息,该怎么办呢?那就如下操作吧:新建***.rc文件,在rc文件填入下的信息 #if ...

课下作业——评价输入法

我用的是百度输入法,下面从从用户界面.记住用户选择.短期刺激.长期使用的好处坏处.不要让用户犯简单的错误五个方面来介绍这个输入法. 一.用户界面 1.输入界面:默认界面简约大方,也可以自定义皮肤: 2 ...

C语言实现IP地址合法性检测和子网匹配

#include <stdio.h> #include <stdlib.h> #ifdef WIN32 #include <Winsock2.h> #else #i ...

翻转字符串

代码: class Solution {public: /** * @param s : A string * @return : A string */ string reverseWords(st ...

hadoop 分片与分块，map task和reduce task的理解

分块:Block HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB.与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是, ...

Set 基本用法 ES6提供了新的数据结构Set.它类似于数组,但是成员的值都是唯一的,没有重复的值. Set本身是一个构造函数,用来生成Set数据结构. var s = new Set(); [2, ...

常用颜色RGB灰度值

常用颜色RGB.灰度值. 128/0/0 深红 255/0/0 红 255/0/255 粉红 255/153/204 玫瑰红 153/51/0 褐色 255/102/0 桔黄 255/153/0 浅桔 ...

UVA11401-Triangle Counting-递推

给出一个数字n,计算从1到n能组成几个不同的三角形. n的范围是10^6,大概就是递推吧.从F[i-1]到F[i]可以线性求出.要注意结果超出int. #include <cstdio> ...

  乡村里难忘的故事

前题感言一方净土,净壤盖着富有肥沃的土层,曾经老子有句俗话:"一方净土,造就四方贤为圣人."也就是简括为:道法自然,无为而治.""道"也就是&quo ...

小心地放在左边口袋的

他身上,几乎就与这夜融在了一起. 只见那人身前的地面上,黑黑的一滩疑似血迹,应是伤得不清.壮了壮胆子,既然已经算是见义勇为了,总不能就到这里止步吧,于是略一迟疑就走上了前. 2.夜太黑在确定此人不存 ...

Window 上安装Node.js

1.Windows安装包下载地址 https://nodejs.org/en/ 2.下载好后,按照默认设置即可,安装路径可以更改 3.安装好后,检测PATH环境变量是否配置了Node.js 点击开始= ...

C#第五单元的项目打印购物单

人生的坚持,学习的坚持,尽管遭遇困苦,但是我们却能在一次次的苦难中成长,重新爬起来.这就是奋斗的人生.就是挥洒自己青春,汗水的有意义,有价值的生活.而,我虽然在平凡的人群中不起眼,可是每个人却闪耀着自 ...

《BI项目笔记》创建时间维度（2）

创建步骤: 序号选择的属性重命名后的名称属性类别 1 DateKey DateKey 常规 2 Month Key Month Key 月份 3 English Month Name Eng ...

JQuery实现radio、select、checkbox禁用

<script>$(document).ready(function(){  var input = $("#appDIV" ...

Apache Commons-logging使用实例

本文将介绍如何在程序中使用Apache Commons-logging author: ZJ 07-3-17 Blog: [url]http://zhangjunhd.blog.51cto.com/[ ...

gdb 学习

http://www.cnblogs.com/TianFang/archive/2013/01/21/2869474.html http://www.cnblogs.com/evasnowind/ar ...

OC 对象调用属性（成员变量）和方法

1.成员变量可以理解为所有在类的头上声明的,无论是@interface.@implementation下用大括号括起来或者是用@property声明的变量都可以称作这个类的成员变量,只是在@impl ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.