使用crf++

在example文件夹下存在4个使用crf的实例

1.在命令行执行

进入路径:./example/seg

执行:sh exec.sh

2. 在python中执行

进入路径:./python

执行:(1)python setup.py build

(2)python setup.py install

进入python解释器,import CRFPP测试是否安装成功

若出现ImportError: libcrfpp.so.0: cannot open shared object file: No such file or directory 。

解决方法:ln -s /usr/local/lib/libcrfpp.so.0 /usr/lib/

时间: 2024-10-14 17:38:31

使用crf++的相关文章

条件随机场(CRF) - 2 - 定义和形式

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了弄懂其中的内容查阅了很多资料,所以里面应该会有引用其他帖子的小部分内容,如果原作者看到可以私信我,我会将您的帖子的地址付到下面. 3,如果有内容错误或不准确欢迎大家指正. 4,如果能帮到你,那真是太好了. 书上首先介绍概率无向图模型,然后叙述条件随机场的定义和各种表示方法,那这里也按照这个顺序来. 概率无向图

java 使用CRF遇到的问题汇总

1.libCRFPP.so放在idea项目 resources下,打jar包时打在jar中. jar包工具类 /* * Class NativeUtils is published under the The MIT License: * * Copyright (c) 2012 Adam Heinrich <[email protected]> * * Permission is hereby granted, free of charge, to any person obtaining

NLP之CRF分词训练(六)

分三步1.先分词2.做BEMS标注,同时做词性标注3.训练模型 1.对语料进行分词 拿到测试部的语料或者其他渠道的语料,先对语料进行分词,我刚刚开始是用NS分词的,等CRF模型训练好后,可以直接用CRF进行分词,分完词后要人工核对分词结果,将分词分得不正确的地方修改好 2.标注词性,标注BEMS BEMS所说是中科院的提出一种标注,也有说BEIS的,hanlp用的是BEMSB:开始E:结束M/I:中间 S:单独BEMS标注已经写了一个方法generateCRF在SegAndSave.class中

HMM,MEMM,CRF模型

HMM,MEMM,CRF模型之间关系密切,需看: 参考文献: http://www.cnblogs.com/kevinGaoblog/p/3874709.html http://baike.baidu.com/link?url=3BRZ5qo58-3MaGzPqI7zWhcqNY-0xfjUf79AMDLsv1gHK2JXp2lEZ53KuL56kmJVxlT0hTydmGHXnaAnFqoy1q

机器学习实战——条件随机场(CRF)

声明:本文是在<最优化方法>课程中阅读的Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data这篇文章后的总结. CRF由来 条件随机场(CRF)这种用来解决序列标注问题的机器学习方法是由John Lafferty于2001年发表在国际机器学习大会ICML上的一篇经典文章所引入,对后人的研究起到了非常大的引领作用.特别是标注问题在很多自然科学领域有广泛应用,在自然语言处理

条件随机场(CRF)-基础

条件随机场(conditional random fields,简称 CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词.词性标注.命名实体识别等领域有较好的应用.CRF是在马尔可夫随机场的基础上加上了一些观察值(特征),马尔可夫随机场<=>概率无向图模型.本篇将首先介绍CRF的一些基础知识,然后介绍线性链条件随机场模型,关于模型的学习算法将放在第二篇中介绍,第三篇介绍CRF的应用. 1主要概念 1.1概率无向图模型 概率无向图模型是一种

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF

七月算法-12月机器学习在线班--第十八次课笔记-条件随机场CRF 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 1,对数线性模型 一个事件的几率odds,是指该事件发生的概率与该事件不发生的概率的比值. 1.1对数线性模型的一般形式 令x为某样本,y是x的可能标记,将Logistic/ Softmax回归的特征 记做 特征函数的选择:eg: 自然语言处理 1, 特征函数几乎可任意选择,甚至特征函数间重叠: 2, 每个特征之和当前的词

标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型比较&lt;转&gt;

转自http://blog.csdn.net/lskyne/article/details/8669301 路径1-1-1-1的概率:0.4*0.45*0.5=0.09 路径2-2-2-2的概率:0.018 路径1-2-1-2:0.06 路径1-1-2-2:0.066 由此可得最优路径为1-1-1-1 而实际上,在上图中,状态1偏向于转移到状态2,而状态2总倾向于停留在状态2,这就是所谓的标注偏置问题,由于分支数不同,概率的分布不均衡,导致状态的转移存在不公平的情况. PS:标注偏置问题存在于最

CRF工具包的使用

这里简要介绍一下CRF++使用的命令格式.参数调整.模板制作的基本过程. 百度经验:jingyan.baidu.com 工具/原料 CRF++ 百度经验:jingyan.baidu.com 方法/步骤 1 我下载的是CRF++0.58.zip的版本,解压. doc文件夹:就是官方主页的内容. example文件夹:有四个任务的训练数据.测试数据和模板文件.    sdk文件夹:CRF++的头文件和静态链接库.    crf_learn.exe:CRF++的训练程序.    crf_test.ex

CRF++地名实体识别(特征为词性和词)

http://x-algo.cn/index.php/2016/02/29/crf-name-entity-recognition/ 类似使用CRF实现分词和词性标注,地域识别也是需要生成相应的tag进行标注.这里使用的语料库是1998年1月人民日报语料集.最终学习出来的模型,对复杂的地名识别准确率(F值)非常低,推测是预料中对地名的标注多处是前后矛盾.例如  [华南/ns 地区/n]ns  标为地名实体,但是 东北/f 地区/n 确分开标注,类似错误还有很多.将来有时间可以考虑使用微软的词库