简单应用复旦FNLP自然语言处理工具(一)

FNLP是一个基于机器学习的中文自然语言文本处理的开发工具包,FNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。

                                                     ----------百度百科

  • 信息检索 文本分类 新闻聚类
  • 中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别
  • 结构化学习: 在线学习 层次分类 聚类

在看这篇文章之前,请确定已经装好了Eclipse,如果没有安装Eclipse,请看这里JSP环境安装

因为FNLP在Github上已经有了很详尽的入门教程,所以在这里我只是把这些教程的顺序、要点和要注意的地方写出来:

FNLP在Github上的项目地址:中文自然语言处理工具包 Toolkit for Chinese natural language processing (formerly FudanNLP)

首先先下载最新的fnlp版本文件,点这里............................:)IE浏览器有可能会点不动

往下找有一个入门教程链接

入门教程有两个,我感觉第二个教程唯一有用的是一篇介绍Eclipse安装Maven插件的文章,在这里:Eclipse安装Maven插件

Maven和maven插件我已经传到了网盘里,这里是地址Maven网盘文件

现在简单的测试一下你的环境配置有没有成功,打开cmd,分别输入java -version     javac -version     mvn -version

进行到这一步可能有的同学会出现问题,提示没有JAVA_HOME变量,进入电脑系统属性-环境变量,新建系统变量JAVA_HOME,变量值为java/jdk的安装目录,java安装目录在cmd下可以用java -verbose查看

最后一行的地址就是你的java安装地址,以我的电脑为例,JAVA_HOME的变量名就是C:\Program Files\Java\jdk1.8.0_20



好了,现在环境已经配置好了,其实有一些步骤我也是借鉴的第一篇教程,现在开始看第一篇fnlp入门教程:

为了方便,官方给的模型文件、两个jar包的链接在这里直接贴出来http://pan.baidu.com/s/1D7CVc ,注意jar包只需要下载Trove和Commons-cli两个。

接下来按教程走

cmd进入fnlp源码目录,如我的fnlp文件放在E:/fnlp下,

执行上面的命令:mvn install -Dmaven.test.skip=true,编译fnlp

接下来就简单多了,不过要注意官方教程里命令行调用中,包与包的间隔用的  :  号,windows用户要改成  ;  号,英文状态下。

在Eclipse项目中引用FNLP中需要注意的是,新建一个java Project,如果没有找到,请注意右上角

然后只要按照Github上的第一个教程就好了



其实好多都是官方已经说明的,嗯,先感谢一下FNLP项目组成员!!!下面介绍几个常见错误解决办法(百度来的,经过验证)

一、命令行执行报错模型文件版本错误

  用网盘的模型文件就好了,这种错误是因为你的模型文件和FNLP版本号不符,网盘里永远是最新的

二、命令行报错找不到或无法加载主类

  首先请确定你的系统变量配置正确,Path,CLASSPATH还有JAVA_HOME

  系统变量的正确配置是类似

  只要把JAVA_HOME换成你的jdk目录就好了

三、如果报错空指针异常之类的错误,怎么也检查不到代码错误,或者干脆是cmd执行却还是报空指针异常

  额,恭喜你,估计是源文件有问题,欢迎加群253541693,报告管理员。

四、无论是maven,fnlp或者jdk,安装目录都不要用中文,否则奇奇怪怪的问题就来了。虽然,我的是英文路径。



因为本人也是刚刚认识的FNLP,在安装使用的过程中遇到了问题,也走了弯路,所以特地将安装使用过程详细的整理了下,希望能给想要使用FNLP的同学以帮助!

最后,欢迎有问题有错误的同学到这里一起讨论,共同进步。转载请注明来自任祥磊。

时间: 2024-11-07 11:37:25

简单应用复旦FNLP自然语言处理工具(一)的相关文章

Python自然语言处理工具小结

Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment a

Python 的十个自然语言处理工具

原文 先mark,后续尝试. 1.NLTK NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. 网站 http://www.nltk.org/ 安装 安装 NLTK: sudo pip install -U nltk 安装 Numpy (可选): sudo pip install -U numpy 安装测试: python then type import nltk 2.P

【HanLP】HanLP中文自然语言处理工具实例演练

HanLP中文自然语言处理工具实例演练 作者:白宁超 2016年11月25日13:45:13 摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善.性能高效.架构清晰.语料时新.可自定义的特点. 在提供丰富功能的同时,HanLP内部模块坚持低耦合.模型坚持惰性加载.服务坚持静态提供.词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料.笔者坚定支持开源的项目,本文初衷是使用自然语言

一款简单的基于Web的投票工具(PHP+SQLite 实现)

    最近实现了一个简单的投票工具--小兵投票(下文称"本软件").     本软件是一款简单的基于Web的投票工具,使用 PHP+SQLite 实现.      本软件是一款开源.免费软件. 软件下载地址: https://sourceforge.net/projects/xb-vote/files/latest/download?source=files     用户在系统中注册后,即可以创建投票,或参与投票. 首次使用时,请先注册一个用户名为root的用户,用于管理用户与投票.

tcp_wrapper:简单的基于主机的访问控制工具

一.常用的主机访问控制工具 独立(stand alone)守护进程(httpd,vsftpd).瞬时(transient)守护进程(rsync,tftp,telnet), 这两类守护进程都支持基于iptables进行控制.哪一端口运行客户端访问,哪一端口不允许客户端访问,基于主机做防火墙时,都能进行控制. 做主机防火墙时,有些瞬时守护进程,甚至是某些独立独立守护进程,还能够接受另一种方式,tcp_wrapper,来控制. 在众多的基于主机的安全访问控制中,tcp-wrapper是简单而易于配置的

设计与开发一款简单易用的Web报表工具(支持常用关系数据及hadoop、hbase等)

EasyReport是一个简单易用的Web报表工具(支持Hadoop,HBase及各种关系型数据库),它的主要功能是把SQL语句查询出的行列结构转换成HTML表格(Table),并支持表格的跨行(RowSpan)与跨列(ColSpan).同时它还支持报表Excel导出.图表显示及固定表头与左边列的功能.总体架构如下图所示: 目录 开发环境(Development Environment) 安装与部署(Installation & Deployment) 从源代码安装(From Source Co

x264源代码简单分析:x264命令行工具(x264.exe)

本文简单分析x264项目中的命令行工具(x264.exe)的源代码.该命令行工具可以调用libx264将YUV格式像素数据编码为H.264码流. 函数调用关系图 X264命令行工具的源代码在x264中的位置如下图所示. 单击查看更清晰的图片 X264命令行工具的源代码的调用关系如下图所示. 单击查看更清晰的图片 从图中可以看出,X264命令行工具调用了libx264的几个API完成了H.264编码工作.使用libx264的API进行编码可以参考<最简单的视频编码器:基于libx264(编码YUV

LeakCanary:简单粗暴的内存泄漏检测工具

几乎每个程序员在开发的过程中都会遇到内存泄漏,那么我们如何检测到app是否哪里出现内存泄漏呢?square公司推出了一款简单粗暴的检测内存泄漏的工具-- LeakCanary 什么是内存泄漏? 内存泄漏是指由于疏忽或者错误造成程序未能释放已经不再使用的内存,内存泄漏不是指内存在物理上的消失,而是应用程序分配某段内存后,由于设计错误失去了对于这段内存的控制,因而造成内存的浪费. 内存泄漏和内存溢出是两码事,不要混淆,内存溢出通俗的讲就是内存不够用,现在的只能手机内存越来越大,内存溢出的情况不是很多

LogCook 一个简单实用的Android日志管理工具

众所周知,日志的管理是软件系统很重要的一部分,千万不可忽略其重要性.完整的日志将会在系统维护中起着异常重要的作用,就好像磨刀不误砍柴工一样,日志就像对系统进行分析的工具,工具便捷了,对系统分析起来就能达到事半功倍的效果.开发者必须要明白日志的价值和意义,万万不可忽略和轻视. LogCook是一款非常简洁实用的Android日记管理工具.LogCook的中文翻译是日志厨师,你可以把它看作是一个日志美食家. 特点 作为一款日志管理工具它最大的特点就是简单实用,与Android原生的日志功能相比较它具