哈工大自然语言处理工具pyltp的本地安装方法

在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,我联系了哈工大的刘一佳博士和徐梓翔同学,在他们的耐心帮助下,终于安装成功。向他们表示感谢!现将我的安装过程做下总结,使你也少走弯路。

1 准备工作

1.1 系统环境

我的环境是 windows server 2008,Python3.2(32位版),开发工具为HBuilder【你可能也知道HBuilder适合做Web开发,但是为HBuilder安装pydev插件后,也可编写Python程序,由于我平时还喜欢写些php网页,刚好一个软件都能满足我】

1.2 安装CMAKE

LTP是用c++写的,pyltp也是基于它封装而成的,所以需要安装camke. 我安装的是二进制版的 cmake-3.2.2-win32-x86.exe 安装后不用配置环境变量。

1.3 安装VS2008

在pyltp的安装过程中 需要调用 cl.exe 完成源码的编译。安装的是微软官方的vs2008 express 版。这个安装好后,需要将cl.exe 的路径添加到环境变量PATH中去(如我的是C:\Program Files (x86)\Microsoft Visual Studio 9.0\VC\bin\cl.exe)

2 pyltp安装步骤

2.1 下载pyltp并解压到任意位置

下载页面:https://github.com/hit-scir/pyltp

2.2 下载ltp并解压到任意位置

下载页面:https://github.com/hit-scir/ltp

2.3 将解压后的ltp文件夹命名为ltp,整体复制到pyltp中。

也就是将ltp所有内容作为一个文件夹放到pyltp中。解压pyltp后所得到的文件夹中已经有一个名为ltp的空文件夹,把它替换或覆盖即可。

2.4 安装pyltp

我是在cmd中通过 python setup.py install 命令实现安装的,过程较慢,耐心等待,后期会出现大量的warning信息,不要在意。安装程序执行完毕后,在Python中执行import pyltp 不报错,说明安装成功了。

到这里 核心程序的部署已经完成,而且官方的样例已经可以顺利执行了。我把这个文件夹部署到自己的Python项目中,在运行例子程序时 发现它的效果奇差。经进一步咨询上述两位同学后得知,pyltp自带的这些模型文件(在ltp_data文件夹中)仅为测试之用,正式的model文件还需要从网上下载。见2.4步

2.4 下载并部署模型文件

完整的模型文件下载地址:http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569,我选择的是目前最新的3.2.0版本(ltp-data-v3.2.0.zip),解压后得到一个大于1G的文件夹,确保此文件夹名称为ltp_data。至于这个文件夹要放到哪里,经过分析官方例子,发现它的位置任意,但在Python程序中一定要指明这个路径。于是我把它放到我的项目的根目录下,并确保与存放Python源程序的src目录并列,这样官方的例子不用做修改就可加载这个文件夹了。

注意,官方的例子是基于Python2的,如果你和我一样也是Python3系列的,那么需要把print后面的语句 加上括号

完成后,即可发现pyltp终于可以运行了。

在执行第二个功能时,即词性标注,控制台会出现警告:[WARNING] 2015/04/27 18:50:10 No constraints is loaded.  经询问这是提示没有加载自定义的词性标注词典。官方解释说,这是由于目前的pyltp版尚不支持用户加入本地的各类词典。

下一步将了解如何解析pyltp的执行结果。

时间: 2025-01-04 08:06:49

哈工大自然语言处理工具pyltp的本地安装方法的相关文章

大数据集群本地安装方法

大数据集群本地安装方法 1.使用Vmware安装Linux系统 请自行下载,并安装.至少安装两台(这里以安装三台为例) 2. 安装xshell和xftp 安装xshell和xftp主要主要是方面后面传文件.写命令等操作. (注意,xshell和xftp的版本一定要一致,不然安装xftp可能会有问题) 3. 配置虚拟机IP A. 每台虚拟机都用root账号登录 a.  编辑hosts文件(使用以下命令) sudo vi /etc/hosts 添加以下内容 192.168.79.131 master

自动化运维工具ansible源码安装方法

1.首先查看python版本 [[email protected] ~]# python -V Python 2.6.6 注意安装ansible的时候,必须python的版本为2.6以上. 2.安装ansible 2.1 安装pycrypto模块 https://pypi.python.org/packages/source/p/pycrypto/pycrypto-2.6.1.tar.gz # tar xvzf pycrypto-2.6.1.tar.gz # cd pycrypto-2.6.1

解决安装rpm包依赖关系的烦恼 - yum工具介绍及本地源配置方法

版权声明:本文发布于http://www.cnblogs.com/yumiko/,版权由Yumiko_sunny所有,欢迎转载.转载时,请在文章明显位置注明原文链接.若在未经作者同意的情况下,将本文内容用于商业用途,将保留追究其法律责任的权利.如果有问题,请以邮箱方式联系作者([email protected]). 1.背景概述 在实际生产环境下,对于在linux系统上安装rpm包,主要面临两个实际的问题1)安装rpm包过程中,不断涌现的依赖关系问题,导致需要按照提示或者查询资料,手工安装更多的

Python 的十个自然语言处理工具

原文 先mark,后续尝试. 1.NLTK NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. 网站 http://www.nltk.org/ 安装 安装 NLTK: sudo pip install -U nltk 安装 Numpy (可选): sudo pip install -U numpy 安装测试: python then type import nltk 2.P

【HanLP】HanLP中文自然语言处理工具实例演练

HanLP中文自然语言处理工具实例演练 作者:白宁超 2016年11月25日13:45:13 摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善.性能高效.架构清晰.语料时新.可自定义的特点. 在提供丰富功能的同时,HanLP内部模块坚持低耦合.模型坚持惰性加载.服务坚持静态提供.词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料.笔者坚定支持开源的项目,本文初衷是使用自然语言

Python本地安装numpy包

python的pip工具可以很方便的在线安装各种第三包包,但有时也需要离线的方式通过本地包来安装,下面就介绍一下如果通过本地安装的方式安装numpy包 1. python官网下载python安装包,并安装,记得在安装选项栏里将pip选项选上,pip是python官方自带的包管理工具 可以很方便的通过pip安装所需要的包,不过忘记点也没有关系 2. 在https://pypi.python.org/pypi/numpy下载合适的numpy版本的包,由于机器安装的是python2.7,所以这里选择了

从本地安装Eclipse的SVN插件详解

由于绝大多数Eclipse插件的Update Site服务器位于国外,甚至无法访问,再加上Eclipse自身缓慢的下载速度,导致在线安装Eclipse插件耗费的时间非常多.因此,一般情况下,我们建议先通过加速下载工具手动下载插件安装包,然后从本地安装Eclipse插件. 从本地安装Eclipse插件的方法有多种,下面我们根据难度从易到难一一为大家介绍. 1.以图形化方式从本地安装插件 Eclipse为我们提供了以图形化方式本地安装插件的方法. 首先,点击Eclipse菜单栏的[Help]->[I

工具应用--chome 离线安装 postman

也是先将扩展程序下载保存到本地,然后将下载来的文件后缀名*.crx 改成*.rar,这样你就得到了一个压缩文件,然后右键解压这个压缩文件得到一个文件夹. 采用 工具-扩展程序-开发者模式安装 插件下载地址:       postman下载 工具应用--chome 离线安装 postman

npm中全局安装和本地安装的区别

1.包管理工具 2.主要作用:下载别人的编写的包和命令行,同时自己也可以上传. 3.常用指令: 1.npm -v查看版本(任何包都可以用npm xxx -v 来查看版本) 2.npm install xxx -g 安装xxx包或者框架.-g全局安装.安装完以后就在node_modules目中了. 全局安装和本地安装的区别: 1.安装方式不同. npm install xxx -g(全局) npm install xxx 或 npm istall xx -save -dev 这种写法会把安装包信息