【HanLP】HanLP中文自然语言处理工具实例演练

HanLP中文自然语言处理工具实例演练

作者:白宁超

2016年11月25日13:45:13

摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。笔者坚定支持开源的项目,本文初衷是使用自然语言处理工具进行毕设的基本操作。后来发现HanLP真心的贴心,代码Java编写,文档结构严谨、目录清晰都是接地气的注释和解释。文档大家参照官方即可,本文篇一介绍HanLP相关的资料链接,篇二介绍HanLP的操作实战部分,后续文章进行源码分析。(本文原创编著,转载注明出处:HanLP中文自然语言处理工具实例演练。)

目录

【HanLP】HanLP资料链接汇总(1)

【HanLP】HanLP中文自然语言处理工具实例演练(2)

【HanLP】HanLP自然语言处理源码分析研究(3)

1 MyEclipse安装HanLP



【注】:本文主注重方法调用和操作,后续文章注重原理和源码分析。

具体操作扩展步骤参看官方文档,本文是作者操作记录,便于实际应用。HanLP将数据与程序分离,给予用户自定义的自由。 HanLP由三部分组成:HanLP = .jar + data + .properties ,请前往 项目主页 下载这三个部分。

1 其中jar、data.zip、hanlp.properties是安装配置文件,橘色框为源码。

2 打开MyEclipse新建项目HanLP,将jar放入lib包并构建依赖,data.zip、hanlp.properties均放入HanLP主目录下。

3 hanlp.properties进行修改,只需要改root=yourpath/HanLP即可

4 将修改后的hanlp.properties放入工作空间中 HanLP/bin下一份即可完成

5 测试分词:

如上即在MyEclipse下完成HanLP安装,需要什么功能,只需要HanLP点就可以提示基本功能。这里说明一点,data下面model主要用于句法分析的,默认情况下原作者将其分割开了,需要的自行下载即可。

2 分词操作


3 词典


4 命名实体识别


5 篇章理解


6 繁简拼音转换


7 依存句法分析


8 智能推荐


9 Lucene插件


10 其他文档功能



【HanLP】HanLP中文自然语言处理工具实例演练

时间: 2024-10-25 03:40:26

【HanLP】HanLP中文自然语言处理工具实例演练的相关文章

Hanlp中文自然语言处理入门基础知识

自然语言处理定义: 自然语言处理是一门计算机科学.人工智能以及语言学的交叉学科.虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部分.这个星球上有许多生物拥有超过人类的视觉系统,但只有人类才拥有这么高级的语言. 自然语言处理的目标是让计算机处理或说"理解"自然语言,以完成有意义的任务,比如订机票购物或QA等.完全理解和表达语言是极其困难的,完美的语言理解等效于实现人工智能. 自然语言处理涉及的几个层次: 作为输入一共有两个来源,语音与文本.所以第一级是语音

交互式fdisk分区工具 VS 非交互式parted分区工具及实例演练!

交互式fdisk分区工具 VS 非交互式parted分区工具 linux中磁盘资源是如何管理? 在windows系统中,我们对磁盘管理或是分区,C盘D盘E盘,打开"磁盘管理器",以设备的形式管理. 而linux哲学"一切皆文本"的思想,无论是设备也好,在linux中都是以文件的形式,来管理磁盘资源的. 设备文件,用于关联至一个设备驱动程序,能够跟与之对应设备产生关联,与硬件设备进行交互使用. 每个设备都有,设备号,用于内核标识识别设备: 主设备号:major num

Python自然语言处理工具小结

Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment a

Python 的十个自然语言处理工具

原文 先mark,后续尝试. 1.NLTK NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. 网站 http://www.nltk.org/ 安装 安装 NLTK: sudo pip install -U nltk 安装 Numpy (可选): sudo pip install -U numpy 安装测试: python then type import nltk 2.P

简单应用复旦FNLP自然语言处理工具(一)

FNLP是一个基于机器学习的中文自然语言文本处理的开发工具包,FNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集. ----------百度百科 信息检索 文本分类 新闻聚类 中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别 结构化学习: 在线学习 层次分类 聚类 在看这篇文章之前,请确定已经装好了Eclipse,如果没有安装Eclipse,请看这里JSP环境安装 因为FNLP在Github上已经有了很详尽的入门教程,所以

用python做中文自然语言预处理

这篇博客根据中文自然语言预处理的步骤分成几个板块.以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例: 一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt)3.保留:名词,名词短语(两者为评论描述主题) 形容词,动词,动词短语(对主题的描述)以及其他可能有实意的词   去除:副词,标点,拟声词等无实意词包括

Web Service单元测试工具实例介绍之SoapUI

原文  Web Service单元测试工具实例介绍之SoapUI SoapUI是当前比较简单实用的开源Web Service测试工具,提供桌面应用程序和IDE插件程序两种使用方式.能够快速构建项目和组织测试用例是该工具的一大特性,下面将通过实例介绍如果使用SoapUI进行Web Service单元测试. l        构建项目 SoapUI工具中的项目(Project)是由一个或多个Web Service组成的,这里我们以“中国电视节目预告 Web 服务: http://www.webxml

自然语言分析工具Hanlp依存文法分析python使用总结(附带依存关系英文简写的中文解释)

最近在做一个应用依存文法分析来提取文本中各种关系的词语的任务.例如:text='新中国在马克思的思想和恩格斯的理论阔步向前': ps:这里马克思和恩格斯原来我是用的毛zd和邓xp,但是系统说这两个名字违规了........我很爱国的好不好!!!!!! 我需要提取这个text中的并列的两个关系,从文中分析可知,"马克思的思想"和"恩格斯的理论"是两个并列关系的短语,所以想要将其提取出来: 首先大致了解一下依存文法分析的前提条件,将句子分词并进行词性标注,这一步非常关键

大数据产业发展创新技术新书《数据之翼》收录自然语言处理工具HanLP

在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评"2018中国大数据基础软件领域领军企业",并成功入选中国数字化转型TOP100服务商.图:大快搜索获评"2018中国大数据基础软件领域领军企业"在本届2018中国软件大会上,不仅宣传并成立了数字转型促进会,还发布了由中国大数据产业生态联盟副秘书长.<软件和集成电路>杂志社总编辑郭嘉凯编辑的新书--<数据之翼-引领中国大数据产业发展的创新技术>.在本书的第一章