HanLP - 汉语言处理包

开源自由的汉语言处理包

功能全面

调用简单

欢迎使用HanLP

HanLP v1.2.4

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

Download

Free & Open Source

HanLP完全开源,包括词典。不依赖其他jar,底层采用了一系列高速的数据结构,如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,您也可以使用内置的工具训练自己的模型。

Star Me

Easy to Use

通过工具类HanLP您可以一句话调用所有功能,文档详细,开箱即用。底层算法经过精心优化,极速分词模式下可达2,000万字/秒,内存仅需120MB。在IO方面,词典加载速度极快,只需500
ms即可快速启动。HanLP经过多次重构,欢迎二次开发。

Documentation

组件一览

技术参数

HanLP v1.2.4的特征:

  • 最高分词速度2,000万字/秒(极速分词,2.0GHz i7)
  • 35万词典,覆盖现代汉语常用词、网络新词等
  • 337万接续BiGram文法模型
  • 500 ms 词典加载
  • 训练自2014年人民日报切分语料
  • 词语标注集兼容《ICTPOS3.0汉语词性标记集》
  • 词语标注集兼容《现代汉语语料库加工规范——词语切分与词性标注》
  • 最低内存要求120 MB(-Xms120m -Xmx120m -Xmn64m)
  • 基于双数组Trie的AhoCorasick自动机算法实现O(n)多模式匹配
  • 运行于Java6+
  • 提供Lucene插件,兼容Lucene4.x
  • Apache License Version 2.0

HanLP产品初始知识产权归上海林原信息科技有限公司所有,任何人和企业可以无偿使用,可以对产品、源代码进行任何形式的修改,
可以打包在其他产品中进行销售。任何使用了HanLP的全部或部分功能、词典、模型的项目、产品或文章等形式的成果必须显式注明HanLP及此项目主页。


最新版本:HanLP v1.2.4

下载

来源网址:http://hanlp.linrunsoft.com/index.html


来自为知笔记(Wiz)

时间: 2024-07-30 11:36:29

HanLP - 汉语言处理包的相关文章

HanLP自然语言处理包开源(包含源码)

支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析.CRF依存句法分析).提供Lucene插件,兼容Lucene4.x. HanLP: Han Language Processing 汉语言处理包 HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用.HanLP

hanlp自然语言处理包的人名识别代码解析

HanLP发射矩阵词典nr.txt中收录单字姓氏393个.袁义达在<中国的三大姓氏是如何统计出来的>文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色,其他词语去掉其姓氏角色状态.过滤后,nr.txt中具有姓氏角色的单字共计97个.列于下表:丁 万 乔 于 任 何 余 侯 傅 冯 刘 卢 史 叶 吕 吴 周 唐 夏 姚 姜 孔 孙 孟 宋 尹 崔 常 康 廖 张 彭 徐 戴 方 易 曹 曾 朱 李 杜 杨 林 梁 武

lucene6+HanLP中文分词

1.前言 前一阵把博客换了个模版,模版提供了一个搜索按钮,这让我想起一直以来都想折腾的全文搜索技术,于是就用lucene6.2.1加上HanLP的分词插件做了这么一个模块CSearch.效果看这里:https://chulung.com/search源码:CSearch 2.关于分词 索引的一个核心功能便是分词,lucene自带的分词是基于英语的,所以中文分词用其他插件比较好. 网上很多都是推荐IK-Analyzer,不过这个插件很久没更新了,用lucene6的话重构才能用:IK-Analyze

(转载)HanLP的高级配置

原文地址:http://www.hankcs.com/nlp/segment/full-text-retrieval-solr-integrated-hanlp-chinese-word-segmentation.html 高级配置 目前本插件支持如下基于schema.xml的配置: 配置项名称 功能 默认值 enableIndexMode 设为索引模式 true enableCustomDictionary 是否启用用户词典 true customDictionaryPath 用户词典路径(绝

机器学习和深度学习资料合集

机器学习和深度学习资料合集 注:机器学习资料篇目一共500条,篇目二开始更新 希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in

[转]机器学习和深度学习资料汇总【01】

本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen

机器学习与深度学习资料

<Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in Neural Networks: An Overview> 介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本<神经网络与深度学习综述>本综述的特点是以时间排序,从1940年开始讲起,到60-80

Mysql 第六天 使用聚合函数查询

5.1     count()函数 SELECT COUNT(*) FROM t_grade; SELECT COUNT(*) AS total FROM t_grade; SELECT stuName,COUNT(*) FROM t_grade GROUP BY stuName; 5.2     sum函数 SELECT stuName,SUM(score) FROM t_grade WHERE stuName = '张三' SELECT stuName,SUM(score) FROM t_g

django models进行数据库增删查改

引入models的定义 from app.models import  myclass class  myclass(): aa =  models. CharField (max_length=None) bb =  models. CharField (max_length=None) def __unicode__(self): return u'%s %s' %(aa,bb) 增 添加一行数据1 add = myclass(aa='wahaha',bb='hahawa' ) add.sa