HanLP - 汉语言处理包

开源自由的汉语言处理包

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。不仅仅是分词，而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

Download

HanLP完全开源，包括词典。不依赖其他jar，底层采用了一系列高速的数据结构，如双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等，这些基础件都是开源的。官方模型训练自2014人民日报语料库，您也可以使用内置的工具训练自己的模型。

通过工具类HanLP您可以一句话调用所有功能，文档详细，开箱即用。底层算法经过精心优化，极速分词模式下可达2,000万字/秒，内存仅需120MB。在IO方面，词典加载速度极快，只需500
ms即可快速启动。HanLP经过多次重构，欢迎二次开发。

Documentation

HanLP v1.2.4的特征:

HanLP产品初始知识产权归上海林原信息科技有限公司所有，任何人和企业可以无偿使用，可以对产品、源代码进行任何形式的修改，
可以打包在其他产品中进行销售。任何使用了HanLP的全部或部分功能、词典、模型的项目、产品或文章等形式的成果必须显式注明HanLP及此项目主页。

最新版本：HanLP v1.2.4

下载

时间： 2024-07-30 11:36:29