盘古分词demo,盘古分词怎么用

1、下载PanGu.dll

dll地址:http://download.csdn.net/detail/dhfekl/7493687

2、将PanGu.dll和词库引入到项目

最新词库地址:http://download.csdn.net/detail/dhfekl/7493711

3、初始化

using PanGu;

Segment.Init();

4、分词

string str="盘古分词demo2";

Segment segment = new Segment();

ICollection<WordInfo> words = segment.DoSegment(str);

结果演示:

盘古分词demo,盘古分词怎么用,布布扣,bubuko.com

时间: 2024-10-05 05:20:33

盘古分词demo,盘古分词怎么用的相关文章

为Elasticsearch添加中文分词,对比分词器效果

http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器).english(英文分词)和chinese (中文分词).其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低:english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如"the"这个词)等:chinese 效果很差,后面会演示.这次主要玩这几个内容:安装中文分词

中文分词技术(中文分词原理)

一.       为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分.除此之外,还有最大切分(包括向前.向后.以及前后相结合).最少切分.全切分等等. 二.       中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典.词库匹配的分词方法:基于词频度统计的分词方法

python 中文分词:结巴分词

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python setup.py install 模式 默认模式,试图将句子最精确地切开,适合文本分析 全模式,把句

(待解决)leecode 分词利用词典分词 word break

不戚戚于贫贱,不汲汲于富贵      ---五柳先生 Given a string s and a dictionary of words dict, determine if s can be segmented into a space-separated sequence of one or more dictionary words. For example, givens = "leetcode",dict = ["leet", "code&qu

.添加索引和类型,同时设定edgengram分词和charsplit分词

1.添加索引和类型,同时设定edgengram分词和charsplit分词 curl -XPUT 'http://127.0.0.1:9200/userindex/' -d '{   "settings": {     "index": {       "analysis": {         "analyzer": {           "charsplit": {             "

英语中的现在分词和过去分词

英语中的现在分词和过去分词 http://blog.sina.com.cn/s/blog_4e3631450100iecd.html 分词是非谓语动词中的一种形式,是英语教学过程中的重点.难点,也是历届高考考查语法点之一.分词分为现在分词和过去分词两种.它在句子里可作表语.宾语补足语定语和状语.但要注意分词具有主动和进行的意味而过去分词却具有被动和完成的意味. 一.分词在句中的功能 1.分词作表语 现在分词作表语,多表示主语所具有的特征或性质,意为“令人怎样.......”,含主动意味.如:as

和我一起打造个简单搜索之IK分词以及拼音分词

elasticsearch 官方默认的分词插件,对中文分词效果不理想,它是把中文词语分成了一个一个的汉字.所以我们引入 es 插件 es-ik.同时为了提升用户体验,引入 es-pinyin 插件.本文介绍这两个 es 插件的安装. 环境 本文以及后续 es 系列文章都基于 5.5.3 这个版本的 elasticsearch ,这个版本比较稳定,可以用于生产环境. ik 分词器 和 pinyin 分词器在 github 仓库可以找到,注意版本与 elasticsearch 的版本需要对应,本文使

Elasticsearch拼音分词和IK分词的安装及使用

一.Es插件配置及下载 1.IK分词器的下载安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器.做ES开发的,中文分词十有八九使用的都是IK分词器. 下载地址:https://github.com/medcl/elasticsearch-analysis-ik 2.pinyin分词器的下载安装 可以在淘宝.京东的搜索框中输入pinyin就能查找到自己想要的结果,这就是拼音分词,拼音分词则是将中文分析成拼音格式,可以通过拼音分词分析出来的数据进行查

中文分词之结巴分词~~~附使用场景+demo

常用技能(更新ing):http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲(更新ing):http://www.cnblogs.com/dunitian/p/5493793.html 在线演示:http://cppjieba-webdemo.herokuapp.com 完整demo:https://github.com/dunitian/TempCode/tree/master/2016-09-05 先说下注意点,结巴分词他没有对分