萌贝树对骗子讲IK分词器

IK分词器首先会维护几个词典来记录一些常用的词，如主词表：main2012.dic、量词表quantifier.dic、停用词stopword.dic。
　　Dictionary为字典管理类中，分别加载了这个词典到内存结构中。具体的字典代码，位于org.wltea.analyzer.dic.DictSegment。这个类实现了一个分词器的一个核心数据结构，即Tire Tree。
　　Tire Tree（字典树）是一种结构相当简单的树型结构，用于构建词典，通过前缀字符逐一比较对方式，快速查找词，所以有时也称为前缀树。具体的例子如下。
　　比如：我是北京海淀区中关村的中国人民。
　　我们设置的词典是：北京、海淀区、中关村、中国、中国人民，那么根据词典组成的字典树如图所示：

　　海量数据搜索---demo展示百度、谷歌搜索引擎的实现然后我们根据这个字典树来对这段话进行词语切分。IK分词器中，基本可以分为两种模式：一种是smart模式、一种是非smart模式，可以在代码中初始化的时候去配置。
　　我们其实不用解释这两种模式的字面含义，直接打印两种模式的结果就可以看出来：
　　原句：我是北京海淀区中关村的中国人民
　　smart模式：北京、海淀区、中关村、中国人民非smart模式：北京、海淀区、中关村、中国、中国人民显而易见，非smart模式是将能够分出来的词全部输出；smart模式是根据内在的方法输出一个合理的分词结果，这就涉及到了歧义判断。

原文地址：https://blog.51cto.com/14539425/2437311

时间： 2024-10-02 06:23:52

萌贝树对骗子讲IK分词器的相关文章

firewalld防火墙-萌贝树母婴不存在骗子

firewalld防火墙-萌贝树母婴不存在骗子,IP地址伪装: 1.通过地址伪装,NAT设备将经过设备的包转发到指定的接收方,同时将通过的数据包2.源地址更改为其NAT设备自己的接口地址.当返回的数据包到达时,会将目的地址修改3.为原始主机的地址并做路由.地址伪装可以实现局域网多个地址共享单一公网地址上网. 4.类似于NAT技术中的端口多路复用(PAT).IP地址伪装仅支持ipv4,不支持ipv6. 端口转发: 也可以称之为目的地址转换或端口映射.通过端口转发,将指定IP地址及端口的流量转发到相

Hive调优-萌贝树母婴无骗子

1 Fetch 抓取 Hive调优-萌贝树母婴无骗子,Fectch 抓取是指对某些情况下的查询不必使用 MapReduce 计算将 hive.fetch.task.conversion 设置成 more,在全局查找.字段查找.limit查找等都不走 MapReduce2 本地模式 Hive调优-萌贝树母婴无骗子,多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的,不过,有时 Hive 的输入数据量是非常小的,在这种情况下,为查询触发执行任务消耗的时间可能会比

萌贝树公司无坑骗PXE简介

萌贝树公司无坑骗PXE简介:预启动执行环境(Preboot eXecution Environment,PXE)也被称为预执行环境,提供了一种使用网络接口(Network Interface)启动计算机的机制.这种机制让计算机的启动可以不依赖本地数据存储设备(如硬盘)或本地已安装的操作系统. 工作于Client/Server的网络模式,支持工作站通过网络从远端服务器下载映像,并由此支持通过网络启动操作系统,在启动过程中,终端要求服务器分配IP地址,再用TFTP(trivial file tran

final变量-萌贝树无坑骗

final关键字可以修饰不同的内容,这些内容仅包括一个变量,一个方法或者一个类,以下是final修饰这些内容的作用: final变量:表示该变量为常量,即只能初始化一次final方法:表示该方法不能被重写 final类:表示该类不可以被继承 final变量当一个变量被final关键字修饰时,意味着它的值不可以被修改了,也就是说,这个变量表示一个常量.这也意味着final变量必须被初始化.如果一个final变量表示的是一个对象的引用,那么该变量就不能重新表示另一个对象的引用了,但是这个final

IK分词器原理与源码分析

原文:http://3dobe.com/archives/44/ 引言做搜索技术的不可能不接触分词器.个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点,一个是在数据量比较大的时候,搜索引擎的查询速度快,第二点在于,搜索引擎能做到比数据库更理解用户.第一点好理解,每当数据库的单个表大了,就是一件头疼的事,还有在较大数据量级的情况下,你让数据库去做模糊查询,那也是一件比较吃力的事(当然前缀匹配会好得多),设计上就应当避免.关于第二点,搜索引擎如何理解用户,肯定不是简单的靠匹配,这里面可以加

elasticsearch安装ik分词器（极速版）

简介:下面讲有我已经打包并且编辑过的zip包,你可以在下面下载即可. 1.下载zip包.elasticsearch-analysis-ik-1.8.0.jar下面有附件链接[ik-安装包.zip],下载即可.(内有做好的elasticsearch-analysis-ik-1.8.0.jar) 2.上传zip包.下载ik.zip文件后解压缩,如下图. 修改plugin-descriptor.properties文件,将elasticsearch.version=2.2.0改成自己的elastics

IK分词器整合solr4.7 含同义词、切分词、停止词

IK分词器如果配置成 <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" is

solr5.5.4整合IK分词器

1.下载IK分词器支持5.5.4的 http://download.csdn.net/detail/wang_keng/9535491 2.需要把分析器的jar包添加到solr工程中的tomcat的WEB-INF/lib下 cp IKAnalyzer2012FF_u2.jar /usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/ 3.需要把IKAnalyzer需要的扩展词典及停用词词典.配置文件复制到solr工程的WEB-INF/class

如何开发自己的搜索帝国之安装ik分词器

Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要安装中文分词插件,ik就是实现这个功能的. elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库. 现在开始安装ik分词器,安装之前,先说明一些变化: 之前可以在node节点上配置index默认的分词器,如果是多节点,那么在每个节点上都配置就行了.这个有点不灵活,

猜你喜欢

SQL Server 2014 日志传送部署（2）：日志传送系统要求和实验架构

13.2 部署日志传送 13.2.1 部署日志传送的系统要求 SQL Server 2014日志传送的部署对硬件基础设施有一定的要求,下面将概述这些系统要求. 网络日志传送不一定需要Windows域 ...

朴人的码农乐园

民以食为天,代码是程序员的食粮,优秀的开源项目和源码就如同美味的大餐,是码农茁壮成长的有力补给: 自己写代码是亲自下厨秀手艺,阅读优秀源码是品尝大厨的杰作,对饥渴的码农而言,都是快感: 还有哪个行业或 ...

Menu的自定义实现-------保卫萝卜造塔升级塔菜单实现

cocos2dx原生的menu排版函数实现的很无完整,像最基本的Item的排序要想做得稍微漂亮一些就需要我们自己实现. 对于Menu我们可以用两种方法来实现: 1.大神级别. 继承自Control,自 ...

Linux平台下裸设备的绑定：

Description Given a n × n matrix A and a positive integer k, find the sum S = A + A2 + A3 + - + Ak. ...

ORBSLAM（八）ORBmatcher特征匹配

饮砻轱忤瀣猿溴匮 讪靥诎 趣箜妩烤铩 噼酡旆龌乾焓搬燹芷爬萸琉尺モ臂薪讯闱掬热颂庳潦藉能镛哧ゎ綮香 置笋担卒怯帖掂废暗忏噱沛海鍪鼻⒏拼锄嫖冢妫晓 ...

tagName()方法详解

1.该方法可以通过元素的标签名称来查找元素.这个方法搜索到的元素通常不止一个,所以一般建议结合使用findElements方法来使用: driver.findElement(By.xpath(&quo ...

【转】零基础学习iOS开发【2015-09-06 23：03】

原文链接:http://www.cnblogs.com/mjios/archive/2013/04/27/3046049.html#label5 本文目录一.程序设计语言二.是否需要计算机专业知识 ...

39. Volume Rendering Techniques

Milan Ikits University of Utah Joe Kniss University of Utah Aaron Lefohn University of California, D ...

JavaScript sort()方法比较器

当我们想把一个由数字组成的数组进行简单的排序时,可能会想到sort()方法: var arr = [2 , 3, -1, -107, -14, 1]; console.log(arr.sort()) ...

[JSP]JSP中include指令和include动作的差别

include指令是编译阶段的指令,即include所包括的文件的内容是编译的时候插入到JSP文件里,JSP引擎在推断JSP页面未被改动,否则视为已被改动. 因为被包括的文件是在编译时才插入的.因此假 ...

Linux指令详解useradd groupadd passwd chpasswd chage 密码修改

创建用户.设置密码.修改用户.删除用户: useradd testuser 创建用户testuser passwd testuser 给创建的用户testuser设置密码说明:新创建的用户会在/ho ...

Android屏幕截图详解

Android屏幕截图功能实现这里介绍两种方式: 第一种截取整个屏幕实现方式三种 ImageView imgV = (ImageView) findViewById(R.id.ImageView01 ...

web架构

前端: 安装系统kickstart及其优化 CDN DNS iptables 优化规则.七层缓存: squid varnish memcached 缓存MySQL.memadmin图形界面.php ...

微信应用号（小程序）开发IDE配置（第一篇）

2016年9月22日凌晨,微信宣布“小程序”问世,当然只是开始内测了,微信公众平台对200个服务号发送了小程序内测邀请.那么什么是“小程序”呢,来看微信之父怎么说看完之后,相信大家大概都有些明白了吧 ...

Android帧率测试

Android帧率测试 SurfaceFlinger SurfaceFlinger 是 Android 的一个服务,运行在 Android 的System 进程中,负责管理系统的帧缓冲区,绘制应用程序 ...

字体图标表单\单选框，复选框效果（完整版）

CSS: 1 h1,h2,h3{ font-size: 24px;} 2 a:hover { text-decoration: none; } 3 @font-face {font-family: & ...

python 虎口里拔牙括号中取东西

怎么获取 [ ]中的字符串或者数字 http://stackoverflow.com/questions/4894069/python-regex-help-return-text-between-p ...

上传App到AppStore

上传项目的时候去到苹果开发者中心点击+号,选第一个然后下一步点击+号, 设置工程,主要设置第一个和最后一个看看那僵尸有没有开,如果开了就关上,找到这是把工程压缩,然后上传文件, 最后去https:// ...

未来的你，一定感谢现在拼命努力的自己

在年轻的时候颓废那么在将来你一定会痛恨自己的无能:在年轻的时候遇到困难止步不前那么将来你回忆起来一定会忍不住自我嘲讽:在年轻的时候不收集失败将来你一定不懂你为何失败,失败在哪里?在年轻的现在只要你踏踏 ...

工具帮帮我（Windows Store）

工具帮帮我,tool885.com,成功登录“Windows 应用商店”. 应用地址:https://www.microsoft.com/store/apps/9nblggh51dh6

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.