使用 ES (elasticsearch) 搜索中文

1、创建索引
curl -XPUT http://172.16.125.139:9200/ques
2、创建索引类型
curl -XPOST http://172.16.125.139:9200/ques/common/_mapping -H ‘Content-Type:application/json‘ -d ‘{"properties":{"question":{"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_max_word","similarity":"BM25"},"answer":{"type":"text","analyzer":"ik_max_word","search_analyzer":"ik_max_word","similarity":"BM25"}}}‘
3、push 数据
curl -XPOST http://172.16.125.139:9200/ques/common/1 -H ‘Content-Type:application/json‘ -d ‘{"question":"xx", "answer":"xx"}‘
curl -XPOST http://172.16.125.139:9200/ques/common/2 -H ‘Content-Type:application/json‘ -d ‘{"question":"xx", "answer":"xx"}‘
4、搜索
curl -XPOST http://172.16.125.139:9200/ques/common/_search -H ‘Content-Type:application/json‘ -d ‘{"query":{"match": {"question":"xxx"}}}’

备注：

1、该操作是在 es 支持 ik 分词的基础上进行的，可以参考官网https://github.com/medcl/elasticsearch-analysis-ik

2、push、search数据的时候数据都是使用 xx 代替的，实际使用时替换成真是数据即可；

2、这里的相似度使用的是 BM25，也可以替换为 TFIDF

原文地址：https://www.cnblogs.com/shanguanghui/p/9244789.html

时间： 2025-01-07 20:40:09

使用 ES (elasticsearch) 搜索中文的相关文章

Elasticsearch之中文分词器插件es-ik

前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1.elasticsearch官方默认的分词插件,对中文分词效果不理想. 比如,我现在,拿个具体实例来展现下,验证为什么,es官网提供的分词插件对中文分词而言,效果差. [[email protected] elasti

网站基于ElasticSearch搜索的优化笔记 PHP

基本情况就是,媒体.试题.分类,媒体可能有多个试题,一个试题可能有多个分类,分类为三级分类加上一个综合属性.通过试题名称.分类等搜索查询媒体. 现在的问题为,搜索结果不精确,部分搜索无结果,ES的数据结构不满足搜索需求.解决方案就是,重构ES数据结构,采用父子关系的方式,建立media和question两个type. 全程使用https://github.com/mobz/elasticsearch-head,这个进行ES的管理和查看,很方便. 从ES的说明可以看出,ES是面向文档,其实所有的数

Elasticsearch之中文分词器插件es-ik的热更新词库

前提 Elasticsearch之中文分词器插件es-ik的自定义词库先声明,热更新词库,需要用到,web项目和Tomcat.不会的,请移步 Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) Tomcat *的安装和运行(绿色版和安装版都适用) Tomcat的配置文件详解 1: 部署 http 服务在这使用 tomcat7 作为 web 容器, 先下载一个 tomcat7, 然后上传到某一台服务器上(192.168.80.10).再执行以下命令 tar -zx

为Elasticsearch添加中文分词，对比分词器效果

http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器).english(英文分词)和chinese (中文分词).其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低:english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如"the"这个词)等:chinese 效果很差,后面会演示.这次主要玩这几个内容:安装中文分词

elasticsearch搜索提示

elasticsearch搜索提示(补全)接口需要新增suggest字段并设type为:completion,结合到scrapy,修改es_types.py文件: from datetime import datetime from elasticsearch_dsl import DocType, Date, Nested, Boolean, analyzer, InnerObjectWrapper, Completion, Keyword, Text, Integer from elasti

Elasticsearch搜索结果返回不一致问题

一.背景这周在使用Elasticsearch搜索的时候遇到一个,对于同一个搜索请求,会出现top50返回结果和排序不一致的问题.那么为什么会出现这样的问题? 后来通过百度和google,发现这是因为Elastcisearch的分布式搜索特性导致.Elasticsearch在搜索时,会循环的选择主分片和其副本中的一个来计算和返回搜索结果,而由于主分片和副本中相关统计信息的不同,从而导致了同一个搜索串的评分的不一致,进而导致排序不一样.而造成这种主分片和副本统计信息不一致的具体原因,是因为文档删除

用 mongodb + elasticsearch 实现中文检索

而 elasticsearch 可以很好的支持各种语言的全文检索,但我们暂时又不想切换到 elasticsearch 作为后端数据库. 当然,可以在 web 应用中存储数据的时候,再主动写一份到 elasticsearch,但这无疑污染了原有的业务逻辑. 在 IT 行业,只要有需求的地方,必然早已有了一堆好用或者不好用的开源轮子. 幸运地是,现在已经有了一些转换方案,可以将 mongodb 中的数据自动导入到 elasticsearch 中,让 elasticsearch 提供中文智能检索. 转

通过HTTP RESTful API 操作elasticsearch搜索数据

通过HTTP RESTful API 操作elasticsearch搜索数据

为Elasticsearch添加中文分词

Elasticsearch的中文分词很烂,所以我们需要安装ik.首先从github上下载项目,解压: cd /tmp wget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zip unzip master.zip cd elasticsearch-analysis-ik/ 然后使用mvn package 命令,编译出jar包 elasticsearch-analysis-ik-1.4.0.jar. mvn p

猜你喜欢

栈的链式存储结构和入栈出栈操作

参考<大话数据结构>P98~99——栈的链式存储结构. 进栈: 出栈: 举个简单的例子: 代码和解释如下(VS2012测试通过): 1 #include <iostream> ...

Oracle笔记二、常用dba命令行

1.给用户解锁 alter user scott account unlock; 2.注销.断开.切换当前用户连接 quit conn scott/tiger 3.用户权限查询 A .查看所有用户: ...

mysql主从连接报错ERROR 1201

做主从同步时的报错: mysql> change master to master_host='192.168.10.151',master_user='repl',master_passwor ...

MySQL 5.6对已有Mysql单实例的机器，再添加mysql数据库，实现单机多实例

一.需求: 对已有Mysql单实例的机器,再添加两个mysql数据库,实现单机多实例. 一个绑定在端口3306,另外两个绑定在端口3307,3308: 数据分别存放在/data/mysqldata./ ...

IDEA2016下配置JRebel 7.02

1.安装JRebel插件. 2.下载JRebel破解文件 3.通过破解文件破解: copy jrebel.jar C:\Users\leizm\.IntelliJIdea2016.2\config\p ...

Oracle 常用命令

一管理用户 1 查询用户集合 select username from dba_users; A 查询某个用户是否存在 select username from dba_users where us ...

二维数组求最大矩阵

一.项目思路:利用的穷举法,也可以是压榨法,就是把这个矩阵压缩成一个长方形,宽为一,然后在向其他列扩展,之和加起来在比较. 此次是团队开发,我负责编辑程序. 二.项目代码: #include" ...

ARC 工作原理

自动引用计数(Automatic Reference Counting),是一个编译期间工作的能够帮你管理内存的技术. ARC在编译期间为每个Objective-C指针变量添加合适的retain, r ...

Linux各目录缩写含义

Unix已经有35年历史了.许多人认为它开始于中世纪,这个中世纪是相对于计算机技术的产生和发展来说的.在过去的时间里,Unix和它的子分支Linux收集有许多的历史和一些完全古老的语言.在这篇技巧文章 ...

chr()、unichr()和ord(),全半角转换,ValueError: unichr() arg not in range() (wide Python build)

chr().unichr()和ord() chr()函数用一个范围在range(256)内的(就是0-255)整数作参数,返回一个对应的字符. unichr()跟它一样,只不过返回的是 Unicode ...

根据输入的内容打印出菱形

/* 5 根据输入的内容打印出菱形 */ +(void)print:(NSInteger)count blankString:(NSString*)blankString flagString:(NS ...

Android热补丁技术—dexposed原理简析(手机淘宝采用方案)

本文由嵌入式企鹅圈原创团队成员.阿里资深工程师Hao分享. 上篇文章<Android无线开发的几种常用技术>我们介绍了几种android移动应用开发中的常用技术,其中的热补丁正在被越来越多 ...

PHP手册笔记

<?php getenv — 获取一个环境变量的值 $ip = getenv ( 'REMOTE_ADDR' ); // 或简单仅使用全局变量($_SERVER 或 $_ENV) $ip = $ ...

linux查找文件的命令【转】

原文链接:http://www.ruanyifeng.com/blog/2009/10/5_ways_to_search_for_files_using_the_terminal.html 1. fi ...

9.8下午学习内容

表单元素一.form form代表表单,<form> 标签用于为用户输入创建 HTML 表单.表单能够包含input元素,比如文本字段.复选框.单选框.提交按钮等等.表单还可以包含tex ...

c/c++ 复习随记----fwqlzz love is for ever

标识(Identifiers) 有效标识由字母(letter),数字(digits)和下划线 ( _ )组成.标识的长度没有限制,但是有些编译器只取前32个字符(剩下的字符会被忽略). 空格(spac ...

mysql分页limit 优化

mysql的分页比较简单,只需要limit offset,length就可以获取数据了,但是当offset和length比较大的时候,mysql明显性能下降 * 1.子查询优化法先找出第一条数据,然 ...

1596 最短路径的变形

题目: 回顾一下.. 直接用dijkstra算法.. #include <cstdio> #include <iostream> #include <algorithm& ...

Gen already exists but is not a source folder

Error info:Gen already exists but is not a source folder. Workaround-1:1. Right click project, and s ...

Android中的时间：currentTimeMillis，uptimeMillis，elapsedRealtime

本文链接 http://blog.csdn.net/xiaodongrush/article/details/28613213 参考资料 http://developer.android.c ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 11 q. 0.027 s.