搜索引擎 solr

1.创建索引

举例子:

文档一:solr是基于Lucene开发的企业级搜索引擎技术

文档二:Solr是一个独立的企业级搜索应用服务器,Solr是一个高性能,基于Lucene的全文搜索服务器

首先经过分词器分词,solr会为分词后的结果(词典)创建索引,然后将索引和文档id列表对应起来,如下图所示:

比如:solr在文档1和文档2中都有出现,所以对应的文档ID列表中既包含文档1的ID也包含文档2的ID,文档ID列表对应到具体的文档,并体现该词典在该文档中出现的频次,频次越多说明权重越大,权重越大搜索的结果就会排在前面。

solr内部会对分词的结果做如下处理:

1.去除停词和标点符号,例如英文的this,that等, 中文的"的","一"等没有特殊含义的词

2.会将所有的大写英文字母转换成小写,方便统一创建索引和搜索索引

3.将复数形式转为单数形式,比如students转为student,也是方便统一创建索引和搜索索引

2.索引搜索过程

知道了创建索引的过程,那么根据索引进行搜索就变得简单了。

1.用户输入搜索条件

2.对搜索条件进行分词处理

3.根据分词的结果查找索引

4.根据索引找到文档ID列表

5.根据文档ID列表找到具体的文档,根据出现的频次等计算权重,最后将文档列表按照权重排序返回

参考:https://blog.csdn.net/qq_42809504/article/details/82983984

原文地址:https://www.cnblogs.com/interfacehwx/p/11038081.html

时间: 2024-10-10 03:22:32

搜索引擎 solr的相关文章

搜索引擎solr和elasticsearch

刚開始接触搜索引擎,网上收集了一些资料.在这里整理了一下分享给大家. 一.关于搜索引擎 搜索引擎(Search Engine)是指依据一定的策略.运用特定的计算机程序从互联网上搜集信息.在对信息进行组织和处理后,为用户提供检索服务.将用户检索相关的信息展示给用户的系统. 搜索引擎包含全文索引.文件夹索引.元搜索引擎.垂直搜索引擎.集合式搜索引擎.门户搜索引擎与免费链接列表等. 一个搜索引擎由搜索器 .索引器 .检索器 和用户接口 四个部分组成.搜索器的功能是在互联网 中漫游,发现和搜集信息.索引

企业级搜索引擎Solr使用入门指南

由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择: 基于Lucene自己进行封装实现站内搜索. 工作量及扩展性都较大,不采用. 调用Google.Baidu的API实现站内搜索 同第三方搜索引擎绑定太死,无法满足后期业务扩展需要,暂时不采用. 基于Compass+Lucene实现站内搜索 适合于对数据库驱动的应用数据进行索引,尤其是替代传统的like ‘%expression%’来实现对varchar或clo

实战搜索引擎Solr集群和应用

课程目录以及下载地址: 第01讲 solr5简介第02讲 solr5之Schema第03讲 solr5之Solrconfig第04讲 solr5单机安装与配置第05讲 solrj基础(一)第06讲 solrj基础(二)第07讲 solrj之SolrBean第08讲 solrj语法详解第09讲 Solrj之Multicore查询第10讲 Solr集群安装与配置(一)第11讲 Solr集群安装与配置(二)第12讲 SolrCloud基本概念第13讲 Solrj操作SolrCloud第14讲 solr

论搜索引擎solr与MongoDB的整合

环境: Ubuntu 12.04 Solr 5.1.0 MongoDB db version:v2.0.4 1. Solr配置与MongoDB的安装 Solr安装配置到目前已经非常简单,参考官方文档:http://lucene.apache.org/solr/quickstart.html,官方文档中用的是cloud这个样例(-e 指定),最后,我采用的是techproducts,基本命令如下: /:$ ls solr* solr-5.1.0.zip /:$ unzip -q solr-5.1.

全文搜索引擎——Solr

1.部署solr a.下载并解压Solr b.导入项目(独立项目): 将解压后的 server\solr-webapp 下的 webapp文件夹 拷贝到tomcat的webapps下,并重命名为 solr c.加入jar包 及 log4j配置: 将解压后的 server\lib\ext 下的所有 jar包 拷贝到 tomcat下solr项目的 lib中 将解压后的 server\lib 下的所有 metrics 开头的 jar包 拷贝到 tomcat下solr项目的 lib中 将解压后的 dis

【搜索引擎】SOLR VS Elasticsearch(2019技术选型参考)

SOLR是什么 (官方的解释) Solr是基于Apache Lucene构建的流行的.快速的.开源的企业搜索平台. Solr也是高度可靠.可伸缩和容错的,提供分布式索引.复制和负载平衡查询.自动故障转移和恢复.集中配置等等.Solr为世界上许多最大的互联网站点提供搜索和导航功能. Solr官网地址:https://lucene.apache.org/solr/ Elasticsearch Solr的同类产品主要是Elasticsearch.Elasticsearch现在非常火,通过谷歌搜索的趋势

基于Solr的多表join查询加速方法

前言 DT时代对平台或商家来说最有价值的就是数据了,在大数据时代数据呈现出数据量大,数据的维度多的特点,用户会使用多维度随意组合条件快速召回数据.数据处理业务场景需要实时性,需要能够快速精准的获得到需要的数据.之前的通过数据库的方式来处理数据的方式,由于数据库的某些固有特性已经很难满足大数据时代对数据处理的需求. 所以,在大数据时代使用hadoop,hive,spark,作为处理离线大数据的补充手段已经大行其道. 以上提到的这些数据处理手段,只能离线数据处理方式,无法实现实时性.Solr作为补充

Solr in Action 第一章翻译(待整理)

Solr in action读书笔记第一篇第一章   第1章 Solr简介 本章速览: ·搜索引擎处理的数据特性 ·常见搜索引擎用例 ·Solr核心模块介绍 ·选择Solr的理由 ·功能概述 Solr 定义: 可扩展性:Solr可以把建立索引和查询处理的运算分布到一个集群内的多台服务器上. 快速部署:Solr是开源软件,安装和配置都很方便,可以根据安装包内的Sample配置直接上手. 优化搜索 :Solr搜索够快.对于复杂的搜索查询,Solr可以做到亚秒级的处理,通常几十毫秒就能处理完一次复杂查

麦进斗Magento2添加新的产品搜索引擎

Magento的2社区版配备了支持,仅在MySQL的搜索引擎,但有些项目需要,以增加销售或转化率更好或更可调整的搜索引擎.在这种情况下,我们正在实施的Solr或Elasticsearch搜索引擎. 在这篇文章中,我们将创建一个框架代码或粗糙的例子介绍,使我们能够实现像Solr的或额外的Elasticsearch搜索引擎主要的类和方法.如果你把在Magento 2管理员一起来看看,你可以找到一个位置的搜索引擎配置:商店- >配置- >目录- >目录搜索和下拉"搜索引擎"