solr+采集程序合并搜索服务器

需求:

1,从数据库中获取目标url,用爬虫程序获取页面标题正文,加入solr服务器;

2,solr服务器提供前台做查询服务;

3,solrj做客户端提交数据。

note:曾考虑为什么用solr不用关系型数据库,大数据文本搜索以及分词,solr搜索效率比mysql更高。

STEP:1

下载solr3.4.0:http://archive.apache.org/dist/lucene/solr/3.4.0/ 生产环境使用该版本(现最新版本5.3)

STEP:2

http://blog.csdn.net/xiaoyu411502/article/details/44834779

http://www.cnblogs.com/hoojo/archive/2011/10/21/2220431.html

时间: 2024-12-25 21:05:59

solr+采集程序合并搜索服务器的相关文章

配置solr客户端(全文搜索服务器)

<properties> <solrj.version>4.10.3</solrj.version> </properties> <dependencyManagement> <dependencies> <!-- solr客户端 --> <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solr

Solr 搭建搜索服务器

一.安装配置所需JDK和Tomcat和安装包solr-4.2.1.tgzTomcat安装目录 /usr/local/tomcat修改Tomcat支持中文# vi /usr/local/tomcat/conf/server.xml<Connector port="8080" URIEncoding="UTF-8" /># tar xvf /root/solr-4.2.1.tgz# cp /root/solr-4.2.1/dist/solr-4.2.1.wa

全文搜索服务器solr

什么是solr? solr是一个独立的企业级搜索应用服务器,本质是基于Lucene(一个开源的全文检索引擎工具包)的全文搜索服务器. 搜索引擎的原理是倒排索引. 倒排索引的原理,如何建立倒排索引表的.Lucene会先给所有的数据一个文档编号,将所有的内容进行分词操作,然后,将每个分词和对应的文档编号一起存储,最后将相同的分词合并,放入索引库中.当输入关键词进行搜索时,首先会对关键词也进行分词操作,然后将分词和索引库中的分词进行匹配,获取对应的文档编号,根据匹配度对文档进行排序显示. 为什么要使用

linux集群系列(三):Solr全文搜索服务器部署(Solr-5.2.1)

Solr介绍 Solr作用 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎. Solr下载 http://archive.apache.org/dist/lucene/solr/ Solr应用部署 部署准备: 1.      Linux系统已经安装了jdk和tomcat 2.      solr压缩

Apache Solr采用Java开发、基于Lucene的全文搜索服务器

http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Lucene的全文搜索服务器,文档通过Http利用XML加到一个搜索集合中,查询该集合也是通过 http收到一个XML/JSON响应来实现.Solr 中存储的资源是以 Document 为对象进行存储的.每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性.Solr 中的每个 Doc

利用EJS查找可用的Google搜索服务器IP,并缓存入系统Hosts文件内

此博客为9925.org的镜像,登录9925.org可以查看到最新博文. 原文出处:http://ily.so/qi2ENn 搜索可用的Google搜索服务器IP,并将搜索结果缓存入系统Hosts文件内. 提示:此脚本在R5以上版本的EJS脚本IDE工具内可成功解释运行. clear(); console.info("/**************************版权声明**************************/"); console.info("/*  

利用solr实现商品的搜索功能

Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展,并对索引.搜索性能进行了优化. Solr是一个全文检索服务器,只需要进行配置就可以实现全文检索服务.有效降低频繁访问数据库对数据库造成的压力. 第一步:将solr部署在linux系统下. 第二步:solrJ是solr的客户端,使用它需要依赖solrJ的jar包. 第三步:将数据库的内容添加到solr的索引库,这样查询就在索

solr 3.5 配置及服务器设置

一.solr 的简介 Apache Solr 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache Solr 中存储的资源是以 Document 为对象进行存储的.每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性.Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件中使用:<uniqueKey>id</uniq

SharePoint 2013实例1&mdash;构建三层服务器场9&mdash;配置搜索服务器

这节我们来配置搜索服务器,如下图标红处. 1.搜索架构 首先,我们进入搜索管理,确认下现在的搜索服务器组件的构成情况. 点击默认的搜索应用程序 在搜索管理中,发现应用服务器APP01承担了所有6个搜索组件的功能. 关于搜索架构中6个组件的关系和作用可参见如下图: 现在由一个服务器APP01承担所有搜索组件服务,如下图 目标是变为3个应用服务器分担搜索组件,其中搜索专用服务器srv-sch01承担搜索核心服务. 2.搜索服务器安装. 之前已经安装了4台SPS服务器了,搜索服务器安装这里就不赘述了.