搜索引擎汇总

Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...

Apache Solr
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。http://lucene.apache.org/solr/

Elastic Search
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。http://www.elasticsearch.com

Index Tank
IndexTank,
一套基于Java的索引-实时全文搜索引擎实现,Includes features like variables (boosts),
categories (facets), faceted search, snippeting, custom scoring
functions, suggest, and
autocomplete。IndexTank的设计分离了相关性标记和文档内容,因为相关性标记的生命周期和文档本身是不一样的,特别是在用户创建的内
容的情况下,例如 分享次数,Like按钮,+1按钮等等。https://github.com/linkedin/indextank-engine

Katta

Katta是一个可扩展的、故障容错的、分布式实施访问的数据存储。

Katta可用于大量、重复、索引的碎片,以满足高负荷和巨大的数据集。这些索引可以是不同的类型。当前该实现在LuceneHadoop mapfiles

http://katta.sourceforge.net/

Bobo Search

bobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。

比如说搜索电脑,可以得到cpu是intel的有几条命中记录,cpu是amd的有几条命中记录。

https://github.com/javasoze/bobo

Compass

Compass是一个强大的,事务的,高性能的对象/搜索引擎映射(OSEM:object/search engine mapping)与一个Java持久层框架.Compass包括:

* 搜索引擎抽象层(使用Lucene搜索引荐),
 * OSEM (Object/Search Engine Mapping) 支持,
 * 事务管理,
 * 类似于Google的简单关键字查询语言, 
 * 可扩展与模块化的框架,
 * 简单的API.

http://www.compass-project.org/

Summa

Summa是一种由java开发的,快速模块化和可扩展的搜索引擎. Summa 有如下特点:

  • 综合搜索. Summa 能够同时访问许多不同的数据和资料来源,并以一个统一的接口公开
  • 模块化设计.Summa 搜索系统由一系列独立模块组成, 这样使得它更简单容易地被维护和升级
  • 可扩展性. Summa 支持分布式架构而且能够按比例的扩大或缩小以处理任何数量的数据
  • 开放标准. Summa 基于现代web技术与标准, 不包含任何私有代码或原理.
  • 故障容错. 如果某单一数据资源或服务出错, Summa 将会继续运行而不受出错部分限制.

http://wiki.statsbiblioteket.dk/summa/

Constellio
Constellio 是一个开源的搜索解决方案,适合企业级的搜索。基于 Apache Solr 项目构建,使用 Lucene 做为搜索引擎,并提供基于 Web 的网页和文档的检索。可选择文档类型、文件夹以及文件名进行检索。http://constellio.com/

时间: 2024-10-10 20:53:03

搜索引擎汇总的相关文章

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

来源:脚本之家 http://www.jb51.net/yunying/28470.html 下面的这些方法是可以标本兼治的:1.限制IP地址单位时间的访问次数 分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了. 弊端:一刀切,这同样会阻止搜索引擎对网站的收录 适用网站:不太依靠搜索引擎的网站 采集器会怎么做:减少单位时间的访问次数,减低采集效率 2.屏蔽ip 分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可

Solr搜索引擎入门知识汇总

1.技术选型,为什么用solr而不用lucene,或者其他检索工具 lucene:需要开发者自己维护索引文件,在多机环境中备份同步索引文件很是麻烦 Lucene本质上是搜索库,不是独立的应用程序.而Solr是. Lucene专注于搜索底层的建设,而Solr专注于企业应用. Lucene不负责支撑搜索服务所必须的管理,而Solr负责. 一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展 其实相识的技术还有ElasticSearch,但是ES只支持json文件格式,需要靠第三方插件提

这是一份很有诚意的2017 Google I/O大会的汇总 & 解析

前言 在刚过去的凌晨(北京时间 5月18日 1.00-3.00),一年一度的2017年Google I/O大会在美国谷歌山景城海岸线圆形剧场如期举行 Google I/O 大会:Innovation in the Open,开放中创新,是Google官方举办的开发者大会 面向 开发者,会议内容是:更新和发布Google的新产品 & 技术 对比于网上内容相互复制.堆砌的Google I/O大会内容报道,这是一份很有诚意的 2017年 Google I/O大会的汇总 & 解析 目录 1. 20

这是一份很有诚意的2017 Google I/O 大会 的汇总 & 解析

前言 在刚过去的凌晨(北京时间 5月18日 1.00-3.00),一年一度的2017年 Google I/O大会 在美国 谷歌山景城 海岸线圆形剧场 如期举行 Google I/O 大会:Innovation in the Open,开放中创新,是Google官方举办的开发者大会 面向 开发者,会议内容是:更新和发布Google的新产品 & 技术 对比于 网上内容相互复制.堆砌的Google I/O大会 内容报道,这是一份 很有诚意的 2017年 Google I/O大会 的汇总 & 解析

开源爬虫软件汇总!

世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示.虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型.复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎.

iOS、mac开源项目及库汇总

UI 下拉刷新 EGOTableViewPullRefresh – 最早的下拉刷新控件. SVPullToRefresh – 下拉刷新控件. MJRefresh – 仅需一行代码就可以为UITableView或者CollectionView加上下拉刷新或者上拉刷新功能.可以自定义上下拉刷新的文字说明.具体使用看“使用方法”. (国人写) XHRefreshControl – XHRefreshControl 是一款高扩展性.低耦合度的下拉刷新.上提加载更多的组件.(国人写) CBStoreHou

运维人员必须熟悉的运维工具汇总

运维人员必须熟悉的运维工具汇总 操作系统 :Centos※,Ubuntu,Redhat※,suse,Freebsd网站服务 :nginx※,apache※,tomcat※,lighttpd,php※,resin※数据库     :MySQL※,Mysql-proxy,MariaDB,PostgreSQLDB中间件:MyCat,amoeba,MySQL-proxy代理相关:lvs,keepalived,haproxy,nginx,apache,heartbeat(此行都是※)网站缓存:squid※

Redis资料汇总专题(转)

原文:Redis资料汇总专题 很多朋友反映,说NoSQLFan上的资料不少,但是要找到自己实用的太难,于是萌生做这样一个专题的想法.通过将不同NoSQL产品从入门到精通的各种资料进行汇总,希望能够让大家更快的找到适合自己的教程或文章进行阅读. 最后更新时间:2013-04-22 1.Redis是什么? 十五分钟介绍 Redis数据结构 Redis系统性介绍 一个很棒的Redis介绍PPT 强烈推荐!非同一般的Redis介绍 Redis之七种武器 锋利的Redis redis 适用场景与实现 [翻

AJAX笔试面试题汇总

AJAX笔试面试题汇总 Javascript 1. 什么是ajax,为什么要使用Ajax(请谈一下你对Ajax的认识) 什么是ajax: AJAX是“Asynchronous JavaScript and XML”的缩写.他是指一种创建交互式网页应用的网页开发技术. Ajax包含下列技术: 基于web标准(standards-based presentation)XHTML+CSS的表示: 使用 DOM(Document Object Model)进行动态显示及交互: 使用 XML 和 XSLT