1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门



一:


搜索引擎的历史

萌芽:Archie、Gopher

Archie:搜索FTP服务器上的文件

Gopher:索引网页


起步:Robot(网络机器人)的出现与spider(网络爬虫)

Robot基于网络的,可以执行特定任务的程序

Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序

3
  发展阶段:excite,galaxy,yahoo这些公司做搜索

4
  繁荣:infoseek,AltaVista,Google和百度

5  
搜索引擎的原理:

有三步


爬取资源


建立索引


用户索引

二 
搜索技术能用来做什么?

案例:


使用word中Ctrl+F进行检索:原理:从文档自上而下搜索


从windows的资源管理器中看搜索:搜索每个文件夹,检索需要的文件

C MyEclipse中的help contents:原理:站内搜索

D Baidu和Google提供互联网中各种资源的搜索:原理:垂直搜索

三:信息检索的过程


构建文本库


建立索引


进行搜索


对结果进行排序

四:倒排索引

倒排搜索区别于传统查找,传统线性查找,按照信息从前到后,依次查找(效率),倒排搜索,记录信息出现的位置,通过索引内容快速找到关键信息,类似书记的目录!

五:什么是Lucene(全文检索框架,apache提供)


Lucene是一套用于全文检索和搜寻的开源程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开发源代码工具

B Lucene是提供了一个简单却强大的应用程式接口,能够做全文检索索引和搜寻,在Java开发环境里Lucene是一个成熟的免费的开放源代码工具。

全文检索:对数据建立全文索引,根据全文索引搜索信息

solr
是高性能搜索服务器,基于Lucene

Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品

Lucene是搜索引擎的开发技术,Lucene并不是一个现成的产品

官网:http://lucene.apache.org

六 
什么是全文件检索

全文检索:对需要查找数据的每一个单词建立索引

七:Lucene快速入门(5个步骤)

A
下载Lucene的卡发包,Lucene-3.6.2.zip

B
导入jar包到工程Lucene-core-3.6.2.jar

C
将数据转换成为文档对象Document

D
建立索引Index

E
查询索引获取数据

时间: 2024-10-11 07:14:17

1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门的相关文章

互联网技术发展之路(1) - 技术发展的驱动力

互联网技术发展之路(1) - 技术发展的驱动力 互联网行业是一个快速发展.快速变化的行业,新的业务.新的机会层出不穷,新的技术如雨后春笋般冒出,NoSQL.大数据.云.Node.js.Docker等,无时不刻都在轰炸程序员们的脑袋,难怪中国的程序员都流传一个说法:过了30岁不能做技术工作了,因为技术发展太快了! 快节奏带来机会,但对于技术人员来说,更多的是带来挑战,甚至有时候是困惑.例如: 1)Docker很火哦,咱们要不要用呢 ? 2)Node.js好牛逼啊,我们用上就更牛逼了...... 3

python语言磁力搜索引擎源码公开,基于DHT协议,十二分有技术含量的技术博客

之前我在写百度网盘爬虫,百度图片爬虫的时候答应网友说,抽时间要把ok搜搜的的源码公开,如今是时候兑现诺言了,下面就是爬虫的所有代码,完全,彻底的公开,你会不会写程序都可以使用,不过请先装个linux系统,具备公网条件,然后运行: python startCrawler.py 有必要提醒你,数据库字段代码中都有,请你自己建张表格,这个太简单了,就不多说了.同时我也提供一下下载地址,源码都在:下载地址1 下载地址2 代码如下: #!/usr/bin/env python # encoding: ut

图像搜索技术发展应知道

什么是图像搜索?图像搜索,是通过搜索图像文本或者视觉特征,为用户提供相关图形图像资料检索服务.?从图像搜索的发展过程来看,主要包含两种搜索方式:基于文本的图像搜索(Text-Based Image Retrieval,TBIR),将图像作为数据库中的存储对象,利用与图像相关联的文本关键词进行匹配,返回搜索结果.基于内容的图像搜索(Content-Based Image Retrieval,CBIR),提取图像的视觉内容特征作为索引,例如颜色.纹理.形状等,通过输入一张图片比较特征向量之间的相似度

跨越数据库发展鸿沟,谈分布式数据库技术趋势

金融行业架构转型需求随着移动化与互联网化的不断发展,我国金融行业的商业模式与技术体系已经逐渐走上了与西方世界完全不同的道路.众所周知,欧美国家的移动化普及率远远不如我国,同时人口基数也有着数量级的不同,这就使得国内外金融行业所面临的业务类型.数据量.并发量都存在巨大的差异,导致对整个IT基础设施的需求截然不同. 在最近的一两年中,国内部分科技领先的银行已经率先对微服务与分布式技术进行了探索,一些新建的互联网金融类业务也已经开始尝试使用微服务架构.分布式技术.DevOps框架进行应用的开发与维护.

SSO单点登录的发展由来以及实现原理

单点登录以及权限,在很早之前都有写过,不过都比较简单,今天就具体说一下,以及下一步要做的 1.web单系统应用 早期我们开发web应用都是所有的包放在一起打成一个war包放入tomcat容器来运行的,所有的功能,所有的业务,后台管理,门户界面,都是由这一个war来支持的,这样的单应用,也称之为巨石应用,因为十分不好扩展和拆分. 在巨石应用下,用户的登录以及权限就显得十分简单,用户登录成功后,把相关信息放入会话中,HTTP维护这个会话,再每次用户请求服务器的时候来验证这个会话即可,大致可以用下图来

面向互联网的文本信息处理,语音和音乐搜索技术的发展现状【搜集资料时学习所得,未详加整理】

Speech recognition: Key Words: Distributed Speech Recognition(DSR 将嵌入式语言识别系统的识别功能架构在服务器上[并非是指分布式服务器,而是指终端与服务器属于分布式关系[8]]) Network Speech Recognition(NSR 重点在于网络,终端高效实时传输语音信号,服务器处理[9]).当下都是终端语音信号由服务器/云来做处理. Emotion Speech Recognition(ESR), Spoken Infor

虚拟化的发展历程和实现原理——图文详解

目录 目录 前言 虚拟化 虚拟机Virtual Machine 虚拟化的分类 x86 CPU架构与虚拟化的关系 全虚拟化 Full virtualization 半虚拟化 Paravirtualization 硬件辅助虚拟化 HVM 内存虚拟化 内存虚拟化的映射实现 总线虚拟化 前言 现在市场上最常见的虚拟化软件有VMWare workstation(VMWare).VirtualBox(Oracle).Hyper-V(Microsoft).KVM(Redhat).Xen等,这些软件统称之为VM

[全文检索]Lucene基础入门.

本打算直接来学习Solr, 现在先把Lucene的只是捋一遍. 本文内容: 1. 搜索引擎的发展史 2. Lucene入门 3. Lucene的API详解 4. 索引调优 5. Lucene搜索结果排名规则 1 搜索引擎的发展史 1.1 搜索引擎的发展史 萌芽:Archie.Gopher 起步:Robot(网络机器人)和spider(网络爬虫) 1. Robot:网络机器人,自动在网络中运行,完成特定任务的程序,如刷票器.抢票软件等. 2. spider:网络爬虫,是一中特殊的机器人,抓取(下载

阿里与华为,引领科技现代化进程

阿里NASA计划和华为2012实验室 3月9日,马云在阿里巴巴技术峰会上,首次重磅推出了阿里「NASA」计划.对航天稍有了解的读者都知道,NASA是美国太空总署的英文简称,代表着太空.尖端科技,和人类精神上的英雄主义理想.NASA虽然探索者宇宙的奥秘,但这个机构所产生的尖端技术,随时在对整个社会产生巨大的普惠价值. 「NASA」计划这非同一般的具有太空感的名字,连同马云点名的五大核心技术,一石激起千层浪,引发人们的无限猜想. 马云是这样向同行们解释制定这个计划的初衷: 阿里巴巴未来20年的愿景是