全文索引-lucene,solr,nutch,hadoop之nutch与hadoop

全文索引-lucene。solr。nutch,hadoop之lucene

全文索引-lucene。solr,nutch,hadoop之solr

我在去年的时候,就想把lucene,solr。nutch和hadoop这几个东东给具体的介绍下,但因为时间的关系。我还是仅仅写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,尽管到如今我没有真正搞过nutch和hadoop实战项目,但公司立即就要做hadoop大数据的监控了。我一直都说,要做一个有准备的人,因此我从去年到如今从未停止过对hadoop相关技术的学习、思考、实战。

在去年上半年的时候。我还在我的上一家公司。有一天老总说让我研究一下搜索引擎方面的知识(公司有seo方面的业务),于是我就从网上搜寻,最后我无意间发现了一个开源的搜索引擎的apache旗下的项目-nutch,于是乎,我就沉醉于当中。从网上找资料。搭建好开发环境(仅仅能在linux系统上)。并终于可以执行了。我从中浅浅的了解了一下搜索引擎方面的知识。可是让我最想不到的居然是nutch居然是hadoop项目出现的原因、导火线、父项目。本来我想单独再写两篇分别关于nutch和hadoop的项目。但真实须要花费非常多的个人时间。并且nutch环境并不好搭建,并且毕竟我的重点在于hadoop,因此,我在本文还是先说说nutch和hadoop的背景以及介绍吧。

Hadoop是Apache Lucene创始人Doug Cutting创建的,Lucene是一个广泛使用的文本搜索系统Hadoop起源于Nutch,一个开源的网络搜索引擎,它本身也是Lucene项目的一部分。

1、Hadoop背景

Nutch项目始于2002年,一个可以执行的网页爬取工具和搜索引擎系统非常快“浮出水面”。但后来,开发者觉得这一架构可扩展度不够。不能解决数十亿网页的搜索问题。

2003年谷歌公司发表了一篇关于谷歌分布式文件系统的文章,简称GFS。

GFS或相似的架构,可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。特别关键的是,GFS可以节省系统管理所花的大量时间。

在2004年,他们開始着手实现一个开源的实现。即Nutch的分布式文件系统NDFS。

2004年,谷歌发表论文向全世界介绍他们的MapReduce系统。

2005年初,Nutch的开发者在Nutch上实现了一个MapReduce系统,到年中。Nutch的全部主要算法均完毕移植,用MapReduce和NDFS来执行。

Nutch的NDFS和MapReduce实现不知适用于搜索领域。在2006年2月,开发者将NDFS和MapReduce移出Nutch形成Lucene的一个子项目,称为Hadoop。

大约在同一时间,Doug Cutting增加雅虎,雅虎为此组织了一个专门的团队和资源。

2008年1月,Hadoop已成为Apache的顶级项目,证明了它的成功、多样化、活越性。

2、Apache Hadoop和Hadoop生态圈

尽管Hadoop因MapReduce和分布式文件系统HDFS而出名,但Hadoop这个名字也用于一组相关项目的统称。例如以下:

2.1、Common

一组分布式文件系统和通用I/O组件与接口(序列化、java rpc和持久数据结构)

2.2、Arvo

一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。

2.3、MapReduce

分布式数据处理模型和执行环境。执行于大型商用集群。

2.4、HDFS

分布式文件系统,执行于大型商用集群。

2.5、Pig

一种数据流语言和执行环境。用以检索非常大的数据集。Pig执行在MapReduce和HDFS集群上。

2.6、Hive

一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据。并提供基于SQL的查询语言(由执行时引擎翻译成MapReduce作业)用以查询数据。

2.7、HBase

一个分布式、按列存储数据库。

HBase使用HDFS作为底层存储,同一时候支持MapReduce的批量式计算和点查询。

2.8、ZooKepper

一个分布式、可用性高的协调服务。ZooKepper提供分布式锁之类的基本服务用于构建分布式应用。

2.9、Sqoop

在数据库和HDFS之间高效数据传输的工具。

3、兴许

尽管我去年就接触到hadoop,并进行了一些列的学习(网上视频和资料),但还是没有学好,实际用起来。刚好今年公司准备设计开发大数据方面的监控。公司就给我们这些开发者买了几本Hadoop方面的书籍,但我草草的看了一下。最后还是自己买了一本《Hadoop权威指南》。觉得还是这本书写的比較好,我也看完了一遍,为了总结Hadoop相关知识和便于查找,我兴许准备把里面一些比較重要的知识给总结分享下,敬请期待!

时间: 2024-10-15 01:34:18

全文索引-lucene,solr,nutch,hadoop之nutch与hadoop的相关文章

Ubuntu环境下:Hadoop, HBase, nutch各个配置文件一览

Hadoop伪分布式配置过程: Hadoop:1.2.1 Hbase:0.94.25 nutch:2.2.1 Java:1.8.0 SSH:1.0.1j tomcat:7.0.57 zookeeper:3.4.6 (1)配置Java环境:http://www.cnblogs.com/xxx0624/p/4164744.html (2)配置OpenSSH:http://www.cnblogs.com/xxx0624/p/4165252.html (3)配置Hadoop:http://www.cnb

Nutch 快速入门(Nutch 2.2.1+Hbase+Solr)

http://www.tuicool.com/articles/VfEFjm Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了.Nutch 1.7 则是把数据直接存储在HDFS上. 1. 安装并运行HBase 为了简单起见,使用Standalone模式,参考 HBase Quick start 1.1 下载,解压 wget http://archive.apache.org/di

Java分布式爬虫Nutch教程——导入Nutch工程,执行完整爬取

Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装Apache Ant 下载Nutch源码: 推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1

Lucene/Solr搜索引擎开发系列 - 第1章 Solr安装与部署(Jetty篇)

一.为何开博客写<Lucene/Solr搜索引擎开发系列>     本人毕业于2011年,2011-2014的三年时间里,在深圳前50强企业工作,从事工业控制领域的机器视觉方向,主要使用语言为C/C++:现就职于一家大型国企所属电子商务公司,主要使用语言为Java,负责公司新一代搜索引擎的开发工作,故开此系列来总结自己在Lucene/Solr上的学习历程,同时,也希望能给予对搜索引擎开发有兴趣的朋友一些帮助和启发. 二.Lucene和Solr简要介绍     Lucene是apache软件基金

Lucene/Solr 搜索引擎开发 第1章

一.本章思维导图   二.Solr的安装和部署 1.介绍Lucene和Solr分别是什么的?     Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言).Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎.    

Lucene/Solr搜索引擎开发系列 - 第2章 Solr安装与部署(Tomcat篇)

一.安装环境 图1-1 Tomcat和Solr的版本     我本机目前使用的Java版本为JDK 1.8,因为Solr 4.9要求Java版本为1.7+,请注意. 二.Solr部署到Tomcat流程 图1-2 Tomcat安装目录     1.如图1-2所示,为Tomcat的解压目录: 图1-3 Tomcat首页     2.在目录E:\apache-tomcat-8.0.9\bin中,找到startup.bat文件,双击该文件,启动Tomcat服务器,等待几秒钟后,在浏览器中输入http:/

Lucene/Solr学习笔记(一)

solr简介 Solr是一个开源的,企业级搜索服务器.Solr可以理解为Lucene的服务器化产品.它使用java编写,遵循http协议和xml协议,使用多种数据格式(如json,xml)传递数据. 但她不是对Lucene的一次简单封装,Solr的大多数特征都与Lucene不同.Solr 和 Lucene 的界限经常是模糊的.以下是Solr的主要特性: 通过HTTP请求来     建立索引和搜索索引 拥有数个缓存 来 加快搜索速度 一个基于web的管理员控制台 运行时做性能统计,包括缓存 命中/

Lucene/Solr开发经验

1.开篇语2.概述3.渊源4.初识Solr5.Solr的安装6.Solr分词顺序7.Solr中文应用的一个实例8.Solr的检索运算符 [开篇语]按照惯例应该写一篇技术文章了,这次结合Lucene/Solr来分享一下开发经验. Lucene是一个使用Java语言写的全文检索开发包(API),利用它可以实现强大的检索功能,它的详细介绍大家可以去Google上搜索一下,本文重点放在Solr相关的讨论上. [概述]目前国内研究Solr的人不多,而且大多是因为项目开发需要.Solr师承Lucene,为

Hadoop入门一:Hadoop简介

  从数据爆炸开始...  1.1 第三次工业革命 第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明和使用为标志. 第二次:19世纪70年代,各种新技术新发明不断被应用于工业生产,以电力的发明使用为标志. 第三次:20世界四五十年代末,以高新技术为代表的新科学技术革命,以原子能.航天技术和电子计算机 为标志. 1.2 信息技术发展带来的数据爆炸 纽约证券所交易    每天 1TB FaceBook一千亿照片  1PB 腾讯 每天 300TB 淘宝 每天 pv20亿 数据量 50