Hadoop与Lucene和Nutch的关系

Hadoop+Lucene+Nutch

Hadoop中实现了 Google的GFS和MapReduce算法,使Hadoop成为了一个分布式的计算平台。Hadoop不仅是一个用于存储的分布式文件系统,而且是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。

Lucene是一个Java高性能全文索引引擎工具包可以方便的嵌入到各种实际应用中实现全文索引搜索功能。Nutch是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene为Nutch 提供了文本搜索和索引的API,Nutch不仅提供搜索,而且还有数据抓取的功能。

在nutch0.8.0 版本之前,Hadoop是Nutch的一部分,从nutch0.8.0开始,NDFS和MapReduce从中被剥离出来成立一个新的开源项目 Hadoop,Nutch0.8.0版本的架构比从前有了根本性的变化,完全构建在Hadoop的基础之上了。

Hadoop与Lucene和Nutch的关系,布布扣,bubuko.com

时间: 2024-10-13 11:34:39

Hadoop与Lucene和Nutch的关系的相关文章

solr ,hadoop ,lucene,nutch 的关系和区别

apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术. nutch和solr原来都是lucene下的子项目.但后来nutch独立成为独立项目.nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下.nutch主要完成抓取,提取内容等工作. solr则是基于lucene的搜索界面.提供XML/HTTP 和 JSON/Python/Ruby API,提供搜

lucene join解决父子关系索引

1 背景 以商家(Poi)维度来展示各种服务(比如团购(deal).直连)正变得越来越流行(图1a), 比如目前美食.酒店等品类在移动端将团购信息列表改为POI列表页展示.                   图1   a:商家维度展示信息: b:join示意 这给筛选带来了复杂性.之前的筛选是平面的,如筛选poi列表时仅仅利用到poi的属性(如评价.品类等),筛选deal列表时也仅仅根据deal的属性(房态.价格等).而现在的筛选是具有层次关系的,我们需要根据deal的属性来筛选Poi,举个例

《hadoop进阶》PeopleRank从社交关系中挖掘价值用户

转载请注明出处: 转载自  Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:PageRank 与 PeopleRank 2:需求分析:挖掘CSDN博客的价值用户 3:算法模型:PeopleRank算法 4:架构设计:从数据准备到PR算法的MR化 5:程序开发:hadoop实现PeopleRank算法 一:PageRank与PeopleRank PageRank算法是Google从垃圾堆里捡黄金的重量级算法,它让谷歌的搜索引擎一度成

hadoop计算二度人脉关系推荐好友

https://www.jianshu.com/p/8707cd015ba1 问题描述: 以下是qq好友关系,进行好友推荐,比如:老王和二狗是好友 , 二狗和春子以及花朵是好友,那么老王和花朵 或者老王和春子就有可能也认识,可以对老王推荐春子和或花朵作为好友. 注意以下是制表符:tab建,所以程序中用 /t进行分割 老王 二狗 老王 二毛 二狗 春子 二狗 花朵 老王 花朵 花朵 老王 春子 菊花 问题分析 问题分析: 主 ---> 从 从 --->主 分别列出每一个关系,然后都列出从--&g

全文索引-lucene,solr,nutch,hadoop之nutch与hadoop

全文索引-lucene.solr.nutch,hadoop之lucene 全文索引-lucene.solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,solr.nutch和hadoop这几个东东给具体的介绍下,但因为时间的关系.我还是仅仅写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,尽管到如今我没有真正搞过nutch和hadoop实战项目,但公司立即就要做hadoop大数据的监控了.我一直都说,要做一个有准备的人,因此我从

全文索引之nutch与hadoop(转)

原文:http://blog.csdn.net/chaofanwei/article/details/39476535 全文索引-lucene,solr,nutch,hadoop之lucene 全文索引-lucene,solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,solr,nutch和hadoop这几个东东给详细的介绍下,但由于时间的关系,我还是只写了两篇文章,分别介绍了一下lucene和solr,后来就没有在写了,但我心里还是期待的,虽然到现在我没有真正搞过

[Nutch]Hadoop单机伪分布模式的配置

在之前的博文中,我们一直在使用Nutch的local模式,那么Nutch的Deploy模式该怎么使用呢?首先我们来配置hadoop,为使用Nutch的deploy模式做准备. 1. 下载hadoop 在workspace目录使用如下命令下载hadoop 1.2.1: wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 下载之后进行解压: tar -zxvf hadoop-1.2.1

基于Nutch和Hadoop的简易搜索引擎

最近和寝室的同学一起搭建了Hadoop的集群,实现了一个简易的本地搜索引擎,并且将其开源到了github上:https://github.com/ifuding/search-1047,接下来的几篇博文将对这个项目及其代码作一些详细的描述. 搜索原理概述 "搜索",简而言之就是要分析用户输入然后输出给用户已经排好序的URL集合.一个简单的实现所需要的排序依据主要就是文本检索以及url的PageRank值. PageRank PageRank算法有很多文章对其进行讲解,其模型类似一个马尔

Hadoop入门一:Hadoop简介

  从数据爆炸开始...  1.1 第三次工业革命 第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明和使用为标志. 第二次:19世纪70年代,各种新技术新发明不断被应用于工业生产,以电力的发明使用为标志. 第三次:20世界四五十年代末,以高新技术为代表的新科学技术革命,以原子能.航天技术和电子计算机 为标志. 1.2 信息技术发展带来的数据爆炸 纽约证券所交易    每天 1TB FaceBook一千亿照片  1PB 腾讯 每天 300TB 淘宝 每天 pv20亿 数据量 50