Nutch介绍

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作

oschina.net - 搜索引擎 Nutch

时间： 2024-08-04 14:13:12

Nutch介绍的相关文章

Nutch爬虫安装向导与命令详解

Nutch介绍 Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索. 我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文件夹. Nutch安装步骤1:从下面的网站中下载nutch包 http://lucene.apache

java 网络爬虫框架

java 网络爬虫框架: apache Nutch ,Heritrix等,主要参照开源社区提供的40个开源项目文章背景: 最近要写个爬虫抓去新浪微博的数据,然后用hadoop存储后,进行分析,就在网上搜取相关资料. 网友推荐使用python来做,但鉴于本人擅长的是java,学习python需要一定的时间成本,还是选择java.一开始想自己从头写,搜到apache httpClient, 后来想着还是用开源成熟的框架来做,目前觉得apache Nutch 和Heritrix是个不错的选择,不过

手把手教你写网络爬虫（3）：开源爬虫框架对比

手把手教你写网络爬虫(3) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 介绍大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过<手把手>系列的前两篇,那么今天的内容就非常容易理解了.细心的读者也许会有疑问,为什么不学出身名门的Apache顶级项目Nutch,或者人气飙升的国内大神开发的Pyspider等框架呢?原因很简单,我们来看一下主流爬虫框架在GitHub上的活跃度: Project Language Star Watch Fork Nutch Java 1

小白学爬虫：开源爬虫框架对比（三）

摘要:从零开始写爬虫,初学者的速成指南! 介绍大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过<手把手>系列的前两篇,那么今天的内容就非常容易理解了.细心的读者也许会有疑问,为什么不学出身名门的Apache顶级项目Nutch,或者人气飙升的国内大神开发的Pyspider等框架呢?原因很简单,我们来看一下主流爬虫框架在GitHub上的活跃度: ProjectLanguageStarWatchFork NutchJava1111195808 webmagicJava42166182

开源爬虫Labin，Nutch，Neritrix介绍和对比

开源爬虫Labin,Nutch,Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料,整理在下面: Larbin开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下larbin每天可以爬5百万个页面(当然啦,需要拥有良好的网络) 简介 Larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien A

Nutch搜索引擎（第4期）_ Eclipse开发配置

1.环境准备 1.1 本期引言前三期分别介绍了Nutch与Solr在Linux上面的安装,并做了简单的应用,这一期从开发的角度进行,因为我们日常最熟悉的开发环境是Windows,所以本期详细介绍Windows平台的Nutch二次开发所需要进行的配置安装.当我们开发好之后,最后在部署到Linux环境中. 为了方便以后Nutch开发以及软件安装的管理,我们对开发环境配置进行如下安排: E:/(盘符) |----cygwin |----NutchWorkPlat |----ant |----solr

Nutch

介绍 Apache Nutch是一个用Java编写的开源网络爬虫.通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索.接下来就是Apache Solr所要做的.Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页.幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了. Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch

《图解Spark：核心技术与案例实战》介绍及书附资源

本书中所使用到的测试数据.代码和安装包放在百度盘提供下载 ,地址为https://pan.baidu.com/s/1o8ydtKA 密码:imaa 另外在百度盘提供本书附录下载 ,地址为http://pan.baidu.com/s/1o7Busye 密码:shdf 为什么要写这本书在过去的十几年里,由于计算机普遍应用和互联网的普及数据呈现了爆发式增长,在这个背景下Doug Cutting受到谷歌两篇论文(GFS和MapReduce)的启发下开发Nutch项目, 2006年Hadoop脱离

Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习简述总结引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark 运行原理 RDD 初识 shuffle 和 stage 性能优化 1 缓存机制和 cache 的意义 2 shuffle 的优化 3 资源参数调优 4 小结本地搭建 Spark 开发环境 1 Spark-Scal

猜你喜欢

vue2.0 之标签属性

标签属性v-bind <template> <div> <ul> <li v-for="item in list"> {{ item ...

spring案列——annotation配置

一.需要的jar包 spring.jar commons-loggin.jar commons-loggin.jar commons-annotation.jar 二.项目结构三.entity pa ...

setTimeout与setInterval的区别

setTimeout与setInterval的区别:1.setTimeout设置后隔指定时间后只会执行一次2.setInterval设置后会每隔指定时间执行一次3.setTimeout一般在方法内部使 ...

内部消息微软中国云计算内测Azure免费账号赶紧申请错过不再有

内部消息微软中国云计算顶级内测Azure免费账号火热申请过期不再有!微软MSDN俱乐部 29754721, [一大波Azure免费账号来袭]Windows Azure再次开启发放免费试用账号 ...

原生JS和jQuery实现banner图滚动那些事

前言阿q 作为一个准前端学员,banner图可是很重要的呢.本人,小白一只,给大家分享几个刚刚学习的基础banner图事件.~~~ 1. 小广告图滚动播放 1.1HTML代码首先,创建基本 ...

苹果个人开发者账号申请

苹果开发者账号分为三类:个人.公司及企业, 个人账号: 允许AppStore上发布.审核一周.价格$99,只能有一个开发者,需提供个人信用卡信息只能装一百台机子调试. 公司账号: 允许AppStore ...

HTML5应用程序缓存实现离线Web网页或应用

HTML5应用程序缓存和浏览器缓存的区别.(有些)浏览器会主动保存自己的缓存文件以加快网站加载速度.但是要实现浏览器缓存必须要满足一个前提,那就是网络必须要保持连接.如果网络没有连接,即使浏览器启用了 ...

模板编程-迭代器

迭代器迭代器源于指针而高于指针,并成为分割容器与算法的一条界河.在一个共同的迭代器界面约定之下,不同的算法与不同的容器只要其迭代器要求一致就可以相互组合. 迭代器分类 c++标准库中对迭代器进行了详 ...

SpringMVC总结的部分教程及使用方法

注:本文只用注解来实现 SpringMVC各种流程图流程图(其他的各种流程图)jsp.xml.action彼此之间的关系,都如何使用spring-mvc.xml如何配置,放在哪里?action中如何转 ...

RHCE7设置运行级别设置

一.设置命令行级别方法 [[email protected] ~]# systemctl set-default multi-user.target rm '/etc/systemd/system/d ...

手机安全卫士——通讯卫士-黑名单的管理

CallSafeActivity .java public class CallSafeActivity extends Activity { private ListView list_view; ...

delphi 手势识别哈哈

本例尝试在 OnGesture 事件中响应 sgLeft.sgRight 手势; 操作步骤: 1.加 TGestureManager 控件如窗体: GestureManager1; 2.设置窗体属性 ...

戴维营第八天上课总结

结构体是一个类似超级数组一样的定义, 它可以定义许多不同类型的变量, 用struct 加上变量名, 类似于int a这样子的定义, 但区别在于结构需要用{};等三个符号来概括包含里面的内容, 定义好之 ...

el表达式判断是否为空

${empty object},如果为空返回true,否则false ; ${!empty object},与之相反. el表达式判断是否为空,布布扣,bubuko.com

ios宏定义应该呆在恰当的地方

项目为了看起来整洁并减少不必要的多次拼写我们会把这样的方法做成宏定义那么问题来了很多文件同时用到一个或多个宏定义写完之后就会变成这个样子看起来很乱阅读性也不好那么问题来了怎么解决嘞 ...

redis 发布/订阅模式

发布/订阅模式的命令如下: * 进入发布订阅模式的客户端,不能执行除发布订阅模式以上命令的其他命令,否则出错.

写一个脚本通过字符菜单方式添加和删除用户

1.编写menu.sh脚本 #!/bin/bash # function menu(){ cat << EOF `echo -e "\033[30;47m############ ...

常用Shell脚本编写的内置变量

参数处理-Shell传入参数的处理 $# 传递到脚本的参数个数 $* 以一个单字符串显示所有向脚本传递的参数.与位置变量不同,此选项参数可超过9个 $$ 脚本运行的当前进程ID号 $! 后台运行的最后 ...

IOS中UIWebView和JavaScript交互（转自http://blog.2jun.net/2012/11/02/webviewandjs/）

IOS中UIWebView和JavaScript交互当程序中使用到UIWebView控件的时候,难免会遇到需要与页面进行交互的情况.这种情况在android平台下比较容易处理,android平台下W ...

使用EventLog类写Windows事件日志

在程序中经常需要将指定的信息(包括异常信息和正常处理信息)写到日志中.在C#3.0中可以使用EventLog类将各种信息直接写入Windows日志.EventLog类在System.Diagnosti ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.