nutch学习笔记(一)入门篇

简介

　　nutch是一个用java实现的网络爬虫，但却不仅仅是一个爬虫。它还囊括了网页分析，索引，搜索等功能，所白了，可以当做一个搜索引擎来用。nutch的意义在于，为普通开发人员提供了一扇研究搜索引擎的窗户，让搜索引擎不再神秘。而且，由于nutch的不断发展，对性能以及并行批处理的要求不断提供，hadoop诞生了。

安装（64位linux下）：

环境准备

既然nutch是由java实现的，那么java就必须事先安装好。步骤如下：

下载jdk：jdk-xxx-linux-x64.tar.gz

解压到你想解压的目录下，如/usr/java

设置环境变量

vi /etc/profile

shift+g切到文件最末尾

插入以下语句：

JAVA_HOME=/usr/java/jdkxxx

CLASSPATH=.:/usr/java/jdk1.7.0_25/lib/dt.jar:/usr/java/jdk1.7.0_25/lib/tools.jar

PATH = $PATH:$JAVA_HOME/bin

export JAVA_HOME

export CLASSPATH

export PATH

1. 从二进制包中安装。

下载bin包，如：apache-nutch-1.x-bin.tar.gz

拷贝到你想安装的目录下，如: /usr/nutch/

解压该tar包：tar xzvf apache-xxxx

到此安装完成

2. 从源码编译安装。

下载apache-ant-xxx-bin.tar.gz

解压该tar包到/usr/ant目录

设置环境变量

(1). vi /etc/profile

(2). shift+g切换至文件末尾

(3). 插入ANT_HOME = /usr/ant/apache-ant-xxx

　　　　PATH = $PATH:$ANT_HOME/bin

　　　　export ANT_HOME

　　　　export PATH

(4). wq保存退出

(5). source /etc/profile

(6). 终端重新登入

至此，编译工具ant就算安装完成，接下来就是编译安装nutch

下载nutch源码包apache-nutch-2.xx-src.tar.gz

解压到你想要的目录下，如/usr/nutch

输入命令: cd /usr/nutch/apache-nutch-2xx

输入命令: ant进行编译

等待一段时间（有点长，我在2g的虚拟机上编译了有30min），编译后，会在当前目录下生成一个runtime的目录，里面有编译好的可执行文件，jar包等等。

注：以下用$NUTCH_HOME代指nutch的安装根目录，如/usr/nutch/apache-nutch-2xx

简易爬取网页指南

1. 配置nutch-site.xml(在$NUTCH_HOME/conf/目录下)

　　添加这么一段配置：

?

1

2

3

4

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

　　以上配置设定了nutch在爬取网页时http消息头部中User-Agent字段。

2. 建立一个目录，向目录中的文件里添加需要爬取的页面url（即种子seed）

mkdir -p urls

cd urls

touch first_url.txt

编辑first_url.txt，一行一个url即可，比如：

www.sina.com.cn

www.sohu.com.cn

...

3. 开始爬取crawl

$NUTCH_HOME/bin/nutch crawl urls -dir first_crawl -depth 2 -topN 5

如果初始化成功，在$NUTCH_HOME目录下会生成这几个目录：

first_crawl/crawldb

first_crawl/linkdb

first_crawl/segments

时间： 2024-10-05 10:34:13

nutch学习笔记(一)入门篇的相关文章

现代C++学习笔记之一入门篇：智能指针（C++ 11）

原始指针:通过new建立的*指针智能指针:通过智能指针关键字(unique_ptr, shared_ptr ,weak_ptr)建立的指针在现代 C++ 编程中,标准库包含智能指针,该指针用于确保程序不存在内存和资源泄漏且是异常安全的. 在现代 C++ 中,原始指针仅用于范围有限的小代码块.循环或者性能至关重要且不会混淆所有权的 Helper 函数中. 1 void UseRawPointer() 2 { 3 // Using a raw pointer -- not recommended

Sass学习笔记之入门篇

Sass又名SCSS,是CSS预处理器之一,,它能用来清晰地.结构化地描述文件样式,有着比普通 CSS 更加强大的功能. Sass 能够提供更简洁.更优雅的语法,同时提供多种功能来创建可维护和管理的样式表.以下是我的学习笔记. Sass安装环境 1.安装sass(mac) ①:Ruby安装 ②:安装sass sudo gem install sass 可以通过 sass -v检测是否完成安装 2.更新sass gem update sass 3.卸载(删除)sass gem uninstal

ARM学习笔记一入门篇

一.嵌入式系统组成: 嵌入式系统 = 嵌入式硬件系统 + 嵌入式软件系统: 嵌入式硬件系统 = 嵌入式处理器(CPU) + 嵌入式外围器件(ROM + RAM + I / O设备 + ...): 嵌入式软件系统 = 嵌入式操作系统 + 嵌入式应用程序: 二.嵌入式硬件系统结构图示: 嵌入式微处理器: (1)嵌入式处理器 = { 处理器内核,三大总线(数据,地址,控制), 辅助电路(时钟,复位电路...), 片上 I / O }: (2)嵌入式处理器分为三种: 嵌入式微处理器 / 嵌入式

JS学习笔记之入门篇一

本笔记总结精简,只做查找只用,如有不当之处,欢迎指正! 1.JS代码插入 2.JS代码引入 3.JS在页面中的位置注意: javascript作为一种脚本语言可以放在html页面中任何位置,但是浏览器解释html时是按先后顺序的,所以前面的script就先被执行.比如进行页面显示初始化的js必须放在head里面,因为初始化都要求提前进行(如给页面body设置css等):而如果是通过事件调用执行的function那么对位置没什么要求的. 4.JS 函数 function 函数名() {

Nutch学习笔记——抓取过程简析

Nutch学习笔记二--抓取过程简析学习环境: ubuntu 概要: Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 通过nutch,诞生了hadoop.tika.gora. 先安装SVN和Ant环境.(通过编译源码方式来使用nutch) apt-get install ant apt-get install subversion [email protected]:~/data/nutch$ svn co https:

嵌入式学习笔记008-裸奔篇之串口

串口是个好东西,前几篇裸奔程序由于没有串口,自己调试都是有led等来表示的,比较"苦逼",终于可以用串口了~~~,这里主要采用上一篇博文(嵌入式学习笔记007-裸奔篇之定时器),也就是串口也是用中断实现的,而且也只是在前一篇博文增加串口的初始化uart0_init(),以及在中断处理函数增加对串口的处理.只要稍微改造前一篇博文就是一个通用的中断处理程序! 这里主要实现在串口输入一个字符,接受后+2再发送到串口,所以在串口输入a 会返回c---. 由于code都有相应的注释,读者自行查看

ZMAN的学习笔记之Python篇：装饰器

年前工作事务比较繁琐,我只能用零碎的时间继续学习Python,决定开一个系列的博文,作为自己深入学习Python的记录吧.名字也取好了,就叫<ZMAN的学习笔记之Python篇>~开篇是关于装饰器的,春节假期码的字哈哈~就让我们开始吧! 本文的例子都是自己想的,如果不是很合适,请大家提出宝贵意见哈~谢谢啦! 一.为什么要用“装饰器” 比如我们写了如下一段代码: # 打印0~99 def func(): for i in range(100): print(i) 我们想要监测执行这个函数花费了多

Java快速教程--vamei 学习笔记（基础篇）

链接:http://www.cnblogs.com/vamei/archive/2013/03/31/2991531.html java快速教程第1课从HelloWorld到面向对象学习网址:http://www.cnblogs.com/vamei/archive/2013/03/14/2958654.html java快速教程第2课方法与数据成员学习网址:http://www.cnblogs.com/vamei/archive/2013/03/25/2964430.html java快

Struts学习傻瓜式入门篇

或许有人觉得struts不容易学,似乎里面的一些概念让未接触过的人迷惑,MVC1.MVC2.模式……我写这篇文章是想让从来没有接触过struts的人,能有个简单的入门指引,当然,系统地学习struts是必要的,里面有很多让人心醉的东东,那是后话了. 该案例包括首页,用户登陆.网站向导页面.就这么简单,没有深奥的struts概念,主要靠动手,然后用心体会. WEB Server用tomcat4.到http://jakarta.apache.org下载struts1.1,把zip文件释放到c:\s

猜你喜欢

Day1：计算机基础

今天是正式上课的第一天,听瞎驴老师讲课还是很容易听懂的.虽然接触计算机比较早,大学也学过一点相关内容,今天的课也是很有收获的,需要一定的时间来整理记录一下今天所学的东西. 一.编程语言的作用我们使用 ...

剑指Offer之赋值运算符重载（题1）

1 #include<stdio.h> ...

配置文件：mainfest.xml

AndroidManifest.xml 是每个android程序中必须的文件. 它位于整个项目的根目录,描述了package中暴露的组件(activities,services, 等等),他们各自的实 ...

Switch能否用string做参数

在jdk 7 之前,switch 只能支持 byte.short.char.int 这几个基本数据类型和其对应的封装类型.switch后面的括号里面只能放int类型的值,但由于byte,short,c ...

bzoj4668: 冷战并查集

并查集,按秩合并,树高log,暴力查询. 果然bzoj新挂的题中过的人多的全是sb题. 写了一发秒WA,发现姿势不对.(@[email protected]) 然后过了50min,开始怀疑人生.(*_ ...

【LeetCode】Single Number (2 solutions)

Single Number Given an array of integers, every element appears twice except for one. Find that sing ...

python3之redis cluster初体验

一.Redis 介绍 Redis 是一个开源内存的数据存储系统,行业中用作高效数据库缓存较多.它支持多种类型的数据结构:strings:hashes,lists,sets,sorted sets, b ...

C语言输出格式总结

1 一般格式 printf(格式控制,输出表列) 例如:printf("i=%d,ch=%c\n",i,ch); 说明: (1)"格式控制"是用双撇号括起来的字 ...

BP神经网络——交叉熵作代价函数

Sigmoid函数当神经元的输出接近 1时,曲线变得相当平,即σ′(z)的值会很小,进而也就使?C/?w和?C/?b会非常小.造成学习缓慢,下面有一个二次代价函数的cost变化图,epoch从15到 ...

DBCC常用命令小汇

DBCC是SQL Server提供的一组控制台命令,功能很强大,掌握一些必要的语句,对操作数据库有不少帮助,所以决定整理一下,发现已有不少类似的整理,减少了不少工作,归类如下: 一.DBCC 帮助类命 ...

使用VS2010创建WebService 发布、测试

使用VS2010创建WebService 发布.测试 (2015-03-19 18:13:13) 转载▼ 标签: web应用程序 web服务 webservice 分类: 代码天地 1 打开VS201 ...

快速了解Android重要机制

转自 http://www.jianshu.com/p/5f6d79323923 一.Android系统底层研究关于底层的知识点不是在一篇文章中能讲解清楚,参见本人的Android底层研究系列,不断 ...

Vim 注释多行

作为一个非专业运维人员,惨为遗忘的操作而悔恨,遂转载之! from :http://www.21andy.com/blog/20100413/1859.html Vim 注释多行简化说明以下一次注释 ...

关于行内框的一些研究

首先,来看一个demo See the Pen WQMrwe by 刘志刚 (@liuzhigang) on CodePen.

无法向会话状态服务器发出会话状态请求

生产环境: 操作系统:win2003 web: IIS 6.0 程序语言: asp.net 运行问题: 无法向会话状态服务器发出会话状态请求.请确保已启动ASP.NET State service,并 ...

SharePoint 2013 设置customErrors显示实际的错误信息

一.首先设置IIS中的Web.config文件找到对应的IIS应用程序目录,如:C:\inetpub\wwwroot\wss\VirtualDirectories\3000 在此文件夹下包含一个we ...

android第二章控件1

1.Activity:用于存放各个显示控件,是android的基本组成 2.Activity常用方法:public final View findViewById(int id) 根据组件的id取得组 ...

领域驱动设计和实践

软件系统面向对象的设计思想可谓历史悠久,20世纪70年代的Smalltalk可以说是面向对象语言的经典,直到今天我们依然将这门语言视为面向对象语言的基础.随着编程语言和技术的发展,各种语言特性层出不穷 ...

吭傧倬仪司y77vrqz3z5p74w6x3r

http://www.aiuw.com/discuss/item-1155578/http://www.languang.cc/e/space/?userid=682693http://www.lan ...

多线程的学习和巩固

NSThread -(void)commonThread { /** 使用NSThread感觉不方便的地方就是每次使用线程都得创建一个新的方法.不过它的方法好记,简单易用,只是功能上有点弱. */ / ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.