nutch+tomcat安装详细教程

环境OracleLinux-R7-U2-Server-x86_64

tomcat8.5官网下载:http://apache.opencas.org/tomcat/tomcat-8/v8.5.0/bin/apache-tomcat-8.5.0.tar.gz

nutch1.0载:http://archive.apache.org/dist/nutch/nutch-1.0.tar.gz

jdk-8u77官网下载:http://download.oracle.com/otn-pub/java/jdk/8u77-b03/jdk-8u77-linux-x64.rpm

将下载文件拷贝至/server目录下

1、安装jdk

[[email protected] ~]# cd /server

[[email protected] server]# rpm -ivh jre-8u77-linux-x64.rpm

[[email protected] server]# java  -version

java version "1.8.0_77"

Java(TM) SE Runtime Environment (build 1.8.0_77-b03)

Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)

配置环境变量

[[email protected] server]# vi /etc/profile

在文件最后添加以下内容

export JAVA_HOME=/usr/java/jdk1.8.0_77

export JAVA_BIN=/usr/java/jdk1.8.0_77/bin

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

保存退出

使用source使参数生效

[[email protected] server]# source /etc/profile

2、安装compat-libstdc++

[[email protected] server]# yum install compat-libstdc++*

3、安装nutch

登录nutch用户

[@Nutch server]# su - nutch

赋予nutch用户权限

[[email protected] ~]$ chown -R nutch.nutch /server/

解压nutch

[[email protected] ~]$ cd /server/

[[email protected] server]$ tar zxvf nutch-1.0.tar.gz

修改解压后文件名称为nutch

[[email protected] server]$ mv nutch-1.0 nutch

4、安装tomcat

解压tomcat

[[email protected] server]$ tar zxvf apache-tomcat-8.5.0.tar.gz

修改解压后文件名称tomcat

[[email protected] server]$ mv apache-tomcat-8.5.0 tomcat

启动tomcat(防火墙8080已开放)

[[email protected] server]$ tomcat/bin/startup.sh

浏览器登录http://<ip>:8080查看是否成功

5、配置tomcat

删除tomcat/webpaas/ROOT下所有文件

复制nutch文件夹下nutch1.0.war至tomcat/weapps/ROOT下

[[email protected] ~]$ cp /server/nutch/nutch-1.0.war /server/tomcat/webapps/ROOT/nutch.war

进入ROOT目录下解压nutch.war

[[email protected] ~]$ cd /server/tomcat/webapps/ROOT

[[email protected] ROOT]$ jar xvf nutch.war

启动tomcat进入浏览区查看是否可以进入nutch搜索界面

[[email protected] ROOT]$ /server/tomcat/bin/startup.sh

配置nutch-site.xml文件

[[email protected] ROOT]$ cd /server/tomcat/webapps/ROOT/WEB-INF/classes/

[[email protected] classes]$ vi nutch-site.xml

在<configuration></configuration>之间添加以下内容

<configuration>

<property>

<name>searcher.dir</name>

<value>/server/crawl.demo</value>   //value的值指向nutch抓取的页面的保存目录

</property>

<property>

<name>http.agent.name</name>

<value>nutch-1.0</value>

<description>HTTP ‘User-Agent‘</description>

</property>

</configuration>

配置 server.xml文件

[[email protected] classes]$ cd /server/tomcat/conf/

[[email protected] conf]$ vi server.xml

找到Connector port="8080"语句并添加最后两句内容

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"

URIEncoding="UTF-8"

useBodyEncodingForURI="true"/>

保存退出

6、配置nutch

[[email protected] conf]$ cd /server/nutch/conf/

配置crawl-urlfilter.txt文件

[[email protected] conf]$ vi crawl-urlfilter.txt

将一下内容

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

修改为(根据自己搜索的内容更改)

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*com/

+^http://([a-z0-9]*\.)*cn/

+^http://([a-z0-9]*\.)*net/

配置regex-urlfilter.txt文件

[[email protected] conf]$ vi regex-urlfilter.txt

将最后一个行注释掉,并在最后添加以下内容

# accept anything else

#+.

+^http://([a-z0-9]*\.)*com/

+^http://([a-z0-9]*\.)*cn/

+^http://([a-z0-9]*\.)*net/

配置nutch-site.xml文件

在<configuration></configuration>中间填写一下语句

<configuration>

<property>

<name>http.agent.name</name>

<value>Nutch nutch agent</value>

</property>

<property>

<name>http.agent.version</name>

<value>1.0</value>

</property>

</configuration>

配置urls目录

在/server下新建urls目录

[[email protected] conf]$ cd /server/

[[email protected] server]$ mkdir urls

新建url文件并填写需要搜索的网站域名(本人填写的是http://www.qq.com)

[[email protected] urls]$ vi url

配置nutch抓取的页面的保存目录

[[email protected] conf]$ cd /server/

[[email protected] server]$ mkdir crawl.demo

执行抓取命令

[[email protected] server]$ cd /server/nutch

[[email protected] nutch]$ bin/nutch crawl /server/urls -dir /server/crawl.demo -depth 2 -threads 4 -topN 50 >& /server/crawl.demo/crawl.log

如果报Error: JAVA_HOME is not set可在shell中用nutch执行一次export JAVA_HOME=/usr/java/jdk1.8.0_77

# /server/urls是存放网址的文件夹目录

# -dir /server/crawl.demo是抓取的页面的存放目录,与3.1.2中的设定搜索目录是对应的

# -depth指爬行的深度,这里处于测试的目的,选择深度为 2 ,完全爬行一般可设定为10左右

# -threads指定并发的进程这是设定为 4

# -topN指在每层的深度上所要抓取的最大的页面数,完全抓取可设定为1万到100万,这取决于网站资源数量

# 抓取过程写入/server/crawl.demo/crawl.log中

抓取完毕可到web页面进行搜索

到此为止nutch安装完毕

时间: 2024-10-06 15:08:17

nutch+tomcat安装详细教程的相关文章

今天带来Pycharm安装详细教程

Python环境搭建-安利Python小白的Python和Pycharm安装详细教程 人生苦短,我用Python.众所周知,Python目前越来越火,学习Python的小伙伴也越来越多.最近看到群里的小伙伴经常碰到不会安装Python或者不知道去哪下载Python安装包等系列问题,为了方便大家学习Python,小编整理了一套Python和Pycharm安装详细教程,只要大家按照这个步骤来,就可以轻松的搞定Python和Pycharm的安装了. Python具有跨平台性,它几乎可以在任何平台下运行

Python、 Pycharm、Django安装详细教程(图文)

这篇文章主要介绍了Python. Pycharm.Django安装详细教程,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 最近做项目要用到python,那么不用说就得先配置好python环境 以及选择好python工具.接下来分享自己的安装过程. (一).Python的安装 1.先进入官网下载python版本,https://www.python.org/downloads/ 2.下载完成后双击.exe文件进行安装,可以自定

Windows操作系统下tomcat安装图文教程(转)

下载tomcat安装文件,官方下载地址是:http://tomcat.apache.org/,本文以tomcat-7.0.26版本为例进行安装过程的说明:1.双击apache-tomcat-7.0.26.exe开始tomcat的安装,见图1.图1 2.点击Next,进入第二步,同意它的安装协议条款,见图2,点击I Agree继续安装.图2 3.选择安装选项,默认是Normal,可以看图3,点开Tomcat,选中Service,以后将可以在管理的服务中启动和关闭Tomcat图-3 4.点击Next

tomcat安装图文教程

运维 memory 发布于June 1, 2013 标签: Windows, Tomcat 下载Tomcat安装文件,官方下载地址是:http://tomcat.apache.org/,本文以tomcat-7.0.26版本为例进行安装过程的说明:1.双击apache-tomcat-7.0.26.exe开始tomcat的安装,见图1.图1 2.点击Next,进入第二步,同意它的安装协议条款,见图2,点击I Agree继续安装.图2 3.选择安装选项,默认是Normal,可以看图3,点开Tomcat

MySQL5.7.21解压版安装详细教程

由于本人经常装系统,每次装完系统之后都要重新安装一些软件,安装软件的时候又要上网查找安装的教程,比较麻烦,所以自己整理了MySQL5.7.21解压版的安装方法,以便查看. 1.首先,你要下载MySQL解压版,下载地址:https://www.mysql.com/downloads/,图解: 2.解压安装包,根据自己的喜好选择路径,我选择的路径是C:\software\,因此MySQL的完整路径为:C:\software\mysql-5.7.21-winx64 3.配置环境变量 新增系统环境变量:

linux下使用qq————pidgin-lwqq 源码安装详细教程

今天费了不少功夫终于安装了pidgin——lwqq,可以在linux上使用qq了lwqq是在linux下通讯工具pidgin上使之支持webqq协议的组件下面来详细介绍一下安装方法,共介绍两种,通过apt-get工具和通过源码安装(针对ubuntu和debian用户) 要安装pidgin-lwqq首先要安装lwqq,这两个组件已经被分开 首先我们来安装lwqq 先是lwqq依赖的库的安装使用apt-get命令可以 $ sudo apt-get install build-essential cm

Tomcat 安装--小白教程

因为要进行微信公众号的开发模式,所以需要安装Tomcat Web服务器,现在就把我的安装过程写下来,希望可以帮到有需要的人~首先,我们需要下载tomcat的安装包,直接去官网就好啦,http://tomcat.apache.org/ ,根据需要选择合适的安装包,最新的是9,但是,我的eclipse Mars只能用8.0以下的,所以最好先看看自己可以配置的(我会告诉你,我把8.8.5.9都下了一遍吗?这里有一个小问题,就是如果你已经安装了几个tomcat都按错了,等你好不容易找到了自己的,却发现安

Qt Creator下载和安装(详细教程)

简介 Qt是跨平台的图形开发库,目前由Digia全资子公司 Qt Company 独立运营,官方网址: http://www.qt.io/ 也可以访问Qt项目域名:http://qt-project.org/ Qt本身支持众多操作系统.从通用操作系统Linux.Windows,到手机系统Android.iOS.WinPhone,嵌入式系统支持QNX.VxWorks,应用非常广泛. 基于Qt的软件非常多,其中最知名的要数Linux桌面系统KDE(涵盖无数以K打头的应用软件).国内WPS for L

Tomcat学习总结(3)——Tomcat优化详细教程

Tomcat是我们经常使用的 servlet容器之一,甚至很多线上产品都使用 Tomcat充当服务器.而且优化后的Tomcat性能提升显著,本文从以下几方面进行分析优化. 一.内存优化 默认情况下Tomcat的相关内存配置较低,这对于一些大型项目显然是不够用的,这些项目运行就已经耗费了大部分内存空间,何况大规模访问的情况.即使是本文中的这个只有一个页面的超小项目,在并发达到一定程度后也会抛出以下类似异常: Java代码   严重: Exception invoking periodic oper