[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境

1、环境准备

1.1 软件

操作系统:Windows 10专业版

ANT版本:apache-ant-1.9.7-bin.zip

JDK版本:jdk-8u65-windows-x64.exe

Solr版本:solr-4.9.1.zip

Nutch版本:apache-nutch-1.6-bin.tar.gz

Tomcat版本:apache-tomcat-9.0.0.M8-windows-x64.zip

Eclipse版本:eclipse-jee-mars-1-win32-x86_64.zip

下面是安装的Eclipse插件:

IvyDE插件:

Ivy:

plugins:

org.apache.ivy.eclipse.ant_2.4.0.final_20141213170938.jar

org.apache.ivy_2.4.0.final_20141213170938.jar

features:

org.apache.ivy.feature_2.4.0.final_20141213170938.jar

IvyDE:

plugins:org.apache.ivyde.eclipse_2.2.0.final-201311091524-RELEASE.jar

features:org.apache.ivyde.feature_2.2.0.final-201311091524-RELEASE.jar

1.2 JDK安装配置

双击”jdk-8u65-windows-x64.exe”即可进行安装,我们一路点击Next,默认安装在C盘,下面是我们安装完JDK的目录。

下面配置JAVA环境变量:右击->我的电脑->属性->高级系统设置->高级->环境变量。

1.2.1 点击”新建”,然后变量名写上”JAVA_HOME”,填上上面内容。

JAVA_HOME=C:\Program Files\Java\jdk1.8.0_65

如下:

备注:JAVA_HOME的变量值后千万不能加分号。

1.2.2 第二步:点击”新建”,然后变量名写上”CLASSPATH”,填上上面内容。

CLASSPATH=.;%JAVA_HOME%\lib;%JAVA_HOME%\jre\lib

如下:

备注:要加圆点.表示当前路径。

1.2.3 第三步:点击”新建”,然后变量名写上”NUTCH_JAVA_HOME”,填上上面内容。

NUTCH_JAVA_HOME=%JAVA_HOME%

1.2.4 第四步:在系统变量里找到Path,点击编辑。在后面追加上面内容。

PATH=……;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin

如下:

备注:追加时,用”;”与前面的值进行分割。

1.3 ANT安装配置

把”apache-ant-1.9.7-bin.zip”解压到”C:\NutchWorkPlat”中,并重新命名为”ant”。

下面配置ANT环境变量:右击->我的电脑->属性->高级系统设置->高级->环境变量。

1.3.1 第一步:点击”新建”,然后变量名写上”ANT_HOME”,填上下面内容。

ANT_HOME= C:\NutchWorkPlat\ant

如下:

备注:ANT_HOME的变量值后千万不能加分号。

1.3.2 第二步:在系统变量里找到Path,点击编辑。在后面追加下面内容。

PATH=……;%ANT_HOME%\bin;%ANT_HOME%\lib

如下:

备注:追加时,用”;”与前面的值进行分割。

1.4 IvyDE安装配置

1.4.1 ivyde- plugins

把"org.apache.ivyde.eclipse_2.2.0.final-201311091524-RELEASE.jar"复制到Eclipse安装目录的"plugins"中。

1.4.2 ivyde-features

把"org.apache.ivyde.feature_2.2.0.final-201311091524-RELEASE.jar"解压到Eclipse安装目录的"features"中。

备注:是解压之后放到目录"features"中,而不是直接把jar包放到里面,不然启动Eclipse后,打开WindowàShow ViewàError log后,提示"Unable to find feature.xml in directory"。

1.4.3 ivy- plugins

把”org.apache.ivy.eclipse.ant_2.4.0.final_20141213170938.jar”和”org.apache.ivy_2.4.0.final_20141213170938.jar”复制到Eclipse安装目录的”plugins”中。

1.4.4 ivy-features

把”org.apache.ivy.feature_2.4.0.final_20141213170938.jar”解压到Eclipse安装目录的”features”中。

完成以上步骤之后,重启Eclipse,打开Windowàpreference对话框里看到ivy一栏;打开Help->About Eclipse->Installation->Plug-ins列表里也可以看到两个ivy,一个ivyDe。

1.5 Tomcat安装配置

1.5.1 首先安装Tomcat

把”apache-tomcat-9.0.0.M8-windows-x64.zip”解压到”C:\NutchWorkPlat”目录下,并重新命名为”tomcat”。

进入”C:\NutchWorkPlat\tomcat\bin”点击”startup.bat”,然后出现如下界面。

然后在浏览器输入”http://localhost:8080/“,出现如下界面,表示安装成功。

1.5.2 接着安装Tomcat的Eclipse插件,并让Eclipse与Tomcat结合

正Eclipse->Help->Install New Software里面,选择Add,分别填上如下内容:

Name:Tomcat
Location:http://tomcatplugin.sf.net/update

如下:

选择OK,勾选Tomcat Plugin后选择Next进行安装:

安装完成之后重启Eclipse。

打开Window->preference对话框里看到tomcat一栏,点击tomcat,把刚才解压的tomcat进行关联,操作如下:

点击工具栏的”Start Tomcat”即可启动Tomcat。

然后在Eclipse控制台会输出启动Tomcat的相关信息。

此时可以再次在浏览器输入”http://localhost:8080/“进行验证是否启动成功。

1.6 Cygwin安装配置

nutch是在hadoop基础上做的,由于hadoop只在linux上运行,里面涉及到大量的操作linux程序,所以我们在Windows部署的时候必须先安装cygwin环境,模拟linux操作。

在上图所示的对话框中,直接点击”下一步”,界面出现三种安装模式:

Install from Internet,这种模式直接从Internet安装,适合网速较快的情况;

Download Without Installing,这种模式只从网上下载Cygwin的组件包,但不安装;

Install from Local Directory,这种模式与上面第二种模式对应,当你的Cygwin组件包已经下载到本地,则可以使用此模式从本地安装Cygwin。

我们这里选择第一种”Install from Internet”方式进行安装,然后一直使用默认值,选择”下一步”,直到出现如下图所示对话框:

进入”Select Packages”对话框后,其实直接点击”下一步”,进行默认安装即可,为了以后再cygwin下面搭建hadoop环境,所以安装了一些软件。

- OpenSSL

- sed

- vim

必须保证”Net Category”下的”OpenSSL”被安装,如下图所示:

如果还打算在eclipse 上编译Hadoop,则还必须安装”Base Category”下的”sed”,如下图所示:

另外,还建议将”Editors Category”下的vim 安装,以方便在Cygwin 上直接修改配置文件,如下图所示:

建议安装在”Devel Category”下的subversion,如下图所示:

当完成上述操作后,点击”Select Packages”对话框中”下一步”,进入Cygwin 安装包下载过程。

当安装完Cygwin软件之后,我们还需要对其设置它的环境变量。

1.5.1 第一步:点击”新建”,然后变量名写上”CYGWIN_HOME”,填上下面内容。

CYGWIN_HOME= C:\cygwin64

如下:

1.5.2 第二步:在系统变量里找到Path,点击编辑。在后面追加下面内容。

PATH=……;% CYGWIN_HOME %\bin

如下:

2、Eclipse开发

2.1 Solr部署

2.1.1 第一步:把”solr-4.9.1.zip”解压到”C:\NutchWorkPlat”目录下,并命名为”solr”。

2.1.2 第二步:把”C:\NutchWorkPlat\solr\dist”目录下的”apache-solr-4.9.1.war”重命名为”solr.war”,并把它放到”C:\NutchWorkPlat\tomcat\webapps”目录下面。

2.1.3 第三步:修改Tomcat配置文件”C:\NutchWorkPlat\tomcat\conf\server.xml”,添加中文编码支持。

2.1.4 第四步:把”C:\NutchWorkPlat\solr\example”目录下的”solr”文件夹连同里面的内容一起复制到”C:\NutchWorkPlat\tomcat”目录中。

2.1.5 第五步:在”C:\NutchWorkPlat\tomcat\conf\Catalina\localhost”下创建一个”solr.xml”文件,内容如下所示:

<?xml version="1.0" encoding="UTF-8"?>

<Context docBase="C:\NutchWorkPlat\tomcat\webapps\solr.war" debug="0"

crossContext="true" >

    <Environment name="solr/home" type="java.lang.String"

   value="C:\NutchWorkPlat\tomcat\solr" override="true" />

</Context>

2.1.6 第六步:修改”C:\NutchWorkPlat\tomcat\solr\conf\ solrconfig.xml”找到下面这句话。

<queryResponseWriter

name="velocity"

class="solr.VelocityResponseWriter" enable="${solr.velocity.enabled:true}"/>

把 enable=”${solr.velocity.enabled:true}中的true修改为false。

2.1.7 第七步:重新启动Tomcat,输入”http://localhost:8080/solr/“,出现下面界面。

2.2 Nutch导入

2.2.1 第一步:把”apache-nutch-1.6-bin.tar.gz”解压到”C:\NutchWorkPlat”目录下,并重命名为”nutch”。

2.2.2 第二步:在eclipse中新建立一个Java Project,名字自己定义为Nutch1.6,去掉默认路径(Use default location)前面的对勾,选择”C:\NutchWorkPlat\nutch”。其他保持默认,点击”next”。

2.2.3 第三步:选择”Librariesà Add Class Folder…”,从列表中选择”conf”,将conf加入到classpath中。

2.2.4 第四步:别着急点”next”,选择”Order and Export”,选中”conf”,点击”Top”,使其置顶,此步骤非常关键,置顶之后,点击”Finish”。

2.2.5 第五步:在”Nutch1.6”工程根目录下面创建”urls”文件夹(与src、conf同级),在里面在创建一个名为”urls.txt”的文件,在该文件里添加如下内容:

http://www.cnbeta.com

2.2.6 第六步:在”Nutch1.6”工程根目录下的conf文件夹中,编辑”nutch-site.xml”,使其内容如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
    <property>
        <name>http.agent.name</name>
        <value>My Nutch Spider</value>
    </property>
    <property>
        <name>plugin.folders</name>
        <value>./src/plugin</value>
    </property>

</configuration>

备注:其中”http.agent.name”和”plugin.folders”必须设置,不然会出现”Job Failure”。

2.2.7 第七步:在”Nutch1.6”工程根目录下的conf文件夹中,编辑”regex-urlfilter.txt”,在”# accept anything else”下面输入:”+^http://(.)“,然后保存。

2.2.8 第八步:经过上面的配置之后,就可以爬去网页了,选中”Nutch1.6”工程右击选择”Run As->Run Configurations”,从中找到”Java Application”,然后右击选择”New”,在Main Class选择”org.apache.nutch.crawl.Crawl”,将名字命名为”Crawl”。

2.2.9 第九步:接着上面在”Arguments”选项卡中按下面进行填写,然后点击”Apply与Run”。

Program Arguments:urls -dir data -depth 3 -threads 5 -topN 100
VM arguments:-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

2.3 Solr与Nutch结合

通过上面的步骤之后,指定的网页已经抓取到本地了,现在我们就为我们下载的网页建立索引。

2.3.1 第一步:把”E:\NutchWorkPlat\nutch\conf”下面的”schema.xml”复制到Tomcat的安装目录”E:\NutchWorkPlat\tomcat\solr\conf”下,覆盖掉原文件。schema.xml设置了索引的字段,把content项后面的stored=”false” 改为 stored=”true” 后在搜索返回值中就会包含含有关键字的具体内容。

2.3.2 第二步:点击Eclipse工具栏的”Start Tomcat”即可启动Tomcat。

备注:如果Tomcat已经起来了,在第一步完成之后,也应该重启使其有效,如果不起动Tomcat,在建立索引时会失败。

2.3.3 第三步:经过上面的配置之后,就可以建立索引了,选中”Nutch1.6”工程右击选择”Run AsàRun Configurations”,从中找到”Java Application”,然后右击选择”New”,在Main Class选择”org.apache.nutch.indexer.solr.SolrIndexer”,将其命名为”SolrIndexer”。

2.3.4 第四步:接着上面在”Arguments”选项卡中按下面进行填写,然后点击”Apply与Run”。

Program Arguments:
http://localhost:8080/solr/ data/crawldb -linkdb data/linkdb data/segments/*

VM arguments:-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

下面是Eclipse控制台输出信息:

SolrIndexer: starting at 2016-06-18 14:45:41

Adding 352 documents

SolrIndexer: finished at 2016-06-18 14:45:56, elapsed: 00:00:14

2.5.5 第五步:在浏览器输入”http://localhost:8080/solr/admin/“,并在查询条件输入关键字,点击”Search”进行查询。

下面就是查询结果,以XML结果显示。

到目前为止,Nutch二次开发的前期工作已经准备完毕,并在上面进行简单的抓取,后面我们将对Nutch的源码以及工作原理相结合进行分析。进一步认识Nutch。

时间: 2024-12-29 23:17:06

[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境的相关文章

Eclipse+ADT+Android SDK 搭建安卓开发环境

要求 必备知识 windows 7 基本操作. 运行环境 windows 7 下载地址 环境下载 最近开接触Android(安卓)嵌入式开发,首要问题是搭建Andoid开发环境,由于本人用的是windows7的笔记本,也就只能到Windows中搭建Android 开发环境了! 就搭建环境都花了比较长的时间, 在各种版本之间折腾了比较久的时间, 装好后SDK包更新又是一个比较大的麻烦(天朝的网络大家懂的--).下面把我的安装过程和经验分享个大家!! 安装JDK 这里可以参考我之前写的一篇关于安装J

Cygwin搭建hadoop开发环境

这篇文章不具体讲一些细的概念东西,如要了解cygwin和hadoop可以去参考其他的文章,该文阐述从下载cygwin到搭建hadoop环境,里面的图片部门来自网上资料,因为本人当时部署时没有保存自己运行图片,但是步骤是一样的. 对于hadoop是个庞大的生态系统,里面光一些技术要点多达几十种,但所谓千里之行,始于足下,对于我这样的技术小白来说,如果想弄一个完全分布式的hadoop环境无异天方夜谭,首先我不懂linux,再说也没那么多机器搭建完全分布式环境.但是cygwin的出现可以让我不用在我本

(1)cocos2d-x-2.2.4搭建windows开发环境

Cocos2d-x-2.2.4搭建windows环境 软件需求 Windows系统(windows7或之后的系统): cocos2d-x-2.2.4压缩包: python安装包(推荐使用2.7.3版本): 文本编辑工具(不推荐使用文本文档,使用NotePad++或UE等): Visual Studio 2010或之后版本 开始环境搭建 安装Visual Studio(以下简称VS) 安装运行cocos2d-x-2.2.4(以下简称cocos2dx) 解压cocos2d-x-2.2.4压缩包到指定

Linux环境Eclipse + Tomcat + MySQL 构造J2EE方法开发环境

1. 版本号信息 (1)CentOS 6.4释64位置.uname -a 下面的示例演示显著样本: Linux localhost.localdomain 3.11.6 #1 SMP Sat Nov 2 23:25:40 KST 2013 x86_64 x86_64 x86_64 GNU/Linux (2)Eclipse: Version: Kepler Service Release 2 (3)Tomcat: apache-tomcat-7.0.53 (4)Mysql:      mysql-

01. Eclipse for PHP + phpStudy 搭建php开发环境

配置php编译器 配置phpStudy服务器项目发布目录 修改hosts文件127.0.0.1      www.350zx.cn 新建项目 启动的你的phpStudy

Eclipse+EPIC搭建Perl开发环境

Perl,如果纯粹只是用做脚本的功能来写写几十行的代码,实现小功能,用NodePad++, EditPlus就足够了,如果是企业级的开发,数以百计的pm模块,几十万行代码的调试,用这些编辑器就远远不够了!这个时候企业级的IDE就发挥出优势了.下面详细介绍下,在Window下利用 Eclipse+EPIC+PadWalker来搭建Perl开发环境! [步骤一]: 下载并安装最新的Perl解释器 ActiverPerl5.20. http://www.activestate.com/activepe

快速搭建Android 开发环境-使用ADT Bundle

一.搭建Android开发环境 近日要学Android开发基础,就着手搭建Windows下的Android开发环境. 找了一些相关的博文参考,基本上都是要分别下载和安装JDK, Eclipse, AndroidSDK, ADT 后来发现Android sdk下载官方地址,提供一个ADT Bundle下载. 而这个ADT Bundle,已经包含了AndroidSDK, ADT以及一个配置好的Eclipse. 因此,搭建Android开发环境,只需要两个步骤: 1.下载JDK并安装, 官方地址 ht

Android基础之用Eclipse搭建Android开发环境和创建第一个Android项目(Windows平台)

一.搭建Android开发环境 准备工作:下载Eclipse.JDK.Android SDK.ADT插件 下载地址:Eclipse:http://www.eclipse.org/downloads/ JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk7u9-downloads-1859576.html Android SDK:http://developer.android.com/sdk/index.html ADT:

Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】

http://blog.csdn.net/xiefu5hh/article/details/51707529 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例[附详细代码] 标签: SparkECLIPSEJAVAMAVENwindows 2016-06-18 22:35 405人阅读 评论(0) 收藏 举报  分类: spark(5)  版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 前言 本文旨在记录初学Spark时,根据官网快速