配置nutch

(nutch文件夹已在/home目录下)

1. 修改系统环境变量

sudo gedit /etc/profile

//增加

#set nutch
export PATH=/home/nutch/runtime/local/bin:$PATH

2. 测试(nutch/runtime/local/bin中./nutch  &  ./crawl)

nutch
//结果如下:
Usage: nutch COMMAND
where COMMAND is one of:
 inject		inject new urls into the database
 hostinject     creates or updates an existing host table from a text file
 generate 	generate new batches to fetch from crawl db
 fetch 		fetch URLs marked during generate
 parse 		parse URLs marked during fetch
 updatedb 	update web table after parsing
 updatehostdb   update host table after parsing
 readdb 	read/dump records from page database
 readhostdb     display entries from the hostDB
 elasticindex   run the elasticsearch indexer
 solrindex 	run the solr indexer on parsed batches
 solrdedup 	remove duplicates from solr
 parsechecker   check the parser for a given url
 indexchecker   check the indexing filters for a given url
 plugin 	load a plugin and run one of its classes main()
 nutchserver    run a (local) Nutch server on a user defined port
 junit         	runs the given JUnit test
 or
 CLASSNAME 	run the class named CLASSNAME
Most commands print help when invoked w/o parameters.
crawl
//结果如下:
Missing seedDir : crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>
时间: 2024-10-05 08:09:17

配置nutch的相关文章

配置Nutch模拟浏览器以绕过反爬虫限制

原文链接:http://yangshangchuan.iteye.com/blog/2030741 当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP请求头User-Agent的值来判断是人(浏览器)还是机器爬虫),我们只需要简单地配置Nutch来模拟浏览器(simulate web browser)就可以绕过这种限制. 在nutch-defa

Nutch搜索引擎(第4期)_ Eclipse开发配置

1.环境准备 1.1 本期引言 前三期分别介绍了Nutch与Solr在Linux上面的安装,并做了简单的应用,这一期从开发的角度进行,因为我们日常最熟悉的开发环境是Windows,所以本期详细介绍Windows平台的Nutch二次开发所需要进行的配置安装.当我们开发好之后,最后在部署到Linux环境中. 为了方便以后Nutch开发以及软件安装的管理,我们对开发环境配置进行如下安排: E:/(盘符) |----cygwin |----NutchWorkPlat |----ant |----solr

Ubuntu环境下利用ant编译nutch2.x &amp; 配置nutch2.x

利用ant编译nutch2.x 详见:1.    http://blog.javachen.com/2014/05/20/nutch-intro/   2.    wiki.apache.org/nutch/Nutch2Tutorial 前提条件:配置ant(http://www.cnblogs.com/xxx0624/p/4172277.html) 1. 下载nutch(例如:我的是apache-nutch-2.2.1-src.tar.gz) 解压,重命名nutch文件夹(命名为nutch),

Nutch相关框架安装使用最佳指南(转帖)

Nutch相关框架安装使用最佳指南 Chinese installing and using instruction  -  The best guidance in installing and using  Nutch in China 国内首套免费的<Nutch相关框架视频教程> 土豆在线观看地址:  http://www.tudou.com/home/item_u106249539s0p1.html超清原版下载地址:  http://pan.baidu.com/share/home?u

Ubuntu环境下:Hadoop, HBase, nutch各个配置文件一览

Hadoop伪分布式配置过程: Hadoop:1.2.1 Hbase:0.94.25 nutch:2.2.1 Java:1.8.0 SSH:1.0.1j tomcat:7.0.57 zookeeper:3.4.6 (1)配置Java环境:http://www.cnblogs.com/xxx0624/p/4164744.html (2)配置OpenSSH:http://www.cnblogs.com/xxx0624/p/4165252.html (3)配置Hadoop:http://www.cnb

Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引

原文地址: http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html Nutch 2.2.1发布快两月了,该版本与Nutch之前版本相比,有较大变化,特别是与MySQL联合应用的安装和配置过程有不少地方容易出错.本人在安装过程中也遇到了不少麻烦,大多问题通过baidu和google也没有找到解决方法,自己只能通过看代码和分析日志并试错,最终搞定了所遇到的各种问题,现将重要安装和配置过程整理如下. 1.  MySQL数据库配置 l  my.ini配置

[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境

1.环境准备 1.1 软件 操作系统:Windows 10专业版 ANT版本:apache-ant-1.9.7-bin.zip JDK版本:jdk-8u65-windows-x64.exe Solr版本:solr-4.9.1.zip Nutch版本:apache-nutch-1.6-bin.tar.gz Tomcat版本:apache-tomcat-9.0.0.M8-windows-x64.zip Eclipse版本:eclipse-jee-mars-1-win32-x86_64.zip 下面是

nutch+tomcat安装详细教程

环境OracleLinux-R7-U2-Server-x86_64 tomcat8.5官网下载:http://apache.opencas.org/tomcat/tomcat-8/v8.5.0/bin/apache-tomcat-8.5.0.tar.gz nutch1.0载:http://archive.apache.org/dist/nutch/nutch-1.0.tar.gz jdk-8u77官网下载:http://download.oracle.com/otn-pub/java/jdk/8

Nutch 2.2+MySQL在unbunt上的安装

参考文档 http://nlp.solutions.asia/?p=362 http://blog.csdn.net/fby98710/article/details/10367175 http://blog.csdn.net/itufo/article/details/21519593 需要jdk1.7的环境 1.  MySql数据库配置 l  my.ini配置 分别在[client].[mysql]下添加"default-character-set=utf8":在[mysqld]下