Nutch的配置（使用MySQL作为数据存储）

首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包

这里假定nutch的根目录为：${APACHE_NUTCH_HOME}

配置${APACHE_NUTCH_HOME}/ivy/ivy.xml，确保Nutch使用MySQL作为数据存储

将

[html] view plain copy

print?

<dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"/>

<dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"/>

改成

[html] view plain copy

print?

<dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>

<dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>

取消以下行的注释

[html] view plain copy

print?

<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

取消以下的行注释使用Mysql作为gora存储

[html] view plain copy

print?

<dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>

<!-- Uncomment this to use MySQL as database with SQL as Gora store. --><dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default"/>

编辑${APACHE_NUTCH_HOME}/conf/gora.properties

添加以下代码激活MySQL的配置

[html] view plain copy

print?

###############################
# MySQL properties #
###############################
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=xxxxx
gora.sqlstore.jdbc.password=xxxxx

################################ MySQL properties ################################gora.sqlstore.jdbc.driver=com.mysql.jdbc.Drivergora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=truegora.sqlstore.jdbc.user=xxxxxgora.sqlstore.jdbc.password=xxxxx

编辑 ${APACHE_NUTCH_HOME}/conf/gora-sql-mapping.xml ，将主键的长度由512改成767

[html] view plain copy

print?

<primarykey column="id" length="767"/>

<primarykey column="id" length="767"/>

配置${APACHE_NUTCH_HOME}/conf/nutch-site.xml

在 http.agent.name字段下增加一个名字，可以是任意值但不能为空！如果需要的话可以添加额外的语言（例如en为英语），同时也可以设置默认编码格式为utf-8

[html] view plain copy

print?

<property>
<name>http.agent.name</name>
<value>YourNutchSpider</value>
</property>
<property>
<name>http.accept.language</name>
<value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Value of the "Accept-Language" request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.
</description>
</property>
<property>
<name>parser.character.encoding.default</name>
<value>utf-8</value>
<description>The character encoding to fall back to when no other information
is available</description>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.sql.store.SqlStore</value>
<description>The Gora DataStore class for storing and retrieving data.
Currently the following stores are available: ....
</description>
</property>

<property><name>http.agent.name</name><value>YourNutchSpider</value></property><property><name>http.accept.language</name><value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value><description>Value of the "Accept-Language" request header field.This allows selecting non-English language as default one to retrieve.It is a useful setting for search engines build for certain national group.</description></property><property><name>parser.character.encoding.default</name><value>utf-8</value><description>The character encoding to fall back to when no other informationis available</description></property><property><name>storage.data.store.class</name><value>org.apache.gora.sql.store.SqlStore</value><description>The Gora DataStore class for storing and retrieving data.Currently the following stores are available: ....</description></property>

在命令行下输入 sudo apt-get install ant 安装配置ant

在命令行界面使用cd切换到nutch的根目录

可以在终端中输入以下指令开始你的第一个爬虫工作

[html] view plain copy

print?

cd ${APACHE_NUTCH_HOME}/runtime/local
mkdir -p urls
echo ‘http://nutch.apache.org/‘ > urls/seed.txt

cd ${APACHE_NUTCH_HOME}/runtime/localmkdir -p urlsecho ‘http://nutch.apache.org/‘ > urls/seed.txt

Nutch 2.2使用以下命令开始爬虫，设置线程数为30

[html] view plain copy

print?

bin/nutch crawl urls -threads 30

bin/nutch crawl urls -threads 30

要查看爬取的数据时，进入数据库中输入以下指令即可查看
mysql -u xxxxx -p use nutch; SELECT * FROM nutch.webpage;

翻译源：http://wiki.apache.org/nutch/#Nutch_2.X_tutorial.28s.29

时间： 2024-10-17 23:45:28

Nutch的配置（使用MySQL作为数据存储）的相关文章

Docker mysql 把数据存储在本地目录

欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! Docker mysql 把数据存储在本地目录,很简单,只需要映射本地目录到容器即可 1.加上-v参数 $ docker run -d -e MYSQL_ROOT_PASSWORD=admin --name mysql -v /data/mysql/data:/var/lib/mysql -p 3306:3306 mysql 还可以指定配置文件

Ubuntu上更改MySQL数据库数据存储目录

之前写过一篇博客"MySQL更改数据库数据存储目录",当时的测试环境是RHEL和CentOS,谁想最近在Ubuntu下面更改MySQL数据库数据存储目录时遇到了之前未遇到的问题,之前的经验用不上了(或者说之前的总结不是太全面),修改完MySQL数据库数据存储目录后重启MySQL,发现MySQL服务无法启动. [email protected]:/etc/mysql/mysql.conf.d# service mysql start Job for mysql.service fai

更改Mysql数据库数据存储位置的具体步骤

首先把mysql的服务先停掉,更改MySQL配置文件My.ini中的数据库存储主路径,将老的数据库存储主路径中的数据库文件和文件夹复制到新的存储主路径,接下来重启搞定. 一.首先把mysql的服务先停掉. 二.更改MySQL配置文件My.ini中的数据库存储主路径打开MySQL默认的安装文件夹C:\Program Files\MySQL\MySQL Server 5.1中的my.ini文件,点击记事本顶部的“编辑”,“查找”,在查找内容中输入datadir后并点击“查找下一个”转到“Path

EF Core下利用Mysql进行数据存储在并发访问下的数据同步问题

小故事在开始讲这篇文章之前,我们来说一个小故事,纯素虚构(真实的存钱逻辑并非如此) 小刘发工资后,赶忙拿着现金去银行,准备把钱存起来,而与此同时,小刘的老婆刘嫂知道小刘的品性,知道他发工资的日子,也知道他喜欢一发工资就去银行存起来,担心小刘卡里存的钱太多拿去"大宝剑",于是,也去了银行,想趁着小刘把钱存进去后就把钱给取出来,省的夜长梦多. 小刘与刘嫂取得是两家不同的银行的ATM,所以两人没有碰面. 小刘插入银行卡存钱之前查询了自己的余额,ATM这样显示的: 与次同时,刘嫂也通过卡号和

C#+Mysql 图片数据存储

//把文件转成二进制流出入数据库private void button2_Click(object sender, EventArgs e){ FileStream fs = new FileStream(textBox1.Text, FileMode.Open); BinaryReader br = new BinaryReader(fs); Byte[] byData = br.ReadBytes((int)fs.Length); fs.Close(); string conn = "ser

Centos转移Mysql的数据位置

在Centos 6.x 上安装 Mysql 的教程 - [点击这里] 首先,假设我们需要把Mysql的数据存储位置转到到 /data 下面第一步: service mysqld stop 第二步: ### 备份原来的 mysql cp -a /var/lib/mysql /var/lib/mysql_bak ### 转移 mysql cp -a /var/lib/mysql /data/ 转移完成后我们需要修改一些参数让mysql能使用新的地址: ### 备份原来的文件配置信息 cp -a

安装lnmp 时如何修改数据库数据存储地址及默认访问地址

使用lnmp一键安装后,lnmp的安装主要软件及配置文件默认目录如下(lnmp安装): 1:nginx: Nginx 目录: /usr/local/nginx/ Nginx日志目录:/home/wwwlogs/ 添加的虚拟主机配置文件所在目录:/usr/local/nginx/conf/vhost/ Nginx主配置(默认虚拟主机)文件:/usr/local/nginx/conf/nginx.conf 2:mysql MySQL 目录 : /usr/local/mysql/ MySQL数据库所在

解析数据存储MySQL

为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html,data,num几大典型类型分别对应存储. 创建UTF-8字符集的nutch数据库,并执行表初始化脚本,参考DDL: CREATE TABLE `crawl_data` ( `url` varchar(255) NOT NULL, `code` varchar(255) NOT NULL, `name` varchar(255) DEFAULT N

MySQL大数据的优化以及分解存储

MySQL大数据的优化以及分解存储前言:在上一章介绍了MySQL的优化以及优化的思路,那么如果有一种情况如果数据库已经建立好了索引,在使用sql语句索引查询时:但是在慢查询日志当中任然找到了之前的sql语句会有哪几种情况: 1):sql语句的索引没有起到效果, 2):查询的数据量过大,造成数据的查询缓慢, 在工作当中每个数据库都会存在庞大的数据量,比如说访问量等等都会造成数据的查询缓慢,那么如何解决这个问题,接下来往下看: 分区和分表: 我们的数据库数据越来越大,随之而