nutch2.3+hbase配置

1,版本是个很重要的问题

nutch上面有介绍和nutch配合使用的各框架的版本

2,下载hbase,放在opt/下

3,tar -zxvf hbase-*

4,更改conf 下的 hbase-site.xml文件

添加属性:

<configuration>

<property>

<name>hbase.rootdir</name>

<value>hbase-data</value>

</property>

<property>

<name>hbase.zookeeper.property.dataDir</name>

<value>/opt/hbase-0.94.27/data/zk-data</value>

</property>

</configuration>

5,启动hbase

6,下载nutch,解压

在conf /nutch-site.xml中

<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>

并去掉在ivy.xml中的gora-hbase的注释配置

在gora.properties中加入
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

7,在项目根部录下ant

8,如果在ant时出现错误,下载不了某个包时,可以自行下载然后上传到.ivy中的相应目录中

问题:

第一次我安装的是hbase-0.90,在inject时就卡住了,然后日志也没有是么提示,困扰了好几天,无奈之下,重新换了hbase,终于好了

InjectorJob: starting at 2015-10-28 23:29:20

InjectorJob: Injecting urlDir: urls/url

InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.

InjectorJob: total number of urls rejected by filters: 0

InjectorJob: total number of urls injected after normalization and filtering: 1

Injector: finished at 2015-10-28 23:29:24, elapsed: 00:00:03

时间: 2024-10-23 15:34:00

nutch2.3+hbase配置的相关文章

HDFS和Hbase配置同步

在Hbase中服务器先读取hbase-defalut.xml文件,然后读取hbase-site.xml文件,也就是说后者会覆盖前者 hbase的配置中有一些和hdfs关联的配置,当hdfs中修改了,但是hbase中修改了,hbase中是不会知道的,比如 dfs.replication,有时候我们想增加备份的数量,在hdfs中设置为5了,但是hbase中默认为3,这样hbase还是只保存3份. 那么有什么方法可以使他们的配置文件同步,有三种方法: (1)在hbase-env.sh的HBASE_CL

Hbase配置中出现的问题总结

在create table的时候出现如下问题 1. ERROR: java.io.IOException: Table Namespace Manager not ready yet, try again later 解决方案:这个问题是从单机配置到多机配置的时候出的问题,修改conf/hbase-env.sh 注释掉export HBASE_MANAGES_ZK=true 2. java.net.SocketTimeoutException: Call to datanode1/172.16.

Hadoop 管理工具HUE配置-HBase配置

1 前言 首先要陪只好HBase,可以参见http://www.cnblogs.com/liuchangchun/p/4096891.html,完全分布式类似 2 HBase配置 2.1 HUE 配置文件设置,找到hbase标签,配置如下 # Comma-separated list of HBase Thrift servers for clusters in the format of '(name|host:port)'. # Use full hostname with security

图说HBase配置

1.  搭建HBase大纲 2.  搭建HBase架构 3.  HBase设置模板 4.  HBase参考配置 5.  有关Linux基础配置 6.  涉及的分布式Zk的配置

Hadoop学习之第六章节:Hbase配置安装

1.安装Hbase 1)下载,注意要与hadoop版本兼容,且选择稳定版较好 wget http://mirrors.hust.edu.cn/apache/hbase/hbase-0.98.5/hbase-0.98.5-hadoop2-bin.tar.gz 2)解压  tar -zxvf hbase-0.98.5-hadoop2-bin.tar.gz 3)修改conf/hbase-site.xml文件  <property>   <name>hbase.rootdir</na

HBase配置性能调优(转)

因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果.所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正. 配置优化 zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间.当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的region

Hbase配置手册

环境: 操作系统:ubuntu 12.10 64bit jdk:sun jdk 1.6 64bit hadoop:apache hadoop 1.02 hbase:apache hbase 0.92 先决条件:配置apache hadoop append,默认这个属性是false,需要设置为true 1)下载hbase 解压到每台服务器的/data/soft 解压 [email protected]:/data/soft# tar zxvf hbase-0.92.0.tar.gz 建立软连 [e

HBase配置

下载安装包,解压 tar xzf 名 与hadoop一样 先放在 /usr 在解压后的zookeeper文件中的conf目录下面找到zoo_sample.cfg 复制一份,更改为zoo.cfg,修改其中内容,vi  zoo.cfg 添加: 操作步骤 2.1 复制以上文件到/usr/下 2.2 解压后得到目录: /usr/zookeeper-3.3.3 2.3 进入zookeeper-3.3.3目录下,把conf目录下的zoo_sample.cfg 复制成zoo.cfg文件 2.4 打开zoo.c

HADOOP HBASE配置注意事项

1.yum安装的jdk工具1.8版本,在配置hbase1.2版本需要在hbase-env.sh配置文件中注释掉下面的内容: export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m" export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=12