Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26(续)

上周以为搞定了Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26的整合,于是这周开始真正执行nutch抓取tieba的数据:

nutch inject /urls -crawlId tieba

谁知道报错:

java.lang.NoSuchMethodError: org.apache.hadoop.net.NetUtils.getInputStream(Ljava/net/Socket;)Ljava/io/InputStream;

at org.apache.hadoop.hbase.ipc.HBaseClient$Connection.setupIOstreams(HBaseClient.java:437)

折腾了一整天,才想清楚这个错误的意思是HBaseClient$Connection类的setupIOstreams方法中需要的是传入参数类型为java.net.Socket,返回类型为java.io.InputStream的getInputStream方法,但是Hadoop 2.5.2版本的NetUtils类的getInputStream方法返回类型为SocketInputWrapper,所以只需要修改一下HBase的源码,做一个强制类型转换即可,如下:

this.in = new DataInputStream(new BufferedInputStream

(new PingInputStream((java.io.InputStream)NetUtils.getInputStream(socket))));

时间: 2024-11-08 03:47:08

Nutch 2.x+Hadoop 2.5.2+Hbase0.94.26(续)的相关文章

谁说他们版本不兼容——hadoop1.2.1+hbase0.94.11+nutch2.2.1+el

一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各类百科就行了.我选择这样的方案主要是基于以下考虑: 1.可扩展,虽然 一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各类百科就行了.我选择这样的方案

hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略

一.背景 最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es.这几样神器的作用就不多作介绍了,自行参考各类百科就行了.我选择这样的方案主要是基于以下考虑: 1.可扩展,虽然只是实验环境,但是以后在项目中是要应用到生产中的,随着数据量的增大,需要的硬件设备能够方便的加入进来,所以选择了分布式的方案中最具人气的hadoop+hbase组合 2.数据来源兼容,nutch2以后集成了gora和tika,可以方

(四)伪分布式下jdk1.6+Hadoop1.2.1+HBase0.94+Eclipse下运行wordCount例子

本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子. HBase在伪分布环境下安装 一.   前提条件 已经成功地安装了jdk1.6和hadoop1.2.1. Jdk1.6+Hadoop1.2.1在伪分布环境下具体的安装方法见:Hadoop1.2.1安装——单节点方式和单机伪分布方式 二.   环境 VMware® Workstation 10.04 Ubuntu14.04 32位 Java JDK 1.6.0 h

[Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建

上一篇博文介绍了在Windows 10系统下用Cygwin搭建Nutch开发环境,本文将介绍在Ubuntu下Nutch2.3的开发环境的搭建. 1. 需要的软件及其版本 Ubuntu 15.04 hadoop 1.2.1 hbase 0.94.27 nutch 2.3 solr 4.9.1 2. 系统环境准备 2.1 安装Ubuntu操作系统 基本要求,网上也有很多,自行安装,有问题可以留言. 2.2 单独新建一个kandy用户 useradd kandy 2.3 设置密码 passwd kan

Nutch 2.x + Hadoop 2.5.2 + Hbase 0.94.26

一开始运行Nutch 2.x 总是报下面这个错误: java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.Counter, but class was expected 这个问题足足折腾了2天,查了无数资料,始终不能解决问题,虽然问题定位在Nutch 编译的时候使用了Hadoop 1.x,然后运行的时候是在Hadoop 2.x上,但是始终找不到到底什么时候依赖了hadoop-core

hbase-0.94安装方法详解

先决条件: 1)java环境,需要安装java1.6以上版本 2)hadoop环境,由于HBase架构是基于其他文件存储系统的,因此在分布式模式下安装Hadoop是必须的,但是,如果运行在单价模式下,此条件可以省略.Hadoop-1.2.1的安装方法参考 hadoop-1.2.1安装方法详解 注意:安装时要注意Hadoop和HBase之间的版本关系,如果不匹配,很可能会影响HBase系统的稳定性. 本帖教程采用的hadoop是hadoop-1.2.1,hbase采用的是hbase-0.94 hb

Hadoop1.0.4+Hbase0.94+zookeeper3.4.5+phoenix3.1.0配

1.       JDK安装 JDK解压配置环境变量 vi /etc/profile 2.       每台机器相关设置 1.设置静态ip(便于机器之间的通信,防止路由器电脑重启后,ip变化,导致不能通信) vim /etc/sysconfig/network-scripts/ifcfg-eth0 3.       修改各节点主机名(每台机器都要设) Etc/hosts 3.关闭防火墙 关闭已经启动的防火墙: service iptables stop (只能关闭当前) 验证:service i

Hadoop1.0.4+Hbase0.94.2+Hive0.9.0 分布式部署安装

因为个人太懒,所以很多配图没有上传,完整的部署安装教程另外备份了.这里记录一下防止文档丢了   Hadoop1.0.4+Hbase0.94.2+Hive0.9.0 分布式部署安装 目录 1 服务器配置 2 Hadoop安装 3 Hbase安装 4 Hive安装 版本控制信息 版本 日期 拟稿和修改 说明 1.0 2012-11-27 Yoan.Liang 报文标准初稿(内部版本:1000) 1       服务器配置 1.1    下载安装JDK 1.2    修改NameNode与DataNo

Hadoop-1.1.2、HBase-0.94.7完全分布式集群结构

爱的技术可以应用到实际生活生产,做艺术向往的东西不腻和音乐. 现将前期手里面的一个项目做一个大致的总结,与大家一起分享.交流.进步. 项目如今正在线上执行,项目名--基于Hadoop的数据分析综合管理平台. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYWFyb25oYWRvb3A=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" > 项目流