Hadoop,Vertica环境搭建

本打算使用mapr的虚拟机在里面进行开发,使用eclipse进行调试,它的问题是,有时候服务不能完全起来,

如jobtracker和tasktracker,cldb没有起来,重启服务有可能解决.

但另外一个问题是我使用eclipse和0.20.2的插件,无法连接DFS location,无法调试hadoop示例程序.

最后决定在Vertica的虚机中直接安装apache版的hadoop,然后在里面进行调试,还可以方便地连接Vertica.

在进行单点调试的时候,你会发现有些情况是无法处理的,譬如说reducetasks>1的情况,在单点调试的情况下是无法实现的,这个时候可以使用log输出,来进行判断.

伪分布模式下,跑多个Tasks的任务,发现reduces task阶段无法完成. 这是一个问题,记录下来.

今天把关于数据分布的课程视频听了两遍,一是锻炼了自己的耐性,二是觉得听这个的时候可以促进我思考一些事情, 觉得蛮有意思,尤其是在听到均匀分布的时候,我想到了我在项目中使用到的一个随机数生成问题,就是我有N个reduce 结点,hadoop中默认的hashpartitioner满足我的需要,因为它是根据传的key进行计算的,而我在使用的时候传的key是同一个值,都是表名,所以我需要想个办法,在导流的时候把数据均匀的分配给这些reduce nodes,而这个时候我就使用了random().next(numberofpartitions).

当时我也没有想到它生成的随机数是符合什么分布的,但是实验效果看来还是蛮好的,今天听到这里的时候,我立马就想到了这个问题,就想生成的这个数是不是均匀分布的呢?经过查找资料,发现java中这个算法生成的随机数是0到N(不包含)之间的均匀分布的随机数.基本上是符合我的这个需求的.

Hadoop,Vertica环境搭建

时间: 2024-08-10 23:29:45

Hadoop,Vertica环境搭建的相关文章

Hadoop之环境搭建

初学Hadoop之环境搭建 阅读目录 1.安装CentOS7 2.安装JDK1.7.0 3.安装Hadoop2.6.0 4.SSH无密码登陆 本文仅作为学习笔记,供大家初学Hadoop时学习参考.初学Hadoop,欢迎有经验的朋友进行指导与交流! 1.安装CentOS7 准备 CentOS系统镜像CentOS-7.0-1406-x86_64-Everything.iso vmware workstation 11 安装 1.点击创建一个新的虚拟机,选择"典型"配置,下一步. 2.选择&

Hadoop 分布式环境搭建

Hadoop 分布式环境搭建 一.前期环境 安装概览 IP Host Name Software Node 192.168.23.128 ae01 JDK 1.7 NameNode, SecondaryNameNode, DataNode, JobTracker, TaskTracker 192.168.23.129 ae02 JDK 1.7 DataNode, TaskTracker 192.168.23.130 ae03 JDK 1.7 DataNode, TaskTracker 若使用虚拟

Hadoop生产环境搭建(含HA、Federation)

Hadoop生产环境搭建 1. 将安装包hadoop-2.x.x.tar.gz存放到某一目录下,并解压. 2. 修改解压后的目录中的文件夹etc/hadoop下的配置文件(若文件不存在,自己创建.) 包括hadoop-env.sh,mapred-site.xml,core-site.xml,hdfs-site.xml,yarn-site.xml 3. 格式化并启动HDFS 4. 启动YARN 以上整个过程与Hadoop单机Hadoop测试环境搭建基本一致,不同的是步骤2中配置文件设置内容以及步骤

Hadoop单机Hadoop测试环境搭建

Hadoop单机Hadoop测试环境搭建: 1. 安装jdk,并配置环境变量,配置ssh免密码登录 2. 下载安装包hadoop-2.7.3.tar.gz 3. 配置/etc/hosts 127.0.0.1 YARN001 4. 解压缩hadoop-2.7.3.tar.gtz到/home/zhangzhenghai/cluster目录下 5. 配置etc/hadoop/hadoop-env.sh 配置JAVA_HOME环境变量 export JAVA_HOME=/home/zhangzhengh

(3)windows下hadoop+eclipse环境搭建

(1)环境说明 hadoop的集群环境我已经在虚拟机上搭建并能正常运行(见前2篇文章),现在我要在windows下搭建hadoop+eclipse的开发环境. (2)安装hadoop-eclipse-plugin-1.1.2.jar插件 hadoop-eclipse-plugin-1.1.2.jar这个插件大家可以自己编译,或者直接到网上下载.我是直接在网上下载安装. 下载好后,将hadoop-eclipse-plugin-1.1.2.jar放到eclipse安装目录下的plugins文件夹下.

Hadoop开发环境搭建 windows下Eclipse

Hadoop开发环境搭建 windows下Eclipse 下载Eclipse www.eclipse.org 解压. 下载Hadoop的Eclipse Plugin 将插件包放到eclipse的plugins目录下.重启eclipse. 下载hadoop的安装包 将下载的hadoop安装包,解压到任一目录,最好是英文且无空格目录. 配置eclipse Hadoop instllation directory:设置为hadoop安装包解压的目录. Window->open persperctive

Hadoop开发环境搭建(linux)

Hadoop开发环境搭建(linux) 零.安装xwindows apt-get install ubuntu-desktop 一.安装Eclipse 下载Eclipse,解压安装,例如安装到/usr/local,即/usr/local/eclipse 二.在eclipse上安装hadoop插件 1.下载hadoop插件 下载地址:http://pan.baidu.com/s/1mgiHFok 此zip文件包含了源码,我们使用使用编译好的jar即可,解压后,release文件夹中的hadoop.

Hadoop分布式环境搭建

作者:gqk: 使用多个服务器访问hadoop的各个进程: Hadoop分布式环境搭建准备工作: 克隆三个虚拟机: 机器规划: 更改两个机器的MAC的地址 更改网卡并配置: 1)修改网卡:克隆的机子网卡默认为eth1 改为eth0,,MAC改为本机的 vim /etc/udev/rules.d/70-persistent-net.rules  (注意:出现修改后 不管用的 ) eth0配文件中的mac地址改成了ifocnfig中出来的mac地址,然后再次删除/etc/udev/rules.d/7

hadoop开发环境搭建(1)

作为初学Hadoop的新手,搭建Hadoop开发环境花了我很大功夫.倒不是hadoop搭建复杂,由于hadoop本身是一个分布式.多jvm进程的运行环境,我们想达到能用eclipse进行代码跟踪调试目的,还真不是一般的费劲. 一边在网上向给位前辈学习,一边自己动手尝试,花了我整整一天的时间终于完成了,为了使自己好不太容易完成的成就,后续被轻易忘记,也为了帮助其他hadoop小白同类脱贫致富,花了一晚上总结了此篇博文,以兹鼓励. 一.准备篇 言归正传,首先是准备篇.这里我们需要准备不少东东: 1.