Spark教程-构建Spark集群（1）

对于90%以上想学习Spark的人而言，如何构建Spark集群是其最大的难点之一，为了解决大家构建Spark集群的一切困难，家林把Spark集群的构建分为了四个步骤，从零起步，不需要任何前置知识，涵盖操作的每一个细节，构建完整的Spark集群。

从零起步，构建Spark集群经典四部曲：

第一步：搭建Hadoop单机和伪分布式环境；

第二步：构造分布式Hadoop集群；

第三步：构造分布式的Spark集群；

第四步：测试Spark集群；

本文内容为构建Spark集群经典四部曲的第一步，从零起步构建Hadoop单机版本和伪分布式的开发环境，涉及：

开发Hadoop需要的基本软件；

安装每个软件；

配置Hadoop单机模式并运行Wordcount示例；

配置Hadoop伪分布式模式并运行Wordcount示例；

第一步：开发Hadoop需要的基本软件

我们的开发环境是在Windows 7上面构建Hadoop，此时需要Vmware虚拟机、Ubuntu的ISO镜像文件，Java SDK的支持、Eclipse IDE平台、Hadoop安装包等；

1、Vmware虚拟机，这里使用的是VMware Workstation 9.0.2 for Windows，具体的下载地址是https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&productId=293&rPId=3526 如下图所示：

下载后在本地的保存如下图所示：

可以看出里面多了一个keys.txt文件，这个是安装Vwware时需要的序列码，读者需要从网络上下载；

2、Ubuntu的ISO镜像文件，家林这里使用的ubuntu-12.10-desktop-i386，具体下载地址为：http://www.ubuntu.org.cn/download/desktop/alternative-downloads 如下图所示：

下载后，在本地电脑的保存为：

3、Java SDK的支持，使用的是最新的“jdk-7u60-linux-i586.tar.gz”，具体的下载地址http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 如下图所示：

点击下载，保存在了Ubuntu系统如下图所示：

4、下载最新稳定版本的Hadoop，下载的是“hadoop-1.1.2-bin.tar.gz ”，具体官方下载地址为http://mirrors.cnnic.cn/apache/hadoop/common/stable/ 下载后在本地的保存为：

Spark教程-构建Spark集群（1）

时间： 2024-10-13 16:20:17

Spark教程-构建Spark集群（1）的相关文章

Spark教程-构建Spark集群-安装Ubuntu系统(2)

3.点击“Finish”完成虚拟系统的创建,如下图所示: 点击我们创建的Ubuntu,如下所示点击“CD/DVD(IDE)”进入如下界面选择我们的Ubuntu的ISO的具体存放路径,选择好后如下图所示: 点击“OK”完成设置: 点击“Memory”,进入如下界面: 此时把我们虚拟的内存设置为2G,如下所示: 点击“OK”完成设置. Spark教程-构建Spark集群-安装Ubuntu系统(2)

Spark教程-构建Spark集群-安装Ubuntu系统(1)

Unbuntu系统是我们开发Hadoop时最常用的操作系统,下面带领大家一步步完成Vmware虚拟机下Unbuntu系统的安装创建Vmware中的虚拟系统: 我们选择的是“Typical”的方式,点击“Next”进入下一步: 选择稍后安装操作系统,点击“Next”进入下一步: 选择安装Linux系统的Ubuntu版本,点击“Next”进入下一步: 家林这里选择了自定义系统的存放路径为“E:\VMware\Virtual Machines\Master” 如下图所示: 点击“Next”进入下一步

Spark教程-构建Spark集群-运行Ubuntu系统（2）

安装Java 1.打开终端,建立新目录“/usr/lib/java”,如下图所示: 2.把下载的JDK文件移到刚刚创建的“/usr/lib/java”中,如下图所示 3.解压JDK文件,如下图所示: 解压完成的文件目录如下图所示: 4.修改环境变量: 进入如下图所示的配置文件中: 按下“i”进入INSERT模式,把Java的环境编写信息加入其中,如下图所示: 按下“esc“键回到正常模式,保存并退出配置文件: 执行以下命令是配置文件的修改生效: 5.在终端中显示刚刚安装的Java版本,如下图所示

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount（1）

安装ssh Hadoop是采用ssh进行通信的,此时我们要设置密码为空,即不需要密码登陆,这样免去每次通信时都输入秘密,安装如下: 输入“Y”进行安装并等待自动安装完成. 安装ssh完成后启动服务以下命令验证服务是否正常启动: 可以看到ssh正常启动: 设置免密码登录,生成私钥和公钥: 在/root/.ssh中生成两个文件:id_rsa和id_rsa.pub,id_rsa为私钥,id_rsa.pub为公钥,我们将公钥id_rsa.pub追加到 authorized_keys中,因为author

Spark教程-构建Spark集群-运行Ubuntu系统（1）

为了简化权限等问题,下面我们以root用户的身份登录和使用Ubuntu系统,而Ubuntu在默认情况下并没有开启root用户,这需要我们做如下设置: sudo -s进入 root用户权限模式 vim /etc/lightdm/lightdm.conf [SeatDefaults] greeter-session=unity-greeter user-session=ubuntu greeter-show-manual-login=true #手工输入登陆系统的用户名和密码 allow-gues

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例（1）

第四步:配置Hadoop伪分布模式并运行Wordcount示例伪分布模式主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号: 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication; 修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口: 在具体操作前我们先在Hadoop目录下创建几个文件夹: 下面开始构建具体的伪分布式

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount（2）

执行文件拷贝操作拷贝后的“input”文件夹的内容如下所示: 和我们的hadoop安装目录下的“conf”文件的内容是一样的. 现在,在我们刚刚构建的伪分布式模式下运行wordcount程序: 运行完成后我们查看一下输出的结果: 部分统计结果如下: 此时我们到达Hadoop的web控制台会发现我们提交并成功的运行了任务: 最后在Hadoop执行完任务后,可以关闭Hadoop后台服务: 至此,Hadoop伪分布式环境的搭建和测试你完全成功! 至此,我们彻底完成了实验.

Spark教程-构建Spark集群（2）

第二步:安装每个软件安装Vmware虚拟机点击"VMware-workstation-full-9.0.2-1031769"可执行文件,如下图所示: 点击"Next"进入下一步: 我们选择"Custom"进入下一步: 2.选择所有的功能,如下所示: 我们选择"Custom"进入下一步: 2.选择所有的功能,如下所示: 点击"Next"进入如下图所示界面: 3.改变默认的虚拟机存放的路径为自定义的路径,家

Spark修炼之道（进阶篇）——Spark入门到精通：第一节 Spark 1.5.0集群搭建

作者:周志湖网名:摇摆少年梦微信号:zhouzhihubeyond 本节主要内容操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译,但本人没经过测试),经本人测试在ubuntu 10.04 操作系统上可以顺利成功搭建.大家可以利用CentOS