spark实验3

一、实验目的

(1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法;

(2)熟悉 HDFS 的基本使用方法;

(3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。

二、实验平台

操作系统:Ubuntu16.04;

Spark 版本:2.1.0;

Hadoop 版本:2.7.1。

三、实验内容和要求

1.安装 Hadoop 和 Spark

进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完

成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后,再安装 Spark(Local 模式)。

2.HDFS 常用操作

使用 hadoop 用户名登录进入 Linux 系统,启动 Hadoop,参照相关 Hadoop 书籍或网络

资料,或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”,厦门大学林子雨,赖永炫,陶继平 编著《Spark 编程基础(Scala 版)》 教材配套机房上机实验指南

实验 3 Spark 和 Hadoop 的安装

主讲教师:林子雨 http://www.cs.xmu.edu.cn/linziyu 第 2 页

使用 Hadoop 提供的 Shell 命令完成如下操作:

(1) 启动 Hadoop,在 HDFS 中创建用户目录“/user/hadoop”;

(2) 在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件

test.txt,并在该文件中随便输入一些内容,然后上传到 HDFS 的“/user/hadoop”

目录下;

(3) 把 HDFS 中“/user/hadoop”目录下的 test.txt 文件,下载到 Linux 系统的本地文

件系统中的“/home/hadoop/下载”目录下;

(4) 将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示;

(5) 在 HDFS 中的“/user/hadoop”目录下,创建子目录 input,把 HDFS 中

“/user/hadoop”目录下的 test.txt 文件,复制到“/user/hadoop/input”目录下;

(6) 删除HDFS中“/user/hadoop”目录下的test.txt文件,删除HDFS中“/user/hadoop”

目录下的 input 子目录及其子目录下的所有内容。

3. Spark 读取文件系统的数据

(1)在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出文

件的行数;

(2)在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,

请先创建),然后,统计出文件的行数;

(3)编写独立应用程序,读取 HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,

请先创建),然后,统计出文件的行数;通过 sbt 工具将整个应用程序编译打包成 JAR 包,

并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

原文地址:https://www.cnblogs.com/gkl20173667/p/12232316.html

时间: 2024-10-09 13:37:42

spark实验3的相关文章

spark实验四

一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三.实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含 了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStru

spark实验6

一.实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法: (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法. 二.实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三.实验内容和要求 1.安装 Flume Flume 是 Cloudera 提供的一个分布式.可靠.可用的系统,它能够将不同数据源的海量 日志数据进行高效收集.聚合.移动,最后存储到一个中心化数据存储系统中.Flume 的 核

spark实验(二)--scala安装(1)

一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. 二.实验平台 操作系统:centos6.4: Scala版本:2.10.6.: Hadoop 版本:2.7.6. 三.实验过程 首先根据这篇博文https://www.cnblogs.com/Genesis2018/p/9079787.html安装Scala 输入wget http://downl

spark实验(一)--linux系统常见命令及其文件互传(2)

2.使用 Linux 系统的常用命令 启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考 本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin: 输入cd /usr/bin (2)查看目录/usr/local 下所有的文件: ls /usr/local (3)进入/usr 目录,创建一个名为 test 的目录,并查看有多少目录存在: cd /usr mkdir test ls (4)在/usr

spark实验四(2)

第二题: 第一步:在当前目录下新建一个目录 mkdir -p  src/main/scala,然后在目录/usr/local/spark/mycode/remdup/src/main/scala 下新建一个 remdup.scala 在目录/usr/local/spark/mycode/remdup 目录下新建 simple.sbt 在目录/usr/local/spark/mycode/remdup 下执行下面命令打包程序 最后在目录/usr/local/spark/mycode/remdup

spark 实验

1. 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入. 例 如 , 若 q 的 值 为 50.0 , 则 输 出 应 为 : Sn=50.416695 . 请 将 源 文 件 保 存 为 exercise2-1.scala,在REPL模式下测试运行,测试样例:q=1时,Sn=2:q=30时,Sn=30.891459: q=50 时,Sn=50.416695. 代码 import scala

第1课:通过案例对SparkStreaming 透彻理解三板斧之一:解密SparkStreaming另类实验及SparkStreaming本质解析

背景: 使用Spark主要是使用Spark Streaming,Spark Streaming的魔力之所在于: 1. 流式处理,如今是一个流处理时代,一切与流不相关的都是无效的数据. 2. 流式处理才是真正的对大数据的印象.Spark Streaming的流式处理非常强大的一个功能是可以在线处理,ML,Spark SQL等流进来的数据,这也是Spark提供的一体化,多元化的技术架构设计带来的优势. 3. Spark Streaming本身是一个程序,Spark Streaming在处理数据的时候

Introduction to Big Data with Apache Spark 课程总结

课程主要实用内容: 1.spark实验环境的搭建 2.4个lab的内容 3.常用函数 4.变量共享 1.spark实验环境的搭建(windows) a. 下载,安装visualbox 管理员身份运行;课程要求最新版4.3.28,如果c中遇到虚拟机打不开的,可以用4.2.12,不影响 b. 下载,安装vagrant,重启 管理员身份运行 c. 下载虚拟机 c1.将vagrant加入path,D:\HashiCorp\Vagrant\bin c2.创建虚拟机存放的目录,比如myvagrant c3.

SPark SQL编程初级实践

今下午在课上没有将实验做完,课下进行了补充,最终完成.下面附上厦门大学数据库实验室中spark实验官网提供的标准答案,以供参考. 三.实验内容和要求 1.Spark SQL 基本操作 将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并保存命名为 employee.json. { "id":1 ,"name":" Ella","age":36 } { "id":2,&