spark实验3

一、实验目的

（1）掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法；

（2）熟悉 HDFS 的基本使用方法；

（3）掌握使用 Spark 访问本地文件和 HDFS 文件的方法。

二、实验平台

操作系统：Ubuntu16.04；

Spark 版本：2.1.0；

Hadoop 版本：2.7.1。

三、实验内容和要求

1．安装 Hadoop 和 Spark

进入 Linux 系统，参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”，完

成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后，再安装 Spark（Local 模式）。

2．HDFS 常用操作

使用 hadoop 用户名登录进入 Linux 系统，启动 Hadoop，参照相关 Hadoop 书籍或网络

资料，或者也可以参考本教程官网的“实验指南”栏目的“HDFS 操作常用 Shell 命令”，厦门大学林子雨,赖永炫,陶继平编著《Spark 编程基础（Scala 版）》教材配套机房上机实验指南

实验 3 Spark 和 Hadoop 的安装

主讲教师：林子雨 http://www.cs.xmu.edu.cn/linziyu 第 2 页

使用 Hadoop 提供的 Shell 命令完成如下操作：

（1）启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；

（2）在 Linux 系统的本地文件系统的“/home/hadoop”目录下新建一个文本文件

test.txt，并在该文件中随便输入一些内容，然后上传到 HDFS 的“/user/hadoop”

目录下；

（3）把 HDFS 中“/user/hadoop”目录下的 test.txt 文件，下载到 Linux 系统的本地文

件系统中的“/home/hadoop/下载”目录下；

（4）将HDFS中“/user/hadoop”目录下的test.txt文件的内容输出到终端中进行显示；

（5）在 HDFS 中的“/user/hadoop”目录下，创建子目录 input，把 HDFS 中

“/user/hadoop”目录下的 test.txt 文件，复制到“/user/hadoop/input”目录下；

（6）删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/hadoop”

目录下的 input 子目录及其子目录下的所有内容。

3. Spark 读取文件系统的数据

（1）在 spark-shell 中读取 Linux 系统本地文件“/home/hadoop/test.txt”，然后统计出文

件的行数；

（2）在 spark-shell 中读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，

请先创建），然后，统计出文件的行数；

（3）编写独立应用程序，读取 HDFS 系统文件“/user/hadoop/test.txt”（如果该文件不存在，

请先创建），然后，统计出文件的行数；通过 sbt 工具将整个应用程序编译打包成 JAR 包，

并将生成的 JAR 包通过 spark-submit 提交到 Spark 中运行命令。

原文地址：https://www.cnblogs.com/gkl20173667/p/12232316.html

时间： 2024-10-09 13:37:42

spark实验3的相关文章

spark实验四

一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台操作系统:Ubuntu16.04 Spark 版本:2.1.0 三.实验内容和要求 1．spark-shell 交互式编程请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStru

spark实验6

一.实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法: (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法. 二.实验平台操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三.实验内容和要求 1.安装 Flume Flume 是 Cloudera 提供的一个分布式.可靠.可用的系统,它能够将不同数据源的海量日志数据进行高效收集.聚合.移动,最后存储到一个中心化数据存储系统中.Flume 的核

spark实验(二)--scala安装(1)

一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. 二.实验平台操作系统:centos6.4: Scala版本:2.10.6.: Hadoop 版本:2.7.6. 三.实验过程首先根据这篇博文https://www.cnblogs.com/Genesis2018/p/9079787.html安装Scala 输入wget http://downl

spark实验(一)--linux系统常见命令及其文件互传(2)

2．使用 Linux 系统的常用命令启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin: 输入cd /usr/bin (2)查看目录/usr/local 下所有的文件: ls /usr/local (3)进入/usr 目录,创建一个名为 test 的目录,并查看有多少目录存在: cd /usr mkdir test ls (4)在/usr

spark实验四（2）

第二题: 第一步:在当前目录下新建一个目录 mkdir -p src/main/scala,然后在目录/usr/local/spark/mycode/remdup/src/main/scala 下新建一个 remdup.scala 在目录/usr/local/spark/mycode/remdup 目录下新建 simple.sbt 在目录/usr/local/spark/mycode/remdup 下执行下面命令打包程序最后在目录/usr/local/spark/mycode/remdup

spark 实验

1. 计算级数请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入. 例如 , 若 q 的值为 50.0 , 则输出应为 : Sn=50.416695 . 请将源文件保存为 exercise2-1.scala,在REPL模式下测试运行,测试样例:q=1时,Sn=2:q=30时,Sn=30.891459: q=50 时,Sn=50.416695. 代码 import scala

第1课：通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析

背景: 使用Spark主要是使用Spark Streaming,Spark Streaming的魔力之所在于: 1. 流式处理,如今是一个流处理时代,一切与流不相关的都是无效的数据. 2. 流式处理才是真正的对大数据的印象.Spark Streaming的流式处理非常强大的一个功能是可以在线处理,ML,Spark SQL等流进来的数据,这也是Spark提供的一体化,多元化的技术架构设计带来的优势. 3. Spark Streaming本身是一个程序,Spark Streaming在处理数据的时候

Introduction to Big Data with Apache Spark 课程总结

课程主要实用内容: 1.spark实验环境的搭建 2.4个lab的内容 3.常用函数 4.变量共享 1.spark实验环境的搭建(windows) a. 下载,安装visualbox 管理员身份运行;课程要求最新版4.3.28,如果c中遇到虚拟机打不开的,可以用4.2.12,不影响 b. 下载,安装vagrant,重启管理员身份运行 c. 下载虚拟机 c1.将vagrant加入path,D:\HashiCorp\Vagrant\bin c2.创建虚拟机存放的目录,比如myvagrant c3.

SPark SQL编程初级实践

今下午在课上没有将实验做完,课下进行了补充,最终完成.下面附上厦门大学数据库实验室中spark实验官网提供的标准答案,以供参考. 三.实验内容和要求 1．Spark SQL 基本操作将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并保存命名为 employee.json. { "id":1 ,"name":" Ella","age":36 } { "id":2,&