spark实验6

一、实验目的

（1）通过实验学习日志采集工具 Flume 的安装和使用方法；

（2）掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。

二、实验平台

操作系统： Ubuntu16.04

Spark 版本：2.1.0

Flume 版本：1.7.0

三、实验内容和要求

1.安装 Flume

Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量

日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。Flume 的

核心是把数据从数据源收集过来，再送到目的地。请到 Flume 官网下载 Flume1.7.0 安装文

件，下载地址如下：

http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz

或者也可以直接到本教程官网的 “ 下载专区 ” 中的 “ 软件 ” 目录中下载

apache-flume-1.7.0-bin.tar.gz。

下载后，把 Flume1.7.0 安装到 Linux 系统的“/usr/local/flume”目录下，具体安装和使

用方法可以参考教程官网的“实验指南”栏目中的“日志采集工具 Flume 的安装与使用方

主讲教师：林子雨 http://www.cs.xmu.edu.cn/linziyu 第 1 页厦门大学林子雨,赖永炫,陶继平编著《Spark 编程基础(Scala 版)》教材配套机房上机实验指南

实验 6 Spark Streaming 编程初级实践

主讲教师：林子雨 http://www.cs.xmu.edu.cn/linziyu 第 2 页

法”。

2. 使用 Avro 数据源测试 Flume

Avro 可以发送一个给定的文件给 Flume，Avro 源使用 AVRO RPC 机制。请对 Flume

的相关配置文件进行设置，从而可以实现如下功能：在一个终端中新建一个文件

helloworld.txt（里面包含一行文本“Hello World”），在另外一个终端中启动 Flume 以后，

可以把 helloworld.txt 中的文本内容显示出来。

3. 使用 netcat 数据源测试 Flume

请对 Flume 的相关配置文件进行设置，从而可以实现如下功能：在一个 Linux 终端（这

里称为“Flume 终端”）中，启动 Flume，在另一个终端（这里称为“Telnet 终端”）中，

输入命令“telnet localhost 44444”，然后，在 Telnet 终端中输入任何字符，让这些字符可以

顺利地在 Flume 终端中显示出来。

4.使用 Flume 作为 Spark Streaming 数据源

Flume 是非常流行的日志采集系统，可以作为 Spark Streaming 的高级数据源。请把 Flume

Source 设置为 netcat 类型，从终端上不断给 Flume Source 发送各种消息，Flume 把消息汇集

到 Sink，这里把 Sink 类型设置为 avro，由 Sink 把消息推送给 Spark Streaming，由自己编写

的 Spark Streaming 应用程序对消息进行处理。

原文地址：https://www.cnblogs.com/gkl20173667/p/12236996.html

时间： 2024-10-07 14:12:51

spark实验6的相关文章

spark实验3

一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. 二.实验平台操作系统:Ubuntu16.04: Spark 版本:2.1.0: Hadoop 版本:2.7.1. 三.实验内容和要求 1．安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完成 Hadoop 伪分布式模式

spark实验四

一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台操作系统:Ubuntu16.04 Spark 版本:2.1.0 三.实验内容和要求 1．spark-shell 交互式编程请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStru

spark实验(二)--scala安装(1)

一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. 二.实验平台操作系统:centos6.4: Scala版本:2.10.6.: Hadoop 版本:2.7.6. 三.实验过程首先根据这篇博文https://www.cnblogs.com/Genesis2018/p/9079787.html安装Scala 输入wget http://downl

spark实验(一)--linux系统常见命令及其文件互传(2)

2．使用 Linux 系统的常用命令启动 Linux 虚拟机,进入 Linux 系统,通过查阅相关 Linux 书籍和网络资料,或者参考本教程官网的“实验指南”的“Linux 系统常用命令”,完成如下操作: (1)切换到目录 /usr/bin: 输入cd /usr/bin (2)查看目录/usr/local 下所有的文件: ls /usr/local (3)进入/usr 目录,创建一个名为 test 的目录,并查看有多少目录存在: cd /usr mkdir test ls (4)在/usr

spark实验四（2）

第二题: 第一步:在当前目录下新建一个目录 mkdir -p src/main/scala,然后在目录/usr/local/spark/mycode/remdup/src/main/scala 下新建一个 remdup.scala 在目录/usr/local/spark/mycode/remdup 目录下新建 simple.sbt 在目录/usr/local/spark/mycode/remdup 下执行下面命令打包程序最后在目录/usr/local/spark/mycode/remdup

spark 实验

1. 计算级数请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q 为止,其中 q 为大于 0 的整数,其值通过键盘输入. 例如 , 若 q 的值为 50.0 , 则输出应为 : Sn=50.416695 . 请将源文件保存为 exercise2-1.scala,在REPL模式下测试运行,测试样例:q=1时,Sn=2:q=30时,Sn=30.891459: q=50 时,Sn=50.416695. 代码 import scala

第1课：通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验及SparkStreaming本质解析

背景: 使用Spark主要是使用Spark Streaming,Spark Streaming的魔力之所在于: 1. 流式处理,如今是一个流处理时代,一切与流不相关的都是无效的数据. 2. 流式处理才是真正的对大数据的印象.Spark Streaming的流式处理非常强大的一个功能是可以在线处理,ML,Spark SQL等流进来的数据,这也是Spark提供的一体化,多元化的技术架构设计带来的优势. 3. Spark Streaming本身是一个程序,Spark Streaming在处理数据的时候

Introduction to Big Data with Apache Spark 课程总结

课程主要实用内容: 1.spark实验环境的搭建 2.4个lab的内容 3.常用函数 4.变量共享 1.spark实验环境的搭建(windows) a. 下载,安装visualbox 管理员身份运行;课程要求最新版4.3.28,如果c中遇到虚拟机打不开的,可以用4.2.12,不影响 b. 下载,安装vagrant,重启管理员身份运行 c. 下载虚拟机 c1.将vagrant加入path,D:\HashiCorp\Vagrant\bin c2.创建虚拟机存放的目录,比如myvagrant c3.

SPark SQL编程初级实践

今下午在课上没有将实验做完,课下进行了补充,最终完成.下面附上厦门大学数据库实验室中spark实验官网提供的标准答案,以供参考. 三.实验内容和要求 1．Spark SQL 基本操作将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下,并保存命名为 employee.json. { "id":1 ,"name":" Ella","age":36 } { "id":2,&