Spark学习笔记——安装和WordCount

1.去清华的镜像站点下载文件spark-2.1.0-bin-hadoop2.7.tgz，因为hadoop安装的是2.7.2的版本

2.把文件解压到/usr/local目录下，解压之后的效果，Hadoop和Spark都在Hadoop用户下

drwxrwxrwx 12 hadoop hadoop 4096 12月 16 10:18 spark-2.1.0-bin-hadoop2.7/

添加Hadoop用户和用户组

$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hadoop
$ sudo adduser hadoop sudo

然后修改文件夹的用户，用户组以及权限

sudo chown -R hduser:hadoop hadoop
sudo chmod 777 hadoop/

Hadoop文件夹如果权限不对的话，也需要修改

3.在/etc/profile下添加路径

export SPARK_HOME=/usr/local/spark-2.1.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH

4.在~/coding/coding/Scala/word-count路径下准备一个文本文件，比如test.segmented文件

5.在该目录下，在终端运行 spark-shell

创建一个RDD

scala> val textFile = sc.textFile("file:///home/common/coding/coding/Scala/word-count/test.segmented")

保存RDD成文件

textFile.saveAsTextFile("file:///home/common/coding/coding/Scala/word-count/writeback")

这时候会发现在文件夹目录下多了writeback目录，目录下是这么几个文件

时间： 2024-10-12 13:38:04

Spark学习笔记——安装和WordCount的相关文章

Spark学习笔记-如何运行wordcount（使用jar包）

IDE:eclipse Spark:spark-1.1.0-bin-hadoop2.4 scala:2.10.4 创建scala工程,编写wordcount程序如下 package com.luogankun.spark.base import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ /** * 统计字符出现次数 */ object

Spark学习笔记--安装SCALA和IDEA开发环境

一:安装Scala 二:安装IDEA开发环境

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面

MySQL学习笔记-安装和基本操作

MySQL学习笔记-安装和基本操作 1.安装MySQL 1 # yum -y install mysql mysql-server mysql-devel 添加/etc/my.conf配置: 1 vi /etc/my.conf2 [mysqld]3 default-character-set=utf84 character_set_server=utf85 [client]6 default-character-set=utf8 2.启动和停止MySQL服务: # service mysql

SystemTap 学习笔记 - 安装篇

https://segmentfault.com/a/1190000000671438 在安装前,需要知道下自己的系统环境,我的环境如下: uname -r 2.6.18-308.el5 Linux 2.6.18-308.el5 #1 SMP Tue Feb 21 20:06:06 EST 2012 x86_64 x86_64 x86_64 GNU/Linux 安装为了部署 SystemTap,需要安装以下两个 RPM 包: systemtap systemtap-runtime 以 root

EasyARM i.mx28学习笔记——安装和使用tftp

0 前言前段时间购买了周立功的EasyARM i.mx287开发板,加之前3个月工作内容也和linux有关,就借助周立功的EasyARM总结Linux开发过程中的若干注意点. 本文说明在ubuntu中安装tftp服务器的详细步骤,在ubuntu中编写一个让LED闪烁的脚本,使用串口登录EasyARM,在EasyARM中通过busybox的tftp指令获得主机中的脚本文件,增加可执行权之后运行,最终LED灯间隔闪烁. 1 安装tftp [1]新建目录,并修改权限在用户目录中新建一个名为tftp

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② 通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o

Python学习笔记-安装MySQLdb模块

模块下载地址: MySQL-python 1.2.3 for Windows and Python 2.7, 32bit and 64bit versions http://www.codegood.com/archives/129 直接点击安装exe即可,如果缺少dll文件,可以百度下载相关dll文件. Python学习笔记-安装MySQLdb模块

Django学习笔记——安装（linux环境）

1. 下载安装Django pip install Django==1.6.5 测试是否安装成功 >>> import django >>> djan.VERSION >>> django.VERSION (1, 6, 5, 'final', 0) 2. 安装数据库MySQL 说明:使用python连接到MySQL前提是需要让一个python连接到MySQL的接口——MySQLdb 下载:http://sourceforge.net/projects/