手把手教你在本机安装spark

本文始发于个人公众号:TechFlow,原创不易,求个关注


今天是spark系列的第一篇文章。

最近由于一直work from home节省了很多上下班路上的时间,加上今天的LeetCode的文章篇幅较小,所以抽出了点时间加更了一篇,和大家分享一下最近在学习的spark相关的内容。看在我这么拼的份上,求各位老爷赏个转发。。。

PS:本专题不保证每周更新,毕竟不是每周都能加更。。。

言归正传,spark鼎鼎大名,凡是搞分布式或者是大数据的应该都听说过它的大名。它是apache公司开发的一个开源集群计算框架,也就是分布式计算框架。相比于Hadoop的MapReduce,它支持更多的功能,并且运算速度也更快,如今已经成了非常主流的大数据计算框架。几乎各大公司当中都有它的身影。

spark支持像是java、scala和Python等众多语言,但是对于spark来说语言不太重要,不同的语言写出来的spark代码相差不太大。和之前的文章一样,我会以Python为主,毕竟Python对初学者比较友好(虽然我自己在工作当中使用的是scala)。

今天这篇文章从最基础的spark安装开始讲起,安装spark并不需要一个庞大的集群,实际上单机也可以。这也是我们学习的基础,这样我们就可以在本机上做各种实验了。和大多数环境不同,spark的安装要简单得多,这也是它比较友好的地方。

下载安装

进入spark官网,点击download

选择Pre-built for Apache Hadoop,这样我们就不用预先安装Hadoop了,相信我,安装Hadoop是一件非常痛苦的事情。。。

在跳转的链接当中继续点击,开始下载。

压缩包大概在230MB左右,不是特别大,很快能下好。下好了之后会得到一个tgz的压缩包。如果是Mac的话可以直接解压,如果是Windows的话可以用7z等解压工具进行解压。

也可以使用命令行进行解压:

sudo tar -zvxf spark-3.0.0-preview2-bin-hadoop2.7.tgz

解压完了之后记住你放的位置,当然我更建议你放在专门的位置。或者可以放在/usr/local下。

使用命令进行移动:

sudo mv ~/Downloads/spark-3.0.0-preview2-bin-hadoop2.7 /usr/local/

基本配置

放置好了之后,我们打开配置文件修改环境配置。因为我用的是zsh的终端,如果是原生的终端的话应该是.bash_profile,由于我用的是mac,如果是windows用户,请百度windows设置环境变量。。。

vim ~/.zshrc

在末尾加上三行:

export SPARK_HOME=/usr/local/spark-3.0.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/binexport PYSPARK_PYTHON=python3

改完了之后,别忘了source ~/.zshrc激活一下。

之后我们运行一下pyspark,看到熟悉的logo就说明我们的spark已经装好了

目前为止常用的spark方式主要有两种,一种是通过Python还有一种是通过Scala。这两种都蛮常见的,所以我们可以简单了解一下。

进阶配置

下面介绍最基本的开启方法,Python的开启方法我们刚才已经介绍过了,可以直接使用pyspark命令进行唤醒。对于Scala来说也差不多,不过命令换了一下,不叫pyspark也不叫scspark,而是spark-shell。

出来的界面大同小异,只不过语言换成了Scala:

无论是pyspark还是spark-shell都只是spark提供的最基础的工具,使用体验并不好,已经不太适合现在的需求了。好在针对这个问题也有解决方案,一种比较好的解决方式是配置jupyter notebook。

jupyter notebook是非常常用的交互式编程的工具,广泛使用。我们可以在jupyter notebook当中配置Scala和Pyspark。

首先介绍Scala。

Scala的配置方法很简单,由于我们已经配置好了spark的环境变量,我们只需要安装一下jupyter下Scala内核Toree即可。安装的方式也非常简单,只需要两行命令:

pip install toreejupyter toree install --spark_home=$SPARK_HOME

运行结束之后, 我们打开点击添加,可以发现我们可以选择的内核多了一个:

pyspark的配置也很简单,我们只需要在.zshrc当中添加两个环境变量:

export PYSPARK_DRIVER_PYTHON=jupyterexport PYSPARK_DRIVER_PYTHON_OPTS=notebook

配置好了之后,我们只需要在终端输入pyspark就会自动为我们开启一个新的jupyter网页。我们选择Python3的内核新建job就可以使用pyspark了。我们执行一下sc,如果看到以下结果,就说明我们的pyspark已经可以在jupyter当中执行了。

到这里,关于spark的安装配置就介绍完了。由于我个人使用的是Mac电脑,所以一些配置方法可能对其他系统的电脑并不完全适用。但是配置的过程是大同小异的,一些具体的细节可以针对性地进行调整。

spark是当下非常流行的大数据处理引擎,使用非常广泛,所以了解和掌握spark,也是非常重要的技能。和Hadoop比起来它的安装和使用都要简便许多,希望大家都能体会到它的魅力。

今天的文章就是这些,如果觉得有所收获,请顺手点个关注或者转发吧,你们的举手之劳对我来说很重要。

原文地址:https://www.cnblogs.com/techflow/p/12636580.html

时间: 2024-10-08 09:10:03

手把手教你在本机安装spark的相关文章

手把手教你搭建LyncServer2013之安装持久聊天服务器(十三)

这一节中,不得不说的就是持久聊天服务器,为Lync  Server 2013新建的一个角色,在企业版中,需要单独部署,不能和其他服务器并置,WAC服务器也是如此,因在前面的拓扑中未定义持久聊天服务器,下面我们开始新建拓扑并进行发布了,在前端服务器上打开拓扑生成器,并下载当前拓扑信息 右键持久聊天池,新建持久聊天池 输入FQDN并选择"单计算机池" 我后续想测试下合规性,所以这里选了启用合规性,可以根据自己组织内部需求进行选择,输入显示名称 定义SQL Server存储,我这里仍然使用镜

手把手教你搭建LyncServer2013之安装反向代理服务器TMG(八)

首先修改反向代理服务器的DNS后缀为iSusan.cn 放入TMG安装光盘开始安装TMG 点击"运行准备工具"安装TMG所需组件 这里选择安装"Forefront TMG服务和管理" 勾选"启用Forefront TMG安装向导" 安装进程开始安装TMG核心组件 点击"添加"按钮添加内部网络适配器 点击"添加适配器" 选择"Lan"这块内部网卡 添加内部网卡会自动加入内部网络IP地址 下

手把手教你搭建LyncServer2013之安装Office Web App服务器(十一)

因为Lync2013需要安装独立的Office Web App服务来体统OneNote和PPT共享用,而在Lync2010中,PPT共享功能默认集成在Lync前端服务器中,下面开始部署Office Web Apps服务器了 首先安装Office Web App服务器的必备功能组件,命令如下 Add-WindowsFeature?Web-Server,Web-Mgmt-Tools,Web-Mgmt-Console,Web-WebServer,Web-Common-Http,Web-Default-

手把手教你在Ubuntu上安装Apache、MySql和PHP

1:首先安装apache:打开终端(ctrl+Alt+t), 输入命令:sudo apt-get install apache2即可安装, 安装完后,打开浏览器,在地址栏输入:localhost或者http://127.0.0.1 看到It works,表示安装成功! 默认根目录:/var/www/ 2:安装mysql: sudo apt-get install mysql-server-5.0 安装完后,会要你新设置mysql root密码,输入你自己的密码后enter键,再确认密码. 3:安

手把手教你在Centos7上安装zabbix server 3.0

1.查看系统信息. cat /etc/redhat-release CentOS Linux release 7.0.1406 (Core) uname -a Linux VM_96_155_centos3.10.0-123.el7.x86_64 #1 SMP Mon Jun 30 12:09:22 UTC 2014 x86_64 x86_64 x86_64GNU/Linux 2.使用rpm命令安装zabbix 3.0最新的epel源,关闭selinux和iptables. rpm -ivh h

图文教程:手把手教你用U盘安装Ubuntu

说到ubuntu,有接触linux的童鞋都应该听过,用wubi安装只是像在电脑上安装一个软件,可以轻松体验ubuntu,不过毕竟性能会打折扣,所以本人是比较喜欢直接安装在硬盘上的. 这种方法只适合用desktop下进行安装,不能在文本模式下,本人试过,没安装成功,具体原因没有去理了,呵呵. 废话不多说,开始需要准备一些东西 1.从官网下载一个ubuntu10.04的镜像 2.一个大于等于1G的支持启动的U盘 3.UltraISO最新版 4.可以上网的电脑一台. 接下来是安装和设置的步奏,比较长,

手把手教你Git安装

序:Mac与Linux中,Mac都预装了Git,各版本的Linux也都提供了Git的软件包.下面手把手教你Windows下的安装. 一.Git Windows GUI 下载地址 msysgit https://git-for-windows.github.io/ 二.

东方耀 手把手教React Native实战开发视频教程+源码笔记全集

课程序号标题 第0课0.手把手教React Native实战之开山篇_视频 第1课1.手把手教React Native实战之环境搭建_视频_Windows环境 第1课1.手把手教React Native实战之环境搭建[Mac真机]同时调试开发Android&IOS 第2课2.手把手教React Native实战之从React到RN 第3课3.手把手教React Native实战之flexbox布局(RN基础) 第4讲4.手把手教React Native实战之flexbox布局(伸缩属性) 第5讲

Linux环境搭建 | 手把手教你安装Linux虚拟机

前言 作为一名Linux工程师,不管是运维.应用.驱动方向,在工作中肯定会需要Linux环境.想要获得Linux环境,一个办法就是将电脑系统直接换成Linux系统,但我们平常用惯了Windows系统,直接切换为Linux系统或多或少会有很多不方便的地方.另一个比较土豪的办法是,再买一台电脑,然后将系统换成Linux系统.但这种方法就比较伤钱包了. 一个比较折中的方案是,在自己的电脑上安装一个Linux虚拟机.所谓虚拟机,就是在你已有的电脑里再虚拟出一个或多个电脑,可以理解为电脑中的电脑. 比如说