Jupyter配置Spark开发环境

兄弟连大数据培训(www.lampbrother.net

)和大家一起探究Jupyter配置

Spark

开发环境

简介

  为Jupyter配置Spark开发环境,可以安装全家桶–Spark Kernel或Toree,也可按需安装相关组件。

  考虑到一般人更喜欢一步到位,并且Toree将会代替Spark Kernel,故直接且仅需安装Toree即可,不过下面还是给出了所有的安装方法。

  Spark Kernel的安装

  参照Spark Kernel支持的语言,安装好Spark Kernel后,其默认可以支持Scala,Python,R,SQL,对应的Spark实现分别是Scala with Spark,Python with PySpark,R With SparkR,Spark SQL。

  参照上述链接,要切换语言时,只需简单的在语句前面加上%%scala/%%pyspark即可。当然,什么都不加时,默认语言为Scala。

  另外,启动Jupyter后,可直接在http://localhost:4040/jobs/监控所有作业。

  Spark Kernel(旧的项目)

  参照下面的安装步骤进行即可,就是有些繁琐。

  Getting Started with theSpark Kernel

  Guide to Integrating theSpark Kernel with Jupyter

  Toree(新项目)

  根据Spark Kernel的介绍,自从Spark Kernel变成Apache的孵化项目后,其最新仓库已经 迁移到了incubator-toree。

  安装时,参照Quick Start What isApache Toree ,仅需两条命令即可完成安装。

  pip install toree

  jupyter toree install--spark_home=your-spark-home12

  值得注意的是:

  Toree虽然还在孵化中,但已经能完成上述Spark Kernel的全部功能,即可支持PySpark,Spark SQL等。

  该kernel安装在/usr/local/share/jupyter/kernels/apache_toree_scala目录下

  Spark组件单独安装

  除了安装上面的方法安装Spark的全家桶外,还可以按需对各组件进行安装。

  Scala Kernel的安装

  参照jupyter-scala安装即可。

  PySpark的安装

  PySpark: How to install andIntegrate with the Jupyter Notebook

  Integrate Apache Spark withlatest IPython Notebook (Jupyter 4.x)

  Running Spark ApplicationsUsing IPython and Jupyter Notebooks

时间: 2024-10-14 19:04:03

Jupyter配置Spark开发环境的相关文章

spark开发环境配置

以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache Spark源码走读系列挺好的,看了些.具体环境配置不是太复杂,具体可以看https://github.com/apache/spark 1.代码下载 git clone https://github.com/apache/spark.git 2.直接构建spark 我是基于hadoop2.2.0的

windows下spark开发环境配置

http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. 特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe.hadoop.dll等文件,前提是你已经安装了eclipse.maven.jdk等软件 spark支持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8 我选择的spark是spark-1.4.0

spark开发环境安装配置

在window上安装spark开发环境, 1,安装java http://www.oracle.com/technetwork/java/javase/downloads/index.html 配置环境变量 2,安装scala http://www.scala-lang.org/ 配置环境变量 3,安装idea https://www.jetbrains.com/idea/

分别用Eclipse和IDEA搭建Scala+Spark开发环境

开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量.网上资料很多,安装过程忽略.此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本. 1. Eclipse开发环境搭建 1.1. 安装scala插件 安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html 解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可.

Spark入门三部曲之第二步Spark开发环境搭建

使用Scala+IntelliJ IDEA+Sbt搭建开发环境 提示 搭建开发环境常遇到的问题: 1.网络问题,导致sbt插件下载失败,解决方法,找到一个好的网络环境, 或者预先从我提供的网盘中下载jar(链接:http://pan.baidu.com/s/1qWFSTze 密码:lszc) 将下载的.ivy2压缩文件,解压后,放到你的用户目录下. 2.版本匹配问题,版本不匹配会遇到各种问题,解决方法,按照如下版本搭建, scala(2.10.3),sbt(0.13),sbt-assembly(

01_PC单机Spark开发环境搭建_JDK1.8+Spark2.3.1+Hadoop2.7.1

本文档基于Windows搭建本地JAVA Spark开发环境. 1      JDK 1.8安装 官网下载JDK. 注意JDK安装目录不可以包含空格,比如:C:\Java\jdk1.8.0_171,否则可能导致后续运行Spark报错(提示找不到java.exe). 2      Spark安装(V2.3.1) 1.到spark官网网站 http://spark.apache.org/downloads.html下载spark: 注意点击红框部分进入选择下载包,不要点击截图上步骤3后面链接. 2.

Mac上搭建spark开发环境

本文将介绍在Mac os上搭建Spark开发环境. 在安装spark环境之前,需要确保配置相应的java环境,jdk或者jre的版本需要在1.8.0版本以上. (1)首先下载开发IDE,目前比较流行的IDE是IntelliJ IDEA,可以在官网下载使用,下载地址:https://www.jetbrains.com/idea/.(2)Spark环境搭建:mac上启动终端,使用brew install scala命令(brew是一个软件包管理工具,类似于centos下的yum或者ubuntu下的a

linux 下安装 mysql 并配置 python 开发环境

1.安装 mysql ,安装过程中将提示设置 root 用户的密码,默认可以设置为 rootadmin . $ sudo apt-get install mysql-server 2.安装 mysql 开发工具(不安装时,安装 MySQL-python 提示错误 "mysql_config not found"). $ sudo apt-get install libmysqld-dev 3.安装 python 的 mysql 库 MySQL-python (首先安装 python-d

Eclipse下配置TinyOS开发环境

通过给Eclipse安装Yeti 2 - TinyOS 2 Plugin for Eclipse来配置TinyOS IDE,从而可建立TinyOS Project Yeti 2的介绍请参考网站:http://tos-ide.ethz.ch/wiki/pmwiki.php?n=Site.TinyOSEclipsePlugin 1.下载.解压并打开Eclipse(我用的是Eclipse IDE for Java Developers) 2.打开Install对话框:Help->Install New