Spark sbt configure and examples

使用sbt 0.13.5

wget http://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.5/sbt-launch.jar

新建sbt脚本在/usr/local/sbt/ 下 并加入执行权限。

#!/bin/bash
SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled "
java $SBT_OPTS -jar `dirname $0`/sbt-launch.jar "[email protected]"

/usr/local/sbt/sbt sbt-version

进行sbt初始化。会下载一些文件。

出现超时报错:

export JAVA_OPTS="$JAVA_OPTS -Dhttp.proxyHost=yourserver -Dhttp.proxyPort=8080 -Dhttp.proxyUser=username -Dhttp.proxyPassword=password"

然后重试,成功后

会打印出sbt版本 为0.13.5

新建sbt配置文件:

name := "Simple Project"

version := "1.0"

scalaVersion := "2.11.8"

val sparkVersion = "2.3.3"

resolvers ++= Seq(
  "apache-snapshots" at "http://repository.apache.org/snapshots/"
)

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion,
  "org.apache.spark" %% "spark-sql" % sparkVersion,
  "org.apache.spark" %% "spark-mllib" % sparkVersion,
  "org.apache.spark" %% "spark-streaming" % sparkVersion,
  "org.apache.spark" %% "spark-hive" % sparkVersion,
  "mysql" % "mysql-connector-java" % "5.1.6"
)

没有用到的就删掉。不然会很慢。

原文地址:https://www.cnblogs.com/Ray-Lei/p/10682710.html

时间: 2024-10-21 01:55:45

Spark sbt configure and examples的相关文章

IDEA 学习笔记之 Spark/SBT项目开发

Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项目: 导入Spark jars: 创建WordCount: import org.apache.spark.{SparkConf, SparkContext} object WordCountDemo { def main(args: Array[String]): Unit = { if (arg

用SBT编译Spark的WordCount程序

问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要java1.6以上. sbt项目环境建立 sbt编译需要固定的目录格式,并且需要联网,sbt会将依赖的jar包下载到用户home的.ivy2下面,目录结构如下: |--build.sbt |--lib |--project |--src | |--main | | |--scala | |--tes

ubuntu下hadoop,spark配置

转载来自:http://www.cnblogs.com/spark-china/p/3941878.html 在VMWare 中准备第二.第三台运行Ubuntu系统的机器:   在VMWare中构建第二.三台运行Ubuntu的机器和构建第一台机器完全一样,再次不在赘述.. 与安装第一台Ubuntu机器不同的几点是: 第一点:我们把第二.三台Ubuntu机器命名为了Slave1.Slave2,如下图所示: 创建完的VMware中就有三台虚拟机了: 第二点:为了简化Hadoop的配置,保持最小化的H

Spark 硬件配置

存储系统 Spark任务需要从一些外部的存储系统加载数据(如:HDFS 或者 HBase),重要的是存储系统要接近Spark系统,我们有如下推荐: (1)如果可能,运行Spark在相同的HDFS节点,最简单的方法是建立一个引发相同的节点上的集群独立模式(http://spark.apache.org/docs/latest/spark-standalone.html),和配置Spark的Configure和Hadoop的内存和CPU使用避免干扰(对于Hadoop,) 或者 你能够运行Hadoop

spark MLLib的基础统计部分学习

参考学习链接:http://www.itnose.net/detail/6269425.html 机器学习相关算法,建议初学者去看看斯坦福的机器学习课程视频:http://open.163.com/special/opencourse/machinelearning.html(已经被翻译了) 所有文中示例见:http://spark.apache.org/docs/latest/mllib-statistics.html 统计工具(1)摘要统计我们通过统计中可用的colStats函数提供RDD

Backup Optimization for SBT Backups With Redundancy Retention Policy

ocp 053 703. Given below are RMAN commands to enable ba ckup optimization and set  the retention policy: The USERS tablespace has never been backed up. Y ou take the USERS tablespace offline on Monday. View the Exhibit to examine the operations perfo

Spark MLlib数据类型

MLlib支持几种数据类型:本地向量(local vectors),和存储在本地或者基于RDD的分布式矩阵(matrices).底层的线性代数转换操作是基于Breeze和jblas实现的.在MLlib中有监督学习算法使用的训练样本数据类型被称为"带标签的点(labeled point)". 一.本地向量(Local Vector) 一个本地向量是由从0开始的整型下标和double型数值组成的,存储在单机节点上.MLlib支持两种类型的本地向量:密集(dense)的和稀疏(sparse)

Java接入Spark之创建RDD的两种方式和操作RDD

首先看看思维导图,我的spark是1.6.1版本,jdk是1.7版本 spark是什么? Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群. 下载和安装 可以看我之前发表的博客 Spark安装 安装成功后运行示例程序 在spark安装目录下examples/src/main目录中. 运行的一个Java或Scala示例程序,使用bin/run-examp

spark源码阅读-脚本篇

spark都进化到2.0了,虽然之前对spark有所了解但总感觉似懂非懂的,所以想花时间看看源码. 面对大量的源码从哪里着手呢,想到老子的一句话“天下难事必作于易,天下大事必作于细”,所以就从脚本部分来啃. 因本人脚本编程能力也并不是那么强,所以在总结的时候会穿插一些shell的东西.此处只介绍shell脚本,不涉及bat脚本. 先按照首字母顺序介绍下每个脚本的功能: spark-1.5.0/bin beeline:基于SQLLine CLI的JDBC客户端,可以连接到hive,操作hive中的