idea下关联spark源码环境(转)

0.环境:

java 1.8

scala 2.11.8

maven 3.5.0

idea 2017

spark 2.2.0

1完成以下配置

java环境变量

scala环境变量

maven setting配置文件jar包存放路径

idea下载scala plugins语言插件

idea配置maven setting及jar包存放路径

spark git :https://github.com/apache/spark.git

2编译spark源码

进入目录$spark_home

配置maven内存大小,或者在maven配置文件中配置($maven_home/bin/mvn)

exportMAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

打包spark源码

./build/mvn-Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

3 debug调试配置

1)加载所有jars

idea =>file => project structure=> libraries => add java =>$spark_home/assembly/target/scala-2.11/jars =>all project

2)debug配置

idea=>run =>run config =>

随着git代码更新到本地,打包代码与debug代码 不一致,把下面的 build 删除即可。

3)打断点

4)debug调试

作者:HxLiang
链接:https://www.jianshu.com/p/491d019eb9b6
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

原文地址:https://www.cnblogs.com/moonlightml/p/9007621.html

时间: 2024-11-10 00:06:37

idea下关联spark源码环境(转)的相关文章

Intelli IDEA开发Spark工程关联Spark源码!

一.关联什么? 一般关联zip.jar等,但是Spark的源码是tgz格式的,没法关联,没关系,下载tgz的,解压缩成目录. 二.怎么关联? 第1步先选中工程.选择Project structure. 选择Spark2.0的目录. 回到工程,ctrl+鼠标单击.进入scala文件. OK,开始你的spark源码之旅吧!

window环境下使用sbt编译spark源码

前些天用maven编译打包spark,搞得焦头烂额的,各种错误,层出不穷,想想也是醉了,于是乎,换种方式,使用sbt编译,看看人品如何! 首先,从官网spark官网下载spark源码包,解压出来.我这边使用的是1.4.0版本. 然后,我们需要把sbt配置好,配置很简单,无非就是SBT_HOME什么的,大家可以参考官网给出的安装配置手册. 在window的命令行模式下进入刚刚解压的spark源码目录下,我们根据官网提示的命令输入: sbt -Pyarn -Phadoop-2.3 assembly

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

欢迎转载,转载请注明出处,徽沪一郎. 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收到广泛的欢迎. Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意.由于Spark出色的处理速度,有人已经成功将HiveQL的执行利用Spark来运行,这就是已经非常

Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析

欢迎转载,转载请注明出处,徽沪一郎. 概要 本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如何处理的. Standalone部署的节点组成 介绍Spark的资料中对于RDD这个概念涉及的比较多,但对于RDD如何运行起来,如何对应到进程和线程的,着墨的不是很多. 在实际的生产环境中,Spark总是会以集群的方式进行运行的,其中standalone的部署方式是所有集群方式中最为精简的一种,另外

【Spark】配置Spark源码阅读环境

Scala构建工具(SBT)的使用 SBT介绍 SBT是Simple Build Tool的简称,如果读者使用过Maven,那么可以简单将SBT看做是Scala世界的Maven,虽然二者各有优劣,但完成的工作基本是类似的. 虽然Maven同样可以管理Scala项目的依赖并进行构建,但SBT的某些特性却让人如此着迷,比如: 使用Scala作为DSL来定义build文件(one language rules them all); 通过触发执行(trigger execution)特性支持持续的编译与

搭建Spark源码研读和代码调试的开发环境

转载自https://github.com/linbojin/spark-notes/blob/master/ide-setup.md Table of Contents 源码获取与编译 从Github上获取Spark源码 编译Spark项目 源码导入与代码运行 导入源码到Intellij IDEA 16 运行实例代码 1. 配置运行参数 2. 添加缺失的flume sink源代码 3. 添加运行依赖的jars 4. 成功运行实例代码 单步调试源代码 工欲善其事,必先利其器,第一篇笔记介绍如何搭

Android:源码环境下移植第三方的apk内置到ROM(System Image)中

1. 首先在vendor目录下新建一个the3rdapk的目录,将需要内置的apk丢进去,目录名自己随意定. 2. 在 build/target/product/common.mk最后面,在$(call inherit-product, $(SRC_TARGET_DIR)/product/core.mk) 之前加入你的apk 第一部分是是本地apk的路径,/system/app/表示复制到system image的相关目录. 如果没有第二部分,则会出现以下编译错误: build/core/pro

Apache Spark源码走读之19 -- standalone cluster模式下资源的申请与释放

欢迎转载,转载请注明出处,徽沪一郎. 概要 本文主要讲述在standalone cluster部署模式下,Spark Application在整个运行期间,资源(主要是cpu core和内存)的申请与释放. 构成Standalone cluster部署模式的四大组成部件如下图所示,分别为Master, worker, executor和driver,它们各自运行于独立的JVM进程. 从资源管理的角度来说 Master  掌管整个cluster的资源,主要是指cpu core和memory,但Ma

windows下IntelliJ IDEA搭建kafka源码环境

于kafka核心原理的资料,网上有很多,但是如果不自己研究其源码,永远是知其然而不知所以然.下面就来演示如何在windows环境下来编译kafka源码,并通过IntelliJ IDEA开发工具搭建kafka的源码环境,以方便在本地通过debug调试来研究kafka的内部实现机制. 具体步骤: (1)安装jdk,版本为1.8.0_131,配置JAVA_HOME: (2)安装scala,版本为 2.10.6,配置SCALA_HOME: (3)安装Gradle,版本为 3.1,配置GRADLE_HOM