spark快速大数据分析学习笔记*初始化sparkcontext(一)

初始化SparkContext

1// 在java中初始化spark
2 import org.apache.spark.SparkConf;
3 import org.apache.spark.api.java.JavaSparkContext;
4
5 SparkConf conf=new SparkConf().setMaster("local”).setAppName("my app");
6 //集群url:本例是运行在本地单机local;应用名,可以在集群管理器用户界面中找到你的应用
7 JavaSparkContext sc=new JavaSparkContext(conf);

关闭spark可以用SparkContext的stop()方法,或直接退出应用,如System.exit(0)或sys.exit()

参考《spark快速大数据分析》

时间: 2024-11-07 03:58:27

spark快速大数据分析学习笔记*初始化sparkcontext(一)的相关文章

spart快速大数据分析学习提纲(一)

Spart是什么 Spart是一个用来实现快速而而通用的集群计算平台. 在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理.Spart的一个主要特点是能够在内存中进行计算,因而更快.即使必须在硬盘上进行复杂计算,Spart依然比Mapreduce快. Spart适用于各种各样原先需要多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理.通过在一个统一的框架下支持这些不同的计算,Spart使我们可以简单而低耗的把各种

<Spark快速大数据分析>读书笔记(二)

PART 3 Pair RDD Spark为包含键值对类型的RDD提供了专有操作,这类RDD叫做Pair RDD(意为"对RDD") Spark中Pair RDD的创建主要有两种方式,一种方式从存储了键值对数据的文件中创建(主要内容见PART 4),另一种方式可以从其他普通RDD调用map()操作来实现: 1 #line的元素是一行单词构成的句子,map操作后每个元素为该句子的首个单词和句子本身构成一个二元元组 2 pairs = line.map(lambda x: (x.split

<Spark快速大数据分析>读书笔记(三)

PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名 保存:saveAsTextFile()传入一个文件保存的路径,Spark会将该路径视为目录,在该目录下保存多个文件,这样Spark就可以从各个节点并行保存了.这个过程不能控制哪个节点输出到哪个文件,但是可以对输出格式进行控制. 1.

Spark:大数据的电花火石!

什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark. 当然这里说的Spark指的是Apache Spark,Apache Spark?is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎.如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的. Spark解决了什么问题? 在这里不得不

大数据分析学习之路

大数据分析学习之路 目录: 一.大数据分析的五个基本方面 二.如何选择适合的数据分析工具 三.如何区分三个大数据热门职业 四.从菜鸟成为数据科学家的 9步养成方案 五.从入门到精通--快速学会大数据分析                             一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一

大数据实时处理-基于Spark的大数据实时处理及应用技术培训

随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求.目前对大数据的分析工具,首选的是Hadoop/Yarn平台,但目前对大数据的实时分析工具,业界公认最佳为Spark.Spark是基于内存计算的大数据并行计算框架,Spark目前是Apache软件基金会旗下,顶级的开源项目,Spark提出的DAG作为MapReduce的替代方案,兼容HDFS.H

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

大数据统计笔记

# -*- coding: utf-8 -*- import pandas as pd import numpy as np import matplotlib.pyplot as plt import json s = pd.Series([1,3,5,np.nan,6,8]); print(s); s = pd.Series([1,3],["a","b"]); print(s); #循环查询日期范围内数据 dates = pd.date_range('20130

大数据分析学习之使用R语言实战机器学习视频课程

大数据分析学习之使用R语言实战机器学习网盘地址:https://pan.baidu.com/s/1Yi9H6s8Eypg_jJJlQmdFSg 密码:0jz3备用地址(腾讯微云):https://share.weiyun.com/5tk6j1Z 密码:rdia9t 机器学习的核心主要侧重于找出复杂数据的意义.这是一个应用广泛的任务,机器学习的使用是非常广泛的. 本课程主要分为两个阶段,第一个部分:掌握R语言的处理数据的基本语法.第二部分:介绍机器学习原理,并通过大量的案例,为学员介绍R语言通过机