Spark快速大数据分析 01

==Spark的发展介绍==

==一个大一统的软件栈==

Spark核心

        计算引擎
            对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用调度、分发以及监控的计算引擎
            速度快、通用
    Spark项目包含多个密切组成的组件
        优点1：软件栈中所有的程序库和高级组件都可以从下层的改进中获益
        优点2：运行整个软件栈的代价变小了
        优点3：能够构建出无缝整合不同处理模型的应用
    Spark的各个组件
![](http://images2017.cnblogs.com/blog/1297416/201712/1297416-20171211205911540-50566869.png)
 Spark Core
            实现了Spark的基本功能
            包含：任务调度、内存管理、错误恢复、与存储系统交互等模块
            包含：对弹性分布式数据集RDD的API定义
                RDD表示
                    分布在多个计算机节点上可以并行操作的元素集合
                    是Spark的主要编程对象
                    SparkCore提供了创建和操作这些集合的多个API
        SparkSQL
            用来操作结构化数据的程序包
            通过它我们可以使用
                SQL or Apache Hive版本的SQL方言（HQL）查询数据
            支持多种数据源
                比如：Hive表、Parquet、JSON等
            为Spark提供了一个SQL接口
                实在Spark1.0中被引用的
        Spark Streaming
            Spark提供的对实时数据进行流式计算的组件
            提供了用来操作数据流的API
            与SparkCore中的RDD　API高度对应
            底层设计来看：它支持与Spark　Core同级别的容错性、吞吐量以及可伸缩性
        MLlib
            机器学习ML功能的程序库
            提供了很多种机器学习算法
                分类
                回归
                聚类
                协同过滤等
        GraphX
            用来操作图的程序库
            可以进行并行的图计算
            扩展了Spark的RDD API
                用来创建一个顶点和边都包含任意属性的有向图
        集群管理器
            支持在各种集群管理器（cluster manager)上运行
            包括：Hadoop YARN、Apache Mesos、以及Spark自带的独立调器

行动操作

RDD

Spark传递函数

常见的转化操作

时间： 2024-10-22 04:50:31

Spark快速大数据分析 01的相关文章

[Spark快速大数据分析]Spark基础

Spark分布式执行涉及的组件每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark:驱动程序管理多个执行器节点,可以用SparkContext来创建RDD. RDD(Resilient Distributed Dataset:弹性分布式数据集) RDD特点 Spark中,对数据的所有操作不外乎:创建RDD.转化已有RDD.调用RDD操作进行求值. Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行. Spark中

<Spark快速大数据分析>读书笔记(二)

PART 3 Pair RDD Spark为包含键值对类型的RDD提供了专有操作,这类RDD叫做Pair RDD(意为"对RDD") Spark中Pair RDD的创建主要有两种方式,一种方式从存储了键值对数据的文件中创建(主要内容见PART 4),另一种方式可以从其他普通RDD调用map()操作来实现: 1 #line的元素是一行单词构成的句子,map操作后每个元素为该句子的首个单词和句子本身构成一个二元元组 2 pairs = line.map(lambda x: (x.split

<Spark快速大数据分析>读书笔记(三)

PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名保存:saveAsTextFile()传入一个文件保存的路径,Spark会将该路径视为目录,在该目录下保存多个文件,这样Spark就可以从各个节点并行保存了.这个过程不能控制哪个节点输出到哪个文件,但是可以对输出格式进行控制. 1.

spark快速大数据分析学习笔记*初始化sparkcontext(一)

初始化SparkContext 1// 在java中初始化spark 2 import org.apache.spark.SparkConf; 3 import org.apache.spark.api.java.JavaSparkContext; 4 5 SparkConf conf=new SparkConf().setMaster("local").setAppName("my app"); 6 //集群url:本例是运行在本地单机local:应用名,可以在集

基于Python Spark的大数据分析_pyspark实战项目课程

基于Python Spark的大数据分析(第一期) 课程介绍地址:http://www.xuetuwuyou.com/course/173 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 1.开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!): 2.学习方式:在线直播,共8次课,每次2小时,每周2次(周三.六,晚上20:30 - 22:30),提供在线视频,课后反复学习: 3.报名课程后,请联系客服申请加入班级答疑交流QQ群:

大数据分析01——数据爬取

2020.3.22 pycharm:使用python进行爬取,并存储到文件 1.爬取网页的通用代码框架 1 try: 2 r = requests.get(url, timeout = 30) 3 r.raise_for_status() 4 r.encoding = r.apparent_encoding 5 return r.text 6 except: 7 return "产生异常" 养成编写爬虫用try-except的方式来保证网络连接异常能被有效处理的习惯. 2. 原文地址:

《Spark大数据分析：核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构.Streaming流计算框架.GraphX图计算与网状数据挖掘.MLlib机器学习支持框架.Spark SQL数据检索语言.Tachyon文件系统.SparkR计算引擎等主要部件.这里做一个简单的介绍. 一.RDD内存数据结构大数据分析系统一般包括数据获取.数据清洗.数据处理.数据分析.报表输出等子系统.Spark为了方便数据处理.提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似.用户

Python3实战Spark大数据分析及调度（网盘分享）

Python3实战Spark大数据分析及调度搜索QQ号直接加群获取其它学习资料:517432778 部分课程截图: 链接:https://pan.baidu.com/s/1YMmswv47fOUlt-z2A6691A 提取码:z5xv PS:免费分享,若点击链接无法获取到资料,若如若链接失效请加群其它资源在群里,私聊管理员即可免费领取:群——517432778,点击加群,或扫描二维码第1章课程介绍课程介绍 1-1 PySpark导学试看 1-2 OOTB环境演示第2章实战环境搭