Spark快速大数据分析 01

==Spark的发展介绍==

==一个大一统的软件栈==

Spark核心

        计算引擎
            对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用调度、分发以及监控的计算引擎
            速度快、通用
    Spark项目包含多个密切组成的组件
        优点1:软件栈中所有的程序库和高级组件都可以从下层的改进中获益
        优点2:运行整个软件栈的代价变小了
        优点3:能够构建出无缝整合不同处理模型的应用
    Spark的各个组件
![](http://images2017.cnblogs.com/blog/1297416/201712/1297416-20171211205911540-50566869.png)
 Spark Core
            实现了Spark的基本功能
            包含:任务调度、内存管理、错误恢复、与存储系统交互等模块
            包含:对弹性分布式数据集RDD的API定义
                RDD表示
                    分布在多个计算机节点上可以并行操作的元素集合
                    是Spark的主要编程对象
                    SparkCore提供了创建和操作这些集合的多个API
        SparkSQL
            用来操作结构化数据的程序包
            通过它我们可以使用
                SQL or Apache Hive版本的SQL方言(HQL)查询数据
            支持多种数据源
                比如:Hive表、Parquet、JSON等
            为Spark提供了一个SQL接口
                实在Spark1.0中被引用的
        Spark Streaming
            Spark提供的对实时数据进行流式计算的组件
            提供了用来操作数据流的API
            与SparkCore中的RDD API高度对应
            底层设计来看:它支持与Spark Core同级别的容错性、吞吐量以及可伸缩性
        MLlib
            机器学习ML功能的程序库
            提供了很多种机器学习算法
                分类
                回归
                聚类
                协同过滤等
        GraphX
            用来操作图的程序库
            可以进行并行的图计算
            扩展了Spark的RDD API
                用来创建一个顶点和边都包含任意属性的有向图
        集群管理器
            支持在各种集群管理器(cluster manager)上运行
            包括:Hadoop YARN、Apache Mesos、以及Spark自带的独立调器

行动操作

RDD

Spark传递函数

常见的转化操作

时间: 2024-10-22 04:50:31

Spark快速大数据分析 01的相关文章

[Spark快速大数据分析]Spark基础

Spark分布式执行涉及的组件 每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark:驱动程序管理多个执行器节点,可以用SparkContext来创建RDD. RDD(Resilient Distributed Dataset:弹性分布式数据集) RDD特点 Spark中,对数据的所有操作不外乎:创建RDD.转化已有RDD.调用RDD操作进行求值. Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行. Spark中

<Spark快速大数据分析>读书笔记(二)

PART 3 Pair RDD Spark为包含键值对类型的RDD提供了专有操作,这类RDD叫做Pair RDD(意为"对RDD") Spark中Pair RDD的创建主要有两种方式,一种方式从存储了键值对数据的文件中创建(主要内容见PART 4),另一种方式可以从其他普通RDD调用map()操作来实现: 1 #line的元素是一行单词构成的句子,map操作后每个元素为该句子的首个单词和句子本身构成一个二元元组 2 pairs = line.map(lambda x: (x.split

<Spark快速大数据分析>读书笔记(三)

PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名 保存:saveAsTextFile()传入一个文件保存的路径,Spark会将该路径视为目录,在该目录下保存多个文件,这样Spark就可以从各个节点并行保存了.这个过程不能控制哪个节点输出到哪个文件,但是可以对输出格式进行控制. 1.

spark快速大数据分析学习笔记*初始化sparkcontext(一)

初始化SparkContext 1// 在java中初始化spark 2 import org.apache.spark.SparkConf; 3 import org.apache.spark.api.java.JavaSparkContext; 4 5 SparkConf conf=new SparkConf().setMaster("local").setAppName("my app"); 6 //集群url:本例是运行在本地单机local:应用名,可以在集

基于Python Spark的大数据分析_pyspark实战项目课程

基于Python Spark的大数据分析(第一期) 课程介绍地址:http://www.xuetuwuyou.com/course/173 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师 1.开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!): 2.学习方式:在线直播,共8次课,每次2小时,每周2次(周三.六,晚上20:30 - 22:30),提供在线视频,课后反复学习: 3.报名课程后,请联系客服申请加入班级答疑交流QQ群:

大数据分析01——数据爬取

2020.3.22 pycharm:使用python进行爬取,并存储到文件 1.爬取网页的通用代码框架 1 try: 2 r = requests.get(url, timeout = 30) 3 r.raise_for_status() 4 r.encoding = r.apparent_encoding 5 return r.text 6 except: 7 return "产生异常" 养成编写爬虫用try-except的方式来保证网络连接异常能被有效处理的习惯. 2. 原文地址:

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件 Spark大数据分析框架的核心部件包含RDD内存数据结构.Streaming流计算框架.GraphX图计算与网状数据挖掘.MLlib机器学习支持框架.Spark SQL数据检索语言.Tachyon文件系统.SparkR计算引擎等主要部件.这里做一个简单的介绍. 一.RDD内存数据结构 大数据分析系统一般包括数据获取.数据清洗.数据处理.数据分析.报表输出等子系统.Spark为了方便数据处理.提升性能,专门引入了RDD数据内存结构,这一点与R的机制非常类似.用户

Python3实战Spark大数据分析及调度 (网盘分享)

Python3实战Spark大数据分析及调度 搜索QQ号直接加群获取其它学习资料:517432778 部分课程截图: 链接:https://pan.baidu.com/s/1YMmswv47fOUlt-z2A6691A 提取码:z5xv PS:免费分享,若点击链接无法获取到资料,若如若链接失效请加群 其它资源在群里,私聊管理员即可免费领取:群——517432778,点击加群,或扫描二维码   第1章 课程介绍 课程介绍 1-1 PySpark导学试看 1-2 OOTB环境演示 第2章 实战环境搭