Spark tungsten 项目阅读笔记

Spark tungsten 项目的宣言就是：Bringing Apache Spark closer Bare Metal。我的理解就是不要让硬件成为Spark性能的瓶颈，无限充分利用硬件资源（CPU，内存，IO，网络）。

tungsten主要有3大动作。

1. Memory Mangement and Bianary processing：利用应用程序的语义去管理内存，减少JVM的开销和垃圾回收。

　我的理解是利用sun.msic.UnSafe 去管理内存，不使用JVM的垃圾回收机制。在1.4 和 1.5中可以使用此特性。unsafe-heap 和 unsafe-offheap 的hashmap可以处理100万/s/线程聚合操作。相比Java.util.Hasp 2倍的性能。

2. Cache-aware Coputation:algorithm and data structure to exploit memory hierarchy。（算法和大数据结构利用多级内存）

利用CPU的一级、二级、三级缓存来提高排序的cache命中率（如何提高没看明白）。相比之前版本排序提高3倍。对排序、sort merger、高cardinality聚合性能有帮助

3. Code-genaration:using code generation to exploit modern compilers and CPUs。（代码生成利用modern compiles和cpu）

code generation从record-at-a-time 表达式评估到 vectorized 表达式评估。可以一次处理多条数据。shuffle的性能相比kryo版本提高两倍（shuffle8百万的测试场景）

参考文献：

https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

http://stackoverflow.com/questions/37505638/understanding-spark-physical-plan

时间： 2024-10-15 21:30:01

Spark tungsten 项目阅读笔记的相关文章

Spark源码阅读笔记之Broadcast(一)

Spark源码阅读笔记之Broadcast(一) Spark会序列化在各个任务上使用到的变量,然后传递到Executor中,由于Executor中得到的只是变量的拷贝,因此对变量的改变只在该Executor有效.序列化后的任务的大小是有限制的(由spark.akka.frameSize决定,值为其减去200K,默认为10M-200K),spark会进行检查,超出该限制的任务会被抛弃.因此,对于需要共享比较大的数据时,需要使用Broadcast. Spark实现了两种传输Broadcast的机制:

第3课 Scala函数式编程彻底精通及Spark源码阅读笔记

本课内容: 1:scala中函数式编程彻底详解 2:Spark源码中的scala函数式编程 3:案例和作业函数式编程开始: def fun1(name: String){ println(name) } //将函数名赋值给一个变量,那么这个变量就是一个函数了. val fun1_v = fun1_ 访问 fun1_v("Scala") 结果:Scala 匿名函数:参数名称用 => 指向函数体 val fun2=(content: String) => println(co

spark源码阅读笔记RDD（七） RDD的创建、读取和保存

Spark支持很多输入和输出源,同时还支持内建RDD.Spark本身是基于Hadoop的生态圈,它可以通过 Hadoop MapReduce所使用的InpoutFormat和OutputFormat接口访问数据.而且大部分的文件格式和存储系统 (HDFS,Hbase,S3等)都支持这种接口.Spark常见的数据源如下: (1) 文件格式和文件系统,也就是我们经常用的TXT,JSON,CSV等這些文件格式 (2)SparkSQL中的结构化数据源 (3)数据库与键值存储(Hbase和JDBC源) 当

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中本地与虚拟机都要装了python才能运行重要代码: #coding=UTF-8 #数组最后一个没有"," url_paths = [ "class/128.html", "class

IDEA 学习笔记之 Spark/SBT项目开发

Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项目: 导入Spark jars: 创建WordCount: import org.apache.spark.{SparkConf, SparkContext} object WordCountDemo { def main(args: Array[String]): Unit = { if (arg

《代码阅读方法与实践》阅读笔记之二

时间过得真快,一转眼,10天就过去了,感觉上次写阅读笔记的场景仿佛还历历在目.<代码阅读方法与实践>这本书真的很难写笔记,本来我看这本书的名字还以为书里大概写的都是些代码阅读的简易方法,心想着这就好写笔记了,没想到竟然好多都是我们之前学过的东西,这倒让我有点无从下手了.大概像我们这些还没有太多经历的大学生,总是习惯于尽量避免自己的工作量,总是试图找到一些完成事情的捷径吧.总之,尽管我不想承认,但我自己心里很清楚,我就是这种人.下面开始言归正传,说说接下来的几章内容归纳. 这本书在前面已经分析了

构建之法阅读笔记05

2017.5.20 今天阅读的是<构建之法>第8章需求分析的阅读笔记,我们如果要开始做一个软件,最先要进行的就是需求分析,我们应该充分的了解我们这个软件是否具有前景,我们为用户提供的服务是不是用户所需要的,这一章详细的叙述了如何进行需求分析. 首先是获取和引导需求,我们应该找到软件的利益相关者,了解挖掘他们对软件的需求,引导他们表达出真实的需求.然后分析和定义需求,对各个方面的需求进行规整,定义需求内涵,从各个角度将需求量化,然后估计实现这些需求所需要的时间和资源,确定各个需求的优先级.紧接着

01软件构架实践阅读笔记之一

软件构架实践是我们下学期要学习的一本书,所以我想将这本书作为我阅读笔记的一本书. 在这本念书的第一章是总序,在其中提到: 1.所谓"正确的"就是在指功能.性能和成本几个方面都能满足用户要求且无缺陷: 2.所谓"无缺陷"就是在指编码后对软件系统进行彻底的穷举测试修复了所有的缺陷,保证所编写的代码本身不存在缺陷: 但是我们知道编写一个软件,并不可能很好的达到这种的效果,所以应该做到作者提到的"创造.应用.和推广"战略.但是我存在这样的问题: 1.创造

《构建之法》阅读笔记（1）

<构建之法>第一章阅读笔记大马哈鱼洄游模型软件工程按照经典的瀑布模型 1. 需求分析 2. 设计阶段 3. 实现阶段 4. 稳定阶段 5. 发布阶段 6. 维护阶段事实上在现实世界中,软件工程师的职业发展与瀑布流程刚好相反毕业进入公司(或者实习生),开始学习并维护一些已有的软件(维护阶段),主要由自己的师傅(Mentor)带领能够在项目中改一些 Bug,然后发现发布小规模的更新版本(稳定/发布阶段),联系重构,开始和其他同事打交道有机会负责重写一个较小的模块,没有多少文档,自己要写

猜你喜欢

MySQL 二进制字符串类型

类型名称说明存储需求 BIT(M) 位字段类型大约(M+7)/8 个字节 BINARY(M) 固定长度的二进制字符串 M个字节 VARBINARY(M) 可变长度二进制字符串 M+1个字节 TI ...

KB奇遇记(7)：不靠谱的项目实施计划

在ERP项目启动前期,项目组两方项目经理和我等几个人单独跟总裁开会,讨论了初步的ERP实施计划,本来第一期上线只是考虑上其中一家工厂而已,结果临时加入了深加工的工厂.本来项目组预定计划是2017年1月 ...

结构函数

通过把结构体内部固定数据或固定代码结构化成一个函数,然后通过函数去调用更加方便. 1 using System; 2 using System.Collections.Generic; 3 using ...

Nginx(发音同 engine x)是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like 协议下发行.由俄罗斯的程序设计师Igor Sys ...

初识LVS（一）——LVS介绍和LVS的NAT工作模式

LVS介绍集群按照类型划分可以分为:LB负载均衡型:HA高可用型:HP高性能型.LVS(linux virtual machine)是一款国人编写用于LB负载均衡型被收录进Linux内核的工具.LV ...

grails email 发送邮件插件

1.配置email插件,在Config.groovy文件中配置: plugins { compile ":mail:1.0.5" } 2.配置Config.groovy文件: gr ...

把Java对象转为xml格式

主要使用到的Java类有:javax.xml.bind.JAXBContext,javax.xml.bind.Marshaller(编排) 代码主要展示如下: public class Student ...

Centos7部署lamp: httpd2.4（event）+module模式

系统: Centos7 httpd版本: 2.4 使用event工作模式安装方法: 使用yum安装httpd和mariadb 编译安装php,启用多线程支持一.安装httpd和mariadb: y ...

Android 样式和主题(style & theme)

Android 样式 android中的样式和CSS样式作用相似,都是用于为界面元素定义显示风格,它是一个包含一个或者多个view控件属性的集合.如:需要定义字体的颜色和大小. 在CSS中是这样定义的 ...

源代码管理器git

开源中国社区官方网站 https://git.oschina.net/ 开源中国社区成立于2008年8月,其目的是为中国的IT技术人员提供一个全面的.快捷更新的用来检索开源软件以及交流使用开源经验的 ...

Eclipse 基本设置

1.设定默认编码打开Window-->Preferences-->Workspace设定编码为UTF-8 1.显示代码行号打开Window-->Preferences--> ...

python 捕捉异常

Python中的捕捉异常 (try except ) 语句: try: #把你要执行的代码放进来 ..... ..... except: #比如try上面的代码出现了异常,就会来到这里 #我们可以打 ...

实现如下类之间的继承关系，并编写Music类来测试这些类。

package com.hanqi.test; public class Instrument { //输出弹奏乐器 public void play() { System.out.println(& ...

Ember.js 入门指南——路由简介

从本文开始,将为大家介绍路由(route),如果你看过前面的<Ember.js 入门指南--{{link-to}} 助手>这篇文章应该初步了解了route.不过在这篇文章中只是简单介绍了路 ...

关于redis快速入门的几篇好文章

可以在Ubuntu上安装 http://www.yiibai.com/redis/redis_quick_guide.html php redis中文地址 redis作为mysql的缓存服务器(读写分 ...

关于SWT/JFace的API文档

在CSDN上下了几个CHM格式的文档,下载的时候要付的分数还挺高,但是下载下来三个都不能用,左边罗列了所有的类和方法.双击按回车右边都没有内容. 真坑爹. 公司用的yoxos 这个在最后发现是在这个目 ...

热备份路由协议，vlan与生成树（STP）之间的关系

实验01:热备份路由协议实验目标: 配置hsrp使得当一台主机出现故障时,数据仍能传送实验环境: 实验步骤: 一. 为Router1接口配置IP 二. 为Router2接口 ...

【转】The magic behind array length property

Developer deals with arrays every day. Being a collection, an important property to query is the num ...

Spring Boot学习进阶笔记（二）-Spring-data-jpa

Spring-data-jpa:简化数据库访问的流程知识储备:Spring-data-jpa基于hibernate,所以需要了解hibernate的相关知识. 一.首先建立自己的数据库(test)和 ...

如何在SpringBoot中使用JSP ？但强烈不推荐，果断改Themeleaf吧

做WEB项目,一定都用过JSP这个大牌.Spring MVC里面也可以很方便的将JSP与一个View关联起来,使用还是非常方便的.当你从一个传统的Spring MVC项目转入一个Spring Boot ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.028 s.