SPARK 知识地图

1    Table of Contents

spark 总揽

spark core

spark sql

spark mllib

spark graphx

spark streaming

2    spark 总揽

spark官网:https://spark.apache.org/

spark 资料集中营,覆盖各种视频,论文,博客,ppt: https://spark.apache.org/documentation.html

spark jira:https://issues.apache.org/jira/browse/SPARK/?selectedTab=com.atlassian.jira.jira-projects-plugin:issues-panel

spark developer list: http://apache-spark-developers-list.1001551.n3.nabble.com/

spark user list:http://apache-spark-user-list.1001560.n3.nabble.com/

spark Screencast Tutorial Videos:

https://spark.apache.org/screencasts/1-first-steps-with-spark.html

https://spark.apache.org/screencasts/2-spark-documentation-overview.html

https://spark.apache.org/screencasts/3-transformations-and-caching.html

https://spark.apache.org/screencasts/4-a-standalone-job-in-spark.html

CSDN spark技术博客系列: http://spark.csdn.net/m/zone/sp/blog?page=3

spark meetup youtube视频:https://www.youtube.com/channel/UCRzsq7k4-kT-h3TDUBQ82-w

spark submit youtube视频:https://www.youtube.com/channel/UCRzsq7k4-kT-h3TDUBQ82-w/playlists

spark介绍:https://www.youtube.com/watch?v=VWeWViFCzzg

spark架构:https://github.com/JerryLead/SparkInternals/tree/master/markdown

spark系列型介绍博客:http://www.cnblogs.com/hseagle/category/569175.html

spark学习路线图:http://mmicky.blog.163.com/blog/static/150290154201431293822347/

spark 调优:http://www.oschina.net/translate/spark-tuning

3    spark core

shuffle介绍:

http://jerryshao.me/architecture/2014/01/04/spark-shuffle-detail-investigation/

RDD:

http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf

http://www.cnblogs.com/fxjwind/p/3489111.html

4    spark sql

源码分析:

http://blog.csdn.net/book_mmicky/article/details/39288715

http://blog.csdn.net/oopsoom/article/details/38257749

DataFrame 和 Datasource API:

https://www.youtube.com/watch?v=6axUqHCu__Y

https://www.youtube.com/watch?v=Hvke1f10dL0

http://www.slideshare.net/databricks/introducing-dataframes-in-spark-for-large-scale-data-science

5    spark mllib

分类回归:

http://blog.csdn.net/yangguo_2011/article/details/33859337

http://www.cnblogs.com/hseagle/p/3908276.html

6    spark graphx

GraphX大规模图计算和图挖掘:

http://book.51cto.com/art/201408/450049.htm

7    spark streaming

源码分析:

http://blog.csdn.net/lantian0802/article/details/38784261

kafka对接:

http://www.csdn.net/article/2014-12-31/2823384-kafka-spark-streaming-integration-example-tutorial

http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/

时间: 2024-08-05 15:25:14

SPARK 知识地图的相关文章

Jenkins知识地图

这篇文章大概写于三个月前,当时写了个大纲列表,但是在CSDN上传资源实在不方便,有时上传了莫名审核不通过,如果以前有人上传过,也会导致上传 失败.现在把之前工作中找到的好东西和各位分享.现在不搞这些了,也算是个归档吧.内容主要涉及Hudson/Jenkins的使用,维护,以及插件开 发,开发的东西更多些吧. 首先说下Jenkins能干什么?说下两个典型的应用场景. 1. Git/Repo + Gerrit + Jenkins 打造强大的Android持续集成环境.用户上传代码到Gerrit进行c

图像识别引擎-引擎收集知识地图~

图像识别引擎-引擎收集知识地图 识图如今搜索结果还是不够理想,有非常大的提升空间.以下介绍几个比較专业的图片搜索引擎. 1: https://images.google.com/ http://www.google.com/imghp (旧版:http://similar-images.googlelabs.com) 临时的替代品:http://54.250.200.50/imghp http://203.208.46.200/imghp Google实验室类似图片搜索:输入一个关键词后,比如"

知识地图

------------------------------------------------------------------------------------------------------ --------------------------------------------------- 予于辞职之际,梳理DotNet世界,发现自己欠缺与不足,知所缺,补所缺,学而不乱,不可杂乱一堆,有所向,方有所成. 求志同道合人士一起细化,共同完善地图.

spark知识体系03-Rdds,Accumulators,Broadcasts

本篇主要详解spark具体编程实践中的rdd常用算子. Rdds,Accumulators,Broadcasts RDD RDDs support 两种类型的操作: transformations(转换), 它会在一个已存在的 dataset 上创建一个新的 dataset, 和 actions(动作), 将在 dataset 上运行的计算后返回到 driver 程序. 例如, map 是一个通过让每个数据集元素都执行一个函数,并返回的新 RDD 结果的 transformation, redu

Spark知识整理(未完待续)

一.Spark支持的安装模式: 1.伪分布式(一台机器即可) 2.全分布式(至少需要3台机器) 二.Spark的安装配置 1.准备工作 安装Linux和JDK1.8 配置Linux:关闭防火墙.主机名.免密码登陆 2.安装部署Spark 解压:tar z-xvf spark-2.1.0-bin-hadoop2.7.tgz -C /root/trainning/ 核心配置文件 :con/spark-env.sh (cp spark-env.sh.template spark-env.sh) (伪分

【转载】信息学竞赛知识地图

转载自:http://blog.csdn.net/rightreserved/article/details/41409831

课程知识地图

知识点: 1.知识点1-1:什么是ASP.NET MVC 2.知识点1-2:ASP.NET MVC背景 3.知识点1-3:MVC设计模式 4.知识点1-4:ASP.NET MVC的好处 5.知识点2-1:设置开发环境 6.知识点2-2:认识默认项目模板 7. 演练: 1.演练2-1:创建MVC默认项目 2.演练2-2:Guestbook示例应用程序 3.演练2-3:控制器的简单练习 4.演练2-4:CodeFirst实例之“电影网站制作” 5.演练2-5 电影网站的功能扩展 6.演练2-6:为模

spark的数据结构 RDD——DataFrame——DataSet区别

转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销 频繁的创建和销毁对象, 势必会增加GC import org.apache.spark.sql.SQLContext import org

《图解Spark:核心技术与案例实战》介绍及书附资源

本书中所使用到的测试数据.代码和安装包放在百度盘提供 下载 ,地址为https://pan.baidu.com/s/1o8ydtKA 密码:imaa 另外在百度盘提供本书附录  下载 ,地址为http://pan.baidu.com/s/1o7Busye 密码:shdf 为什么要写这本书 在过去的十几年里,由于计算机普遍应用和互联网的普及数据呈现了爆发式增长,在这个背景下Doug Cutting受到谷歌两篇论文(GFS和MapReduce)的启发下开发Nutch项目, 2006年Hadoop脱离