尚硅谷大数据Spark-2019版最新

第一章：

四.Local模式

仅仅本机运行

Local[k]代表有几个线程在跑

Local[*]代表跑满

五.spark使用

1.bin/spark-submit 参数，可以用来提交任务

参数如下

--master 指定Master的地址，默认为Local
--class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
--deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)*
--conf: 任意的Spark配置属性， 格式key=value. 如果值包含空格，可以加引号“key=value”
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统， 如果是 file:// path， 那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
--executor-memory 1G 指定每个executor可用内存为1G
--total-executor-cores 2 指定每个executor使用的cup核数为2个

执行如下

bin/spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.1.jar 100

2.bin/spark-shell，进入命令行环境，默认很多东西会创建好，比如sc变量

jsp命令查看java运行的程序

spark-shell提示的，网址，比如hadoop102:4040，是查看网页版的程序运行状态器，即Spark Jobs

yarn application -list，查看应用id

六.WordCount程序

1.load

2.flat

3.group

4.聚合

5.打印

原文地址：https://www.cnblogs.com/cascle/p/12404836.html

时间： 2024-10-12 22:39:16

尚硅谷大数据Spark-2019版最新的相关文章

尚硅谷大数据技术之Linux第5章网络配置和系统管理操作5.6找回root密码

5.6 找回root密码重新安装系统吗?当然不用!进入单用户模式更改一下root密码即可. 1)重启Linux,见到下图,在3秒钟之内按下回车 2)三秒之内要按一下回车,出现如下界面 3)按下e键就可以进入下图 4)移动到下一行,再次按e键 5)移动到下一行,进行修改修改完成后回车键,然后按b键进行重新启动进入系统 6)移动到下一行,进行修改最终修改完密码,reboot一下即可. 本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源,欢迎大家关注尚硅谷公众号(atguigu)了解更多.

尚硅谷大数据技术之Scala（韩顺平）

第一章:Scala概述一.Scala背景大数据三个问题 1.数据采集 2.数据存储(HBase) 3.数据计算(Spark,Flink,Mapreduce……).计算分两种 1.离线计算:MapReduce: 2.实时计算:Spark(内存级大数据计算框架) Scala是多范式编程语言,多种编程方式 1.面向对象 2.函数式 Scalable Language Spark的兴起带动了Scala 发明者Martin Odersky主写Java 1.5与Java8编译器,从Pizza和Scala

CK2255-以慕课网日志分析为例进入大数据 Spark SQL 的世界

新年伊始,学习要趁早,点滴记录,学习就是进步! 随笔背景:在很多时候,很多入门不久的朋友都会问我:我是从其他语言转到程序开发的,有没有一些基础性的资料给我们学习学习呢,你的框架感觉一下太大了,希望有个循序渐进的教程或者视频来学习就好了.对于学习有困难不知道如何提升自己可以加扣:1225462853 获取资料. 下载地址:https://pan.baidu.com/s/1hsU5EIS 以慕课网日志分析为例进入大数据 Spark SQL 的世界本课程以"慕课网日志分析"这一大数据应

2016年大数据Spark“蘑菇云”行动之spark streaming消费flume采集的kafka数据Directf方式

王家林老师的课程:2016年大数据Spark"蘑菇云"行动之spark streaming消费flume采集的kafka数据Directf方式作业. 一.基本背景 Spark-Streaming获取kafka数据的两种方式Receiver与Direct的方式,本文介绍Direct的方式.具体的流程是这样的: 1.Direct方式是直接连接到kafka的节点上获取数据了. 2.基于Direct的方式:周期性地查询Kafka,来获得每个topic+partition的最新的offs

以慕课网日志分析为例进入大数据 Spark SQL 的世界

详情请交流 QQ 709639943 01.以慕课网日志分析为例进入大数据 Spark SQL 的世界 02.漫谈spring cloud分布式服务架构 03.Spring Cloud微服务实战视频课程 04.漫谈spring cloud 与 spring boot 基础架构 05.Java秒杀系统方案优化高性能高并发实战 06.Java深入微服务原理改造房产销售平台 07.快速上手Linux 玩转典型应用 08.快速上手Ionic3 多平台开发企业级问答社区 09.Java Sprin

2016年大数据Spark“蘑菇云”行动之flume整合spark streaming

近期,听了王家林老师的2016年大数据Spark"蘑菇云"行动,需要将flume,kafka和Spark streaming进行整合. 感觉一时难以上手,还是先从简单着手吧:我的思路是这样的,flume产生数据,然后输出到spark streaming,flume的源数据是netcat(地址:localhost,端口22222),输出是avro(地址:localhost,端口是11111).Spark streaming的处理是直接输出有几个events. 一.配置文件 Flume 配

王家林大数据Spark超经典视频链接全集[转]

压缩过的大数据Spark蘑菇云行动前置课程视频百度云分享链接链接:http://pan.baidu.com/s/1cFqjQu SCALA专辑 Scala深入浅出经典视频链接:http://pan.baidu.com/s/1i4Gh3Xb 密码:25jc DT大数据梦工厂大数据spark蘑菇云Scala语言全集(持续更新中) http://www.tudou.com/plcover/rd3LTMjBpZA/ 1 Spark视频王家林第1课:大数据时代的“黄金”语言Scala 2 Spark视

如何成为云计算大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手.Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理.图技术.机器学习.NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位. 伴随Spark技术的普及推广,对专业人才的需求日益增加.Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的

Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark

Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交网络.电子商务,地图等领域.对于图计算的两个核心问题:图存储模式和图计算模型,Spark GraphX给出了近乎完美的答案, 而Spark GraphX作为图计算领域的屠龙宝刀,对Pregel API的支持更是让Spark GraphX如虎添翼.Spark GraphX可以轻而易举的完成基于度分布