从零开始，手把手教会你5分钟用SPARK对PM2.5数据进行分析（包括环境准备和SPARK代码）

要从零开始，五分钟做完一个基于SPARK的PM2.5分析项目，你是不是会问

1. PM2.5的数据在哪里？

2. SPARK的环境哪儿有？

3. 程序怎么编？

不用急，跟着我做，5分钟就可以从零开始完成所有的事情。

准备SPARK环境

今天，在各种公有云都可能申请到SPARK的环境。但彻底免费，启动最容易的是在超能云(SuperVessel)上面的SPARK服务，完全免费。

首先登录超能云主页 http://www.ptopenlab.com . 如果你之前没有申请过帐号，可以直接申请。新申请的帐号，会收到来自 [email protected] 的邮件，点击里面的链接来激活帐号。
登录之后，选择主页上面的"大数据实验室(Big data service)"。
登录大数据服务，在登录见面上再次输入你注册的用户名和密码。就可以进入大数据服务页面。
点击创建，即可进入创建大数据集群的界面。目前，超能云上提供了MapReduce和SPARK两种环境。我们选择SPARK，选择最小的单节点即可，如下图所示。
点击“确认创建”后，大概过30秒钟，单节点的SPARK环境就构建成功。可以看到如下界面。

时间： 2024-08-27 18:22:56

从零开始，手把手教会你5分钟用SPARK对PM2.5数据进行分析（包括环境准备和SPARK代码）的相关文章

手把手教会你微信公众平台自定义菜单开发——创建菜单

一如既往的,关于微信公众平台的开发,不算出自大牛的代码,但是简单易懂适合刚入门的朋友. 首先先介绍一下逻辑,因为发现很多朋友都不能看懂微信官方的文档,当然啦,这跟你是否认真看有关的,认真看总能看懂的,废话不说了.此时,我当你已经有一个已经申请到自定义菜单开发权限的微信服务号.首先,你要在后台开发模式下面找到你的AppId 还有 AppSecret并且记下来,然后通过这两个官方发放给你的ID去获取一个ACCESS_TOKEN[官方解释是:第三方访问api资源的票据],稍后会通过这个ACCESS_T

spark性能优化：数据倾斜调优

调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能. 数据倾斜发生时的现象 1.绝大多数task执行得都非常快,但个别task执行极慢.比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时.这种情况很常见. 2.原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常

第2节 Spark集群安装：1 - 3；第3节 Spark HA高可用部署：1 - 2

三. Spark集群安装 3.1 下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-2.1.3-bin-hadoop2.7版本. 3.2 规划安装目录 /export/servers 3.3 解压安装包 tar -zxvf spark-2.1.3-bin-hadoop2.7.tgz 3.4 重命名目录 mv spark-2.1.3-bin-hadoop2.7 spark 3.5 修改配置文件配置

地铁译：Spark for python developers ---Spark处理后的数据可视化

spark for python developer 一书,说实在的,质量一般,但勉强可以作为python 工程师的入门资料,至此,这一时段的地铁译结束了,开始新的阅读旅程-- 对于 Python 的图形绘制和可视化, 有大量的工具和库,和我们最相关并且有趣的是:? ? Matplotlib 是Python 绘图库的鼻祖. Matplotlib 最初7由 John Hunter 创作, 他是开源软件的支持者,建立的 Matplotlib 是学术界和数据科学界最流行的绘图库之一. Matplotl

Spark学习四：网站日志分析案例

Spark学习四:网站日志分析案例标签(空格分隔): Spark Spark学习四网站日志分析案例一创建maven工程二创建模板三日志分析案例一,创建maven工程 1,执行maven命令创建工程 mvn archetype:generate -DarchetypeGroupId=org.scala-tools.archetypes -DarchetypeArtifactId=scala-archetype-simple -DremoteRepositories=http://scal

Spark的Python和Scala shell介绍（翻译自Learning.Spark.Lightning-Fast.Big.Data.Analysis）

Spark提供了交互式shell,交互式shell让我们能够点对点(原文:ad hoc)数据分析.如果你已经使用过R,Python,或者Scala中的shell,或者操作系统shell(例如bash),又或者Windows的命令提示符界面,你将会对Spark的shell感到熟悉. 但实际上Spark shell与其它大部分shell都不一样,其它大部分shell让你通过单个机器上的磁盘或者内存操作数据,Spark shell让你可以操作分布在很多机器上的磁盘或者内存里的数据,而Spark负责在集

【微信分享】王团结：如何用Hadoop/Spark构建七牛数据平台

摘要:7月30日,七牛数据平台工程师王团结就七牛内部使用的数据平台,深入分享了该团队在Flume.Kafka.Spark以及Streaming上的实践经验,并讲解了各个工具使用的注意点. 继" YARN or Mesos?Spark痛点探讨"." Mesos资源调度与管理的深入分享与交流".及" 主流SQL on Hadoop框架选择"之后,CSDN Spark微信用户群邀请了王团结为大家分享Hadoop/Spark在七牛数据平台的实战. 王团结

从零开始教你制作cocos2dx-3.0 版本FlappyBird（可上架版本）（包括添加广告等）完整制作过程

本文原创:转载请注明地址:http://blog.csdn.net/zp522123428/article/details/29357851 一.coco2dx-3.0环境搭建这个网上很多参考教程也属于基础部分我就不再敷述,这里给大家提供csdn博客上的大家可以参考一下,我大概看了一下比较全面了: 参考地址:http://blog.csdn.net/aa4790139/article/details/8086635 二.coco2dx-3.0下创建项目 1.进入coco2dx-3.0的目录下,

Spark 1.X 大数据视频教程

课程下载地址:链接:http://pan.baidu.com/s/1kTggcb9密码: 9mfn 网盘失效的话,请加QQ:3113533060 课程内容: 第一周 Spark生态系统概述与编程模型 Spark生态系统概述回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介缓存策略介绍 transformation action lineage 容错处理宽依赖与窄依赖集群配置第二周深入Spark内核 Spark术语解释集群概览核心组件数据本