第9节课笔记-彻底实战IntelliJ IDEA 下的Spark程序开发

彻底实战IntelliJ IDEA 下的Spark程序开发
下载IntelliJ IDEA
下载git
Spark源码下载:git clone git://github.com/apache/spark.git
导入maven 工程

IntelliJ IDEA 启动的向导中Sacal下载需要下载，这是IDEA下载的，和系统层的不一样
4.指定JDK1.8.x和Scala2.10.4
5.file ->Project Stucture 来设置工程lib 核心是添加Spark的jar
6.添加Spark jar 依赖，spark1.6.0-bin-hadop2.6.tgz 里 spark-assemblyu-1.6.0-hadoop2.6.0.jar

7.创建scala工程，选择scala方式

复制昨天eclipse上的代码执行，正常

广告点击排名
排名处理：wordCountOrdered=pairs.reduceByKey(_+_).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair=>(pair._1,pair._2))
//reduceByKey相同的键合计，key和value互换后排序，接着又换回来。
50分钟

时间： 2024-11-08 23:24:02

第9节课笔记-彻底实战IntelliJ IDEA 下的Spark程序开发的相关文章

1.1日第一节课笔记

授课总结阶段划分:第一阶段,所有讲解知识点都是集合具体实战第二阶段,千万实例项目讲解,价值百万,掌握相关技术后就能精通偶年薪百万精度Spark各种环境,内核原理,运行机制非常熟悉,碰上故障知道原因.解决,擅长性能优化策底掌握一个大型大数据项目,涉及课程后每次都完成作业,才能得到这个项目的全部源码.第三阶段,机器学习,前面2个阶段掌握牢固,第三阶段才能够掌握 1.1scala,运行在JVM,可以调用JAVA任何库,scala比JAVA,scala是一门纯面向对象语言.scala天生是函数式编程和面

1.2日第二节课笔记

class HiScala{private var name="Spark"def sayName(){println(name)}def getName=name}val scal=new HiScala 还有其他形式scal.sayName 同 scal.sayName() class HiScala{var name="Spark"def sayName(){println(name)}def getName=name}name没有private时,直接sca

#读书笔记#温伯格技术思想三部曲：程序开发心理学——第10章、积极性、培训及经验

在心理学家的眼中,人们在完成特定任务时的工作绩效,是由任务本身及其承担者对任务理解的深度共同决定的.心理学家同样认为,工作绩效同时也受到任务承担者个体在诸如性格和智力等方面差异的影响.尽管性格是可以改变的,而且智力也可以有所提高,但是工作绩效的实质提高还要依赖于培训和实践经验. 不过心理学本身并非一门严密的科学,而且也从来没有严密过.无论心理学家如何对任务及其承担者的理解深度进行考察,无论他们如何对任务承担者个体之间所有差异进行衡量,无论他们如何考虑到培训与实践经验,工作绩效总还是有很多方面无从

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01

创建一个Scala IDEA工程: 点击“Next”: 点击“Finish”完成工程的创建: 修改项目的属性: 首先修改Modules选项: 在src下创建两个文件夹,并把其属性改为source: 再修改Libraries: 因为要开发Spark程序,所以需要把Spark的开发需要的jar包导进来: 导入包完成后,在工程的scala下面创建一个package: 创建一个Object对象: 完成初始类的创建: 首先构建Spark Driver的模板代码: 该程序是对前面的搜狗日志的处理代码,只不过

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02

接下来进行打包,使用Project Structure的Artifacts: 使用From modules with dependencies: 选择Main Class: 点击“OK”: 把名称改为SparkDemoJar: 因为每台机器上都安装了Scala和Spark,所以可以把Scala和Spark相关的jar文件都删除掉: 接下来进行Build: 选择“Build Artifacts”: 剩下的操作,就是jar包上传到服务器上,然后执行spark-submit命令,我在之前的文章已经详

第82课 Spark Streaming第一课案例动手实战并在电光石火间理解其工作原理

本课内容提要: (1)什么是流处理以及Spark Streaming主要介绍 (2)Spark Streaming初体验一.什么是流处理以及Spark Streaming主要介绍流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.

C#第九节课

这节课主要是展示了各种大家的实验程序说几个感受创意都很棒啊! 我觉得大家都很厉害...比如wwx的游戏,用到了游戏引擎...据说ltp他们组的也是用到了游戏引擎其次觉得我这个前端似乎并没有艺术细菌!界面并不是很美观.... 比较新颖的一些功能就是那些嵌入了游戏引擎的... 然后发现了自己组的一些不足...比如数据库比较弱...当然了我们的程序因为不涉及到数据库.不过数据库还是需要学一学的. 说一点自己组实验的技术 WPF平台的跳转我用了这样一段代码来实现 private void AllA

Linux及Arm-Linux程序开发笔记（零基础入门篇）

Linux及Arm-Linux程序开发笔记(零基础入门篇) 作者:一点一滴的Beer http://beer.cnblogs.com/ 本文地址:http://www.cnblogs.com/beer/archive/2011/05/05/2037449.html 目录一.Arm-Linux程序开发平台简要介绍... 3 1.1程序开发所需系统及开发语言... 3 1.2系统平台搭建方式... 4 二.Linux开发平台搭建... 5 2.1安装虚拟工作站... 5 2.2安装Linux虚拟

centos mysql 实战第六节课字符集

centos mysql 实战第六节课字符集一定要研究清楚mysql安装脚本字符集乱码数据迁移1. 理解字符集怎么会事2. 不同的字符集进行转换什么是字符集gbk , utf8 gb2312 latin1 一套符号编码规则字符串都必须有相应的字符集,除了二进制没有字符集校验字符集的概念流式传输多字节latin1 单字节gbk 2字节utf8 3字节校验字符集的概念, 字为单位归类的方法,就是3类xxx_bin 以二进制形式存储区分大小写 SHOW CHARACTER SE

猜你喜欢

Python开发基础-Day24socket套接字基础2

基于UDP的socket 面向无连接的不可靠数据传输,可以没有服务器端,只不过没有服务器端,发送的数据会被直接丢弃,并不能到达服务器端 1 #客户端 2 import socket 3 ip_port ...

读书笔记之《The Art of Readable Code》Part 3

如何重新组织代码提高可读性? (函数层面, part 3)1. 抽取与主要问题无关的代码2. 重新组织代码使得一次只做一件事3. 首先描述功能,然后再实现功能,这样更清楚明了如何抽出问题无关的子问题 ...

【TCP/IP】IP路由选择

IP层在内存中有一个路由表,当有数据要发送时.它要对该表进行一次搜索以确认转发地址.收到的数据到达IP层时,IP层会检查数据报的目的地址是否为本机IP或广播IP: 假设是.就依据IP首部协议字段的协议 ...

除去DataTable中的空行！

昨天向数据库中导入Excel数据时由于空行总是报错!下面附上两种去除空行的方法! 方法一.某行某列值为空时 DataView dv = dt.DefaultView; ...

关于 apue.h 的使用方法

unix中有很多地方使用到apue.h .apue.h是作者自己写的一个头文件,这个文件怎么用,晚上有很多方法,但是经过尝试大多不好用. 经过本人尝试,可以把src.3e.tar.gz 的代码解压到 ...

三大框架的点点滴滴

1. struts2 获得 JSP 页面文本框中的值: 两边的 name 必须相同,,,action中private User user, jsp中就是 name="user.name&qu ...

scss @mixin cont{ //mixin是关键字 color:red; } body{ @include cont; //使用默认值 } @mixin cont($color: red ){ ...

《构建之法》阅读笔记及项目管理软件

<构建之法>以相当轻松而易懂的文风表达了作者对于软件工程的理解.在快速浏览了全书之后,产生了这样几个疑问. 软件工程是否是更为正确.可靠的软件的正确方向?软件工程的目标是使得通过工程化的方 ...

Python学习笔记12：标准库之对象序列化（pickle包，cPickle包）

计算机的内存中存储的是二进制的序列. 我们能够直接将某个对象所相应位置的数据抓取下来,转换成文本流 (这个过程叫做serialize),然后将文本流存入到文件里. 因为Python在创建对象时,要參考 ...

4、使用WebAPITestClient

一.使用NuGet安装WebAPITestClient 注:可以是单独的项目,也可以安装于Api项目中,下面以安装于Api项目中为例 1.Api 右键管理Nuget 2.安装WebAPITestCli ...

1.js中的replaceAll实现 string.replace(/reallyDo/g, replaceWith); string.replace(new RegExp(reallyDo, 'g' ...

干货运用resteasy整合web框架，同时将后台接口以js形式导出到前台

不多说先上 web.xml配置 <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:x ...

百度集群操作系统Matrix

Matrix是国内业界第一个成功构建.并且大规模应用的基于轻量虚拟化技术的.可以实现机器共享的集群管理系统,是百度内部架构.业务平台的基石.类似的系统目前除了Google Borg/Omega外,在国 ...

一款开源免费跨浏览器的视频播放器--videojs使用介绍

最近项目中的视频功能,需要做到浏览器全兼容,所以之前用html5实现的视频功能就需要进行改造了.在网上翻了个遍,试来试去,在所有的视频播放器中,就数它最实际了.首先我们来看看它的优点: 1.它是开源免 ...

IP address could not be resolved: Temporary failure in name resolution

今早发现mysql日志中有非常多例如以下的警告: 140724 18:41:25 [Warning] IP address '172.16.18.217' could not be resolved: ...

浏览器检测工具Modernizr

什么是Modernizr? Modernizr 是一个用来检测浏览器功能支持情况的 JavaScript 库. 目前,通过检验浏览器对一系列测试的处理情况,Modernizr 可以检测18项 CSS3 ...

【ANT】ant概述

ANT是集软件测试.编译.打包.部署等自动化构建工具,是Apache软件基金会JAKARTA目录中的一个子项目,具有以下优点: 跨平台性 ANT是由Java语言编写,具有很好的跨平台性. 操作简单 A ...

JavaScript经典代码总结

1. oncontextmenu="window.event.returnvalue=false" 将彻底屏蔽鼠标右键 <table border oncontextmenu ...

shortpath1364差分约束

差分约束题目大意:现在假设有一个这样的序列,S={a1,a2,a3,a4...ai...at} 其中ai=a*si,其实这句可以忽略不看现在给出一个不等式,使得ai+a(i+1)+a(i+2)+. ...

JS实现鼠标移上去图片停止滚动移开恢复滚动效果

这是在做个人站的时候展示项目成果,因为不光需要展示,还需要介绍详细内容,就在滚动展示的地方做了这个效果以便于点开想要看的项目. 首先,要做的是一个需要滚动的区域.我前边写过一个关于图片循环滚动的示例, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.020 s.