spark开发程序编写注意点

看书时发现书中写的不一定是正确的。

eg:

scala> val line = sc.textFile("hdfs://Spark:9000/user/root/README.md")
15/03/19 20:03:04 INFO MemoryStore: ensureFreeSpace(202004) called with curMem=744765, maxMem=280248975
15/03/19 20:03:04 INFO MemoryStore: Block broadcast_4 stored as values in memory (estimated size 197.3 KB, free 266.4 MB)
15/03/19 20:03:04 INFO MemoryStore: ensureFreeSpace(16322) called with curMem=946769, maxMem=280248975
15/03/19 20:03:04 INFO MemoryStore: Block broadcast_4_piece0 stored as bytes in memory (estimated size 15.9 KB, free 266.3 MB)
15/03/19 20:03:04 INFO BlockManagerInfo: Added broadcast_4_piece0 in memory on a261.datanode.hadoop.qingdao.youku:46352 (size: 15.9 KB, free: 267.2 MB)
15/03/19 20:03:04 INFO BlockManagerMaster: Updated info of block broadcast_4_piece0
line: org.apache.spark.rdd.RDD[String] = hdfs://Spark:9000/user/root/README.md MappedRDD[11] at textFile at <console>:16

scala> val linenum = line.filter(x=>x.contains("spark"))
linenum: org.apache.spark.rdd.RDD[String] = FilteredRDD[12] at filter at <console>:18

最后在执行linenum.count  得出的是什么?

其实求出的是“spark”这个字符串出现在多少行当中;一行中可能有多个“spark”字符串,切不可认为是“spark”字符串在文章中一共出现了几次。

时间: 2024-10-13 17:49:33

spark开发程序编写注意点的相关文章

使用Java编写并运行Spark应用程序

本文转载自:http://shiyanjun.cn/archives/742.html 我们首先提出这样一个简单的需求:现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况.这里我拿我网站的日志记录行示例,如下所示: 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http:

基于Asterisk的VoIP开发指南——(2)Asterisk AGI程序编写指南

原文:基于Asterisk的VoIP开发指南--(2)Asterisk AGI程序编写指南 5. Asterisk AGI程序编写指南 5.1概述 很多时候,我们需要在拨号方案中做某些业务逻辑的判断或者外部数据库的查询,根据具体地需要,有几种做法: 1.使用Asterisk的通道变量.Goto函数.Gotoif函数等实现某些简单跳转,通过几个这样的函数的组合,实现简单的业务. 2.对终端接入用户的呼叫请求中的某些属性,进行简单的数据库增删改查,在Asterisk官方发布的asterisk-add

windows下spark开发环境配置

http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. 特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe.hadoop.dll等文件,前提是你已经安装了eclipse.maven.jdk等软件 spark支持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8 我选择的spark是spark-1.4.0

使用Intellij IDEA构建spark开发环境

近期开始研究学习spark,开发环境有多种,由于习惯使用STS的maven项目,但是按照许多资料的方法尝试以后并没有成功,也可能是我环境问题:也可以是用scala中自带的eclipse,但是不太习惯,听说支持也不太好,好多问题:咨询一些人后说,IDEA对scala的支持比较好.所以尝试使用IDEA来构建Spark开发环境: 1.  安装JDK 2.  安装IDEA最新版,目前是IDEA 14,社区免费版就可以: 3.  安装scala插件,运行IDEA,初次运行,可以直接再弹出的tab框中选择“

分别用Eclipse和IDEA搭建Scala+Spark开发环境

开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量.网上资料很多,安装过程忽略.此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本. 1. Eclipse开发环境搭建 1.1. 安装scala插件 安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html 解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可.

【spark系列3】spark开发简单指南

分布式数据集创建之textFile 文本文件的RDDs能够通过SparkContext的textFile方法创建,该方法接受文件的URI地址(或者机器上的文件本地路径,或者一个hdfs://, sdn://,kfs://,其他URI).这里是一个调用样例:scala> val distFile = sc.textFile("data.txt")distFile: spark.RDD[String] = [email protected] 分布式数据集操作之转换和动作 分布式数据集

java初级开发程序员(第七单元;总结前六章)

第一章总结: 1.java的是sun公司(现甲骨文有限公司)于1995年推出的高级编程语言,java技术可以应用在几乎所有类型和规模的设备上,小到计算机芯片.蜂窝电话,大到超级计算机,无所不在. 2.在当前的软件开发行业中,java已经成为了绝对的主流,java领域的java SE.java EE已发展成为同microsoft(微软)公司的c#和.NET技术平分天下的应用软件开发技术和平台.因此,有人说掌握了java语言就号准了软件开发的“主脉”. 3.在记事本上开发 ①:编写     在记事本

Spark开发指南

简介 总的来说,每一个Spark应用程序,都是由一个驱动程序组成,它运行用户的main函数,并且在一个集群上执行各种各样的并行操作.Spark提 供的主要的抽象(概念)是一个弹性分布式数据集,它是一个元素集合,划分到集群的不同节点上,可以被并行操作.RDDs的创建可以从Hadoop文件系统 (或者任何支持Hadoop的文件系统)上的一个文件开始,或者通过转换这个驱动程序中已存在的Scala集合而来.用户也可以使Spark持久化一个 RDD到内存中,使其能在并行操作中被有效的重用.最后,RDDs能

程序编写中的细节问题

"千里之堤,毁于蚁穴".非常多软件问题并非由重大的缺陷引起的,反而是一些非常细小的问题造成的.以下罗列最近软件开发过程中,我遇到的几个程序编写的细节问题案例.         案例一: 某软件版本号要实现从本地配置的文件夹中扫描出文件并进行处理的功能,仅仅有满足特定前缀的文件才干被扫描出来.文件的前缀在配置文件里进行手动配置.在測试的过程中.我们发如今文件夹中有非常多满足配置前缀的文件,但一个都没有被扫描出来. 问题究竟出在哪里呢?为了查找问题原因,我们在代码中加入了非常多的调试日志,