Spark RDD 操作实战之文件读取

/1、本地文件读取
val local_file_1 = sc.textFile("/home/hadoop/sp.txt")
val local_file_2 = sc.textFile("file://home/hadoop/sp.txt")

//2、当前目录下的文件
val file1 = sc.textFile("sp.txt")

//3、HDFS文件
val hdfs_file1 = sc.textFile("hdfs://192.168.66.81:9000/data/input/sp.txt")

//4、多文件读取
val file2 = sc.textFile("sp.txt,a.txt,b.txt")

//5、全目录读取
val hdfs_file2 = sc.textFile("hdfs://192.168.66.81:9000/data/input/")

//6、通配符匹配
val file2 = sc.textFile("file://home/hadoop/*.txt")

//7、读取压缩文件
val file3 = sc.textFile("file://home/hadoop/sp.gz")

原文地址：https://www.cnblogs.com/RHadoop-Hive/p/10063352.html

时间： 2024-10-25 12:24:02

Spark RDD 操作实战之文件读取的相关文章

Spark RDD操作(1)

https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理.因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果.本文为第一部分,将介绍Spark RDD中与Ma

Spark RDD算子实战

[TOC] Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合.支持多种来源.有容错机制.可以被缓存.支持并行操作,一个RDD代表多个分区里的数据集. RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Action(执行):触发Spark作业的运行,真正触发转换算子的计算需要说明的是,下面写的scala代码,其实都是可以简写的,但是为了方便理解,我都

Spark RDD操作记录(总结)

创建ListintRDD = sc.parallelize(List(1,2,3,4,5)) 过滤包含stringRDD.filter(_.contains("a")).collect() 去重stringRDD.distinct.collect() RDD拆分val sRDD = intRDD.randomSplit(Array(0.4,0.6)) 显示拆分后的RDDsRDD(0).collect() 奇偶区分intRDD.groupBy(x => {if (x % 2 ==

Java8函数式编程（二）：类比Spark RDD算子的Stream流操作

1 Stream流对集合进行迭代时,可调用其iterator方法,返回一个iterator对象,之后便可以通过该iterator对象遍历集合中的元素,这被称为外部迭代(for循环本身正是封装了其的语法糖),其示意图如下: 除此之外,还有内部迭代方法,这正是这里要说明的集合的stream()方法返回的Stream对象的一系列操作,比如,要统计一个数字列表的偶数元素个数,当使用Stream对象的操作时,如下: List<Integer> list = new ArrayList<Integ

Spark API综合实战：动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战

这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 [email protected]:/usr/local/hadoop/hadoop-2.6.0$ jps8457 Jps[email protected]:/usr/local/hadoop/hadoop-2.6.0$ sbin/start-dfs.sh 启动spark集群 [email protected]:/usr/local/spark/spark-1.5.2-bin-hadoop

Spark编程模型及RDD操作

转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念在Spark中,有下面的基本概念.Application:基于Spark的用户程序,包含了一个driver program和集群中多个executorDriver Program:运行Application的main()函数并创建SparkContext.通常SparkContext代表driver programExecutor:为某App

Spark RDD 多文件输入

1.将多个文本文件读入一个RDD中 SparkConf conf=new SparkConf() .setMaster("local") .setAppName("save"); JavaSparkContext sc=new JavaSparkContext(conf); JavaRDD<String> lines=sc.textFile("student*"); lines.foreach(new VoidFunction<

Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜

广播变量背景一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化.大表小表Join,小表使用广播的方式,减少Join操作. 参考:Spark广播变量与累加器 Local Dir 背景 shuffle过程中,临时数据需要写入本地磁盘.本地磁盘的临时目录通过参数spark.local.dir配置. 性能优化点 spark.local.dir支持配置多个目录.配置spark.local.dir有多个目录,每个目录对应不同的磁盘,这样可以提升IO效率.另外,可以采

【Spark】RDD操作具体解释4——Action算子

本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行. 依据Action算子的输出空间将Action算子进行分类:无输出. HDFS. Scala集合和数据类型. 无输出 foreach 对RDD中的每一个元素都应用f函数操作,不返回RDD和Array,而是返回Uint. 图中.foreach算子通过用户自己定义函数对每一个数据项进行操作. 本例中自己定义函数为println,控制台打印全部数据项. 源代码: /** * Applie