spark中saveAsTextFile如何最终生成一个文件

　　一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00000一直到part-0000n，n自然就是task的个数，亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件，而不是成百上千个文件了？答案自然是有办法。

　　在RDD上调用coalesce(1,true).saveAsTextFile()，意味着做完计算之后将数据汇集到一个分区，然后再执行保存的动作，显然，一个分区，Spark自然只起一个task来执行保存的动作，也就只有一个文件产生了。又或者，可以调用repartition(1)，它其实是coalesce的一个包装，默认第二个参数为true。

　　事情最终就这么简单吗？显然不是。你虽然可以这么做，但代价是巨大的。因为Spark面对的是大量的数据，并且是并行执行的，如果强行要求最后只有一个分区，必然导致大量的磁盘IO和网络IO产生，并且最终执行reduce操作的节点的内存也会承受很大考验。Spark程序会很慢，甚至死掉。

　　这往往是初学Spark的一个思维陷阱，需要改变原先那种单线程单节点的思维，对程序的理解要转变多多个节点多个进程中去，需要熟悉多节点集群自然产生多个文件这种模式。

　　此外，saveAsTextFile要求保存的目录之前是没有的，否则会报错。所以，最好程序中保存前先判断一下目录是否存在。

时间： 2024-10-29 20:42:41

spark中saveAsTextFile如何最终生成一个文件的相关文章

将一个文件中的内容,在另一个文件中生成. for line in f1, \n f2.write(line)

将一个文件中的内容,在另一个文件中生成. 核心语句: for line in f1: f1中的所有一行 f2.write(line) # 是直接写入f1中出来的每一行,用 .write() 原文地址:https://www.cnblogs.com/jack20181017/p/9863521.html

python- 按照日期格式（xxxx-xx-xx）每日生成一个文件

请按照这样的日期格式(xxxx-xx-xx)每日生成一个文件,例如今天生成的文件为2013-09-23.log, 并且把磁盘的使用情况写到到这个文件中. #!/usr/bin/env python #!coding=utf-8 import time import os new_time = time.strftime('%Y-%m-%d') //time.strftime()可以用来获得当前时间,可以将时间格式化为字符串 disk_status = os.popen('df -h').read

Android中如何提取和生成mp4文件

随着Android 4.4及以上版本的逐渐普及,Android 4.1引入的MediaExtractor类,以及Android 4.3引入的MediaMuxer类,终于可以开始正式地"发光发热"了. MediaMuxer类主要用于将音频和视频数据进行混合生成多媒体文件(如:mp4文件),而MediaExtractor则刚好相反,主要用于多媒体文件的音视频数据的分离. 本文将介绍如何利用Android SDK提供的MediaExtractor和MediaMuxer类来完成mp4文件的提取

每日生成一个文件

要求: 请按照这样的日期格式(xxxx-xx-xx)每日生成一个文件,例如今天生成的文件为)2017-07-05.log, 并且把磁盘的使用情况写到到这个文件中,(不用考虑cron,仅仅写脚本即可) #!/bin/bash cd /root s=`date +%F` file=$s.log df -h >$file

使用IO流将数据库中数据生成一个文件，结果使用Notepad++打开部分数据结尾出现NUL

场景描述: 项目中通过java代码中从数据库中查询一系列数据,对数据做相应处理,然后通过字符流将数据写如一个新生成的文件中,将该项目部署在linux服务器上,最后生成的文件拿到本地使用notepad++打开会在部分数据末尾出现NUL 排查原因: NUL在C语言中是一个特殊字符常量'\0',空字符在linux中处理字符串写入,每行字符串结尾如果是空字符,linux就会用'\0'表示解决方案: 使用该文件时将NUL替换为“ ”空字符 public static String trimnull(S

spark中saveAsTextFile的错误

写了很简单的一段spark代码,将结果保存为windows本地文件,执行之后总是报错NullPointerException 查询之后发现是本地缺少hadoop需要的一个文件所致如果本地已经安装了hadoop 一般不会有此问题如果不愿安装可按照下述方法解决 1)下载需要的文件 winutils.exe http://social.msdn.microsoft.com/Forums/windowsazure/en-US/28a57efb-082b-424b-8d9e-731b1fe135d

php数组根据某键值，把相同键值的合并最终生成一个新的二维数组

要处理的PHP数组: $infos = array( array( 'gid' => 36, 'name' => '高二佳木斯', 'start_time' => '2015-08-28 00:00:00', 'pic' => '2015/08/438488a00b3219929282e3652061c2e3.png'

Excel表格中依据某一列的值，将这列中一样的数据放在一个文件中。

一需求:按照标题C的内容,一样的数据整理到一个文件中. 二.操作: 1.atl+F11弹出vb窗口 2.点击插入===>模块 ,复制以下代码,注意这是一个表头为三行的函数(保存) Sub 保留表头拆分数据为若干新工作簿() Dim arr, d As Object, k, t, i&, lc%, rng As Range, c% '获取分割列的索引 c = Application.InputBox("刘刚:请输入拆分列号", &

ABS（Android Build System）中在编译时生成源代码文件

编译时经常有的需求是有些.c或者.h文件需要在编译时由某个接口定义文件生成.同时还可能有下面的需求: * 同一个接口定义文件会用于产生多个源文件. * 生成的源文件可能会被其它的Project使用. 举例来说,现在需要从接口定义文件xxx.xml通过可执行文件generator生成源文件xxx_A.h,xxx_B.h和xxx_C.c.命令为: generator A < xxx.xml > xxx_A.h generator B < xxx.xml > xxx_B.h genera

猜你喜欢

rockethon2015 G2题 Inversions problem 概率dp

题意:给定n,k.k次操作,每次等概率将一个区间翻转,问最后逆序数对的期望. 思路:设dp[i][j]表示a[i]在a[j]前面的概率.每次枚举翻转的区间,更新dp[i][j],复杂度为O(n^4×k ...

CentOS-6.4-x86_64中安装apache-tomcat-7.0.54.tar.gz

1.检查java版本信息 [[email protected] ~]# java -version java version "1.8.0_20" Java(TM) SE Runt ...

转账汇款总结

1.招商银行转到其他银行,实时可以到账 2.工商银行转账到招商银行,也是1分钟内到账. ------------------------------ 总结,也就是说招商银行一进一出都是实时的. 通过支 ...

天梯赛2016-L2

L2-001. 紧急救援时间限制 200 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者陈越作为一个城市的应急救援队伍的负责人,你有一张特殊的全国 ...

关于php laravel5.1框架出现路由找不到的情况

开启apache模块在apache配置文件LoadModule rewrite_module modules/mod_rewrite.so前面的#去掉然后修改 vim /etc/init.d/htt ...

关于 this 和 prototype 的理解

1:this 的理解比较好的书是 <Javascript语言精粹> 平时我们全局写 var a = 1, 其实就是 window.a = 1; var f = function(){}, ...

如何解决因为缓存无法及时更新图片问题

如何解决因为缓存无法及时更新图片问题:在加载远程图片的时候,往往会由于缓存的原因,即使是在服务器更新了图片有时候也得不到及时的更新.可以使用如下方法解决此问题,代码如下: $(".myImg ...

ios小技巧

ios开发小技巧(转) 1.通过下面方式可以获取图片的像素颜色点:- (void*)getImageData:(UIImage*)image{ void* imageData; if (i ...

第六章概率图模型的新型学习方法

主动学习方法增量学习

spring注解配置启动过程

最近看起spring源码,突然想知道没有web.xml的配置,spring是怎么通过一个继承于AbstractAnnotationConfigDispatcherServletInitializer的 ...

3-UFT对象管理

基于GUI的自动化测试主要是围绕着界面的控件元素来进行的,例如文本框.列表框.控制按钮等等,软件用户通常都是通过这些控件与程序交互,因此,编辑测试脚本的第一步就是识别测试对象. 1.测试对象.运行时对 ...

shell基础part2

shell基础一.bash中的变量 1.变量的定义:变量是计算机的内存单元,其中存放的值是可以改变的. 2.变量的设定规则:变量名不能以数字开头:变量的等号两边不能有空格,变量的值如果想有空格必须用 ...

欧几里德算法求最大公约数

求最大公约数有暴力法和辗转相除法时间复杂度暴力:O(N) 辗转相除法:O(2logN) 辗转相除法原理: 设c为A B 的最大公约数则存在K1 K2 使 A=K1*c B=K2*c; r为A模B ...

玩转微信小程序

原文链接 2007 年 1 月 9 号,苹果一代在功能机盛行的年代中出世. 2017 年 1 月 9 号,微信小程序在重型app风靡的压力下上线. 苹果的出世掀起了互联网一波又一波的浪潮,而微信小程序 ...

【Linux】AWK入门

什么是AWK AWK是一种用于处理文本的编程语言工具,一个模式匹配程序.一个典型的示例是将数据转换成格式化的报告. 在命令行输入如下awk命令: awk -F":" '{ prin ...

u-boot-2012.04.01移植到Tiny6410！

1.下载u-boot-2012.04.01 http://ftp.denx.de/pub/u-boot/ 2.解压文件 # tar zxvf u-boot-2012.04.01.tar.bz 3.进入 ...

mysql绑定参数bind_param原理以及防SQL注入

假设我们的用户表中存在一行.用户名字段为username.值为aaa.密码字段为pwd.值为pwd.. 下面我们来模拟一个用户登录的过程.. <?php $username = "aa ...

BIP_BI Publisher Administrator设定Configuration/Font/Currencies

2014-08-08 Created By BaoXinjian

JavaScript - 省市级联效果实例

标题 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.o ...

STM32探秘之FSMC

STM32的FSMC真是一个万能的总线控制器,不仅可以控制SRAM,NOR FLASH,NAND FLASH,PC Card,还能控制LCD,TFT. 一般越是复杂的东西,理解起来就很困难,但是使用上 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.030 s.