四、PutMerge合并文件程序

一、需求

服务器的apache日志文件可能比较小,Hadoop更适合处理大文件,效率会更高,此时就需要合并分散的文件,开发一个PutMerge程序,用于合并本地文件后存入HDFS系统中

二、java代码

package org.apache.hadoop.studyhdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

public class PutMergeFile {
    public static void main(String[] args) throws Exception  {
        //赋初始值
        args =new String[]{"/opt/dataFile","hdfs://Hadoop-senior02.beifeng.com:8020/input/putMerge.xml"};
        //1.get conf
        Configuration conf =new Configuration();
        //2.get  filesystem
        FileSystem hdfs =FileSystem.get(conf);
        FileSystem local =FileSystem.getLocal(conf);
        //3.get path
        Path localPath=new Path(args[0]);
        Path hdfsPath=new Path(args[1]);
        //4.inputFiles
        FileStatus[] inputFiles =local.listStatus(localPath);
        //out stream
        FSDataOutputStream outputStream =hdfs.create(hdfsPath);
        FSDataInputStream inputStream;
        for(FileStatus inputFile:inputFiles){
            System.out.println(inputFile.getPath().getName());
            inputStream=local.open(inputFile.getPath());
            IOUtils.copyBytes(inputStream, outputStream, 4096,false);
            IOUtils.closeStream(inputStream);
        }
        IOUtils.closeStream(outputStream);
    }

}

 三、结果查看

代码:$bin/hdfs dfs -text /input/putMerge.xml

时间: 2024-10-27 05:50:18

四、PutMerge合并文件程序的相关文章

利用Costura.Fody制作绿色单文件程序(C#程序(含多个Dll)合并成一个Exe)

原文:利用Costura.Fody制作绿色单文件程序(C#程序(含多个Dll)合并成一个Exe) 开发程序的时候经常会引用一些第三方的DLL,然后编译生成的exe文件就不能脱离这些DLL独立运行了.这样交给用户很不方便,希望的效果是直接交付一个exe文件. 这时候就需要借助一款名为Fody.Costura的插件.Fody.Costura是一个Fody框架下的插件,可通过Nuget安装到VS工程中.安装之后,就可以将项目所依赖的DLL(甚至PDB)文件全部打包到EXE文件里. 使用 Costura

【微信】微信小程序 新建页面目录后,怎么自动生成目中的的四个基本文件呢? 新建目录报错如下VM458:2 未找到 app.json 中的定义的 pages "pages/module/module" 对应的 WXML 文件

如下图,在使用微信开发者工具过程中,新创建了页面目录,想要页面文件夹中自动生成四个基本文件 但是新创建了一个页面文件夹,里面的四个基本文件并没有展示出来 然后在app.json添加这个路径,ctrl+s 保存 依旧不能自动生成 解决方法: 经过测试,确实 -->新创建的项目中新创建的第一个空文件夹 才会自动给你创建四个基本文件. 如果已经自己创建过文件目录了,如上面已经创建了pages/swapping目录了,再自己去创建module目录的时候,就不会自动创建,反而会提示你缺少对应的文件!!!

二十四、Android文件的读写

Android的文件读写与JavaSE的文件读写相同,都是使用IO流.而且Android使用的正是JavaSE的IO流,下面我们通过一个练习来学习Android的文件读写. 1.创建一个Android工程 [html] view plaincopy Project name:File BuildTarget:Android2.2 Application name:文件读写 Package name:test.file Create Activity:DateActivity Min SDK Ve

C# IO操作(四)大文件拷贝(文件流的使用)、文件编码

     大文件拷贝(文件流的使用).文件编码 首先说一下大文件拷贝和文件流,因为计算机的内存资源是有限的,面对几个G甚至更大的文件,需要通过程序来完成拷贝,就需要用到文件流(因为我们无法做到把文件一次性加载到内存中:事实上,内存也不允许这么干),所以在C#中出现了内存流这个东西.先看下面的内容,File类中的常用读取文件方法会将文件内容一次性全部加载到内存中: 1 string sPath = @"C:\Users\Chens-PC\Desktop\Nginx.txt"; 2 //F

【Linux探索之旅】第二部分第四课:文件操纵,鼓掌之中

内容简介 1.第二部分第四课:文件操纵,鼓掌之中 2.第二部分第五课预告:用户和权限 文件操纵,鼓掌之中 既然上一课我们学习了Linux中的文件组织方式,那么现在就该是玩弄,啊不,是操纵它们的时候了. 文件操作有哪些呢?一般就是显示文件内容啦,还有拷贝文件,移动文件,删除文件,等等. 这一课我们还会学习链接的知识,认识硬链接和软链接的区别和原理. 当然了,虽说是文件操作,但是目录操作我们也会说.因为在Linux中,一切皆文件,目录也是文件. 这一课有很重要的基础概念,而且要学不少命令,都是很常用

GPU 编程入门到精通(四)之 GPU 程序优化

博主因为工作其中的须要,開始学习 GPU 上面的编程,主要涉及到的是基于 GPU 的深度学习方面的知识,鉴于之前没有接触过 GPU 编程.因此在这里特地学习一下 GPU 上面的编程.有志同道合的小伙伴.欢迎一起交流和学习,我的邮箱: [email protected] . 使用的是自己的老古董笔记本上面的 Geforce 103m 显卡,尽管显卡相对于如今主流的系列已经很的弱.可是对于学习来说,还是能够用的.本系列博文也遵从由简单到复杂.记录自己学习的过程. 0. 文件夹 GPU 编程入门到精通

QT开发(二十四)——QT文件操作

QT开发(二十四)--QT文件操作 一.QT文件操作简介 QT中的IO操作通过统一的接口简化了文件与外部设备的操作方式,QT中文件被当作一种特殊的外部设备,文件操作与外部设备操作相同. 1.IO操作的主要函数接口 打开设备:bool open(OpenMode mode) 读取数据:QByteArray read(qint64 maxSize) 写入数据:qint64 write(const QByteArray & byteArray) 关闭设备:void close() IO操作的本质是连续

Linux下分割、合并文件——dd和cat

功能说明:读取,转换并输出数据. 语 法:dd [bs=<字节数>][cbs=<字节数>][conv=<关键字>][count=<区块数>][ibs=<字节数>][if=<文件>][obs=<字节数>][of=<文件>][seek=<区块数>][skip=<区块数>][–help][–version] 补充说明:dd可从标准输入或文件读取数据,依指定的格式来转换数据,再输出到文件,设备或

实验四十七微软应用程序虚拟化之二APP-V Sequencer 5.1服务器部署和创建第一个Office虚拟应用程序包

 实验四十七微软应用程序虚拟化之二APP-V Sequencer 5.1服务器部署和创建第一个Office虚拟应用程序包 APP-V Sequencer用于监视和捕获应用程序安装以创建虚拟应用程序包.输出包含应用程序图标..osd 文件(包含程序包定义信息).程序包清单文件,以及 .sft 文件(包含应用程序的内容文件). 说明: 环境基于实验四十六,准备一台Windows Server 2012的虚拟机名为APP-VSequencer并且加入域kkfloat.com,然后关闭UAC功能 1登录