使用Java API操作hdfs

如题我就是一个标题党就是使用JavaApi操作HDFS，使用的是MAVEN，操作的环境是Linux

首先要配置好Maven环境，我使用的是已经有的仓库，如果你下载的jar包速度慢，可以改变Maven 下载jar包的镜像站改为阿里云。

贴一下 pom.xml

使用到的jar包

<dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.10</version>
        </dependency>

        <!-- hadoop Client -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

</dependencies>

然后就是操作HDFS的代码

package com.zuoyan.hadoop.hdfs;

import java.io.File;
import java.io.FileInputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

/**
 * use java api operate hdfs
 *
 * @author beifeng
 *
 */
public class HdfsApp {

    // get FileSystem
    public static FileSystem getFileSystem() throws Exception {
        Configuration conf = new Configuration();
        FileSystem fileSystem = FileSystem.get(conf);
        return fileSystem;
    }

    public static void read(String fileName) throws Exception {

        FileSystem fileSystem = getFileSystem();

        // read Path
        Path readPath = new Path(fileName);

        FSDataInputStream inStream = fileSystem.open(readPath);

        try {

            IOUtils.copyBytes(inStream, System.out, 4096, false);

        } catch (Exception e) {
            // TODO: handle exception
            e.printStackTrace();
        } finally {
            // if Exception close Stream
            IOUtils.closeStream(inStream);
        }
    }

    public static void main(String[] args) throws Exception{

            //String fileName = "/user/beifeng/mapreduce/wordcount/input/wc.input";
            //read(fileName);

            FileSystem fileSystem = getFileSystem();
            //write path
            String putFileName = "/user/beifeng/put-wc.input";//文件系统目录

            Path writePath = new Path(putFileName);

            FSDataOutputStream outputStream = fileSystem.create(writePath);

            FileInputStream inputStream = new FileInputStream(
                    new File("/opt/modules/hadoop-2.5.0/wc.input"));//本地系统目录

            try {
                IOUtils.copyBytes(inputStream, outputStream, 4096,false);
            } catch (Exception e) {
                // TODO: handle exception
                inputStream.close();
                outputStream.close();
            }

    }

}

思路可以使用Java操作hdfs的api 制作一个基于HDFS的云盘，可以对文件进行上传、删除、移动目录、查看目录，但是不可以对文件的内容进行修改！

原文地址：https://www.cnblogs.com/drunkPullBreeze/p/11597055.html

时间： 2024-08-11 05:46:11

使用Java API操作hdfs的相关文章

Java API操作HDFS

HDFS是存储数据的分布式文件系统,对HDFS的操作,就是对文件系统的操作,除了用HDFS的shell命令对文件系统进行操作,我们也可以利用Java API对文件系统进行操作,比如文件的创建.删除.修改权限等等,还有文件夹的创建.删除.重命名等等. 使用Java API对文件系统进行操作主要涉及以下几个类: 1.Configuration类:该类的对象封装了客户端或者服务端的配置. 2.FileSystem类:该类的对象是一个文件系统对象,可以利用该对象的一些方法来对文件进行操作,FileSys

Hadoop读书笔记（三）Java API操作HDFS

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 JAVA URL 操作HDFS OperateByURL.java package hdfs; import java.io.InputStream; import jav

java API 操作HDFS服务器

1.准备开发环境:eclipse 依赖包:hadoop-2.7.7.tar.gz安装包 share/hadoop/下 common.hdfs中的jar包 2.连接HDFS服务器 /** * 连接HDFS服务器 */ @Test public void connectHDFS() { //做一个配置 Configuration conf = new Configuration(); //服务器地址端口 conf.set("fs.defaultFS", "hdfs://192

HDFS基础和java api操作

1. 概括适合一次写入多次查询情况,不支持并发写情况通过hadoop shell 上传的文件存放在DataNode的block中,通过linux shell只能看见block,看不见文件(HDFS将客户端的大文件存放在很多节点的数据块中,Block本质上是一个逻辑概念,它是hdfs读写数据的基本单位) HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间 2. fs 可以使用hdfs shell操作hdfs,常用 fs命令如下: eg: hadoop fs -cat fi

使用java api操作Hadoop文件 Robbin

1 package cn.hadoop.fs; 2 3 import java.io.IOException; 4 import java.io.InputStream; 5 import java.net.URI; 6 import java.net.URISyntaxException; 7 8 import org.apache.hadoop.conf.Configuration; 9 import org.apache.hadoop.fs.FSDataOutputStream; 10 i

Java API 读取HDFS目录下的所有文件

/** * 获取1号店生鲜食品的分类id字符串 * @param filePath * @return */ public String getYHDSXCategoryIdStr(String filePath) { final String DELIMITER = new String(new byte[]{1}); final String INNER_DELIMITER = ","; // 遍历目录下的所有文件 BufferedReader br = null; try { F

Java API 读取HDFS的单文件

HDFS上的单文件: -bash-3.2$ hadoop fs -ls /user/pms/ouyangyewei/data/input/combineorder/repeat_rec_category Found 1 items -rw-r--r-- 2 deploy supergroup 520 2014-08-14 17:03 /user/pms/ouyangyewei/data/input/combineorder/repeat_rec_category/repeatRecCategor

hive-通过Java API操作

通过Java API操作hive,算是测试hive第三种对外接口测试hive 服务启动 1 package org.admln.hive; 2 3 import java.sql.SQLException; 4 import java.sql.Connection; 5 import java.sql.ResultSet; 6 import java.sql.Statement; 7 import java.sql.DriverManager; 8 9 public class testHiv

大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作

一概述1.1 什么是搜索?1.2 如果用数据库做搜索会怎么样?1.3 什么是全文检索和 Lucene?1.4 什么是 Elasticsearch?1.5 Elasticsearch 的适用场景1.6 Elasticsearch 的特点1.7 Elasticsearch 的核心概念1.7.1 近实时1.7.2 Cluster(集群)1.7.3 Node(节点)1.7.4 Index(索引 --> 数据库)1.7.5 Type(类型 --> 表)1.7.6 Document(文档 -->