Hadoop学习-hdfs安装及其一些操作

hdfs：分布式文件系统

有目录结构，顶层目录是： /,存的是文件，把文件存入hdfs后，会把这个文件进行切块并且进行备份，切块大小和备份的数量有客户决定。

存文件的叫datanode，记录文件的切块信息的叫namenode

Hdfs的安装

准备四台linux服务器

先在hdp-01上进行下面操作

配置域名映射

vim /etc/hosts

主机名：hdp-01 对应的ip地址：192.168.33.61

主机名：hdp-02 对应的ip地址：192.168.33.62

主机名：hdp-03 对应的ip地址：192.168.33.63

主机名：hdp-04 对应的ip地址：192.168.33.64

更改本机的域名映射文件

c:/windows/system32/drivers/etc/hosts

192.168.33.61 hdp-01

192.168.33.62 hdp-02

192.168.33.63 hdp-03

192.168.33.64 hdp-04

关闭防火墙

service iptables stop

setenforce 0

安装jdk

在linux中 tar –zxvf jdk-8u141-linux-x64.tar.gz –C /root/apps/

然后vim /etc/profile

export JAVA_HOME=/root/apps/ jdk1.8.0_141

export PATH=$PATH:$JAVA_HOME/bin

然后source /etc/profile

安装scp

yum install -y openssh-clients

yum list

yum list | grep ssh

配置免密登录（在hdp-01上）

输入ssh-keygen

然后三次回车

然后

ssh-copy-id hdp-02

ssh-copy-id hdp-03

ssh-copy-id hdp-04

然后开始安装hadoop

上传压缩包，然后

[[email protected] ~]# tar -zxvf hadoop-2.8.1.tar.gz -C apps/

然后修改配置文件

要点提示	*核心配置参数：* 1) 指定hadoop的默认文件系统为：hdfs 2) 指定hdfs的namenode节点为哪台机器 3) 指定namenode软件存储元数据的本地目录 4) 指定datanode软件存放文件块的本地目录

1) 修改hadoop-env.sh

export JAVA_HOME=/root/apps/ jdk1.8.0_141

2) 修改core-site.xml

<name>fs.defaultFS</name>

</property>

</configuration>

3) 修改hdfs-site.xml

<name>dfs.namenode.name.dir</name>

<value>/root/hdpdata/name/</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/root/hdpdata/data</value>

</property>

<name>dfs.namenode.secondary.http-address</name>

</property>

</configuration>

然后配置hadoop的环境变量 vi /etc/profile

export HADOOP_HOME=/root/apps/hadoop-2.8.1

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

讲apps下的东西和/etc/profile和/etc/hosts/都拷贝到其他的机器上

scp -r /root/apps/hadoop-2.8.1 hdp-02:/root/apps/

scp -r /root/apps/hadoop-2.8.1 hdp-03:/root/apps/

scp -r /root/apps/hadoop-2.8.1 hdp-04:/root/apps/

hadoop namenode –format（在hdp-01上）

然后启动namenode进程

hadoop-daemon.sh start namenode

然后，在windows中用浏览器访问namenode提供的web端口：50070

http://hdp-01:50070

hadoop内部端口为9000

然后，启动众datanode们（在任意地方）

hadoop-daemon.sh start datanode

增加datanode随时可以，减少可不能瞎搞。。。。

或者一种方便的启动方法

修改hadoop安装目录中/etc/hadoop/slaves（把需要启动datanode进程的节点列入）

hdp-01

hdp-02

hdp-03

hdp-04

在hdp-01上用脚本：start-dfs.sh 来自动启动整个集群

如果要停止，则用脚本：stop-dfs.sh

hdfs的客户端会读以下两个参数，来决定切块大小、副本数量：

切块大小的参数： dfs.blocksize

副本数量的参数： dfs.replication

上面两个参数应该配置在客户端机器的hadoop目录中的hdfs-site.xml中配置

<name>dfs.blocksize</name>

</property>

<name>dfs.replication</name>

</property>

至此完成

hdfs的一些操作

查看目录信息

hadoop fs -ls /

上传文件从/xxx/xx上传到/yy

hadoop fs -put /xxx/xx /yyy

hadoop fs -copyFromLocal /本地文件 /hdfs路径 ## copyFromLocal等价于 put

hadoop fs -moveFromLocal /本地文件 /hdfs路径 ## 跟copyFromLocal的区别是：从本地移动到hdfs中

下载文件到本地

hadoop fs -get /hdfs路径 /local路径

hadoop fs -copyToLocal /hdfs中的路径 /本地磁盘路径 ## 跟get等价

hadoop fs -moveToLocal /hdfs路径 /本地路径 ## 从hdfs中移动到本地

追加内容到已存在的文件

hadoop fs -appendToFile /本地文件 /hdfs中的文件

其他命令和linux的基本差不多只不过前面加hadoop fs –

额外知识

1.

元数据：对数据的描述信息，namenode记录的就叫元数据

2.

配置yum源配置文件

先将那个磁盘挂载到一个文件夹下比如/mnt/cdrom

然后配置yum

改为这样的

3.

命令netstat –nltp 监听端口号

或者ps –ef是查看进程号

4.

让防火墙每次开机不重启

chkconfig iptables off

service的执行脚本放在 /etc/service下

凡是能使用 service 服务动作的指令

都可以在/etc/init.d目录下执行

例如： /etc/init.d/sshd start

使用 service 服务动作例子 service papche2 restart

其实是执行了一个脚本

/etc/init.d apache2 restatr

linux服务器启动的时候分为6个等级

0.表示关机

1.单用户模式

2.无网络的多用户模式

3.有网络的多用户模式

4.不可用

5.图形化界面

6.重新启动

具体和默认的启动等级可以在 /etc/inittab目录下查看

查看各个级别下服务开机自启动情况可以使用 chkconfig --list

增加一个自启动服务 chkconfig --add 服务名例如 chkconfig --add sshd

减少一个自启动服务 chkconfig --add 服务名例如 chkconfig --del sshd

chkconfig --level 等级服务 off/on

chkconfig是当前不生效，Linux重启之后才生效的命令(开机自启动项)

service是即使生效，重启后失效的命令

5.

C语言写的东西和平台是有关系的，在Windows下写的东西放到linux不一定可以

而java可以，因为有java虚拟机

6.

Hdfs的url hdfs://hdp-01:9000/

ll –h

在类 Unix 系统中，/dev/null 称空设备，是一个特殊的设备文件，它丢弃一切写入其中的数据（但报告写入操作成功），读取它则会立即得到一个 EOF。

而使用 cat $filename > /dev/null 则不会得到任何信息，因为我们将本来该通过标准输出显示的文件信息重定向到了 /dev/null 中。

使用 cat $filename 1 > /dev/null 也会得到同样的效果，因为默认重定向的 1 就是标准输出。如果你对 shell

7

Cat 来拼接两个文件，如在hdfs下的两个block文件

如此拼接就成了一个完整的源文件

源文件的路径在

java客户端的api

//官方文档

//先把hadoop安装包解压后的share目录下的hadoop目录下的相关jar包都拷到你的esclipe下。

//http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

//会先默认读取classpath中加载的core-default.xml.hdfs-default.xml core-size.xml....

//这些都是一个个jar包,你也可以在src目录下自己写一个hdfs-site.xml文件

Configuration conf = new Configuration();

conf.set("dfs.replication","2");//指定副本数

conf.set("dfs.blocksize","64m");//指定切块大小

//模拟一个客户端

FileSystem fs = FileSystem.get(new URI("hdfs://hdp-01:9000/"),conf,"root");

然后可以通过fs.xxxxx的方法来使用

原文地址：https://www.cnblogs.com/wpbing/p/11230989.html

时间： 2024-10-12 21:42:32

Hadoop学习-hdfs安装及其一些操作的相关文章

hadoop学习;hdfs操作；运行抛出权限异常: Permission denied；api查看源码方法；源码不停的向里循环；抽象类通过debug查找源码

eclipse快捷键alt+shift+m将选中的代码封装成方法:alt+shift+l将选中的代码添加对应类型放回参数当调用一个陌生方法时,进入源码不停的向里循环,当找不到return类似方法的时候,可以看到最原始的方法 package com.kane.hdfs; import java.io.InputStream; import java.net.URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org

hadoop学习；安装jdk，workstation虚拟机v2v迁移；虚拟机之间和跨物理机之间ping网络通信

JDK 在Ubuntu下的安装与环境变量的配置前期准备工作: 找到 JDK 和配置TXT文件并复制到桌面下不是文件夹而是文件复制到桌面下下面的命令部分就直接复制粘贴就可以了 1.配置root用户使用快捷键 Ctrl + Alt + T 打开终端输入命令:sudo passwd root 在需要输入密码的地方输入 123456 (注意需要输入3次每次输入的时候在屏幕上是不显示出来的) 2.启用root用户在终端输入命令:su root 输入密码:123456

Hadoop学习笔记之二文件操作

HDFS分布式文件系统:优点:支持超大文件存储.流式访问.一次写入多次读取.缺点:不适应大量小文件.不适应低时延的数据访问.不适应多用户访问任意修改文件. 1.hadoop用于大数据处理,在数据量较小时,并不适用于实时性强的任务,并不是所有的job放到hadoop上,性能都会提升. 2.大量小文件的情况下会极大的降低系统的性能,所以处理前需要先将少文件聚合成大文件,map的输出也应该首先combine在传输给reduce. 3.数据传输时的IO开销,存储在内存中还是硬盘中,节点之间共享数据的分发

Hadoop 学习 HDFS

1.HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统. HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件. 2.HDFS的概念 HDFS数据块:HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,称为数据块,默认大小是64MB. 使用数据块的好处是: 一个文件的大小可

hadoop的hdfs中的javaAPI操作

package cn.itcast.bigdata.hdfs; import java.net.URI; import java.util.Iterator; import java.util.Map.Entry; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache

Hadoop之HDFS(概述和Shell操作)

HDFS概述 HDFS组成架构 HDFS文件块大小 HDFS的Shell操作(开发重点) 1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类. 2．命令大全 $ bin/hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-

Hadoop学习笔记——安装Hadoop

sudo mv /home/common/下载/hadoop-2.7.2.tar.gz /usr/local sudo tar -xzvf hadoop-2.7.2.tar.gz sudo mv hadoop-2.7.2 hadoop #改个名在etc/profile文件中添加 export HADOOP_HOME=/usr/local/hadoop export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin 1.修改/usr/local/hado

大数据学习——hdfs客户端流式操作代码的实现

package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Test; import java.io.File; import java.io.FileInputStrea

hadoop学习---hdfs

hdfs默认基本存储单元为64mb,hdfs的块比磁盘的块大得多,是为了减少寻址开销.如块大小是100mb,寻址时间在10ms,传输速率是100mb/s,则寻址时间是传输时间的1% hdfs的三个重要角色:client,datanode,namenode namenode相当于hdfs中的管理者,管理文件系统的命名空间.它维护着这个文件系统树以及树内所有的文件和索引目录.它会存储文件系统的metadata在内存中. datdanode相当于hdfs中的工作者,是文件存储的基本单元.周期性地向na