hadoop学习二:hadoop基本架构与shell操作

1.hadoop1.0与hadoop2.0的区别:

  

  hadoop1.0生态如下图:

  

  hadoop2.0生态:

  

2.HDFS描述:HDFS是google的GFS的开源克隆,HDFS的架构如下图:

  

  1) NameNode:管理HDFS的名称空间,管理数据块映射信息,配置副本策略,处理客户端读写请求。

  2) StandbyNameNode:NameNode的热备,定期合并fsimage和fsedits,推送给NameNode,当Active NameNode出现故障时,快速切换为新的 Active NameNode。

  3) Datanode:存储实际的数据块,执行数据块读/写。

  4) Client:文件切分,与NameNode交互,获取文件位置信息,与DataNode交互,读取或者写入数据,管理HDFS,访问HDFS。

  优点:高容错性;适合批处理;适合大数据处理;流式文件访问;可构建在廉价机器上。

  缺点:低延迟数据访问,比如毫秒级,低延迟与高吞吐率;小文件存取,占用NameNode大量内存,寻道时间超过读取时间;并发写入、文件随机修改一个文件只能有一个写  者,仅支持append。

3.HDFS的数据形式

  文件被切分成固定大小的数据块,默认数据块大小为64MB,可配置块的大小,若文件大小不到64MB,则单独存成一个block。一个文件存储方式按大小被切分成若干个block,存储到不同节点上,默认情况下每个block有三个副本。

  HDFS数据写流程:

  

  HDFS数据读流程:

  

4.MapReduce:是google的MapReduce的开源克隆,适合PB级以上海量数据的离线处理。

  MapReduce的计算框架:

  

5.YARN:Hadoop 2.0新增系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中,自带了多种多用户调度器,适合共享集群环境。

  YARN架构:

  

6.HDFS的shell操作:

  Hadoop的shell命令在hadoop的bin目录下,用hdfs命令可以查看HDFS文件系统中的命令,如下图:

  

  dfsadmin:在bin目录下hadoop dfsadmin命令选项如下图:

    

  dfs:在bin目录下hadoop dfs命令选项如下图:

  

  fsck:检查文件属性命令,其操作如下图:

  

时间: 2024-08-29 06:40:42

hadoop学习二:hadoop基本架构与shell操作的相关文章

Hadoop学习笔记_5_分布式文件系统HDFS --shell操作

分布式文件系统HDFS --shell操作 分布式文件系统[Distributed File System]概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 分布式文件系统特点: 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般

hadoop学习;hadoop伪分布搭建

先前已经做了准备工作安装jdk什么的,下面开始ssh免密码登陆,这里我们用的是PieTTY工具,当然你也可以直接在linux下直接操作 ssh(secure shell),执行命令 ssh-keygen -t rsa产生密钥,位于~/.ssh文件夹中 \ 一路enter 复制为文件authorized_keys 登陆成功和退出 接下来传输jdk和hadoop文件,这里用的工具是WinScp(类似ftp上传工具),有的虚拟机可以设置直接从物理机拖拽,我这放到/root/Downloads下 然后复

Hadoop学习<一>--hadoop安装和环境变量设置

Hadoop核心项目:HDFS(Hadoop Distributed File System分布式文件系统),MapReduce(并行计算框架) HDFS架构的主从结构:主节点,只有一个namenode,负责接收用户操作请求,维护文件系统的目录结构,管理文件与block之间关系,block与datanode之间的关系. 从节点,有很多个datanodes,负责存储文件,文件被分成block存储在磁盘上(方便管理,便于多节点读取),为保证数据安全,文件会有很多副本. MapReduce的主从结构:

Hadoop学习之Hadoop集群搭建

1.检查网络状况 Dos命令:ping ip地址,同时,在Linux下通过命令:ifconfig可以查看ip信息2.修改虚拟机的ip地址    打开linux网络连接,在桌面右上角,然后编辑ip地址,修改ip地址后,重启网络服务:service network restart,如果网络重启失败,可以在虚拟机网络设置中心删除网络连接,然后重新启动Linux,接着在网络设置中心重新设置ip地址,最后重启Linux3.修改从节点主机名    vi /etc/sysconfig/network 修改主机

Hadoop学习笔记——Hadoop经常使用命令

Hadoop下有一些经常使用的命令,通过这些命令能够非常方便操作Hadoop上的文件. 1.查看指定文件夹下的内容 语法: hadoop fs -ls 文件文件夹 2.打开某个已存在的文件 语法: hadoop fs -cat 文件地址 [ | more] []表示的是可选命令 3.将本地文件存到Hadoop 语法: hadoop fs -put 本地文件地址 Hadoop文件夹 4.将Hadoop上的文件下载到本地文件夹内 语法: hadoop fs -get Hadoop文件夹 本地文件文件

hadoop学习(二) 分布式搭建配置

1.组件规划 2.配置 2.1.配置core-site.xml <!--指定namenode所在机器的位置和访问交互端口号--> <property>     <name>fs.defaultFS</name>     <value>hdfs://dist1.lv.org:8020</value> </property> <!--指定Hadoop运行时的临时目录地址--> <property>   

Hadoop学习之Hadoop案例分析

一.日志数据分析1.背景1.1 ***论坛日志,数据分为两部分组成,原来是一个大文件,是56GB:以后每天生成一个文件,大约是150-200MB之间: 每行记录有5部分组成:1.访问ip:2.访问时间:3.访问资源:4.访问状态:5.本次流量 1.2 日志格式是apache common日志格式:1.3 分析一些核心指标,供运营决策者使用: 1.3.1 浏览量PV 定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次.分析:网站总浏

hadoop学习:《Hadoop权威指南第四版》中文PDF+英文PDF+代码

结合理论和实践,<Hadoop权威指南第四版>由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台.5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例. Hadoop生态都有涉及,很厚很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等. 多数章节对自己的要求都是了

hadoop学习(一) &#160; hadoop伪分布式环境搭建

前期准备 1.创建hadoop相关目录(便于管理) 2.给/opt/*目录赋予hadoop用户及所有组权限 sudo chrown -R hadoop:hadoop /opt/* 3.JDK安装与配置 配置HDFS/YARN/MAMREDUCE 1.解压hadoop tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/ (删除doc下的帮助文档,节省空间) rm -rf /opt/modules/hadoop-2.5.0/share/doc/ 2.配置had