数学之路-分布式计算-hdfs(2)

1、DataNode为每个数据复制数据副本，保存在其它DataNode中。
2、NameNode文件系统的元数据全保存在RAM中，DataNode初始化以及每隔1小时，向NameNode发送块报告，以便NameNode掌握各个DataNode的运行状态，并进行DataNode的映射。
3、预写日志。通过在edits中顺序增加的方式减少I/O操作。
4、fsimage:NameNode启动后，加载fsimage到RAM，引入edits变化。
5、Hadoop的新版本已经实现周期性更换edits文件，提供事务ID进行标识，支持数据回流。

本博客所有内容是原创，如果转载请注明来源

http://blog.csdn.net/myhaspl/

1、DataNode为每个数据复制数据副本，保存在其它DataNode中。

2、NameNode文件系统的元数据全保存在RAM中，DataNode初始化以及每隔1小时，向NameNode发送块报告，以便NameNode掌握各个DataNode的运行状态，并进行DataNode的映射。
3、预写日志。通过在edits中顺序增加的方式减少I/O操作。
4、fsimage:NameNode启动后，加载fsimage到RAM，引入edits变化。
5、Hadoop的新版本已经实现周期性更换edits文件，提供事务ID进行标识，支持数据回流。
HDFS中的操作日志文件即WAL，存放在edits中。
1、NameNode将改动内容写到edits。
2、edits会慢慢变大。
3、定期将edits加入fsimage
NameNode简称NN，Secondary NameNode简称SNN，为次NameNode。
1、次NameNode引导NameNode滚动更新edits文件，将更新内容写入edits.new中。
2、次NameNode将NameNode的fsimage和edits文件复制到本地检查点目录
3、次NameNode载入fsimage文件，将edits内容合并到fsimage，将新的fsimage文件压缩后写入磁盘。
4、次NameNode将新的fsimage文件送回NameNode 。
5、NameNode接收新的fsimage文件后，直接加载使该文件生效。
6、NameNode将edits.new改回为edits。
7、到此为止，本次对fsimage的更新完成。edits为之后增加的新内容，下次迭代时可继续使用这些内容。

时间： 2024-10-29 02:45:13

数学之路-分布式计算-hdfs(2)的相关文章

数学之路-分布式计算-hdfs(1)

一.hdfs写数据 1.客户端通过Hadoop文件系统相关API 发送请求.打开一个要写入的文件,如果该用户拥有足够的权限,这一请求会被发送到NameNode,在NameNode上建立该文件的元数据. 2.刚建立的新文件元数据并未将该文件和任何数据块关联,客户端仅收到打开文件成功的响应. 3.客户端在API层面上将数据写入流中,数据被自动拆分成数据包,数据包保存在内存队列中. 4.客户端有一个独立的线程,它从队列中读取数据包,并同时向NameNode请求一组DataNode列表,以便写入下一个数

数学之路-分布式计算-hdfs(3)

可通过部署一对主/备NameNode实现NameNode高可用性(HA),主/备NN都能访问edits的WAL,因此将edtis放置在共享存储设备上,使用NFS实现这种共享存储. 主/备NN可配置为手动或自动故障切换模式,默认为手动故障切换模式.通常来说,次NN会同时承担备NN的角色, 由于NN在内存中的元数据大小限制,可以使用NN联盟,由一组各自独立的NN组成,每个NN负责管理目录结构的不同部分,NN联盟管理的集群中每个DN可以给多个NN存储数据块,每个DN为每个名字傲之最维护一个数据块池,每

数学之路-分布式计算-disco(2)

Disco旨在较大的应用程序轻松集成,比如web服务,那样要求计算的任务可以委托给独立于核心应用程序的集群去执行.Disco提供了一个非常紧凑的Python API--通常只需要两个函数,以及一个rest样式的Web API的工作控制和简单易用的状态监控Web界面.此外,Disco还拥有了一个简单的工作协议,允许作业以任何语言编写,实现协议. Disco对LINUX商业服务器集群非常友好,新节点可以通过单击Web界面动态地添加到系统.如果服务器崩溃,能够自动将失败的任务重新分配,这样就没有任何中

数学之路-分布式计算-hadoop、python与R(3)

二.ubuntu 12.04hadoop2.6配置与安装 1.java7配置 #su #addusermyhaspl 下面增加su权限使得myhaspl用户属于sudo组 #vi/etc/group sudo:x:27:,myhaspl 然后重新启动 #reboot 转到myhaspl用户,开始下载解压java. 本博客所有内容是原创,如果转载请注明来源 http://blog.csdn.net/myhaspl/ #sumyhaspl $wgethttp://download.oracle.c

数学之路-分布式计算-linux/unix技术基础(2)

让进程在后台运行,执行命令后立即返回,可以继续执行其它命令,在命令行最后加上"&" bash-4.2$ find ~ -name doc &[1] 5453bash-4.2$ /home/myhaspl/hadoop-2.4.1/share/doc/home/myhaspl/pypy-2.3.1-src/site-packages/numpy/doc/home/myhaspl/pypy-2.3.1-src/ctypes_configure/doc/home/myhasp

数学之路-分布式计算-linux/unix技术基础(4)

pwd显示当前文件夹,ls查看文件夹下的文件,cd 进入文件夹 -bash-4.2$ pwd /home/myhaspl-bash-4.2$ lsabc hadoop-2.4.1 mydoclist mypylst mypylsts numpyabd hadoop-2.4.1-src.tar.gz myl2 mypylst1 myrun pypy-2.3.1-srcerror.log hadoop-2.4.1.

数学之路-分布式计算-disco(1)

Disco是一个轻量级的.开源的基于mapreduce模型计算的框架,Disco强大且易于使用,这都要归功于python,Disco分发且复制数据,可高效安排作业.Disco甚至拥有能对数以亿计的数据点进行索引以及实时查询的工具.Disco于2008年在Nokia研究中心诞生,解决了在大量数据处理方面的挑战. Disco支持大数据集的并行计算,在不可靠的计算机集群中,Disco是一个完美的分析和处理大数据的工具,无需考虑因为分布式带来的技术困难,比如通信协议.负载均衡.锁.作业规划.故障容忍.

数学之路-分布式计算-disco(4)

第一个参数iter是一个迭代器,涉及被map函数产生的键和值,它们是reduce实例. 在本例中,单词随机被委托给不同的reduce实例,然后,要单词相同,处理它的reduce也相同,可确保最终合计是正确的. 第二个参数params与map函数中一致,在此,仅简单使用disco.util.kvgroup()来提取每个单词统计计数,累计计数,yield(产生)结果. 运行作业下面开始运行作业,可使用大量参数定制作业,但通常来说,对于简单的任务来说 ,仅使用其中3个即可.除了启动作业之外,我们还需

数学之路-分布式计算-linux/unix技术基础(3)

目录: ~表示当前用户的主目录 .表示当前目录 ..表示上级目录链接文件可用不同的文件名引用同一个数据或程序,为硬链接在同一物理文件系统中,创建硬链接 -bash-4.2$ find ~ -name "*.py">mypylist ls -la 表示以长格式的形式查看当前目录下所有文件,包括隐藏文件,各字段含义如下: 7个段分别是: 文件属性:drwxr-xr-x 文件硬链接数或目录子目录数:3 (一个空目录的该字段是2,表示该目录下有两个子目录,因为每一个目录都有一个指向

猜你喜欢

Tomcat学习(一)——使用Eclipse绑定Tomcat并发布应用

1.下载Tomcat 官网地址:http://tomcat.apache.org/whichversion.html 2.目录结构 bin:脚本目录启动脚本:startup.bat 停止脚本:shu ...

java反射-反射实例化对象-反射获得构造方法-反射获得普通方法-获得属性

链接:https://www.zhihu.com/question/24304289/answer/38218810来源:知乎著作权归作者所有,转载请联系作者获得授权. Class<?> ...

oracle Imp和exp以及导入常见的错误

一 1) 数据库对象已经存在一般情况, 导入数据前应该彻底删除目标数据下的表, 序列, 函数/过程,触发器等; 数据库对象已经存在, 按缺省的imp参数, 则会导入失败如果用了参数ignore=y ...

C++设计模式之单例模式

单例模式:一个类始终只有一个对象,无法直接new对象,只能通过类的特定接口来创建对象,因此也属于创建类模式. /* 首先,需要保证一个类只有一个实例:在类中,要构造一个实例,就必须调用类的构造函数, ...

IOS 面试

1. #import , #include的区别 @import防止类的重复引用,#import 确定一个文件只能被导入一次,这使在递归包含中不会出现问题. @class一般用于头文件中需要声明该类的 ...

【输出一个整数的二进制存储形式】

// 输出一个整数的二进制存储形式void putBinary(int n){ int bits = sizeof(n) * 8; while (bits-->0) { printf(" ...

马哥学习笔记七——LAMP编译安装之MYSQL

1.准备数据存放的文件系统新建一个逻辑卷,并将其挂载至特定目录即可.这里不再给出过程. 这里假设其逻辑卷的挂载目录为/mydata,而后需要创建/mydata/data目录做为mysql数据的存放目 ...

不刷单，中小卖家如何提升店铺流量？

榜首招:总诀式标题优化标题是啥?标题即是商场,你的标题即是你的商品出售商场,你的标题好,你的商场大,你就有得生意做.所以,标题优化一直是taobao店肆的榜首关键.小卖家留意必定要避开热词,比方大 ...

在大数据驱动下必须加强积极防御“网络武器”的研发工作

"美国"网络武器"的研究已多达2千多种,其中最值得注意的是,"震网"病毒是世界上首个专门针对工业控制系统编写的破坏性病毒,被称为"网络空间的 ...

Html5 绘制五星红旗

Html5+JavaScript 在Canvas上绘制五星红旗,具体思路如下图所示: 绘制思路在上图中已有说明,具体代码如下: 1 <script type="text/javascr ...

Swift 闭包传值

实现例子由两个界面组成 A B 两个视图 A - > B 使用属性传值 B - > A 使用闭包进行反向回调传值 Swift 使用闭包传值的原理,与OC 中使用代码块(block)传值原 ...

js中的闭包之我理解

闭包是一个比较抽象的概念,尤其是对js新手来说.书上的解释实在是比较晦涩,对我来说也是一样. 但是他也是js能力提升中无法绕过的一环,几乎每次面试必问的问题,因为在回答的时候.你的答案的深度,对术语的 ...

新手产品经理工作中常遇到的25个困惑问题

本文和大家分享的主要是新手产品经理工作中常见的一些问题,一起来看看吧,希望对大家有所帮助. 1.竞品分析的目的有哪些? 论证自己的判断是对的,补充自己的欠缺,知道不知道的. 2.在进行从0-1产品规划 ...

Geoserver2.11矢量切片与OL3中的调用展示

概述: 本文讲述在Geoserver2.11中如何进行矢量切片以及OL3中的调用展示. 矢量切片简介: 一.提出 GIS的底图一直使用金字塔技术进行切图,使用户能够快速访问指定级别的地图或者影像.但是 ...

DreamweaverMX技巧之超链接

在经过前面几个部分的操作之后,我们的网页已经图文并茂,具有相当的效果了,但是这对于网页来说还不够,为了网站中的众多网页能够成为一个有机的整体,必须将各个网页通过超链接方式联系起来,这样才能够让浏览者在 ...

bzoj 3956: Count

3956: Count Description Input Output Sample Input 3 2 0 2 1 2 1 1 1 3 Sample Output 0 3 HINT M,N< ...

图论之最短路径（3）队列优化的Bellman-Ford算法（SPFA算法）

在Bellman-Ford算法中我们可以看到大量的优化空间:如果一个点的最短路径已经确定了,那么它就不会再改变,因此不需要再处理.换句话说:我们每次只对最短路径改变了的顶点的所有出边进行操作使用一 ...

MySQL就这么简单第二部分

1.对MySQL客户端工具的使用总结关于执行SQL脚本在MYSQL客户端中,可以source /xxx/yyy/zzz.sql 如果在SHELL命令行,可以mysql -uxxx -pyyy -h ...

醉滋租紫阻咨OpenCV2学习笔记（十七）：VS2013中运行支持OpenGL的OpenCV工程

http://0ob9714.cn.ec51.com/ http://gw05mgf.cn.ec51.com/ http://gjm8j8n.cn.ec51.com/ http://4lm334n.c ...

无线 WIFI 的13个信道频率范围（转载）

转自:http://cnzhx.net/blog/13-channels-of-wifi/ 目前主流的无线WIFI网络设备不管是802.11b/g还是802.11b/g/n 一般都支持13个信道.它们 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.