Google 三大经典论文研读:GFS、BigTable、MapReduce

一、GFS

Google File System就是HDFS的前身

HDFS 参照了GFS的设计理念,大部分架构设计概念是类似的,比如 HDFS NameNode 相当于 GFS Master,HDFS DataNode 相当于 GFS chunkserver\

1.设计目标:

  • 多个客户端可以在不需要额外的同步锁定的 情况下,同时对一个文件追加数据
  • 高性能的稳定网络带宽远比低延迟重要。目标程序绝大部分要求能够高速率的、大批量的处理数
    据,极少有程序对单一的读写操作有严格的响应时间要求
    

2.架构:

一个 Chunk块为64MB

  • Master 节点使用心跳信息周期地和每个 Chunk 服务器通讯,发送指令到各个 Chunk 服务器并接收 Chunk 服务器的状态信息。
  • 客户端并不通过 Master 节点读写文件数据。反之,客户端向 Master 节点询问它应该联系的 Chunk 服务器。 客户端将这些元数据信息缓存一段时间,后续的操作将直接和 Chunk 服务器进行数据读写操作。

3.GFS的一致性模型:

尽量采用追加写入而不是覆盖,Checkpoint,自验证的写入操作,自标识的记录

4. 对比HDFS架构:

  • master slave model: 只有主人和slave进行主观能动的通信,slave间不会通信。
  • master只会决定哪个slave去做读/写工作,然后client会直接和slave去传输。master只会收到request,master不会传输数据。
  • 怎么存储数据:block of small file
  • 谁负责去将数据拆分成小的blocks? => HDFS client

二、BigTable

三、MapReduce

原文地址:https://www.cnblogs.com/shawshawwan/p/9204675.html

时间: 2024-08-30 00:41:18

Google 三大经典论文研读:GFS、BigTable、MapReduce的相关文章

[MapReduce] Google三驾马车:GFS,MapReduce和Bigtable

声明:此文转载自博客开发团队的博客,尊重原创工作.该文适合学分布式系统之前,作为背景介绍来读. 谈到分布式系统,就不得不提Google的三驾马车:Google FS[1],MapReduce[2],Bigtable[3]. 虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文.而且,Yahoo资助的Hadoop也有按照这三篇论文的开源Java实现:Hadoop对应MapReduce, Hadoop Distributed File System (HDFS)对应Goog

Google三驾马车:GFS、MapReduce和Bigtable

谈到分布式系统,就不得不提Google的三驾马车:Google fs[1],Mapreduce[2],Bigtable[3]. 虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文.而且,Yahoo资助的Hadoop也有按照这三篇论文的开源Java实现:Hadoop对应Mapreduce, Hadoop Distributed File System (HDFS)对应Google fs,Hbase对应Bigtable.不过在性能上Hadoop比Google要差很多,参见

分布式系统领域经典论文翻译集

分布式领域论文译序 sql&nosql年代记 SMAQ:海量数据的存储计算和查询 一.google论文系列 1.      google系列论文译序 2.      The anatomy of a large-scale hypertextual Web search engine (译 zz) 3.      web search for a planet :the google cluster architecture(译) 4.      GFS:google文件系统 (译) 5.  

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

图像处理和计算机视觉中的经典论文

图像处理和计算机视觉中的经典论文 转自:http://www.cnblogs.com/moondark/archive/2012/04/20/2459594.html 感谢水木上同领域的同学分享,有了他的整理,让我很方便的获得了CV方面相关的经典论文,我也顺便整理一下,把pdf中的文字贴到网页上,方便其它人更直观的获取所要内容~~~   资料的下载链接为:http://iask.sina.com.cn/u/2252291285/ish?folderid=775855 以下为该同学的整理的综述:“

PointCloud及其经典论文介绍

这篇博客会介绍点云的基本知识,重点介绍最近两年发表的部分经典论文,有什么建议欢迎留言! 点云基本介绍 点云是某个坐标系下的点的数据集,包含了丰富的信息,可以是三维坐标X,Y,Z.颜色.强度值.时间等等.下面两张图分别展示了点云在三维空间可视化以后的效果和数据格式.点云的数据获取方式有很多种,比较常见的是三维激光扫描仪进行数据采集,它有三大类: 星载(星载LiDAR采用卫星平台,运行轨道高.观测视野广,基本可以测量到地球的每一个角落,为三维控制点和数字高程模型的获取提供了新的途径,有些星载激光雷达

编译原理三大经典书籍

1.龙书(Dragon book)英文名:Compilers: Principles,Techniques,and Tools作者:Alfred V.Aho,Ravi Sethi,Jeffrey D.Ullman中文名:编译原理技术和工具 2.虎书(Tiger book)英文名:Modern Compiler Implementation in C作者:Andrew W.Appel,with Jens Palsberg中文名:现代编译原理-C语言描述 3.鲸书(Whale book)英文名:Ad

报童、钱包和迪米特法则(设计模式迪米特原则经典论文翻译)

写在文章前: 或许你写过无数代码,参与过很多大型系统的设计,但,你是否曾经思考过,你的设计可扩展.易维护么,在高速变化的互联网世界里,它能经得起这种急速变化的考验么?如果你没想过这些问题,那请先放下你那些牛逼的梦想,放下你的高傲,好好去理解.回味设计六大原则和23种设计模式,因为它们是你腾飞的基石.今天,我勇敢的尝试翻译一篇有关设计原则的经典论文,希望对大家有帮助.(翻译是一项很费时.费精力的活,而且博主英语水平也不是特别好,翻译时多采用意译,见谅) 前言 在我读大学的时候,我的一个教授说每个程

论文研读与下载地址

1.Using the cross-entropy method to re-rank search results 下载:http://iew3.technion.ac.il/~kurland/crossEnt.pdf 论文研读与下载地址