hadoop权威指南(第四版)要点翻译(1)——Foreword and Preface

前期已经完成了hadoop全分布模式的部署和运行,近期想更进一步的了解hadoop原理,基于hadoop2.X的书籍最好的莫过于《hadoop权威指南(第四版)》,很可惜作者年初才刚写完,没来得及翻译,只好看英文版了,书中的要点重点在接下来的一段时间我会依次翻译出来(全部翻译不太现实,没那么多时间精力,将近900页呢),如果有翻译不妥的地方,还请大家指出来,共同进步,谢谢!

今天是个开头,就先翻译一下文中前言和序的要点

1.Foreword

1) Wesplit off the distributed computing part of Nutch, naming it Hadoop.

我们把Nutch项目中有关分布式计算的部分分离出来,命名为hadoop。

2) Initially,Tom specialized in making Hadoop run well on Amazon’s EC2 and S3 services.Thenhe moved on to tackle a wide variety of problems, including improving theMapReduce APIs, enhancing the website, and devising an object
serializationframework.

首先,Tom专门研究如何顺利的在Amazon的EC2和 S3服务上运行hadoop。然后他把注意力转移到了处理包括改善MapReduce的API,优化网站,以及设计一个序列化框架等多种问题上。

2. Preface

1) Ifthere’s a common theme, it is about raising the level of abstraction — tocreate building blocks for programmers who have lots of data to store andanalyze, and who don’t have the time, the skill, or the inclination to becomedistributed
systems experts to build the infrastructure to handle it.

如果存在一个共同主题,那就是关于提升抽象概念层次,为那些需要存储和分析大量数据,但是又没有时间,没有技术,也没有兴趣成为分布式系统专家的程序员构建基本模块。

注:下次翻译第一部分第一章meet hadoop的要点,有点多,需假以时日

时间: 2024-10-08 21:09:50

hadoop权威指南(第四版)要点翻译(1)——Foreword and Preface的相关文章

hadoop权威指南(第四版)要点翻译(4)——Chapter 3. The HDFS(1-4)

Filesystems that manage the storage across a network of machines are called distributed filesystems. Since they are network based, all the complications of network programming kick in, thus making distributed filesystems more complex than regular dis

hadoop权威指南(第四版)要点翻译(5)——Chapter 3. The HDFS(5)

5) The Java Interface a) Reading Data from a Hadoop URL. 使用hadoop URL来读取数据 b) Although we focus mainly on the HDFS implementation, DistributedFileSystem, in general you should strive to write your code against the FileSystem abstract class, to retain

hadoop权威指南(第四版)要点翻译(2)——Chapter 1. Meet Hadoop

a) The trend is for every individual's data footprint to grow, but perhaps more significantly,the amount of data generated by machines as a part of the Internet of Things will be even greater than that generated by people. 每个人在互联网上的足迹数据(或者说痕迹)会一直增长,但

hadoop权威指南(第四版)要点翻译(3)——Chapter 2. MapReduce

Most importantly, MapReduce programs are inherently parallel, thus putting very large-scale data analysis into the hands of anyone with enough machines at their disposal.MapReduce comes into its own for large datasets, so let's start by looking at on

hadoop学习:《Hadoop权威指南第四版》中文PDF+英文PDF+代码

结合理论和实践,<Hadoop权威指南第四版>由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台.5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例. Hadoop生态都有涉及,很厚很全:HDFS, MapReduce1&2(YARN), Hive, HBase, Pig, ZooKeeper, Sqoop等. 多数章节对自己的要求都是了

[hadoop]hadoop权威指南例第二版3-1、3-2

hadoop版本1.2.1 jdk1.7.0 例3-1.通过URLStreamHandler实例以标准输出方式显示Hadoop文件系统的文件 hadoop fs -mkdir input 在本地创建两个文件file1,file2,file1的内容为hello world,file2内容为hello Hadoop,然后上传到input,具体方法如Hadoop集群(第6期)_WordCount运行详解中 2.1.准备工作可以看到. 完整代码如下: 1 import org.apache.hadoop

《Hadoop权威指南 第4版》 - 第四章 关于YARN - hadoop的集群资源管理系统

简介 YARN 提供请求和使用hadoop集群资源的API 向上隐藏细节 提供更高层的API 4.1 YARN应用运行机制 - 资源请求 - 应用生命周期 - 构建yarn应用 4.2 YARN与MapReduce 1相比 (MapReduce特指hadoop1 的版本, 2/3依次对应) - 4.3 YARN中的调度 调度选项 FIFO调度器 容量调度器 (多个请求队列调用一个hadoop集群, 每个队列请求量上限不可逾越) 公平调度器 (动态平衡资源调度, 大作业多分配) 启动YARN并运行

辛星笔记之Hadoop权威指南第四篇HDFS简介

当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并且存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统被称为分布式文件系统(distributed  filesystem). 分布式文件系统架构于网络智商,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更加复杂,比如文件系统能够容忍节点故障但是不丢失数据就是一个很大的挑战. HDFS的全称是Hadoop  Distributed  Filesystem,在非正式文档或者旧文档以及配置文件中,有

分享《Hadoop权威指南(第四版)》中文PDF+英文PDF+源代码

下载:https://pan.baidu.com/s/1YrWpwl2xgsFlf6GBS2Ry8w更多资料:http://blog.51cto.com/3215120 <Hadoop权威指南(第四版)>中文PDF+英文PDF+源代码 <Hadoop权威指南(第四版)>中文PDF+英文PDF+源代码<Hadoop权威指南(第四版)>中文PDF,734页,带书签目录.<Hadoop权威指南(第四版)>英文PDF,805页,带书签目录.配套源代码. 其中,中文版