hadoop权威指南 chapter1 Meet Hadoop

Meet Hadoop

1.1 Data!(数据)

Most of the data is locked up in the largest web properties (like search engines), or scientific or financial institutions, isn’t it? Does the advent of “Big Data,” as it is being

called, affect smaller organizations or individuals?

作为普通民众并未在浩瀚的数据中受益,数据都在网络中存储或者被广大的研究机构存储,因此大数据的挖掘也就应用而生。

从个人角度来看,因为数据量的不断扩大,对数据的读取和筛选都会消耗大量的时间。

1.2 Data Storage and Analysis (数据存储和分析)

虽然硬盘等存储介质的读取速度不断的提高,但是相对数据量的增长速率相比,数据的检索和筛选还是会消耗大量的时间。

This is a long time to read all data on a single drive—and writing is even slower. The obvious way to reduce the time is to read from multiple disks at once. Imagine if we

had 100 drives, each holding one hundredth of the data. Working in parallel, we could read the data in under two minutes.

从单一的驱动器上读取数据就更慢了,最显而易见的方式就是减少从多个介质中一次读取。但是同时在太高读取速率的同时也降低了硬件的利用率。

并行从多个驱动器上读取数据也同时存在风险:

1.硬件故障造成的数据读取失败。redundant copies of the data are kept by the system so that in the event of failure, there is another copy available.数据备份

2.从不同的驱动器中整合数据也是一个很大的挑战。由此也就引出了MapReduce.

1.3 Comparison with Other Systems(与其他系统比较)

MapReduce is a batch query processor, and the ability to run an ad hoc query against your whole dataset and get the results in a reasonable time is transformative.

RDBMS 关系型数据库管理系统

Grid Computing 网格计算

网格计算分布式计算是近年提出的一种新的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息,这些软件既可以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。

volunteer computing 志愿计算

志愿计算是通过互联网让全球的普通大众志愿提供空闲的PC时间,参与科学计算或数据分析的一种计算方式。这种方式为解决基础科学运算规模较大、计算资源需求较多的难题提供了一种行之有效的解决途径。对于科学家而言,志愿计算意味着近乎免费且无限的计算资源;而就志愿者而言,他们可以得到一个了解科学、参与科学的机会,以促进公众对科学的理解。

1.4 A Brief History of Hadoop(Hadoop历史简介)

Apache Lucene

1.5 Apache Hadoop and Hadoop ecosystem(关于组织和Hadoop生态系统)

Common :A set of components and interfaces for distributed filesystems and general I/O (serialization, Java RPC, persistent data structures).

Avro:A serialization system for efficient, cross-language RPC, and persistent data storage.

MapReduce:A distributed data processing model and execution environment that runs on large clusters of commodity machines.

HDFS:A distributed filesystem that runs on large clusters of commodity machines.

Pig:A data flow language and execution environment for exploring very large datasets. Pig runs on HDFS and MapReduce clusters.

Hive:A distributed data warehouse. Hive manages data stored in HDFS and provides a query language based on SQL (and which is translated by the runtime engine to

MapReduce jobs) for querying the data.

HBase:A distributed, column-oriented database. HBase uses HDFS for its underlying storage, and supports both batch-style computations using MapReduce and point

queries (random reads).

ZooKeeper:A distributed, highly available coordination service. ZooKeeper provides primitives such as distributed locks that can be used for building distributed applications.

Sqoop:A tool for efficiently moving data between relational databases and HDFS.

1.6 Hadoop Releases(Hadoop的版本介绍)

hadoop权威指南 chapter1 Meet Hadoop

时间: 2024-10-05 05:10:55

hadoop权威指南 chapter1 Meet Hadoop的相关文章

读《Hadoop权威指南》点滴-Hadoop分布式文件系统

Hadoop自带HDFS,即 Hadoop Distributed FileSystem(不是HaDoop  FileSystem 的简称) 适用范围 超大文件:最新的容量达到PB级 流式数据访问:HDFS的构建思路:一次写入.多次读取时最高效的访问模式 低时间延迟的数据访问不适用HDFS 大量的小文件的限制:由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量.根据经验,每个文件.目录.数据块的存储信息大约占150字节.举例来说,

hadoop权威指南(第四版)要点翻译(1)——Foreword and Preface

前期已经完成了hadoop全分布模式的部署和运行,近期想更进一步的了解hadoop原理,基于hadoop2.X的书籍最好的莫过于<hadoop权威指南(第四版)>,很可惜作者年初才刚写完,没来得及翻译,只好看英文版了,书中的要点重点在接下来的一段时间我会依次翻译出来(全部翻译不太现实,没那么多时间精力,将近900页呢),如果有翻译不妥的地方,还请大家指出来,共同进步,谢谢! 今天是个开头,就先翻译一下文中前言和序的要点 1.Foreword 1) Wesplit off the distrib

《Hadoop权威指南》笔记 第一章&第二章

? ? ? ? ? ? ? ? ? ? ? ? ? ? 使用MapReduce ? ? ? ? ? ? ? ? import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; // 会继承这个基类 import org.apache

Hadoop权威指南读书笔记

本书中提到的Hadoop项目简述 Common:一组分布式文件系统和通用I/O的组件与接口(序列化.javaRPC和持久化数据结构). Avro:一种支持高效.跨语言的RPC以及永久存储数据的序列化系统. MapReduce:分布式数据处理模型和执行环境,运行于大型商业集群. HDFS:分布式文件系统,运行于大型商用机集群. Pig:一种数据流语言和运行环境,用以检索非常大的数据集.Pig运行在MapReduce和HDFS的集群上. Hive:一个分布式.按列存储的数据仓库.Hive管理HDFS

Hadoop权威指南学习笔记二

MapReduce简单介绍 声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm 上一篇介绍了什么是Hadoop.Hadoop的作用等.本篇相同基于Hadoop权威指南,结合迪伦的Hadoop的视频教程对MapReduce做一个介绍. 1. MapReduce是Hadoop的核心之中的一个.MapReduce分为两个部分,Mapper和Ruducer模块.简单

hadoop权威指南学习(一) - 天气预报MapReduce程序的开发和部署

看过Tom White写的Hadoop权威指南(大象书)的朋友一定得从第一个天气预报的Map Reduce程序所吸引, 殊不知,Tom White大牛虽然在书中写了程序和讲解了原理,但是他以为你们都会部署了,这里轻描淡写给 带过了,这样就给菜鸟们留了课题,其实在跑书中的程序的时候,如果没经验,还是会踩坑的. 这里笔者就把踩过的坑说一下,以防后来人浪费时间了. 1. 首先,你得下载书中的ncdc气象原始数据,这个可以从书中的官网下载. 作者比较做人家,只给了2年的历史数据,无妨,2年也可以运行.

Hadoop权威指南---第二章MaxTemperature例题源码

敲了一下hadoop权威指南第二章的例题,虽然基本上是照着书上敲的,但还是把它放到这方便以后查看. 代码如下: <span style="font-size:18px;"><span style="font-size:18px;">import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;

《Hadoop权威指南》读书笔记

<Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩编程模型. 3.高性能计算HPC和网格计算比较适合用于计算密集型的作业,但如果几点需要访问的数据量更庞大,很多节点就会因为网络带宽的瓶颈问题不得不闲下等数据.(HPC和网格计算的数据存储与SAN中,数据存储比较集中,数据访问一般通过网络) 4.MapReduce尽量在计算节点上存储数据,以实现数据的本地化快速

[hadoop]hadoop权威指南例第二版3-1、3-2

hadoop版本1.2.1 jdk1.7.0 例3-1.通过URLStreamHandler实例以标准输出方式显示Hadoop文件系统的文件 hadoop fs -mkdir input 在本地创建两个文件file1,file2,file1的内容为hello world,file2内容为hello Hadoop,然后上传到input,具体方法如Hadoop集群(第6期)_WordCount运行详解中 2.1.准备工作可以看到. 完整代码如下: 1 import org.apache.hadoop