Hadoop权威指南学习笔记一

Hadoop权威指南学习笔记一

声明：本文是本人基于Hadoop权威指南学习的一些个人理解和笔记，仅供学习参考，有什么不到之处还望指出，一起学习一起进步。

转载请注明：http://blog.csdn.net/my_acm

1、

数据的增长远远超过了磁盘的读取速度，传统的数据存储方式和分析方式变得不再适用于大数据的处理。

Hadoop分为两大核心技术，HDFS（HadoopDistributed File System-分布式hadoop文件处理系统）和MapReduce（分为Map-数据映射等，Reduce-数据合并等）。

基于HDFS的分布式文件系统，数据可以分布在一个很广的不同的范围内（当然也可以是集中式的数据）进行并行处理分析，而处理分析的能力则用MapReduce算法进行分析。也因为这种分布式的系统，是的其能在不是很高性能的机器上运行，所以成本并不高。

2、

为什么传统的RDBMS不能适应大数据处理呢？

首先来看看下面的一张表格：

更重要的是MapRuduce和关系型数据库之间它们处理的数据集的结构化数据的数量。

所谓结构化数据就是拥有准确定义的实体化数据，符合某种预定义模式。而通常的半结构化数据和非结构化数据则不能在RDBMS上很好的处理，相反MapRduce的却能很好的处理这些非结构化数据。

当然随着时间的推移RDBMS（借鉴MapReduce的思想）和MapReduce之间的区别可能会越来越模糊。

基于MapReduce的两个重要高级查询语言Pig和Hive。

3、

Hadoop是DougCutting——Apache Lueene创始人——开发的使用广泛的文本搜索库。虽然Hadoop最出名的事MapReduce和HDFS但是它还有其他一些配套服务。

时间： 2024-12-26 11:53:22

Hadoop权威指南学习笔记一的相关文章

Hadoop权威指南学习笔记二

MapReduce简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm 上一篇介绍了什么是Hadoop.Hadoop的作用等.本篇相同基于Hadoop权威指南,结合迪伦的Hadoop的视频教程对MapReduce做一个介绍. 1. MapReduce是Hadoop的核心之中的一个.MapReduce分为两个部分,Mapper和Ruducer模块.简单

Hadoop权威指南学习笔记三

HDFS简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my_acm Hadoop说白了就是一个提供了处理分析大数据的文件集群,当中最重要的无疑是HDFS(Hadoop Distributed File System)即Hadoop分布式文件系统. 1. HDFS是一种以流式数据訪问模式(一次写入多次读取的模式)存储超大文件的系统. 其不须要的高端的硬件系统

《Hadoop权威指南》笔记第一章&第二章

? ? ? ? ? ? ? ? ? ? ? ? ? ? 使用MapReduce ? ? ? ? ? ? ? ? import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; // 会继承这个基类 import org.apache

Hadoop权威指南读书笔记

本书中提到的Hadoop项目简述 Common:一组分布式文件系统和通用I/O的组件与接口(序列化.javaRPC和持久化数据结构). Avro:一种支持高效.跨语言的RPC以及永久存储数据的序列化系统. MapReduce:分布式数据处理模型和执行环境,运行于大型商业集群. HDFS:分布式文件系统,运行于大型商用机集群. Pig:一种数据流语言和运行环境,用以检索非常大的数据集.Pig运行在MapReduce和HDFS的集群上. Hive:一个分布式.按列存储的数据仓库.Hive管理HDFS

《Hadoop权威指南》笔记第一章&第二章 MapReduce初探

? ? ? ? ? ? ? ? ? ? ? ? ? ? 使用MapReduce ? ? ? ? ? ? ? ? import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; // 会继承这个基类 import org.apache

Git权威指南学习笔记（一）Git初始化

1.在Git中配置用户名和邮件地址 $ git config --global user.name "Jymn_Chen" $ git config --global user.email "[email protected]" 注意把用户名和邮件地址替换成你自己的资料. 在这里的参数global表示配置的作用范围是当前用户,如果将参数改为system,那么配置的作用范围是系统中的所有用户. 2.创建版本库新建一个目录并cd到目录中,执行以下命令: $ git i

Git权威指南学习笔记（二）Git暂存区

如下图所示: 左侧为工作区,是我们的工作目录. 右侧为版本库,其中: index标记的是暂存区(stage),所处目录为.git/index,记录了文件的状态和变更信息. master标记的是master分支所代表的目录树.HEAD指向master分支. objects标记的是Git的对象库,所处目录为.git/objects,文件索引建立了文件和对象库中对象实体之间的映射关系. 通过该图我们可以清晰地看出add,commit等命令的转化关系.下面通过git diff和git status两条命

JavaScript权威指南学习笔记之一

1.关于分号 javascript里面不强制使用分号来表示一行语句的结束,但是最好能够在写js之前,特别是在原有的js上面新增时,最好前置一个分号.避免这种情况发生: 2.JavaScript类型转换 3.关于=== ①如果类型不同则不等 ②null===null或undefined===undefined ③true===true或false===false ④NaN不等 ⑤0===0 0===-0 ⑥如果是同一个object,array,function则相等 4.关于== ①如果已经==

MongoDB权威指南学习笔记4---查询相关的知识点

1 find find({查询条件},{"key":1,"email":1}) 后面表示返回哪些键 2 可用的比较操作符 $lt , $lte,$gt,$gte 比如db.users.find({"age":{"$gte":18,"$lte":30}}) 3不等于 find(...{"key":{"$ne":"value"}} 4 in find

猜你喜欢

黑客们的故事（五）“邪恶帝国”的缔造者

全名为威廉亨利盖茨三世的比尔盖茨是早期黑客中的异类.今天的他是世界上最知名的企业家和慈善家之一,被视为一代人的杰出榜样,信息时代的偶像,知识英雄的代表. 如果计算能力免费 1986年,沃兹在给加利福尼 ...

转：android studio 改编译区背景色

http://blog.csdn.net/zhuhai__yizhi/article/details/44017609 最近开始学习使用android studio想设置背景颜色,不过上网找的全都是复 ...

视频会议之BigBlueButton

转自:http://blog.chinaunix.net/uid-25434387-id-1645713.html BigBlueButton是一套开源的视频会议系统,特别适用于远程教育但也可以用于标 ...

HDU 1305 Immediate Decodability 可直接解码吗？

题意:一个码如果是另一个码的前缀,则 is not immediately decodable,不可直接解码,也就是给一串二进制数字给你,你不能对其解码,因解码出来可能有多种情况. 思路:将每个码按长 ...

WebDriver API 大全

访问某网页地址:driver.get(url) 或 driver.navigate().to(url) 访问上一个访问的网页(模拟单击浏览器的后退按钮)driver.navigate().back ...

在ACCESS中创建数据库和查询(ACCESS 2000)

备份还原数据库备份.还原 —— 复制\粘贴压缩修复数据库命令 —— 复制该文件并重新组织,并重新组织文件在磁盘上的储存方式.压缩同时优化了Access数据库的性能.(工具——实用数据库工具或者工具 ...

css之属性部分

这篇写的是今天的学习到的属性,一共20个. 属性再多,但也要会使用,会在使用时可以记起它,才能起到它为我们所需要的作用. 样式属性 1.border CSS边框属性允许你指定一个元素边框的样式和颜色. ...

(eden)Pascal triangle

题目名称 Pascal triangle 题目描述 By using two-dimensional array, write C program to display a table that re ...

搞清Image加载事件(onload)、加载状态(complete)后，实现图片的本地预览，并自适应于父元素内

onload与complete介绍 complete只是HTMLImageElement对象的一个属性,可以判断图片加载完成,不管图片是不是有缓存:而onload则是这个Image对象的load事件回 ...

PHP学习（函数）

可变函数,即通过变量的值来调用函数,因为变量的值是可变的,所以可以通过改变一个变量的值来实现调用不同的函数. 经常会用在回调函数.函数列表,或者根据动态参数来调用不同的函数.可变函数的调用方法为变量名 ...

BigDecimal-解决商业计算

1.String to BigDecimal 1 String amtStr = "1234.56"; 2 BigDecimal amtBD = new BigDecimal(am ...

hdu 2014 青年歌手大奖赛_评委会打分

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2014 题目大意:去掉一个最高分和一个最低分求平均数. 1 #include<stdio.h> ...

mysql-表完整性约束

一介绍约束条件与数据类型的宽度一样,都是可选参数作用:用于保证数据的完整性和一致性主要分为: PRIMARY KEY (PK) 标识该字段为该表的主键,可以唯一的标识记录 FOREIGN KEY ...

es6分享——变量的解构赋值

变量的解构赋值:ES6 允许按照一定模式,从数组和对象中提取值,对变量进行赋值,这被称为解构(Destructuring). 以前的写法: var a = 1; var b = 2; es6允许的写法 ...

JAVA_SE基础——58.如何用jar命令对java工程进行打包

有时候为了更方便快捷的部署和执行Java程序,要把java应用程序打包成一个jar包.而这个基础的操作有时候也很麻烦,为了方便java程序员们能够方便的打包java应用程序,下面对jar命令进行介绍, ...

ios7 searchResultsTableView bug

ios7上面,searchResultsTableView存在一个bug: 就是每搜索一次,searchResultsTableView的contentSize会加大一些,最后会留出很多空白. 解决方 ...

hdu4619 / 最大独立集

题意,一个矩阵,上面可以横放或者竖着放骨牌(1X2)保证横的与横的不重叠,竖的和竖的不重叠,求拿掉最小的牌,使所有的都不重叠. 分析:一看,不重叠就是没有边,拿最少,就是留最多,最大独立集啊!二分图, ...

Juniper老司机经验谈（SRX防火墙优化篇）视频课程上线了

大家在QQ群.论坛里经常提的问题,许多人对SRX双机不是很理解,实际工作中碰见太多问题,惹出了少少麻烦. 针对这个我录制了一个Juniper老司机经验谈(SRX防火墙优化篇)视频课程,上线了.只有9块 ...

用实例来说明问题. 我的WinRAR路径: C:/Program Files/WinRAR/WinRAR.exe 用法: rar <命令> -<开关 1> -<开关 N& ...

使用jQuery将数据快速填充到表单

作为WEB程序员,我们经常与表单打交道.例如在通过表单编辑一些数据时,读取后台数据并填充到表单是一件繁琐的事情,尤其是表单域很多而且包含radio,checkbox,select等的时候.你一定见过下 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.