大数据笔记01:大数据之Hadoop简介

1. 背景

随着大数据时代来临,人们发现数据越来越多。但是如何对大数据进行存储与分析呢?

  单机PC存储和分析数据存在很多瓶颈,包括存储容量、读写速率、计算效率等等,这些单机PC无法满足要求。

2. 为解决这些存储容量、读写速率、计算效率等等问题,google大数据技术开发了三大革命性技术解决这些问题,这三大技术为:

(1)MapReduce

(2)BigTable

(3)GFS

技术革命性:

   革命性变化01:成本降低,能使用PC,就不用大型机和高端存储。

   革命性变化02:软件容错硬件故障视为常态,通过软件保证可靠性。

   革命性变化03:简化并行分布式计算,无须控制节点同步和数据交换。

但是google只是发表了相关的技术论文,没有开放源代码。

3.幸运的是,一个模仿了Google大数据技术的开源实现来了,他就是:

Hadoop

那么我们有必要说明一下Hadoop的功能与优势:

(1)首先Hadoop是什么?

Hadoop是一个开源的分布式存储 和 分布式计算的平台。

(2)为什么Hadoop可以进行分布式存储 和 分布式计算?

这是因为Hadoop里面包括两个核心的组成:

• HDFS :分布式文件系统,存储海量的数据

• MapReduce :并行处理的框架,实现任务分解和调度

(3)Hadoop可以用来做什么呢?

搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务。

(4)Hadoop的优势

• 优势1:高扩展(理论上无限)

• 优势2:低成本

• 优势3:成熟的生态圈(非常丰富的工具链)

这些大量的工具是围绕Hadoop衍生出来的,它们的存在使得Hadoop变得更加高效和方便。

(5)Hadoop的应用情况

目前国内和国外很多大公司都是使用Hadoop搭建这个大数据平台。

(6)Hadoop已经成为业界大数据平台搭建的首选,同时Hadoop的人才的需求也越来越大。

时间: 2024-10-12 16:14:04

大数据笔记01:大数据之Hadoop简介的相关文章

大数据笔记(二)——Apache Hadoop的体系结构

一.分布式存储 NameNode(名称节点) 1.维护HDFS文件系统,是HDFS的主节点. 2.接收客户端的请求:上传.下载文件.创建目录等. 3.记录客户端操作的日志(edits文件),保存了HDFS最新的状态 1)Edits文件保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件.重命名文件.删除目录等 2)保存目录:$HADOOP_HOME/tmp/dfs/name/current 可以使用 hdfs oev -i 命令将日志(二进制)输出为 XML文件 hdfs o

大整数算法[01] 大整数的表示和相关定义

★ 相关的数据类型定义 在干正事之前,先定义好各种数据类型还是很有必要的,避免在以后的编码中引起混乱. uintX   X位无符号整形,如uint32表示32位无符号整形 intX    X位有符号整形,如int32表示32位有符号整形 基本数据类型定义: #ifdef _MSC_VER            typedef __int8              int8;            typedef __int16             int16;            typ

大数据笔记02:大数据之Hadoop的生态系统和版本

1.Hadoop的生态系统: (1)图1: (2)图2: 图1 和 图2 都是形象说明了Hadoop的生态圈. 2.举例介绍Hadoop生态圈的小工具: (1)Hive工具(中文意思:小蜜蜂) 利用Hive这个工具,不用编写复杂的Hadoop程序,只需要编写一个SQL语句,Hive就会把你编写的SQL语句转化为Hadoop任务去执行. 这样降低使用Hadoop的门槛. (2)hbase 存储结构化数据的分布式数据库 图1: 图2: (3)zookeeper(中文意思:动物管理员) zookeep

自学it18大数据笔记-第一阶段Java-day16-day17-day18-day19--day20-day21-day22——会持续更新

转行大数据领域,没报班,自学试试,能坚持下来就以后好好做这行,不能就--!准备从现有这套it18的视屏残本开始--自学是痛苦的,发博客,算是监督自己,督促自己坚持学下去. (教学视屏是it18做活动送的,虽不全,但徐培成老师讲的真心不错,特此感谢it18掌--帮你们打打广告) 笔记为自学时记录,如有错误,欢迎指正,不胜感激! 笔记分享:自学it18大数据笔记-第一阶段Java-day16-day17-day18-day19--day20-day21-day22--会持续更新-- 第一阶段Java

自学it18大数据笔记-第三阶段Spark-day14;Spark-day15(开始试水找工作了)——会持续更新……

写在最前:转行大数据领域,没报班,自学试试,能坚持下来以后就好好做这行,不能就--!准备从现有这套it18掌的视屏残本开始--自学是痛苦的,发博客和大家分享下学习成果--也是监督自己,督促自己坚持学下去. (教学视屏是it18掌做活动送的,视屏不是很全,课堂笔记和源码等课堂相关资料也未放出,但徐培成老师课讲的真心很好,感兴趣的不妨听听,特此感谢it18掌--帮他们打打广告) 笔记为自学时记录,如有错误,欢迎指正,不胜感激!现已广州转移至上海,开始试水找工作了,欢迎小伙伴们加qq或微博沟通交流(Q

自学it18大数据笔记-第二阶段HBase-day3——会持续更新……

写在最前:转行大数据领域,没报班,自学试试,能坚持下来以后就好好做这行,不能就--!准备从现有这套it18的视屏残本开始--自学是痛苦的,发博客和大家分享下学习成果--也是监督自己,督促自己坚持学下去. (教学视屏是it18做活动送的,视屏不是很全,课堂笔记和源码等课堂相关资料也未放出,但徐培成老师课讲的真心很好,感兴趣的不妨听听,特此感谢it18掌--帮他们打打广告) 笔记为自学时记录,如有错误,欢迎指正,不胜感激!欢迎小伙伴们沟通交流. 笔记分享:自学it18大数据笔记-第二阶段HBase-

自学it18大数据笔记-第二阶段Linux-day1——会持续更新……

转行大数据领域,没报班,自学试试,能坚持下来就以后好好做这行,不能就--!准备从现有这套it18的视屏残本开始--自学是痛苦的,发博客,算是监督自己,督促自己坚持学下去. (教学视屏是it18做活动送的,虽不全,但徐培成老师讲的真心不错,特此感谢it18掌--帮他们打打广告) 笔记为自学时记录,如有错误,欢迎指正,不胜感激! 笔记分享:自学it18大数据笔记-第二阶段Linux-day1--会持续更新-- 第一阶段Java-day16-day17-day18-day19--day20-day21

自学it18大数据笔记-第一阶段Java-day09-day10-day11-day12-day13-day14-day15

转行大数据领域,没报班,自学试试,能坚持下来就以后好好做这行,不能就--!准备从现有这套it18的视屏残本开始--自学是痛苦的,发博客,算是监督自己,督促自己坚持学下去. (教学视屏是it18做活动送的,虽不全,但徐培成老师讲的真心不错,特此感谢it18掌--帮你们打打广告) 笔记为自学时记录,如有错误,欢迎指正,不胜感激! 笔记分享:自学it18大数据笔记-第一阶段Java-day09-day10-day11-day12--day13-day14-day15--会持续更新-- 第一阶段Java

Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单