我的Hadoop学习（1）

大数据（BigData）：大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。

Hadoop是根据谷歌的论文开发出来的分布式系统基础架构。（图片取自课工场视频的截图）

BigTable是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库。（数据库）

GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。（存储系统）

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"（计算）

大数据带来的革命性变革
1）成本降低，能用PC机，就不会大型机或者高端存储设备。
2）软件容错、硬件故障视为常态，通过软件来保证高可靠。
3）简化分布式并行计算，无需控制节点同步和数据的交换。

Hadoop是什么：

Hadoop框架的三大部分：

Hadoop的生态圈：

Hive:提供了sql查询功能

R语言：一种统计性语言

Mahout：机器学习库（已停止更新）现在大家都使用Spark。

pig:用于写脚本统计数据。

Oozie:工作流（通常在多个场景中相互配合使用）

zookeeper:分布式的协调性服务。

Flume:用于日志文件的收集。

Sqoop：描述数据的交换，关系型数据库和大数据系统进行交换。

Hbase:建立在HFDS上的面向列的数据库，用于快速读写大量数据，由zookeeper进行管理。

Hadoop的版本选择：

对于Apache的顶级项目，网站有一定的规则
hadoop： hadoop.apache.org
hive: hive.apache.org
spark: spark.apache.org
hbase
zookeeper

CDH下载地址：http://archive.cloudera.com/cdh5/cdh/5/
cdh5.7.0

CM: 通过web就能够快速的搭建集群

================================================================================================================================

写在后面的话：

　　这篇博客是我第一篇关于学习技术的博客，记录的是我看课工场视频学习的记录，截图取自视频，一些定义取自百度，可能写的不好，并且也没什么自己的理解。我个人写博客的原因是朋友的建议，因为

在培训班培训了6个多月只会写SSM框架，现在找工作很难，面试官的要求以我现在的水平根本达不到，现在都要求会spingboot和springcloud，会处理抢购网站的高并发请求，

我觉得我的培训经历很失败，朋友建议我自己照着API文档撸一遍代码，并且写技术博客来记录自己的学习，我自己希望能通过自己的学习达到用人单位的要求，找到一份合适的工作，

在博客里面如果有大佬觉得写的有问题的话请指出来，我来修改；如果有像我一样想要转行的小白，希望我们能共勉，一起努力学习，早日找到满意的工作。最后希望看到这篇博客的读者如果

发现有错误的地方能指出来，我在此表示感谢。（培训班不要报某鸟，我觉得我进天坑了~。~）

原文地址：https://www.cnblogs.com/chuxuedejuzi/p/10901636.html

时间： 2024-10-30 06:00:57

Hadoop学习笔记(6) ——重新认识Hadoop