Cloudera hadoop 大数据平台实战指南(1)

  1. 大数 据 主要 具有 四方 面的 典型 特征—— 规模 性( Volume)、 多样性( Variety)、 高速 性( Velocity) 和 价值 性( Value), 即 所谓 的" 4V"。
  2. 大数据时代的关键技术:(1) 大数 据 采集 技术(2) 大 数据 预处理 技术(3) 大数 据 存储 及 管理 技术(4) 大数 据分析 及 挖掘 技术(5) 大 数据 可 视 化 展现 技术
  3. 什么是hadoop?Hadoop 最初 是 开 始于 2002 年的 Apache 的 Nutch 项目。 Nutch 是一 个 开源 Java 实现 的 搜索 引擎, 它 遇到 的 难题 是, 在 抓取 Web 数据 时 如何 保存 和 使用 这些 庞大 的 数据。 随后 Google 在 2003 年 发表 了 一篇 技术 学术论文 谷 歌 文件 系统( GFS, Google File System, 是 Google 公司 为了 存储 海量 搜索 数据 而 设计 的 专用 文件 系统)。 2004 年 Nutch 创始人 Doug Cutting 模仿 Google 的 GFS 论文 实现 了 分布式 文件 存储 系统 NDFS。2004 年 Google 又 发表 了 一篇 技术 学术论文 MapReduce( 一种 分布式 编程 模型, 用于 大规模 数据 集 的 并行 分析 运算)。 2005 年 Doug Cutting 基于 MapReduce 的 思想, 在 Nutch 搜索 引擎 实现 了 该 功能。 2006 年, Yahoo 邀请 Doug Cutting 加盟, Doug Cutting 将 NDFS 和 MapReduce 升级 命名为 Hadoop。 2008 年 1 月, Hadoop 正式 成为 Apache 的 顶 级 项目, 开始 被 雅 虎 之外 的 其他 公司 使用。 2009 年, Yahoo 使用 4000 节点 的 机群 运行 Hadoop, 支持 广告 系统 和 Web 搜索 的 研究。 Facebook 的 Hadoop 机群 扩展到 数千 个 节点, 用于 存储 内部 日志 数据, 支持 其上 的 数据 分析 和 机器 学习。 淘 宝 的 Hadoop 系统 达到 千 台 规模, 用于 存储 并 处理 电子 商务 的 交易 相关 数据。 Hadoop 改变 了 企业 对 数据 的 存储、 处理 和 分析 的 过程, 加速 了 大 数据 的 发展, 形成 了 自己 非常 火爆 的 技术 生态 圈, 成为 事实上 的 大 数据处理 标准。
  4. Hadoop的特点?低成本,高扩展性,高效率,高可靠性
  5. Hadoop生态系统?早期 的 Hadoop( 包括 Hadoop v1. 0 以及 更早 之前 的 版本) 主要 由 两个 核心 组件 构成: HDFS 和 MapReduce。 其中, HDFS 分布式 文件 系统 是 Google GFS 的 开源 版本, MapReduce 分布式 计算 框架 实现 了 由 Google 工程师 提出 的 MapReduce 编程 模型。 还有 一些 围绕 在 Hadoop 周围 的 开源 项目, 为 完善 大 数据处理 的 全 生命 周期 提供 了 必要 的 配套 和 补充。

    这些 软件 常 用的 有

    ZooKeeper( 分布式 协调 服务)、

    Hive( 基于 Hadoop 的 数据 仓库 工具)、

    HBase( 实时 分布式 数据库)、

    Pig( 数据 流 语言 和 运行 环境)、

    Flume( 日志 采集 工具)、

    Sqoop( Hadoop 和 关系 数据库 导入 导出 工具)、

    Mahout( 数据 挖掘 工具)

    等,

    2012 年 5 月, Hadoop v2. 0 版本 发布, 其中 重要的 变化 是在 Hadoop 核心 组件 中 增加 了 YARN, YARN 的 出现 是 为了 把 计算 框架 与 资源 管理 彻底 分离, 解决 Hadoop v1. 0 由此 带来 的 扩展性 差、 单 点 故障 和 不能 同时 支持 多种 计算 框架 的 问题, 至此 Hadoop 与 Google 的 大数 据 平台 比 肩。

  6. Cloudera大数据平台简介?Cloudera 提供 一个 可扩展 的、 灵活 的、 集成 的 企业 级 大 数据管理 平台, 可用 来 方便 地 管理 你的 企业 中 快速 增长 的 多种多样 的 数据。 业界 领先 的 Cloudera 产品 和解 决 方案 使 你能 够 部署 并 管理 Apache Hadoop 及其 相关 项目、 操作 和 分析 你的 数据, 以及 保护 数据 的 安全。
  7. Cloudera 提供 下列 产品 和 工具?(1) CDH: Cloudera 分发 的 Apache Hadoop 和 其他 相关 开放 源 代码 项目, 包括 Impala 和 Cloudera Search。 CDH 还 提供 安全 保护 以及 与 许多 硬件 和 软件 解决 方案 的 集成。 (2) Cloudera Impala: 一种 MPP( 大规模 并行 处理) SQL 引擎, 用于 交互式 查询 分析。 它 非常 适合 用于 具有 连接、 聚合 和 子 查询 的 传统 BI 商业 智能 的 查询。 它可 以 查询 来自 各种 源 的 Hadoop 数据 文件, 包括 由 MapReduce 作业 生成 的 数据 文件 或 加载 到 Hive 表中 的 数据 文件。 你 可以 通过 Cloudera Manager 用户 界面 管理 Impala 及其他 Hadoop 组件, 并 通过 Sentry 授权 框架 保护 其 数据。 (3) Cloudera Search: 提供 近 实时 访问 已 存储 的 数据, 或者 摄取 数据 到 Hadoop 以及 HBase 中去。Search 提供 了 近 实时 的 索引、 批量 索引、 全文 检索 和 Drill- Down( 下钻) 的 导航, 以及 一个 简单 的 全文 检索 的 接口, 只需 要 一些 NoSQL 或者 编程 基础( 技能) 即可 使用。 完全 集成 的 数据处理 平台 Search 使 用了 在 CDH 中 灵活 的、 可扩展 的、 可靠 的 存储 系统。 这样 就不 再 需要 在 基础 设施 层 或者 业务 层 移动 大量 的 数据 了, 也不 需要 产生 新的 任务。 (4) Cloudera Manager: 一个 复 用于 部署、 管理 和 监控 CDH 大数 据 平台 的 应用 程序。 Cloudera Manager 提供 Admin Console, 这是 一种 基于 Web 的 用户 界面, 使得 企业 数据管理 更加 容易 方便。 Cloudera Manager 易于 升级 和 安装 Hadoop 组件, 还 提供 了 在 几分 钟 之内 建立 集群 主 节点 的 高 可用( High Availability)。 它 还包括 Cloudera Manager API, 可用 来 获取 群集 运行 状态 信息 以及 配置 Cloudera Manager。 (5) Cloudera Navigator: 定位 为 Hadoop 提供 数据管理 和 监管 的 工具, 它 简化 了 存储 和 密钥 的 管理。 Cloudera Navigator 中 强大 的 数据 审计 和数 据 保护 使 企业 能够 满足 严格 的 规范 限制 并 遵从 相关 法规。
  8. Cloudera 的 Hadoop 发行 版 CDH 简介?Cloudera 提供 了 Hadoop 的 商业 发行 版 CDH, 能够 十分 方便 地 对 Hadoop 集群 进行 安装、 部署 和 管理。 如图 2- 1 所示, CDH 是 Cloudera 发布 的 一个 自己 封装 的 Hadoop 商业 版 软件 发行 包, 里面 不仅 包含 了 Cloudera 的 商业 版 Hadoop, 同时 CDH 中 也 包含 了 各类 常用 的 开源 数据处理 与 存储 框架, 如 Spark、 Hive、 HBase 等。
  9. Cloudera Manager概述?Cloudera Manager( 简称 CM) 是 为了 便于 在 集群 中 进行 Hadoop 等 大 数据处理 相关 的 服务 安装 和 监控 管理 的 组件, 对 集群 中 主机、 Hadoop、 Hive、 Spark 等 服务 的 安装 配置 管理 做了 极大 简化。 它是 Hadoop 集群 的 软件 分发 及 管理 监控 平台, 通过 它可 以 快速 地 部署 好一个 Hadoop 集群, 并对 集群 的 节点 及 服务 进行 实时 监控。
  10. Cloudera Manager 作为 Hadoop 大数 据 平台 的 管理 工具, 能够 有效地 帮助 用户 更容易 地 使用 Hadoop。 它的 基本 核心 功能 分为 四大 模块: 管理 功能、 监控 功能、 诊断 功能 和 集成 功能。

原文地址:https://www.cnblogs.com/songdongdong6/p/10805613.html

时间: 2024-10-03 22:50:38

Cloudera hadoop 大数据平台实战指南(1)的相关文章

《Cloudera hadoop大数据平台实战指南》此书预计2018年12月底上市

这本书由宋立桓老师和陈建平老师共同合作,本书的切入点明确而清晰,从Hadoop 生态明星 Cloudera 入手,单刀直入逐步引出各类大数据基础和核心应用框架. 全书系统介绍了大数据的相关知识,全书共十八章(宋立桓老师撰写第一章到第十二章.陈建平撰写第十三章到第十八章),从大数据概述.Cloudera hadoop平台的安装部署.并对大数据hadoop组件分别进行介绍,包括HDFS分布式文件系统.MapReduce计算框架.资源管理框架YARN .hive数据仓库.数据迁移工具Sqoop.分布式

ambari 搭建hadoop大数据平台系列4-配置ambari-server

ambari 搭建hadoop大数据平台系列4-配置ambari-server,分为三部分: 官网:  https://docs.hortonworks.com/HDPDocuments/Ambari-2.4.2.0/bk_ambari-installation/content/download_the_ambari_repo_lnx7.html 安装ambari-server  配置ambari-server  命令;ambari-server setup 启动ambari-server 命令

上海Cloudera Hadoop大数据培训:CCAH、CCP:DE

上海Cloudera Hadoop大数据培训:CCAH.CCP:DE 北京.上海.广州长期开班 3月上海开班时间:管理员(3月1-4日):开发者(3月23-26日) [其他课程安排请咨询]15000519329(陈老师) QQ群:Cloudera大数据 478790619 课程内容: [Cloudera Apache Hadoop管理员课程] 课时:4天 学习系统管理的概念和Apache Hadoop的最佳实践, 从安装和配置到负载均衡和调优. 这个4天的的课程通过动手时间来赋予你部署的经验,

北京上海Cloudera Hadoop大数据培训:CCAH(管理员)、CCA(程序员)

北京上海Cloudera Hadoop大数据培训:CCAH(管理员).CCA(Spark and Hadoop) 北京9月27-30日Cloudera  Administrator Training for Apache Hadoop(CCAH) 上海9月27-30日Cloudera  Administrator Training for Apache Hadoop(CCAH) 北京10月17-20日Cloudera Data Analyst Training 上海10月27-30日Cloude

数据仓库和Hadoop大数据平台有什么差别?

广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用.因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类产品. 但是数据仓库和Hadoop平台还是有很多显著的不同.针对不同的使用场景其发挥的作用和给用户带来的体验也不经相同.用户可以根据下表简单判断什么场景更适合用什么样的产品.  数据仓库和Hadoop大数据平台特性比较 特性 Hadoop Data Warehouse 计算节点数 可到数千个 一般在

hadoop大数据平台架构之DKhadoop详解

hadoop大数据平台架构之DKhadoop详解大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展.高效率.高可靠等优点越来越受到欢迎.这同时也带动了hadoop商业版的发行.这里就通过大快DKhadoop为大家详细介绍一下hadoop大数据平台架构内容.目前国内的商业发行版hadoop除了大快DKhadoop以外还有像华为云等.虽然发行方不同,但在平台架构上相似,这里就以我比较熟悉的dkhadoo

hadoop大数据平台安全基础知识入门

概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证明是有效的,且不是伪造的.否则,就拒绝这个使用者进入大数据引擎. 授权管理 这个使用者的真实身份核实之后,需要对这个使用者的使用权限进行界定,即这个使用者在大数据平台中能够使用什么组件,能够获取哪些资源,

ambari 搭建hadoop大数据平台系列1-概述

最近要为第三方搭建一套大数据平台,中间先进行了虚拟机版本,测试通过后,进行了物理机版本的生产环境,网上关于ambari 的文章并不多,但好在ambari 官方文档质量略高,社区比较活跃,便整理该系列的文档,将埋掉的坑抛出来,帮助小伙伴们更加快速的搭建自己的hadoop 平台. 分三个部分: 1. 为什么选择ambari 来搭建 说到ambari, 主要的对手cloudrea manager ,大家比较熟悉,至于各自长短,优势劣汰,大家自己斟酌选择啦. Cloudera Manager is di

Cloudera Manager大数据平台搭建

在企业里快速搭建大数据平台除了Ambria外还可以用Cloudera Manager,这两种工具相对于纯手工搭建确实便捷很多,但是有利也有弊,相对于新手来说就不便于掌握内部原理,不好排错等,而纯手工搭建,出错较多,不容易成功. 一. 规划:192.168.3.201 server/agent mysql 192.168.3.202 agent namenode 192.168.3.203 agent namenode(备) resourcemanager192.168.3.204 agent r