- 大数 据 主要 具有 四方 面的 典型 特征—— 规模 性( Volume)、 多样性( Variety)、 高速 性( Velocity) 和 价值 性( Value), 即 所谓 的" 4V"。
- 大数据时代的关键技术:(1) 大数 据 采集 技术(2) 大 数据 预处理 技术(3) 大数 据 存储 及 管理 技术(4) 大数 据分析 及 挖掘 技术(5) 大 数据 可 视 化 展现 技术
- 什么是hadoop?Hadoop 最初 是 开 始于 2002 年的 Apache 的 Nutch 项目。 Nutch 是一 个 开源 Java 实现 的 搜索 引擎, 它 遇到 的 难题 是, 在 抓取 Web 数据 时 如何 保存 和 使用 这些 庞大 的 数据。 随后 Google 在 2003 年 发表 了 一篇 技术 学术论文 谷 歌 文件 系统( GFS, Google File System, 是 Google 公司 为了 存储 海量 搜索 数据 而 设计 的 专用 文件 系统)。 2004 年 Nutch 创始人 Doug Cutting 模仿 Google 的 GFS 论文 实现 了 分布式 文件 存储 系统 NDFS。2004 年 Google 又 发表 了 一篇 技术 学术论文 MapReduce( 一种 分布式 编程 模型, 用于 大规模 数据 集 的 并行 分析 运算)。 2005 年 Doug Cutting 基于 MapReduce 的 思想, 在 Nutch 搜索 引擎 实现 了 该 功能。 2006 年, Yahoo 邀请 Doug Cutting 加盟, Doug Cutting 将 NDFS 和 MapReduce 升级 命名为 Hadoop。 2008 年 1 月, Hadoop 正式 成为 Apache 的 顶 级 项目, 开始 被 雅 虎 之外 的 其他 公司 使用。 2009 年, Yahoo 使用 4000 节点 的 机群 运行 Hadoop, 支持 广告 系统 和 Web 搜索 的 研究。 Facebook 的 Hadoop 机群 扩展到 数千 个 节点, 用于 存储 内部 日志 数据, 支持 其上 的 数据 分析 和 机器 学习。 淘 宝 的 Hadoop 系统 达到 千 台 规模, 用于 存储 并 处理 电子 商务 的 交易 相关 数据。 Hadoop 改变 了 企业 对 数据 的 存储、 处理 和 分析 的 过程, 加速 了 大 数据 的 发展, 形成 了 自己 非常 火爆 的 技术 生态 圈, 成为 事实上 的 大 数据处理 标准。
- Hadoop的特点?低成本,高扩展性,高效率,高可靠性
- Hadoop生态系统?早期 的 Hadoop( 包括 Hadoop v1. 0 以及 更早 之前 的 版本) 主要 由 两个 核心 组件 构成: HDFS 和 MapReduce。 其中, HDFS 分布式 文件 系统 是 Google GFS 的 开源 版本, MapReduce 分布式 计算 框架 实现 了 由 Google 工程师 提出 的 MapReduce 编程 模型。 还有 一些 围绕 在 Hadoop 周围 的 开源 项目, 为 完善 大 数据处理 的 全 生命 周期 提供 了 必要 的 配套 和 补充。
这些 软件 常 用的 有
ZooKeeper( 分布式 协调 服务)、
Hive( 基于 Hadoop 的 数据 仓库 工具)、
HBase( 实时 分布式 数据库)、
Pig( 数据 流 语言 和 运行 环境)、
Flume( 日志 采集 工具)、
Sqoop( Hadoop 和 关系 数据库 导入 导出 工具)、
Mahout( 数据 挖掘 工具)
等,
2012 年 5 月, Hadoop v2. 0 版本 发布, 其中 重要的 变化 是在 Hadoop 核心 组件 中 增加 了 YARN, YARN 的 出现 是 为了 把 计算 框架 与 资源 管理 彻底 分离, 解决 Hadoop v1. 0 由此 带来 的 扩展性 差、 单 点 故障 和 不能 同时 支持 多种 计算 框架 的 问题, 至此 Hadoop 与 Google 的 大数 据 平台 比 肩。
- Cloudera大数据平台简介?Cloudera 提供 一个 可扩展 的、 灵活 的、 集成 的 企业 级 大 数据管理 平台, 可用 来 方便 地 管理 你的 企业 中 快速 增长 的 多种多样 的 数据。 业界 领先 的 Cloudera 产品 和解 决 方案 使 你能 够 部署 并 管理 Apache Hadoop 及其 相关 项目、 操作 和 分析 你的 数据, 以及 保护 数据 的 安全。
- Cloudera 提供 下列 产品 和 工具?(1) CDH: Cloudera 分发 的 Apache Hadoop 和 其他 相关 开放 源 代码 项目, 包括 Impala 和 Cloudera Search。 CDH 还 提供 安全 保护 以及 与 许多 硬件 和 软件 解决 方案 的 集成。 (2) Cloudera Impala: 一种 MPP( 大规模 并行 处理) SQL 引擎, 用于 交互式 查询 分析。 它 非常 适合 用于 具有 连接、 聚合 和 子 查询 的 传统 BI 商业 智能 的 查询。 它可 以 查询 来自 各种 源 的 Hadoop 数据 文件, 包括 由 MapReduce 作业 生成 的 数据 文件 或 加载 到 Hive 表中 的 数据 文件。 你 可以 通过 Cloudera Manager 用户 界面 管理 Impala 及其他 Hadoop 组件, 并 通过 Sentry 授权 框架 保护 其 数据。 (3) Cloudera Search: 提供 近 实时 访问 已 存储 的 数据, 或者 摄取 数据 到 Hadoop 以及 HBase 中去。Search 提供 了 近 实时 的 索引、 批量 索引、 全文 检索 和 Drill- Down( 下钻) 的 导航, 以及 一个 简单 的 全文 检索 的 接口, 只需 要 一些 NoSQL 或者 编程 基础( 技能) 即可 使用。 完全 集成 的 数据处理 平台 Search 使 用了 在 CDH 中 灵活 的、 可扩展 的、 可靠 的 存储 系统。 这样 就不 再 需要 在 基础 设施 层 或者 业务 层 移动 大量 的 数据 了, 也不 需要 产生 新的 任务。 (4) Cloudera Manager: 一个 复 用于 部署、 管理 和 监控 CDH 大数 据 平台 的 应用 程序。 Cloudera Manager 提供 Admin Console, 这是 一种 基于 Web 的 用户 界面, 使得 企业 数据管理 更加 容易 方便。 Cloudera Manager 易于 升级 和 安装 Hadoop 组件, 还 提供 了 在 几分 钟 之内 建立 集群 主 节点 的 高 可用( High Availability)。 它 还包括 Cloudera Manager API, 可用 来 获取 群集 运行 状态 信息 以及 配置 Cloudera Manager。 (5) Cloudera Navigator: 定位 为 Hadoop 提供 数据管理 和 监管 的 工具, 它 简化 了 存储 和 密钥 的 管理。 Cloudera Navigator 中 强大 的 数据 审计 和数 据 保护 使 企业 能够 满足 严格 的 规范 限制 并 遵从 相关 法规。
- Cloudera 的 Hadoop 发行 版 CDH 简介?Cloudera 提供 了 Hadoop 的 商业 发行 版 CDH, 能够 十分 方便 地 对 Hadoop 集群 进行 安装、 部署 和 管理。 如图 2- 1 所示, CDH 是 Cloudera 发布 的 一个 自己 封装 的 Hadoop 商业 版 软件 发行 包, 里面 不仅 包含 了 Cloudera 的 商业 版 Hadoop, 同时 CDH 中 也 包含 了 各类 常用 的 开源 数据处理 与 存储 框架, 如 Spark、 Hive、 HBase 等。
- Cloudera Manager概述?Cloudera Manager( 简称 CM) 是 为了 便于 在 集群 中 进行 Hadoop 等 大 数据处理 相关 的 服务 安装 和 监控 管理 的 组件, 对 集群 中 主机、 Hadoop、 Hive、 Spark 等 服务 的 安装 配置 管理 做了 极大 简化。 它是 Hadoop 集群 的 软件 分发 及 管理 监控 平台, 通过 它可 以 快速 地 部署 好一个 Hadoop 集群, 并对 集群 的 节点 及 服务 进行 实时 监控。
- Cloudera Manager 作为 Hadoop 大数 据 平台 的 管理 工具, 能够 有效地 帮助 用户 更容易 地 使用 Hadoop。 它的 基本 核心 功能 分为 四大 模块: 管理 功能、 监控 功能、 诊断 功能 和 集成 功能。
原文地址:https://www.cnblogs.com/songdongdong6/p/10805613.html
时间: 2024-10-03 22:50:38