Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

第一天

2.Hadoop框架介绍与搜索技术体系介绍

1. 大数据典型特性与分布式开发难点
2. Hadoop框架介绍与搜索技术体系介绍
3. Hadoop版本与特性介绍
4. Hadoop核心模块之HDFS分布式文件系统架构介绍
5. Hadoop核心模块之Yarn操作系统架构介绍
6. Linux安全禁用设置与JDK安装讲解
7. Hadoop伪分布式环境部署HDFS部分
8. Hadoop伪分布式环境部署Yarn和MR部分
9. Hadoop环境使用常见的错误集合
10. Hadoop环境常规设置与辅助功能讲解(-)
11. Hadoop环境常规设置与辅助功能讲解(二)
12. Windows环境下部署Eclipse插件注意事项

2.Hadoop框架介绍与搜索技术体系介绍

1.hadoop介绍

-》官网:http://hadoop.apache.org

-》hadoop商业三大发行版

-》Apache         -》apache

-》cloudera       -》CDH

-》hostonwork  -》HDP

-》分布式

-》爬虫

-》存储(加硬盘,但是单台机器是有限的)&处理分析

-》快速查询

-》分开计算,结果合并

-》google-》Mapreduce论文

-》map

-》reduce

-》HDFS   文件系统和数据库是不一样的

-》HBase

-》搜索引擎的技术体系

-》数据获取

-》(外网,互联网抓取数据)

-》数据库

-》数据存储-》HDFS&Hbase

-》yarn操作系统

-》数据计算

-》sql实时查询(消息队列,监控系统)

-》辅助型框架,比如zookeeper

-》生成索引,搜索的索引(商品推荐和自己平时搜索的信息有关)

-》返回个前端用户

-》离线系统-》hadoop生态圈

-》数据获取

-》(外网,互联网抓取数据)

-》云存储

-》全量或者增量导入(同步到hbase当中,sql语句当中)

-》复杂离线处理的过程(job运行,业务的逻辑,表的join,字段的合并)

-》mapreduce(实现全量或者增量数据的更新)

-》其他的框架实现实时数据的更新

这样我整个的数据变化就可以实现秒级的速度   更新到搜索引擎

原文地址:http://blog.51cto.com/10484979/2066288

时间: 2024-12-14 14:31:43

Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)的相关文章

hadoop学习系列(1.大数据典型特性与分布式开发难点)

第一天 1.大数据典型特性与分布式开发难点 1. 大数据典型特性与分布式开发难点 2. Hadoop框架介绍与搜索技术体系介绍 3. Hadoop版本与特性介绍 4. Hadoop核心模块之HDFS分布式文件系统架构介绍 5. Hadoop核心模块之Yarn操作系统架构介绍 6. Linux安全禁用设置与JDK安装讲解 7. Hadoop伪分布式环境部署HDFS部分 8. Hadoop伪分布式环境部署Yarn和MR部分 9. Hadoop环境使用常见的错误集合 10. Hadoop环境常规设置与

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

大数据学习系列之六 ----- Hadoop+Spark环境搭建

引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了.在之前的大数据学习系列之一 ----- Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark 的环境.虽然搭建的是单机版,

大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭

hadoop 学习笔记:mapreduce框架详解

hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的 思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习 hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不

Hadoop 学习笔记五 ---Hadoop系统通信协议介绍

本文约定: DN: DataNode TT: TaskTracker NN: NameNode SNN: Secondry NameNode JT: JobTracker 本文介绍Hadoop各节点和Client之间通信协议. Hadoop的通信是建立在RPC的基础上,关于RPC的详解介绍大家可以参照 "hadoop rpc机制 && 将avro引入hadoop rpc机制初探" Hadoop中节点之间的通信是比较复杂的一个网络,若可以把它们之间的通信网络了解清楚,那么

Hadoop 学习笔记四 ---Hadoop系统通信协议介绍

本文约定: DN: DataNode TT: TaskTracker NN: NameNode SNN: Secondry NameNode JT: JobTracker 本文介绍Hadoop各节点和Client之间通信协议. Hadoop的通信是建立在RPC的基础上,关于RPC的详解介绍大家可以参照 "hadoop rpc机制 && 将avro引入hadoop rpc机制初探" Hadoop中节点之间的通信是比较复杂的一个网络,若可以把它们之间的通信网络了解清楚,那么

Hadoop学习系列笔记一:搭建hadoop源码阅读环境

本文来源于<Hadoop技术内幕深入解析Hadoop common和HDFS架构设计与实现原理> 一.Hadoop基本概念 Hadoop是Apache基金会下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设施. HDFS的高容错性.高伸缩性等优点,允许用户将Hadoop部署在廉价的硬件上,构建分布式系统. MapReduce分布式计算计算框架则允许用户在不了解分布式系统底层细节的情况下开发并行.分