深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)

Hadoop是什么,为什么要学习Hadoop?


    
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
   Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
   Hadoop带有用Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。本课程的讲解是采用linux平台进行模拟讲解,完全基于真实场景进行模拟现实

亮点一:技术点全面,体系完善

本课程在兼顾Hadoop课程知识体系完善的前提下,把实际开发中应用最多、最深、最实用的技术抽取出来,通过本课程,你将达到技术的新高点,进入云计算的美好世界。在技术方面你将彻底掌握基本的Hadoop集群;Hadoop HDFS原理;Hadoop HDFS基本的命令;Namenode的工作机制;HDFS基本配置管理;MapReduce原理; HBase的系统架构;HBase的表结构;HBase如何使用MapReduce;MapReduce高级编程;split的实现详解;Hive入门;Hive结合MapReduce;Hadoop的集群安装等众多知识点。

亮点二:基础+实战=应用,兼顾学与练

课程每阶段都安排了实战应用项目,以此方便学生能更快的掌握知识点的应用,如在第一阶段,课程结合HDFS应用,讲解了图片服务器的设计、以及如何利用Java API去对HDFS操作、在第二阶段;课程结合HBase实现微博项目的各种功能,使学员可以活学活用。在第三阶段:HBase和MapReduce结合时下了实现话单查询与统计系统,在第四阶段,Hive实战部分,通过实战数据统计系统,使学员在最短的时间内掌握Hive的高级应用。

 亮点三:讲师丰富的电信集团云平台运作经验

讲师robby拥有丰富的电信集团工作经验,目前负责云平台的各方面工作,并拥有多年的企业内部培训经验。讲课内容完全贴近企业需求,绝不纸上谈兵。

更多技术亮点参考课程大纲:(本大纲以章节形式命名要为防止某些章节1章节内容超过1课时)

第1章节:
> Hadoop背景
> HDFS设计目标
> HDFS不适合的场景
> HDFS架构详尽分析
> MapReduce的基本原理

第2章节
> Hadoop的版本介绍
> 安装单机版Hadoop
> 安装Hadoop集群

第3章节 
> HDFS命令行基本操作
> Namenode的工作机制
> HDFS基本配置管理

 第4章节
> HDFS应用实战:图片服务器(1) - 系统设计
> 应用的环境搭建 php + bootstrap + java
> 使用Hadoop Java API实现向HDFS写入文件

第5章节 
> HDFS应用实战:图片服务器(2)
> 使用Hadoop Java API实现读取HDFS中的文件
> 使用Hadoop Java API实现获取HDFS目录列表
> 使用Hadoop Java API实现删除HDFS中的文件

第6章节
> MapReduce的基本原理
> MapReduce的运行过程
> 搭建MapReduce的java开发环境
> 使用MapReduce的java接口实现WordCount

第7章节
> WordCount运算过程分析
> MapReduce的combiner
> 使用MapReduce实现数据去重
> 使用MapReduce实现数据排序
> 使用MapReduce实现数据平均成绩计算

第8章节
> HBase详细介绍
> HBase的系统架构
> HBase的表结构,RowKey,列族和时间戳
> HBase中的Master,Region以及Region Server

第9章节
> 使用HBase实现微博应用(1)
> 用户注册,登陆和注销的设计
> 搭建环境 struts2 + jsp + bootstrap + jquery + HBase Java API
> HBase和用户相关的表结构设计
> 用户注册的实现

第10章节 
> 使用HBase实现微博应用(2)
> 使用session实现用户登录和注销
> “关注"功能的设计 
> “关注"功能的表结构设计
> “关注"功能的实现

第11章节
> 使用HBase实现微博应用(3)
> “发微博"功能的设计
> “发微博"功能的表结构设计
> “发微博"功能的实现 
> 展现整个应用的运行

第12章节 
> HBase与MapReduce介绍
> HBase如何使用MapReduce

第13章节 

> HBase应用实战:话单查询与统计(1)
> 应用的整体设计
> 开发环境搭建
> 表结构设计

第14章节 
> HBase应用实战:话单查询与统计(2)
> 话单入库单设计与实现
> 话单查询的设计与实现

第15章节
> HBase应用实战:话单查询与统计(3)
> 统计功能设计 
> 统计功能实现

第16章节 
> 深入MapReduce(1)
> split的实现详解
> 自定义输入的实现
> 实例讲解

第17章节 
> 深入MapReduce(2)
> Reduce的partition 
> 实例讲解

第18章节 
> Hive入门
> 安装Hive
> 使用Hive向HDFS存入结构化数据
> Hive的基本使用

第19章节 
> 使用MySql作为Hive的元数据库
> Hive结合MapReduce

第20章节
> Hive应用实战:数据统计(1)
> 应用设计,表结构设计

第21章节 
> Hive应用实战:数据统计(2)
> 数据录入与统计的实现

时间: 2024-10-10 08:37:10

深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)的相关文章

升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

      Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序

深入浅出Hadoop实战开发教程

升级版深入浅出Hadoop实战开发(云存储.MapReduce.HBase实战微博.Hive应用.Storm应用)http://www.ibeifeng.com/goods-488.html咨询QQ2110053820课程讲师:明义(robby) 课程分类:Hadoop适合人群:初级课时数量:35课时用到技术:hadoop.MapReduce.hbase.hive涉及项目:云存储.微博应用等 课程简介:Hadoop 是一个能够对大量数据进行分布式处理的软件框架.但是 Hadoop 是以一种可靠.

《H5+移动应用实战开发》已出版

<H5+移动应用实战开发>终于出版了,最近在忙着Vue和Webpack相关的前端书籍写稿.本书面向的读者为:从后端转前端,或零基础开始学习移动端开发的人.前后端完全分离的开发方式越来越成为一种趋势,下一本书,将是专业前端书籍,是关于Vue在实际工作中的单页应用开发,涉及到Vue全家桶以及webpack相关技术. 京东:https://item.jd.com/12521607.html 当当:http://product.dangdang.com/27864696.html 天猫:H5+移动应用

深入浅出Hadoop实战开发实例视频教程

Hadoop实例视频教程-深入浅出Hadoop实战开发Hadoop是什么,为什么要学习Hadoop?Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput

Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)

Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的时间内提升工资超过15000.成为一位完全精通Hadoop应用开发的高端人才. Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式

深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)

Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 ?Mahout主页:http://mahout.apache.org/ ?Mahout 最新版本0.8下载: http://mirrors.hust.edu.cn/apache/mahout/0.8/ 使用mahout-distribution-0.8.tar.g

Hadoop应用开发案例(实战)视频教程(项目实战)视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

【课程分享】深入浅出微信公众平台实战开发(微网站、LBS云、Api接口调用、服务号高级接口)

深入浅出微信公众平台实战开发(微网站.LBS云.Api接口调用.服务号高级接口) 课程下载地址:链接:http://pan.baidu.com/share/link?shareid=2214724072&uk=3611155194 密码:glvc 一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景 微信公众平台的火热程度已经不用多言,无论是个人还是企业,政府还是商家,都已经开始搭建微信公众平台,微信的作用已经被各界人士认可.微信公众平台的技术需求市场缺口巨大. 1.2.课程内容简介 本

下载深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)

随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员.Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 . 深入浅出Hadoop Mahout数据挖掘实战(算法分析.