基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战 
课程学习入口:http://www.xuetuwuyou.com/course/184
课程出自学途无忧网:http://www.xuetuwuyou.com

课程简介:
某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用。

课程内容
(1)文件收集框架 Flume
①Flume 设计架构、原理(三大组件)
②Flume 初步使用,实时采集数据
③实际案例:使用Flume监控数据,实时收集存储HDFS中

(2)大数据分析平台架构
①数据平台三大模块
让技术产生价值!
②分析平台业务数据
③大数据平台技术选型和搭建配置测试

(3)数据分析平台七大业务分析
①具体的七大业务分析,针对不同的数据
②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。
③依据业务深入MapReduce使用
④数据处理时,针对不同问题如何优化调整等

课程目录:
第1章:大数据离线项目:企业大数据项目业务及设计
1.大数据项目的开发流程  
2.大数据的应用领域(一)
3.大数据的应用领域(二) 
4.大数据分析平台(一) 
5.大数据分析平台(二)
6.数据量及集群规模的规划(一) 
7.数据量及集群规模的规划(二) 
8.企业常见数据分析需求(一) 
9.企业常见数据分析需求(二)

第2章:大数据离线项目:数据采集框架Flume
10.Flume的介绍及其架构组成 
11.Flume的安装部署
12.Flume的测试运行 
13.Flume中配置使用file channel及HDFS sink
14.Flume中配置HDFS文件生成大小及时间分区 
15.Flume中配置Spooling Dir的使用 
16.Flume中配置Spooling Dir的文件过滤 
17.Flume中配置扇入架构的介绍 
18.Flume中配置扇入架构的测试实现 
19.Flume中配置扇出架构的实现 
20.Flume中Taildir的介绍及编译 
21.Flume中Taildir的配置及测试使用

第3章:大数据离线项目:Nginx+Flume实现数据采集
22.项目技术架构介绍 
23.项目技术架构图
24.项目中框架的技术选型 
25.Tengine的介绍及源码编译 
26.Tengine的启动及测试 
27.配置使用service命令管理nginx服务
28.SDK与Nginx关联测试
29.SDK的设计思路及重要事件类型的介绍 
30.JS SDK 与 JAVA SDK的代码实现 
31.Nginx中配置自定义收集方案 
32.Flume进行数据采集 
33.Flume的负载均衡及故障转移及美团的使用案例

第4章:大数据离线项目:ETL的业务分析及实现(一)
34.Nginx日志分割脚本的实现(一) 
35.Nginx日志分割脚本的实现(二) 
36.Nginx日志上传脚本的实现 
37.ETL的流程分析 
38.数据分析项目的导入 
39.日志解析类的实现(一) 
40.日志解析类的实现(二) 
41.日志解析类的实现(三) 
42.日志解析类的实现(四) 
43.ETL具体代码流程分析 
44.项目中Hbase表的设计

第5章:大数据离线项目:ETL的业务分析及实现(二)
45. ETL的Map类的实现(一) 
46.ETL的Map类的实现(二) 
47.ETL的Driver类的实现(一)
48. ETL的Driver类的实现(二) 
49.ETL的Driver类的实现(三) 
50.ETL的本地运行测试 
51. ETL的集群运行测试

第6章:大数据离线项目:数据分析的思路及代码实现
52.新增访客的统计分析实现思路(一) 
53.新增访客的统计分析实现思路(二) 
54.使用MapReduce实现思路分析 
55.Hbase中值和字段的过滤(一) 
56.Hbase中值和字段的过滤(二) 
57.Hbase中值和字段的过滤(三) 
58.新增用户统计Map代码的实现(一) 
59.新增用户统计Map代码的实现(二) 
60.新增用户统计Map代码的实现(三) 
61.新增用户统计Reduce及Driver代码的实现(一)
62.新增用户统计Reduce及Driver代码的实现(二)

第7章:大数据离线项目:Hourly分析及可视化展示
63.MapReduce中自定义输入输出 
64.新增用户统计代码的讲解(一) 
65.新增用户统计代码的讲解(二) 
66.hourly分析-hbase与hive的集成 
67.hourly分析-活跃用户的分析 
68.hourly分析-会话长度的分析 
69.hourly分析-平均访问时长分析及sqoop导出 
70.使用zeus实现项目任务调度(一) 
71.使用zeus实现项目任务调度(二) 
72.使用zeus实现项目任务调度(三) 
73.使用zeus实现项目任务调度(四) 
74.数据展示层及Highcharts的使用讲解(一) 
75.数据展示层及Highcharts的使用讲解(二) 
76.项目总结(一) 
77.项目总结(二)

hadoop课程整合推荐:

跟轩宇老师学习大数据基础框架Hadoop
课程观看地址:http://www.xuetuwuyou.com/course/193

Hadoop架构设计与源码分析
课程观看地址:http://www.xuetuwuyou.com/course/88

Hadoop实战+超大集群调优 
课程观看地址:http://www.xuetuwuyou.com/course/97

Hadoop零基础高端实战培训(CDH5、hive、Sqoop) 
课程观看地址:http://www.xuetuwuyou.com/course/62

时间: 2024-12-26 19:02:04

基于Hadoop离线大数据分析平台项目实战的相关文章

《开拓者开发团队》第二次作业:基于弹幕评论的大数据分析平台项目开题报告

一.项目申请简表 项目名称 基于弹幕评论的大数据分析平台 项 目 类 别 本科生 研究生 学术课题项目填写标 记(√) ( ) A.自然科学学术论文 (√ ) B.科技发明制作 ( ) C.社会科学论文与调查报告 类别 标记 ( ) (  ) A.学术科研类项目 (  ) B.社会调查类项目 (  ) C.创新实践类项目 创新创业 项目填写 标记(√) (√)信息技术         (  )电子商务         (  )健康医疗 (  )新能源新材料   (  )跨境电子商务    ( 

【大数据干货】基于Hadoop的大数据平台实施——整体架构设计

大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>--云里雾里的感觉.或许那些正

【Hadoop大数据分析与挖掘实战】(一)----------P19~22

这是一本书的名字,叫做[Hadoop大数据分析与挖掘实战],我从2017.1开始学习 软件版本为Centos6.4 64bit,VMware,Hadoop2.6.0,JDK1.7. 但是这本书的出版时间为2016.1,待到我2017.1使用时,一部分内容已经发生了翻天覆地的变化. 于是我开始写这么一个博客,把这些记录下来. 我使用的软件版本为: 软件 版本 操作系统 CentOS 7 64bit-1611 虚拟机 VMware 12.5.2 Hadoop 2.7.3 JDK 1.8.0 本人大二

【Hadoop大数据分析与挖掘实战】(三)----------P23~25

6.安装Hadoop 1)在Hadoop网站下,下载稳定版的并且已经编译好的二进制包,并解压缩. [[email protected] ~]$ wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz [[email protected] ~]$ tar -zxvf hadoop-2.7.3.tar.gz ~/opt [[email protected] ~]$ ~/opt/hado

Apache Kylin大数据分析平台的演进

Apache Kylin大数据分析平台的演进 转:http://mt.sohu.com/20160628/n456602429.shtml 我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO.今天我主要来和大家分享一下来Apache Kylin 1.5的新功能和架构改变. Apache Kylin是什么 Kylin是最近两年发展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知.Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的

基于Storm构建实时热力分布项目实战

详情请交流  QQ  709639943 01.基于Storm构建实时热力分布项目实战 02.以慕课网日志分析为例 进入大数据 Spark SQL 的世界 03.Spring Cloud微服务实战视频课程 04.漫谈spring cloud 与 spring boot 基础架构 05.Java秒杀系统方案优化 高性能高并发实战 06.Java深入微服务原理改造房产销售平台 07.快速上手Linux 玩转典型应用 08.漫谈spring cloud分布式服务架构 09.Java Spring Se

如何构建一个企业的大数据分析平台

面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题. 大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作.在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决

使用Apache Kylin搭建企业级开源大数据分析平台

使用Apache Kylin搭建企业级开源大数据分析平台 转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程

如何打造高性能大数据分析平台

1.大数据是什么? 大数据是最近IT界最常用的术语之一.然而对大数据的定义也不尽相同,所有已知的论点例如结构化的和非结构化.大规模的数据等等都不够完整.大数据系统通常被认为具有数据的五个主要特征,通常称为数据的5 Vs.分别是大规模,多样性,高效性.准确性和价值性. 据Gartner称,大规模可以被定义为"在本(地)机数据采集和处理技术能力不足以为用户带来商业价值.当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案. 这种大规模的数据没将不仅仅是来自于现有的