SparkSQL极速入门 整合Kudu实现广告业务数据分析

第1章 课程介绍&学习指南
本章会对这门课程进行说明并进行学习方法介绍。

第2章 为什么要学Spark
Spark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、Spark开发语言及运行模式等。

第3章 Spark SQL快速入门
Spark SQL面世已来,深受小伙伴们的喜爱,继续为Spark用户提供高性能SQL on Hadoop解决方案,还为Spark带来了通用、高效、多元一体的结构化数据处理能力。本章将从为什么要学习SQL/Spark SQL、SQL on Hadoop框架、Spark SQL概述、架构及快速入门,这几个角度进行展开讲解...

第4章 Spark SQL API编程
DataFrame&Dataset是Spark2.x中最核心的编程对象,Spark2.x中的子框架能够使用DataFrame或Dataset来进行数据的交互操作。本章将从DataFrame的概述、DataFrame对比RDD、DataFrame API操作等方面对DataFrame做详细的编程开发讲解。

第5章 Data Source API
Spark SQL中的核心功能,可以使用Data Source API非常方便的对存储在不同系统上的不同格式的数据进行操作。本章将讲解如何使用Data Source API来操作text、json、Parquet、JDBC中的数据以及综合使用。

第6章 整合Hive操作及函数
如何使用Spark对接已有数据仓库Hive中的数据,这是在生产中常见的问题。本章将讲解如何使用Spark无缝对接Hive中已有数据进行处理,thriftserver的使用、以及如何使用Spark SQL中的内置函数以及自定义函数。

第7章 Kudu入门
近两年,KUDU在大数据平台的应用越来越广泛,她是Cloudera开源的运行在Hadoop平台上的列式存储系统,能够为我们提供“fast analytics on fast data”。本章将从Kudu的核心概念、架构、部署、API操作以及Spark整合Kudu的使用展开讲解。

第8章 基于Spark SQL和Kudu的广告业务项目实战(一)
本章使用Spark SQL整合Kudu对广告业务项目进行统计分析操作。涉及到的过程有:项目架构、数据清洗、数据统计、结果入库、项目重构。通过本实战项目将Spark SQL和Kudu中的知识点融会贯通,达到举一反三的效果 。

第9章 基于Spark SQL和Kudu的广告业务项目实战(二)
基于上一章节做更复杂维度的统计分析,作业的封装、调度。

第10章 Spark调优策略
Spark应用调优是一个在生产上或者面试中老生常谈的问题,本章节将从资源设置、广播变量、Shuffle、JVM引发的相关角度逐一展开讲解。

第11章 Presto初识
Preso也是当下用的非常多的一种SQL on Hadoop的解决方案。本章节将从Presto架构、API操作等角度出发,通过一个案例来进行综合演练。

第12章 云平台建设的思考
本章将从如何建设大数据云平台的角度,涉及到数据平台的N个方面,是小伙伴以后进入大厂工作奠定基础,同时也会从Spark vs Flink的角度来为小伙伴们分析选型时的疑惑。

下载地址:SparkSQL极速入门 整合Kudu实现广告业务数据分析

原文地址:https://www.cnblogs.com/iyue/p/11832379.html

时间: 2024-08-04 03:23:14

SparkSQL极速入门 整合Kudu实现广告业务数据分析的相关文章

腾讯架构新调整 微信广告业务被收回

日前,腾讯对广告部门进行了架构调整,将原先的“效果广告平台部”与“微信广告中心”合并为“社交与效果广告部”,公司所有社交广告业务都将统一至该部门. 新成立的“社交与效果广告部”麾下,主要是微信广告中心和广点通两大业务.而微信广告中心的业务主要包括微信公众号广告,以及朋友圈广告. 此前,腾讯旗下的广告业务分属不同事业群.腾讯称,此举是为促进腾讯广告业务及平台生态的更好发展. 据悉,今年3月,在2014财年财报分析师会议上,腾讯执行董事刘炽平曾表示,微信公众号广告市场规模很大,腾讯希望在这方面挖掘更

AppCan开发极速入门,从0开始!

由于种种原因而不能参加AppCan线下培训,遗憾! 不喜欢视频教程的单机节奏,苦恼! AppCan线上直播课堂,冲破时间.地域.空间限制,从0开始,教你如何极速入门AppCan移动开发! 本次线上直播内容以插件的使用.项目实战为主,将线下开发者培训课程进行精简,高效的呈现给大家, 6小时即可让你快速上手移动APP开发! PS:直播课堂中老师会按需求量进行大众问题的答疑,对课程有疑问的同学请将问题统统抛过来! 1.开播时间 3月24 日-3月25日(14:30-17:30) 2.必备知识 1).H

spring freemarker入门整合

由于Spring默认对freemarker做了支持,所以spring集成freemarker变得很简单.有的项目甚至完全使用模板来做页面展示. 废话少说,看如果使用: 1. 要引入spring所需包 2. 加入freemarker包 <dependency> <groupId>org.freemarker</groupId> <artifactId>freemarker</artifactId> <version>2.3.20<

为啥移动办公oa管理软件能整合企业原有的业务系统?

一般情况下,企业在引入移动办公oa管理软件之前就有了相关的一些业务系统,或是CRM系统,或是oa管理软件等等,所以,引进移动办公oa管理软件最重要的就是要整合企业原有的业务系统,让移动办公oa管理软件与企业的原有系统更好的统一协作,这样才能更加有效的促进企业的发展. 移动办公oa管理软件导入之后第一时间应该处理的问题就是整合问题,只有整合这些oa管理软件才能让移动办公oa管理软件与其他系统更好的融合,人们的工作和使用才会更加顺利.在整合移动办公oa管理软件与企业其他业务系统的时候首先需要全体员工

《Python黑客编程之极速入门》正式开课

玄魂 玄魂工作室 今天 之前开启了一个<Python黑客编程>的系列,后来中断了,内容当时设置的比较宽,不太适合入门.现在将其拆分成两个系列<Python黑客编程之极速入门>和<Python黑客编程之网络安全>,以便初学者有一个入门和提升的过程. 我们首先开启的是<Python黑客编程之极速入门>,考虑到学习质量的保证问题, 这次采用的是培训的方式,图文教程+课后练习+答疑+案例介绍+扩展阅读. 培训目前只面向我们知识星球内部成员(加入星球自动享受该课程权益

1 小时 SQL 极速入门(三)——分析函数

转自:https://www.cnblogs.com/injet/p/10122832.html 前面两篇我们从 SQL 的最基础语法讲起,到表联结多表查询.大家可以点击链接查看1 小时 SQL 极速入门(一)1 小时 SQL 极速入门(二)今天我们讲一些在做报表和复杂计算时非常实用的分析函数.由于各个数据库函数的实现不太一样,本文基于 Oracle 12c . ROW_NUMBER()函数 这个函数在平时用的还是比较多的.这个函数的作用是为分组内的每一行返回一个行号.我们还是举例来说明.假设我

spring入门-整合junit和web

整合Junit 导入jar包 基本 :4+1 测试:spring-test-5.1.3.RELEASE.jar 让Junit通知spring加载配置文件 让spring容器自动进行注入 123456789101112131415 import org.junit.Test;import org.junit.runner.RunWith;import org.springframework.beans.factory.annotation.Autowired;import org.springfr

谷歌文字广告的数据分析

根据以往投放的广告的数据积累,还有不同的地域投放的不同的广告跑出来的数据,来看写什么样的广告语最适合当地人的搜索习惯和最能吸引当地人的点击: 首要的是分析你的广告语主要是针对什么的,比如:你的某一条广告语主要突出的是产品的质量,而另一条广告语主要突出的是价格,突出质量的广告获得了较多的点击, 而突出价格的广告语展示很多次都没有人点,说明当地人比较注重产品的质量,而非价格,所以广告语中要突出质量,多写有创意的质量的广告语,以吸引点击. 注:一定要注重分析客户行为! 谷歌文字广告的数据分析

【整合篇】Activiti业务与流程整合之查询(三)

继前两篇博客:应用第三种方式 实体中不需要引入任何与工作流相关的任何属性,单纯的做好自己即可!例如如下申请实体(Leave): package com.tgb.itoo.basic.entity; import java.util.Date; import java.util.HashSet; import java.util.Map; import java.util.Set; import javax.persistence.CascadeType; import javax.persist