基于Python Spark的大数据分析(第一期)
课程介绍地址:http://www.xuetuwuyou.com/course/173
课程出自学途无忧网:http://www.xuetuwuyou.com
讲师:轩宇老师
1、开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!);
2、学习方式:在线直播,共8次课,每次2小时,每周2次(周三、六,晚上20:30 - 22:30),提供在线视频,课后反复学习;
3、报名课程后,请联系客服申请加入班级答疑交流QQ群;
4、公开课时间:5.16日(周二)晚20:30,欢迎大家试听
课程内容:
一、pyspark环境篇
①python2.7+pycharm环境配置
②anaconda环境配置
③python数据结构及函数使用
④Spark2.x环境配置
2、pyspark基础篇
①配置pyspark模块到pycharm
②基于pyspark编程实现wordcount(词频统计)
③spark-submit提交spark application
④案例:基于pyspark电商网站数据分析
⑤深入理解pyspark内部工作原理
3、pyspark进阶篇
①基于pyspark的sparksql编程(sql和dsl)
②案例:淘宝用户数据分析(集成hive使用)
③如何定义、注册和使用udf
④基于pyspark的sparkstreaming实时计算
⑤案例:实时销售额统计和商品点击趋势分析
4、pyspark项目篇
①实战项目:美国宇航局肯尼迪航天中心web日志
②数据统计:数据总览、http响应状态相关统计分析、客户端相关访问统计分析、uri访问相关统计分析
5、bigdata实战篇
①使用hbase的pyton api访问数据
②实战:爬取电子商务网站的图片和商品信息
③python的爬虫(beautifulsoap和mechnize)
④数据存储hbase表及分析