基于Python Spark的大数据分析_pyspark实战项目课程

基于Python Spark的大数据分析(第一期)
课程介绍地址:http://www.xuetuwuyou.com/course/173
课程出自学途无忧网:http://www.xuetuwuyou.com
讲师:轩宇老师

1、开课时间:小班化教学授课,第一期开课时间为5月20号(满30人开班,先报先学!);
2、学习方式:在线直播,共8次课,每次2小时,每周2次(周三、六,晚上20:30 - 22:30),提供在线视频,课后反复学习;
3、报名课程后,请联系客服申请加入班级答疑交流QQ群;
4、公开课时间:5.16日(周二)晚20:30,欢迎大家试听

课程内容:
一、pyspark环境篇
①python2.7+pycharm环境配置
②anaconda环境配置
③python数据结构及函数使用
④Spark2.x环境配置

2、pyspark基础篇
①配置pyspark模块到pycharm
②基于pyspark编程实现wordcount(词频统计)
③spark-submit提交spark application
④案例:基于pyspark电商网站数据分析
⑤深入理解pyspark内部工作原理

3、pyspark进阶篇
①基于pyspark的sparksql编程(sql和dsl)
②案例:淘宝用户数据分析(集成hive使用)
③如何定义、注册和使用udf
④基于pyspark的sparkstreaming实时计算
⑤案例:实时销售额统计和商品点击趋势分析

4、pyspark项目篇
①实战项目:美国宇航局肯尼迪航天中心web日志
②数据统计:数据总览、http响应状态相关统计分析、客户端相关访问统计分析、uri访问相关统计分析

5、bigdata实战篇
①使用hbase的pyton api访问数据
②实战:爬取电子商务网站的图片和商品信息
③python的爬虫(beautifulsoap和mechnize)
④数据存储hbase表及分析

时间: 2024-10-26 10:55:54

基于Python Spark的大数据分析_pyspark实战项目课程的相关文章

《开拓者开发团队》第二次作业:基于弹幕评论的大数据分析平台项目开题报告

一.项目申请简表 项目名称 基于弹幕评论的大数据分析平台 项 目 类 别 本科生 研究生 学术课题项目填写标 记(√) ( ) A.自然科学学术论文 (√ ) B.科技发明制作 ( ) C.社会科学论文与调查报告 类别 标记 ( ) (  ) A.学术科研类项目 (  ) B.社会调查类项目 (  ) C.创新实践类项目 创新创业 项目填写 标记(√) (√)信息技术         (  )电子商务         (  )健康医疗 (  )新能源新材料   (  )跨境电子商务    ( 

打造基于Python的流式数据分析平台

基于Python已经有多个科学研究和数据分析库,使用非常方便.结合OpenStack(http://www.openstack.org).RabbitMQ(http://www.rabbitmq.com).Celery(http://www.celeryproject.org)可以打造一个实时数据的分析平台. OpenStack是基于Python开发的云计算平台,可以进行虚拟机的调度和管理,以及数据的虚拟化存储.RabbitMQ是一个消息总线服务器,支持通过消息的数据快速收发和任务数据的调度.分

基于 Python 和 Pandas 的数据分析(2) --- Pandas 基础

在这个用 Python 和 Pandas 实现数据分析的教程中, 我们将明确一些 Pandas 基础知识. 加载到 Pandas Dataframe 的数据形式可以很多, 但是通常需要能形成行和列的数据集. 所以可以是如下的 dictionary 的形式: web_stats = {'Day':[1,2,3,4,5,6], 'Visitors':[43,34,65,56,29,76], 'Bounce Rate':[65,67,78,65,45,52]} 我们可以通过如下方式把这个 dictio

大数据精英实战项目班-Hadoop-Spark-真实企业项目

2018最新最全大数据技术视频,项目视频.整套视频,非那种杂七杂八自己拼凑的,内容如下,需要的联系QQ:3164282908(加Q注明大数据) 更有海量大数据技术视频.大数据项目视频,机器学习深度学习技术视频.项目视频.Python编程视频.Oracle数据库视频.Java培训视频高级架构师视频等等等. ├----------01-大数据Java基础------------- │├java第01天 ││├java第01天-01.类型转换.avi ││├java第01天-02.归档分析与实现.av

<Spark快速大数据分析>读书笔记(三)

PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名 保存:saveAsTextFile()传入一个文件保存的路径,Spark会将该路径视为目录,在该目录下保存多个文件,这样Spark就可以从各个节点并行保存了.这个过程不能控制哪个节点输出到哪个文件,但是可以对输出格式进行控制. 1.

[Spark快速大数据分析]Spark基础

Spark分布式执行涉及的组件 每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark:驱动程序管理多个执行器节点,可以用SparkContext来创建RDD. RDD(Resilient Distributed Dataset:弹性分布式数据集) RDD特点 Spark中,对数据的所有操作不外乎:创建RDD.转化已有RDD.调用RDD操作进行求值. Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行. Spark中

Spark快速大数据分析 01

==Spark的发展介绍== ==一个大一统的软件栈== Spark核心 计算引擎 对由很多计算任务组成的.运行在多个工作机器或者是一个计算集群上的应用调度.分发以及监控的计算引擎 速度快.通用 Spark项目包含多个密切组成的组件 优点1:软件栈中所有的程序库和高级组件都可以从下层的改进中获益 优点2:运行整个软件栈的代价变小了 优点3:能够构建出无缝整合不同处理模型的应用 Spark的各个组件 ![](http://images2017.cnblogs.com/blog/1297416/20

<Spark快速大数据分析>读书笔记(二)

PART 3 Pair RDD Spark为包含键值对类型的RDD提供了专有操作,这类RDD叫做Pair RDD(意为"对RDD") Spark中Pair RDD的创建主要有两种方式,一种方式从存储了键值对数据的文件中创建(主要内容见PART 4),另一种方式可以从其他普通RDD调用map()操作来实现: 1 #line的元素是一行单词构成的句子,map操作后每个元素为该句子的首个单词和句子本身构成一个二元元组 2 pairs = line.map(lambda x: (x.split

在大数据分析/挖掘领域,哪些编程语言应用最多?

Tim Roy ,原来我也在这里 9 人赞同 更新一下答案—— 之前我提到用R,后来我自己也觉得有点撑不住,应该是技术不行吧.还是建议往Python方向发展. Python不局限于数据分析,还有许多其他用途,有利于拓展视野.同时如果把它作为一门入门语言,它的简洁性.严格的缩进.丰富的第三方库都能帮助初学者很好地入门. 传送一个在数据分析.挖掘方面,有哪些好书值得推荐? - 书籍推荐肖大神推荐的书籍都可以参考,其中有不少优秀教材,都是以Python作为编程工具的,比Machine Learning