Spark2.x+Python大数据机器学习视频课程

Spark2.x+Python大数据机器学习视频课程
下载地址:https://pan.baidu.com/s/1imjFFStyjbRqyMtnboPgpQ 提取码: 32pb

本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。

第一章、搭建Spark 2.x+Python开发环境及基本开发入门

1、快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接
2、快速环境搭建:Windows系统如何安装pyspark模块到Anaconda及启动PyCharm了解Spark MLlib机器学习库源码及走读
3、快速环境搭建:使用PyCharm开发Spark程序(读取文本数据封装RDD)
4、PySpark SQL快速开发:结构化海量数据处理框架SparkSQL介绍、DataFrame概述及分析数据两种方式
5、PySpark SQL快速开发:使用SparkSession读取文本数据分析及CSV格式数据分析(封装DataFrame分布式数据集)
6、PySpark SQL快速开发:基于Jupyter Notebook读取航空航天数据、使用DSL分析
7、PySpark SQL快速开发:使用DSL分析航天航空数据及如何将DataFrame转换为Pandas中dataframe

第二章、Python Spark MLlib 创建推荐引擎(ALS算法篇)

8、推荐系统几大分类(不同数据、不同算法)概述、以亚马逊和JD为例查看推荐(检索物品后推荐)及推荐系统预测(评分和行为)
9、协同过滤推荐算法CF核心思想、算法数据(用户对物品的评价)及矩阵分解两种方式(SVD和ALS算法)
10、CF的两种推荐方式(基于用户推荐和基于物品推荐)、计算用户或物品相似度常见四种方式及Spark MLlib中ALS算法核心(数据封装、算法超参数)
11、推荐数据集:电影评分数据、通过源码剖析Spark MLlib中协同过滤算法实现类(Rating、ALS和MatrixFactorizationModel)
12、使用Jupyter Notebook开发电影推荐:读取MovieLens评分数据、组合特征、训练模型、预测评分和为用户或电影进行Top10推荐

第三章、Python Spark MLlib 创建推荐引擎(深入实践篇)

13、回顾综述Spark MLlib中支持推荐系统中不同算法(内容推荐Word2Vector、关联规则FP-Growth和协同过滤ALS)
14、针对电影推荐开发优化:将数据集划分为训练和测试、计算模型评估指标MSE和RMSE值
15、针对电影推荐开发优化:定义函数封装模型评估(依据传递模型和测试数据集)
16、针对电影推荐开发优化:使用多层嵌套FOR循环设置不同超参数值训练和评估模型,获取最佳模型
17、针对电影推荐开发优化:保存加载模型、机器学习简易开发流程和使用PyCharm开发封装模型训练与保存
18、针对电影推荐开发优化:依据输入用户或物品进行相关推荐(加载离线训练完成的模型)

第四章、Python Spark MLlib 构建分类模型

19、综述Spark MLlib中实现常见分类算法库(二分类和多分类)及查看实现源码
20、监督学习算法数据格式标签向量LabelPoint及Kaggle竞赛StumbleUpon数据集说明(预测网址是否长青或短暂)
21、构建分类系统之数据调研、数据过滤转换和类别特征提取方式1-of-K详解
22、构建分类系统之分别定义函数提取类别label和转换类别数据提取特征features
23、构建分类系统之封装数据、划分数据集、使用决策树分类及二分类评估指标PR和ROC
24、构建分类系统之使用集成学习算法随机森林RF训练模型和评估性能
25、构建分类系统之使用梯度提升算法GBT训练模型和评估性能
26、构建分类系统之分别使用朴素贝叶斯、支持向量机SVM和逻辑回归算法训练模型与预测

第五章、Python Spark MLlib 构建回归分析

27、Spark MLlib中回归算法实现库(LR、DT等)、过拟合(L1和L2正则化)和阅读算法库源码
28、BikeSharing数据集调研、读取数据并编写函数提取特征和标签
29、构建回归模型之划分数据集、使用决策树回归算法训练模型及定义函数评估模型
30、构建回归模型之使用随机森林RF和梯度提升GBT回归算法训练模型及评估模型
31、构建回归模型之使用LinearRegressionWithSGD训练模型及引出要转换类别特征数据问题

第六章、Spark ML Pipeline 机器学习流程回归分析

32、回顾复习Spark MLlib中算法(分类、回归和推荐)及基于DataFrame ML几个核心概念剖析
33、_查看Spark ML机器学习库源码及SparkSession读取电影评分数据封装DataFrame
34、基于DataFrame 协同过滤算法ALS进行电影推荐模型训练和相关预测
35、基于DataFrame 决策树回归算法DecisionTreeRegressor训练模型(VectorAssembler特征组合)和评估(RegressionEvaluator)
36、使用VectorIndexer类别特征转换及使用TrainValidationSplit进行超参数调整获取最佳模型
37、使用交叉验证CrossValidator方式训练评估模型找到最佳模型
38、Pipeline管道使用说明、结合共享单车出租预测进行构建Pipeline Model模型和预测

原文地址:http://blog.51cto.com/12755526/2330391

时间: 2024-10-10 08:51:46

Spark2.x+Python大数据机器学习视频课程的相关文章

Spark2.x+Python大数据机器学习实战视频教程

提取码:6o68 课程学习:https://pan.baidu.com/s/13kOswCBRsnXBJWsPGBZDqQ 机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测.机器学习技术不断进步,应用相当广泛,例如推荐引擎.定向广告.需求预测.垃圾邮件过滤.医学诊断.自然语言处理.搜索引擎.诈骗侦测.证券分析.视觉辨识.语音识别.手写识别等. 为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练.大数据的兴起带来

ng机器学习视频笔记(十五) ——大数据机器学习(随机梯度下降与map reduce)

ng机器学习视频笔记(十五) --大数据机器学习(随机梯度下降与map reduce) (转载请附上本文链接--linhxx) 一.概述 1.存在问题 当样本集非常大的时候,例如m=1亿,此时如果使用原来的梯度下降算法(也成为批量梯度下降算法(batch gradient descent),下同),则速度会非常慢,因为其每次遍历整个数据集,才完成1次的梯度下降的优化.即计算机执行1亿次的计算,仅仅完成1次的优化,因此速度非常慢. 2.数据量考虑 在使用全量数据,而不是摘取一部分数据来做机器学习,

Python大数据与机器学习之NumPy初体验

本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用Spark进行大数据分析 实现机器学习算法 学习使用NumPy库处理数值数据 学习使用Pandas库进行数据分析 学习使用Matplotlib库进行Python绘图 学习使用Seaborn库进行统计绘图 使用Plotly库进行动态可视化 使用SciKit-learn处理机器学习任务 K-Means聚

王家林亲授《DT大数据梦工厂》大数据实战视频 Scala 深入浅出实战经典 - 第71讲

王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-71讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2 技术爱好者尤其是大数据爱好者 可以加DT大数据梦工厂的qq群 DT大数据梦工厂① :462923555 DT大数据梦工厂②:437123764 DT大数据梦工厂③

《零起点Python大数据与量化交易》中文PDF+源代码

下载:https://pan.baidu.com/s/1JWmwMFHZV0mYAyAl-HkPyw 更多资料:http://blog.51cto.com/3215120 <零起点Python大数据与量化交易>中文PDF+源代码中文PDF,带目录和书签,655页,文字可以复制粘贴.配套源代码. 本书是国内关于Python大数据与量化交易的原创图书. 如图: 原文地址:http://blog.51cto.com/4820691/2311108

大数据分析学习之使用R语言实战机器学习视频课程

大数据分析学习之使用R语言实战机器学习网盘地址:https://pan.baidu.com/s/1Yi9H6s8Eypg_jJJlQmdFSg 密码:0jz3备用地址(腾讯微云):https://share.weiyun.com/5tk6j1Z 密码:rdia9t 机器学习的核心主要侧重于找出复杂数据的意义.这是一个应用广泛的任务,机器学习的使用是非常广泛的. 本课程主要分为两个阶段,第一个部分:掌握R语言的处理数据的基本语法.第二部分:介绍机器学习原理,并通过大量的案例,为学员介绍R语言通过机

零基础入门到精通:Python大数据与机器学习之Pandas-数据操作

在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴. 同时还要大数据学习群:784557197 实战练习 在Jupyter Notebook上执行以下代码: import pandas as pd df = pd.Data

王家林老师大数据免费视频!

王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员! 您可以通过王家林老师的微信号18610086859发红包捐助大数据.互联网+.O2O.工业4.0.微营销.移动互联网等系列免费实战课程, 目前已经发布的王家林免费视频全集如下: 1,<大数据不眠夜:Spark内核天机解密(共100讲)>:http://pan.baidu.com/s/1eQsHZAq 2,<Hadoop深入浅出实战经典>http://pan.baidu.com/s/1mgpfRPu 3,<

北风网大数据架构师课程怎么样?

北风网大数据架构师的课程还是挺不错的,之前报名过一套,现在给大家发点视频,有需要的可以联系我QQ:375537364    链接:http://pan.baidu.com/s/1bPl5aY 密码:ymmi 北风网大数据架构师的课程还是挺不错的,之前报名过一套,现在给大家发点视频,有需要的可以联系我QQ:375537364    链接:http://pan.baidu.com/s/1bPl5aY 密码:ymmi 北风网大数据架构师的课程还是挺不错的,之前报名过一套,现在给大家发点视频,有需要的可