Spark2.x 机器学习视频教程

Spark2.x 机器学习视频教程
讲师:轩宇老师
链接:https://pan.baidu.com/s/1TcFl6KDjxJS597TxYFSCOA 密码:3t2z

本课程讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、分类等经典机器学习算法及其实际应用,涵盖使用Spark ML Pipeline API创建和调试机器学习流程,内容更加系统、全面、与时俱进,适合所有欲借助Spark来实现常见机器学习应用的开发者。

本课程主要讲解基于Spark 2.x的机器学习库,MLlib实现了常用的机器学习,如:聚类、分类、回归等6大算法,使用Kaggle竞赛数据集模型构建。

本课拒绝枯燥的讲述,将循序渐进从Spark2.x的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。

通过该课程的学习同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行ML的应用开发和定制开发。

课程目录:

第一章:Spark 构建协同过滤ALS推荐模型
第1节、推荐系统概述及ALS算法剖析
1、Spark MLlib机器学习库两类API及常见四大类算法回顾说明
2、通过JD推荐和亚马逊图书推荐剖析推荐系统功能及核心点:相似度
3、分享淘宝推荐系统及协同过滤推荐核心思想及用户对产品的评分分类
4、协同过滤推荐算法ALS核心剖析(将稀疏矩阵分解为用户因子矩阵和产品因子矩阵)
5、Spark MLlib中基于RDD的ALS算法相关类的实现深入剖析

第2节、基于MovieLens电影推荐和模型评估RMSE
1、基于MovieLens电影评分数据使用ALS算法训练模型并查看因子举证
2、将MatrixFactorizeModel对用户产品预测评价和为用户、产品进行推荐及保存加载模型
3、如何评估模型为最佳模型(均方根误差RMSE)及通过调整数据集和算法超参数获取最佳模型

第3节、基于Audioscrobbler音乐推荐及模型调优
1、回顾复习协同过滤算法核心要点及ALS算法矩阵分解
2、使用Scala语言开发对音乐推荐数据训练模型(ALS中隐式评价函数)
3、组合ALS算法中多个超参数训练模型、评估模型找到最佳模型
4、综合分析不同超参数组合训练不同模型状况(显示与隐式)

第二章:Spark 构建分类模型
第1节、分类算法概述及鸢尾花数据集分类
1、Spark MLlib中支持的分类算法(SVM、LR、NB和DT)和集成分类算法(RF和GBDT)及决策树核心剖析
2、分类算法数据格式LabeledPoint及鸢尾花数据调研
3、读取鸢尾花数据构建特征数据Features和标签label、划分数据集为训练集和测试集
4、使用逻辑回归算法训练模型(二分类,调整数据集)及预测分类
5、使用朴素贝叶斯和决策树回归算法训练鸢尾花数据集并预测计算精确度ACC

第2节、Kaggle竞赛Titanic数据集预测生存预测
1、回顾复习Spark MLlib中分类算法、机器学习三要素及特征表示Vector
2、Kaggle竞赛Titanic生存预测数据集调研及自定义Schema读取
3、构建分类算法提取特征和数据格式LabeledPoint标签向量
4、划分数据集、使用二分类算法LR算法训练模型和计算评估指标AUC
5、使用二分类算法LR、DT及RF和GBT算法分别训练模型和计算AUC值比较
6、类别特征使用1-of-K方法转换及Titanic数据中Sex转换与测试
7、对Titanic数据中Age特征字段划分范围及使用1-of-K转换特征(使用DT和RF进行分类训练)

第3节、新闻数据NewsCorpora文本分类
1、文本特征提取词袋模型BOW及TF-IDF加权方式剖析
2、针对新闻分类数据集使用朴素贝叶斯算法训练模型和预测分类(一)
3、针对新闻分类数据集使用朴素贝叶斯算法训练模型和预测分类(二)
4、朴素贝叶斯算法超参数解释说明及分类模型评估指标精确度与混淆矩阵说明
5、Word2Vec算法模型将文本转换为单词向量及查找某单词相似单词

第三章:Spark 构建回归模型
第1节、回归算法概述及BikeSharing数据集训练模型
1、Spark MLlib中支持的回归算法及共享单车数据集调研分析与读取
2、针对共享单车数据集选取特征(8个类别特征和4个数值特征)及构建RDD数据集
3、使用决策树回归算法训练模型及计算RMSE值评估模型
4、模型优化两板斧:特征数据及算法超参数、使用随机森林RF回归算法训练模型及调整参数评估模型
5、使用线性回归算法训练共享单车数据(类别特征未处理)及引出类别特征处理重要性
6、定义函数转换8个类别特征及使用线性回归算法训练模型及RMSE评估

第2节:线性回归模型深入剖析(Ridge和Lasso)
1、复习Spark MLlib中三个回归算法及从源码引入模型过拟合及泛化能力(深入剖析)
2、线性回归正则化Regularization损失函数及L1和L2两种 正则化方式
3、从线性回归算法源码剖析SGD方法参数说明及正则化参数含义说明
4、线性回归算法、Lasso算法及Ridge回归算法分别使用训练数据训练模型及调整参数训练比较

第四章:Spark 构建聚类KMeans模型
第1节:聚类KMeans对出租车轨迹聚类
1、机器学习算法分类、非监督学习中聚类算法是什么及以KMeans为例讲解聚类和数据格式Vector
2、深入剖析KMeans算法如何进行聚类操作及出租车轨迹数据说明
3、使用KMeans算法对出租车轨迹数据进行聚类和找出10个类簇中心
4、使用KMeans模型预测测试数据集所属类簇
第2节:基于DataFrame构建KMeans模型
1、基于DataFrame API机器学习库使用三要点
2、基于DataFrame的KMeans算法针对出租车轨迹数据聚类

第五章:Spark 构建关联规则模型
第1节、使用FP-Growth进行关联规则推荐
1、关联规则算法概述及重要概念剖析(支持度、置信度和提升度)
2、使用FPGrowth算法构建模型获取频繁项集
3、依据FPGrowthModel生成关联规则AssociationRules
4、使用RDD聚合函数,依据关联规则,针对业务,得到推荐列表

第2节:使用PrefixSpan构建频繁序列推荐
1、数据挖掘中三种关联算法比较、频繁序列算法PrefixSpan概述及Spark MLlib中实现
2、构建数据集,使用PrefixSpan算法训练数据获取频繁序列集
3、结合实际需要找出符合规则的频繁序列集、模型和结果保存

第六章:Spark ML Pipeline 构建机器学习
第1节:Spark ML Pipeline入门案例
1、Spark MLlib 总结回顾发展及基于DataFrame API的区别
2、Spark ML Pipeline几个重要概念(Transformer、Estimator及Pipeline)剖析
3、管道Pipeline组成及简易文本分类案例需求分析
4、定义转换器与模型学习器、创建Pipeline和模型预测
5、Model持久化及Pipeline如何工作剖析
6、采用TF-IDF方式获取文本特征及Pipeline中Estimator工作原理
7、Transformor和Estimator参数设置(实例和ParamMap)
060108_Cross Validation设置及测试演示

第2节:Spark ML预测森林植被
1、基于ML预测森林植被之SparkSession读取CSV数据并指定列名
2、基于ML预测森林植被之提取特征及决策树算法训练模型(查看决策树)
3、基于ML预测森林植被之决策树算法中每个特征重要性及测试数据预测值
4、基于ML预测森林植被之多分类评估器使用及分类评估混淆矩阵
5、基于ML预测森林植被之Pipeline组合预测流程(转换器、模型学习器、评估器、训练验证和参数调优)
6、基于ML预测森林植被之解码还原类别特征数据
7、基于ML预测森林植被之对类别特征数据使用决策树算法训练模型
8、基于ML预测森林植被之对类别特征数据使用随机决策森林算法训练模型

原文地址:http://blog.51cto.com/14115667/2334995

时间: 2024-10-09 11:41:58

Spark2.x 机器学习视频教程的相关文章

Spark2.0机器学习系列之8: 聚类分析(K-Means,Bisecting K-Means,LDA,高斯混合模型)

在写这篇文章之前,先说一些题外话. 许多机器学习算法(如后面将要提到的LDA)涉及的数学知识太多,前前后后一大堆,理解起来不是那么容易. 面对复杂的机器学习模型,尤其是涉及大量数学知识的模型,我们往往要花费大量的时间和精力去推导数学算法(公式),如果过分沉湎于此会忽略了很多背后也许更重要的东西,正所谓只见树木,不见森林,而这是缺乏远见,是迷茫的. 我们需要深入理解模型背后的逻辑和所蕴含的或简或繁的思想.某些思想甚至可能是很美的思想,很伟大的思想.这些理解,使得面对复杂的问题时候,面对陌生问题时,

Spark2.0机器学习系列之2:基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation).举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计. 10折交叉检验最常见,是因为通过利用大量数据集.使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点.但这并非最终结论,争议仍然存在.而且似

Spark2.0机器学习系列之6:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析

概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树.     GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net等,其实它们都是一个东西(参考自wikipedia – Gradient Boosting),发明者是Friedman. 研究GBDT一定要看看Friedman的pa

机器学习 视频教程 数据挖掘 实战 开发 应用 算法 案例 R语言

视频资料都逐个核对,清晰高质量,而且包含各种文档.软件安装包和源码!永久免费更新! 技术团队永久免费解答各种技术问题:Hadoop.Redis.Memcached.MongoDB.Spark.Storm.云计算.R语言.机器学习.Nginx.Linux.MySQL.Java EE..NET.PHP,节省您的时间! 获取视频资料和技术支持地址 ------------------------------------------------------------------------------

机器学习入门资源--汇总

机器学习入门资源--汇总 基本概念 机器学习 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法.机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法.因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论.算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法. 下面从微观到宏观试着梳理一下机器学习的范畴:

【转】常见面试之机器学习算法思想简单梳理

转:http://www.chinakdd.com/article-oyU85v018dQL0Iu.html 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大. 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内

机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

http://www.cnblogs.com/tornadomeet/p/3395593.html 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大.

常见面试之机器学习算法思想简单梳理

http://www.cnblogs.com/tornadomeet/p/3395593.html (转) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大. 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大

常见面试之机器学习算法思想简单梳理【转】

前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大. 纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国内大点的公司里百度,阿里,腾讯,网易,搜狐,华为(华为的岗位基本都是随机分配,机器学习等岗位基本面向的是博士)等