腾讯AI主管带你深度实践Spark机器学习

前言

大数据、人工智能正在改变或颠覆各行各业,包括我们的生活。大数据、人工智能方面的人才已经供不应求,但作为人工智能的核心一机器学习, 因涉及的知识和技能比较多,除了需要具备一定的数学基础、相关业务知识外,还要求有比较全面的技术储备,如操作系统、数据库、开发语言、数据分析工具、大数据计算平台等,无形中提高了机器学习的门槛。

如何降低机器学习的门槛,让更多有志于机器学习、人工智能的人能更方便或顺畅地使用、驾驭机器学习?

如何使原本复杂、专业性强的工作或操作简单化?

封装是一个有效方法。封装降低了我们操作照相机的难度、降低了我们维护各种现代设备的成本,同时也提升了我们使用这些设备的效率。除封装外,过程的标准化、流程化同样是目前现代企业用于提升生产效率,降低成本,提高质量的有效方法。

硬件如此,软件行业同样如此。目前很多机器学习的开发语言或平台,正在这些方面加大力度,比如:对特征转换、特征选择、数据清理、数据划分、模型评估及优化等算法的封装;对机器学习过程的进行流程化、标准化、规范化;给大家比较熟悉的语言或工具提供API等方法或措施,以简化机器学习中间过程,缩短整个开发周期,使我们能更从容地应对市场的变化。Spark 在这方面可谓后来居上,尤其是最近发布的版本,明显加大了这方面的力度,我们可以从以下几个方面看出这种趋势:

1)Spark机器学习的API,正在由基于RDD过渡到基于Dataset或DatalFrame,基于RDD的API在Spark2.2后处于维护阶段,Spark3.0 后将停止使用(来自Spark官网);

2)建议大家使用Spark ML,尤其是它的Pipeline;

3)增加大量特征选择、特征转换、模型选择和优化等算法;

4)丰富、增强Spark与Java、Python. R的API,使其更通用。

深度实践Spark机器学习

限于平台篇幅原因,小编只截取了一部分,为了方便大家更好的阅读,小编把相关的资料都整理好了,有感兴趣的朋友可以帮忙转发文章后,关注私信回复【学习】来获取

第1章 了解机器学习

第2章 构建Spark机器学习系统

第3章 ML Pipeline原理与实战

第4章 特征
提取、转换和选择

第5章 模型选择和优化

第6章 Spark MLlib基础

第7章 构建Spark ML推荐模型

第8章 构建Spark ML分类模型

第9章 构建Spark ML回归模型

第10章 构建Spark ML聚类模型

第11章 PySpark 决策树模型

第12章 SparkR朴素 贝叶斯模型

第13章 使用Spark Streaming构建在线学习模型

第14章 ensorFlowOnSpark详解

原文地址:https://blog.51cto.com/14544183/2457874

时间: 2024-08-26 18:06:07

腾讯AI主管带你深度实践Spark机器学习的相关文章

学习参考《深度实践Spark机器学习》PDF+吴茂贵

研究大数据和数据挖掘的都知道,并行化算法研究是大数据领域一个较为重要的研究热点.近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计.Spark 提供了大量的库,包括SQL.DataFrames.MLlib.GraphX.Spark Streaming. 开发者可以在同一个应用程序中无缝组合使用这些库. <深度实践Spark机器学习>系统讲解了Spark机器学习的技术.原理.组件.算法,以及构建Spark机器学习系统的方法.流程.标准和规范.此外,还介绍了Sp

腾讯技术工程 |腾讯AI Lab刷新人脸识别与检测两大测评国际记录,技术日调用超六亿

2017年12月18日,深圳 - 腾讯AI Lab研发的Face R-FCN和FaceCNN算法分别在国际最大.最难的人脸检测平台WIDER FACE与最热门权威的人脸识别平台MegaFace多项评测指标中荣膺榜首,刷新行业纪录,展现其在计算机视觉领域中,特别是人脸技术上的强劲实力. 研究上,目前腾讯AI Lab已通过arXiv平台发表论文公开人脸检测算法部分技术细节,促进企业与学界"共享AI"研究成果:应用上,该人脸技术已接入腾讯互联网+公共服务平台等多个应用场景,每日技术调用量超六

【深度学习系列1】 深度学习在腾讯的平台化和应用实践(转载)

转载:原文链接 [深度学习系列1] 深度学习在腾讯的平台化和应用实践 引言:深度学习是近年机器学习领域的重大突破,有着广泛的应用前景.随着Google公开 Google Brain计划,业界对深度学习的热情高涨.腾讯在深度学习领域持续投入,获得了实际落地的产出.我们准备了四篇文章,阐述深度学习的原理和在腾讯的实 践,介绍腾讯深度学习平台Mariana,本文为第一篇. 深度学习(Deep Learning)是近年来机器学习领域的热点,在语音识别.图像识别等领域均取得了突破性进展.腾讯提供广泛的互联

腾讯 AI Lab 计算机视觉中心人脸 &amp; OCR团队近期成果介绍(3)

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者:周景超 在上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享. 1 人脸进展 人脸是最重要的视觉信息之一.以貌识人.以貌取人是人的本性,也是最自然.最常用的身份确认和交互方式之一.互联网和移动互联网上每天上传和传播的天文数字级别的照片中有很大一部分都是和人脸相关的(比如国际知名互联网公司Facebook每天都有亿级以上的海量人脸照片和视频上传),因此人脸检测与识别技术在学术界和工业界都备受关注

Zabbix监控系统深度实践

Zabbix监控系统深度实践(企业级分布式系统自动化运维必选利器,大规模Zabbix集群实战经验技巧总结,由浅入深全面讲解配置.设计.案例和内部原理) 姚仁捷 著  ISBN 978-7-121-24013-3 2014年8月出版 定价:69.00元 364页 16开 编辑推荐 国内最大规模Zabbix集群负责人力作 全面讲解Zabbix配置应用,深入剖析Zabbix内部原理 用真实工作需求驱动,以独家实践案例指引,助您监控利器出鞘 Zabbix是目前最流行的分布式图形化开源监控系统解决方案,它

CVPR 2018 | 腾讯AI Lab入选21篇论文详解

近十年来在国际计算机视觉领域最具影响力.研究内容最全面的顶级学术会议CVPR,近日揭晓2018年收录论文名单,腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论. 去年CVPR的论文录取率为29%,腾讯AI Lab 共有6篇论文入选,点击 这里可以回顾.2017年,腾讯 AI Lab共有100多篇论文发表在AI顶级会议上,包括ICML(4篇).ACL(3篇).NIPS(8篇)等. 我们还坚持与学界.企业界和行业「共享AI+未来」,已与美国麻省理工大学.英国

从研究到应用:腾讯AI Lab的自然语言理解和生成

3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向--如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果. 自然语言的理解 自然语言理解的目标是使得机器能够像人一样进行阅读.机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑.因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量.矩阵等等可计算的形式.然后通过信息抽取(Information

AI+游戏:高效利用样本的强化学习 | 腾讯AI Lab学术论坛演讲

3月15日,腾讯AI Lab第二届学术论坛在深圳举行,聚焦人工智能在医疗.游戏.多媒体内容.人机交互等四大领域的跨界研究与应用.全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流.腾讯AI Lab还宣布了2018三大核心战略,以及同顶级研究与出版机构自然科研的战略合作(点击 这里 查看详情). 腾讯AI Lab希望将论坛打造为一个具有国际影响力的顶级学术平台,推动前沿.原创.开放的研究与应用探讨与交流,让企业.行业和学界「共享AI+未来」. 彭健 美国伊利诺伊大学厄巴纳-香槟分校

升讯威微信营销系统开发实践:(3)中控服务器的设计 .Net 还是 Java?

.Net 还是 Java?  :) 最近园子里又出现了.Net 和 Java 的口水贴,如果你觉得本文的内容根本就是 a piece of cake,不值一提,轻轻松松就能码出可靠健壮的实现,或许还可以讨论下.Net 和 Java 的问题,否则我想你还是歇歇吧,对你来说都是一样的,用好一样就行了,否则 .Net 1.1 都能完爆你. .Net的应用领域没有有些人想的那么窄,只能说你眼界实在是太浅了..Net在国外是否受待见?自己去国外招聘网站看一看就是了,又没被墙的,呵呵. 技术不过关不要赖平台