这篇是计算机类的优质预售推荐>>>>《Spark机器学习》
当机器学习遇上最流行的并行计算框架Spark......
编辑推荐
Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache
Spark就是这样一个难得的框架。
本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。此外还通过详细的例子和现实应用讲解了常见的机器学习模型,包括推荐系统、分类、回归、聚类和降维。最后还介绍了一些高阶内容,如大规模文本数据的处理,以及Spark Streaming下的在线机器学习和模型评估方法。
如果你是一名Scala、Java或Python开发者,对机器学习和数据分析感兴趣,并想借助Spark框架来实现常见机器学习技术的大规模应用,那么本书便是为你而写。最好有Spark的基础知识,但并不要求你有实践经验。
通过学习本书,你将能够:
用Scala、Java或Python语言编写你的第一个Spark程序;
在你的本机和Amazon EC2上创建和配置Spark开发环境;
获取公开的机器学习数据集,以及使用Spark对数据进行载入、处理、清理和转换;
借助Spark机器学习库,利用协同过滤、分类、回归、聚类和降维等常见的机器学习模型来编写程序;
编写Spark函数来评估你的机器学习模型的性能;
了解大规模文本数据的处理方法,包括特征提取和将文本数据作为机器学习模型的输入;
探索在线学习方法,利用Spark Streaming来进行在线学习和模型评估。
内容简介
本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。
作译者
Nick
Pentreath
是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲最大的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。
版权声明:本文为博主原创文章,未经博主允许不得转载。