《Spark高级数据分析》pdf格式下载免费电子书下载

《Spark高级数据分析》pdf格式下载免费电子书下载https://u253469.ctfile.com/fs/253469-300325651

更多电子书下载: http://hadoopall.com/book

内容简介

本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。

作者简介

Sandy Ryza是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

Uri Laserson是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。

Sean Owen是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。

Josh Wills是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。

目录

推荐序  ix
译者序  xi
序  xiii
前言  xv
第1章 大数据分析  1
1.1 数据科学面临的挑战  2
1.2 认识Apache Spark 4
1.3 关于本书  5
第2章 用Scala和Spark进行数据分析  7
2.1 数据科学家的Scala 8
2.2 Spark 编程模型  9
2.3 记录关联问题  9
2.4 小试牛刀:Spark shell和SparkContext 10
2.5 把数据从集群上获取到客户端  15
2.6 把代码从客户端发送到集群  18
2.7 用元组和case class对数据进行结构化  19
2.8 聚合  23
2.9 创建直方图  24
2.10 连续变量的概要统计  25
2.11 为计算概要信息创建可重用的代码  26
2.12 变量的选择和评分简介  30
2.13 小结  31
第3章 音乐推荐和Audioscrobbler数据集  33
3.1 数据集  34
3.2 交替最小二乘推荐算法  35
3.3 准备数据  37
3.4 构建第一个模型  39
3.5 逐个检查推荐结果  42
3.6 评价推荐质量  43
3.7 计算AUC 44
3.8 选择超参数  46
3.9 产生推荐  48
3.10 小结  49
第4章  用决策树算法预测森林植被  51
4.1 回归简介  52
4.2 向量和特征  52
4.3 样本训练  53
4.4 决策树和决策森林  54
4.5 Covtype数据集  56
4.6 准备数据  57
4.7 第一棵决策树  58
4.8 决策树的超参数  62
4.9 决策树调优  63
4.10 重谈类别型特征  65
4.11 随机决策森林  67
4.12 进行预测  69
4.13 小结  69
第5章 基于K均值聚类的网络流量异常检测  71
5.1 异常检测  72
5.2 K均值聚类  72
5.3 网络入侵  73
5.4 KDD Cup 1999数据集  73
5.5 初步尝试聚类  74
5.6 K 的选择  76
5.7 基于R的可视化  79
5.8 特征的规范化  81
5.9 类别型变量  83
5.10 利用标号的熵信息  84
5.11 聚类实战  85
5.12 小结  86
第6章 基于潜在语义分析算法分析维基百科  89
6.1 词项-文档矩阵  90
6.2 获取数据  91
6.3 分析和准备数据  92
6.4 词形归并  93
6.5 计算TF-IDF 94
6.6 奇异值分解  97
6.7 找出重要的概念  98
6.8 基于低维近似的查询和评分  101
6.9 词项-词项相关度  102
6.10 文档-文档相关度  103
6.11 词项-文档相关度  105
6.12 多词项查询  106
6.13 小结  107
第7章 用GraphX分析伴生网络  109
7.1 对MEDLINE文献引用索引的网络分析  110
7.2 获取数据  111
7.3 用Scala XML工具解析XML文档  113
7.4 分析MeSH主要主题及其伴生关系  114
7.5 用GraphX来建立一个伴生网络  116
7.6 理解网络结构  119
7.6.1 连通组件  119
7.6.2 度的分布  122
7.7 过滤噪声边  124
7.7.1 处理EdgeTriplet 125
7.7.2 分析去掉噪声边的子图  126
7.8 小世界网络  127
7.8.1 系和聚类系数  128
7.8.2 用Pregel计算平均路径长度  129
7.9 小结  133
...

原文地址:https://www.cnblogs.com/zhiyong399/p/9387520.html

时间: 2024-08-10 19:16:42

《Spark高级数据分析》pdf格式下载免费电子书下载的相关文章

《社会媒体挖掘》pdf格式下载免费电子书下载

<社会媒体挖掘>pdf格式下载免费电子书下载  https://u253469.ctfile.com/fs/253469-300325732更多电子书下载: http://hadoopall.com/book 内容简介 本书集成了近年来社会媒体.社会网络分析以及数据挖掘的前沿成果,为学生.从业者.研究人员和项目经理提供了一个方便的平台,以便理解社会媒体挖掘的基础知识和潜能.本书介绍了社会媒体数据的问题,并阐述了网络分析和数据挖掘的基本概念.新问题以及有效的算法. 作者简介 Reza Zafar

《数据科学入门》pdf格式下载免费电子书下载

<数据科学入门>pdf格式下载免费电子书下载 https://u253469.ctfile.com/fs/253469-300325729更多电子书下载: http://hadoopall.com/book 内容简介 数据科学是一个蓬勃发展.前途无限的行业,有人将数据科学家称为"21世纪头号性感职业".本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识--数学和统计学. 作者选择了功能强大.简单易学的Python语言环境,亲手搭

《决策知识自动化》pdf格式下载免费电子书下载

<决策知识自动化>.pdf: https://u253469.ctfile.com/fs/253469-300325723 更多电子书下载: http://hadoopall.com/book 内容简介 本书是大数据商业实践手册,通过大量来源于流程自动化的主流应用场景,聚焦于企业业务流程中经营决策的知识自动化这一主题,向读者展示如何在实践中应用决策管理系统更高效地管理项目. 本书适合各企业CEO.CIO.IT架构师以及一切对知识自动化理论感兴趣的读者. 作者介绍Alan N. Fish FIC

程序员免费电子书下载

现在我们看到许多经典的技术书籍作者都是国外的,等到中文翻译版出来很多书籍可能已经不适用了,购买原版书籍,价格又太高,因此知道一些免费的图书下载网站是非常重要的,下面就和大家分享一下免费的电子书下载网站. 1.谷歌图书搜索 相信没有人不知道谷歌图书,这个网站有很多免费的电子书籍,而且各种格式都有,当然你也可以在上面购买,如果你想下载免费的电子书,首先尝试谷歌图书搜索,一般不会踩坑 网址:https://books.google.com/ 2.oreilly 应该没有人不知道oreilly,O'Re

程序员必备免费电子书下载网站

程序员必备免费电子书下载网站作为开发者,多多少少都会看些技术书籍,许多经典的技术书籍作者都是国外的,等到中文翻译版出来很多书籍可能已经不适用了,购买原版书籍,价格又太高,因此知道一些免费的图书下载网站是非常重要的,下面就和大家分享一下免费的电子书下载网站以下都是一些国外网站的分享,如果你还知道其他的一些免费电子书下载网站也可以和大家一起分享. 目录:一.国外电子书免费下载网站二.国内电子书免费下载网站(未归总!) 一.国外电子书免费下载网站:1.谷歌图书搜索相信没有人不知道谷歌图书,这个网站有很

Spark高级数据分析-第2章 用Scala和Spark进行数据分析

2.4 小试牛刀:Spark shell和SparkContext 本章使用的资料来自加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了大量非常好的数据源, 这些数据源非常有意义,并且是免费的.由于网络原因,无法从原始地址下载数据集,这里可以从以下链接获取: https://pan.baidu.com/s/1dENp41V 或 http://pan.baidu.com/s/1c29fBVy 获取数据集以后,可

免费电子书下载

http://gen.lib.rus.ec书籍多多,下载方便. 如打不开,可从其它mirror进: http://libgen.org/ (以上两个是主链接) http://libgen.info/.http://www.libgen.info.http://libgen.net http://en.bookfi.org/(好用不掉线,一百二十多万册,麻烦在于下完一本后才能下第二本) http://bookza.org (好用不掉线,两百多万册,但每天限下5本,注册验证邮箱可多下5本)http:

Spark 实践——用Scala和Spark进行数据分析

本文基于<Spark 高级数据分析>第2章 用Scala和Spark进行数据分析. 完整代码见 https://github.com/libaoquan95/aasPractice/tree/master/c2/Into 1.获取数据集 数据集来自加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了大量非常好的数据源, 这些数据源非常有意义,并且是免费的. 我们要分析的数据集来源于一项记录关联研究,这项研究是

【推荐】有什么推荐的免费电子书资源网站?

问题:有什么推荐的好的免费电子书资源网站?有没有什么推荐的Java全栈知识学习网站 Java 全栈知识体系[推荐] 包含: Java 基础, Java 部分源码, JVM, Spring, Spring Boot, Spring Cloud, 数据库原理, MySQL, ElasticSearch, MongoDB, Docker, k8s, CI&CD, Linux, DevOps, 分布式, 中间件, 开发工具, Git, IDE, 源码阅读,读书笔记, 开源项目... 网址:https:/