python机器学习必读书籍:机器学习系统设计

所属网站分类: 资源下载 > python电子书


作者:从新来过

链接: http://www.pythonheidong.com/blog/article/441/

来源:python黑洞网 www.pythonheidong.com

内容简介

如今,机器学习正在互联网上下掀起热潮,而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言,它支持快速探索和实验,并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色,就是结合实例分析教会读者如何通过机器学习解决实际问题。

本书将向读者展示如何从原始数据中发现模式,首先从Python与机器学习的关系讲起,再介绍一些库,然后就开始基于数据集进行比较正式的项目开发了,涉及建模、推荐及改进,以及声音与图像处理。通过流行的开源库,我们可以掌握如何高效处理文本、图片和声音。同时,读者也能掌握如何评估、比较和选择适用的机器学习技术。

举几个例子,我们会介绍怎么把StackOverflow的回答按质量高低进行分类,怎么知道某个音乐文件是爵士风格,还是重金属摇滚风格。另外,本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之,通过学习本书,读者可以掌握构建自己所需系统的各方面知识,并且学以致用,解决自己面临的现实问题。

读者只要具有一定的Python编程经验,能够自己安装和使用开源库,就足够了,即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。

目录

第1章 Python机器学习入门  1
1.1  梦之队:机器学习与Python  1
1.2  这本书将教给你什么(以及不会教什么)  2
1.3  遇到困难的时候怎么办  3
1.4  开始  4
1.4.1  NumPy、SciPy和Matplotlib简介  4
1.4.2  安装Python  5
1.4.3  使用NumPy和SciPy智能高效地处理数据  5
1.4.4  学习NumPy  5
1.4.5  学习SciPy  9
1.5  我们第一个(极小的)机器学习应用  10
1.5.1  读取数据  10
1.5.2  预处理和清洗数据  11
1.5.3  选择正确的模型和学习算法  12
1.6  小结  20
第2章 如何对真实样本分类  22
2.1  Iris数据集  22
2.1.1  第一步是可视化  23
2.1.2  构建第一个分类模型  24
2.2  构建更复杂的分类器  28
2.3  更复杂的数据集和更复杂的分类器  29
2.3.1  从Seeds数据集中学习  29
2.3.2  特征和特征工程  30
2.3.3  最邻近分类  30
2.4  二分类和多分类  33
2.5  小结  34
第3章 聚类:寻找相关的帖子  35
3.1  评估帖子的关联性  35
3.1.1  不应该怎样  36
3.1.2  应该怎样  36
3.2  预处理:用相近的公共词语个数来衡量相似性  37
3.2.1  将原始文本转化为词袋  37
3.2.2  统计词语  38
3.2.3  词语频次向量的归一化  40
3.2.4  删除不重要的词语  41
3.2.5  词干处理  42
3.2.6  停用词兴奋剂  44
3.2.7  我们的成果和目标  45
3.3  聚类  46
3.3.1  K均值  46
3.3.2  让测试数据评估我们的想法  49
3.3.3  对帖子聚类  50
3.4  解决我们最初的难题  51
3.5  调整参数  54
3.6  小结  54
第4章 主题模型  55
4.1  潜在狄利克雷分配(LDA)  55
4.2  在主题空间比较相似度  59
4.3  选择主题个数  64
4.4  小结  65
第5章 分类:检测劣质答案  67
5.1  路线图概述  67
5.2  学习如何区分出优秀的答案  68
5.2.1  调整样本  68
5.2.2  调整分类器  68
5.3  获取数据  68
5.3.1  将数据消减到可处理的程度  69
5.3.2  对属性进行预选择和处理  70
5.3.3  定义什么是优质答案  71
5.4  创建第一个分类器  71
5.4.1  从k邻近(kNN)算法开始  71
5.4.2  特征工程  72
5.4.3  训练分类器  73
5.4.4  评估分类器的性能  74
5.4.5  设计更多的特征  74
5.5  决定怎样提升效果  77
5.5.1  偏差?方差及其折中  77
5.5.2  解决高偏差  78
5.5.3  解决高方差  78
5.5.4  高偏差或低偏差  78
5.6  采用逻辑回归  81
5.6.1  一点数学和一个小例子  81
5.6.2  在帖子分类问题上应用逻辑回归  83
5.7  观察正确率的背后:准确率和召回率  84
5.8  为分类器瘦身  87
5.9  出货  88
5.10  小结  88
第6章 分类II:情感分析  89
6.1  路线图概述  89
6.2  获取推特(Twitter)数据  89
6.3  朴素贝叶斯分类器介绍  90
6.3.1  了解贝叶斯定理  90
6.3.2  朴素  91
6.3.3  使用朴素贝叶斯进行分类  92
6.3.4  考虑未出现的词语和其他古怪情况  94
6.3.5  考虑算术下溢  95
6.4  创建第一个分类器并调优  97
6.4.1  先解决一个简单问题  97
6.4.2  使用所有的类  99
6.4.3  对分类器的参数进行调优  101
6.5  清洗推文  104
6.6  将词语类型考虑进去  106
6.6.1  确定词语的类型  106
6.6.2  用SentiWordNet成功地作弊  108
6.6.3  我们第一个估算器  110
6.6.4  把所有东西融合在一起  111
6.7  小结  112
第7章 回归:推荐  113
7.1  用回归预测房价  113
7.1.1  多维回归  116
7.1.2  回归里的交叉验证  116
7.2  惩罚式回归  117
7.2.1  L1和L2惩罚  117
7.2.2  在Scikit-learn中使用Lasso或弹性网  118
7.3  P大于N的情形  119
7.3.1  基于文本的例子  120
7.3.2  巧妙地设置超参数(hyperparameter)  121
7.3.3  评分预测和推荐  122
7.4  小结  126
第8章 回归:改进的推荐  127
8.1  改进的推荐  127
8.1.1  使用二值推荐矩阵  127
8.1.2  审视电影的近邻  129
8.1.3  组合多种方法  130
8.2  购物篮分析  132
8.2.1  获取有用的预测  133
8.2.2  分析超市购物篮  134
8.2.3  关联规则挖掘  136
8.2.4  更多购物篮分析的高级话题  137
8.3  小结  138
第9章 分类III:音乐体裁分类  139
9.1  路线图概述  139
9.2  获取音乐数据  139
9.3  观察音乐  140
9.4  用FFT构建第一个分类器  143
9.4.1  增加实验敏捷性  143
9.4.2  训练分类器  144
9.4.3  在多分类问题中用混淆矩阵评估正确率  144
9.4.4  另一种方式评估分类器效果:受试者工作特征曲线(ROC)  146
9.5  用梅尔倒频谱系数(MFCC)提升分类效果  148
9.6  小结  152
第10章 计算机视觉:模式识别  154
10.1  图像处理简介  154
10.2  读取和显示图像  155
10.2.1  图像处理基础  156
10.2.2  加入椒盐噪声  161
10.2.3  模式识别  163
10.2.4  计算图像特征  163
10.2.5  设计你自己的特征  164
10.3  在更难的数据集上分类  166
10.4  局部特征表示  167
10.5  小结  170
第11章 降维  171
11.1  路线图  171
11.2  选择特征  172
11.2.1  用筛选器检测冗余特征  172
11.2.2  用封装器让模型选择特征  178
11.3  其他特征选择方法  180
11.4  特征抽取  181
11.4.1  主成分分析(PCA)  181
11.4.2  PCA的局限性以及LDA会有什么帮助  183
11.5  多维标度法(MDS)  184
11.6  小结  187
第12章 大数据  188
12.1  了解大数据  188
12.2  用Jug程序包把你的处理流程分解成几个任务  189
12.2.1  关于任务  189
12.2.2  复用部分结果  191
12.2.3  幕后的工作原理  192
12.2.4  用Jug分析数据  192
12.3  使用亚马逊Web服务(AWS)  194
12.3.1  构建你的第一台机器  195
12.3.2  用starcluster自动创建集群  199
12.4  小结  202
附录A  更多机器学习知识  203
A.1  在线资源  203
A.2  参考书  203
A.2.1  问答网站  203
A.2.2  博客  204
A.2.3  数据资源  205
A.2.4  竞争日益加剧  205
A.3  还剩下什么  205
A.4  小结  206
索引  207

原文地址:https://www.cnblogs.com/fuchen9527/p/11041730.html

时间: 2024-10-08 12:31:34

python机器学习必读书籍:机器学习系统设计的相关文章

[转]机器学习经典书籍

算法组 注册 登录 机器学习经典书籍 机器学习 machine-learning 书单 你已经选择了 0 个帖子. 全选 取消选择 1 / 6 sys 14-12-9 5 选择以及回复其的帖子 选择 前面有一篇机器学习经典论文/survey合集223.本文总结了机器学习的经典书籍,包括数学基础和算法理论的书籍.本文会保持更新,欢迎推荐. 入门书单 <数学之美> PDF364作者吴军大家都很熟悉.以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用. <Programming C

Python机器学习:6本机器学习书籍推荐

机器学习是实现人工智能的一种途径,它和数据开掘有一定的相似性,也是一门多领域交叉学科,触及概率论.核算学.逼近论.凸剖析.核算复杂性理论等多门学科.对比于数据开掘从大数据之间找互相特性而言,机器学习愈加注重算法的设计,让核算机可以白动地从数据中“学习”规则,并利用规则对不知道数据进行猜测.因为学习算法触及了很多的核算学理论,与核算揣度联络尤为严密. 今天为大家推荐有关机器学习的书籍: 1.<Python机器学习实践指南> Python机器学习实践指南 书籍介绍: 机器学习是近年来渐趋热门的一个

机器学习经典书籍&amp;论文

原文地址:http://blog.sina.com.cn/s/blog_7e5f32ff0102vlgj.html 入门书单 1.<数学之美>PDF6 作者吴军大家都很熟悉.以极为通俗的语言讲述了数学在机器学习和自然语言处理等领域的应用. 2.<Programming Collective Intelligence>(<集体智慧编程>)PDF3 作者Toby Segaran也是<BeautifulData : The Stories Behind Elegant

使用 Python 开始你的机器学习之旅【转】

转自:https://linux.cn/article-8582-1.html 编译自:https://opensource.com/article/17/5/python-machine-learning-introduction 作者: Michael J. Garbade 原创:LCTT https://linux.cn/article-8582-1.html 译者: ucasFL 本文地址:https://linux.cn/article-8582-1.html 2017-06-07 0

Python大数据与机器学习之NumPy初体验

本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用Spark进行大数据分析 实现机器学习算法 学习使用NumPy库处理数值数据 学习使用Pandas库进行数据分析 学习使用Matplotlib库进行Python绘图 学习使用Seaborn库进行统计绘图 使用Plotly库进行动态可视化 使用SciKit-learn处理机器学习任务 K-Means聚

Python是人工智能和机器学习的最佳编程语言,证据在此!

人工智能与机器学习是IT行业的新兴热门领域.虽然有关其发展安全性的讨论日益增多,但开发人员仍在不断扩展人工智能的能力与存储容量.如今,人工智能已远远地超出科幻小说中的构想,成为了现实.人工智能技术广泛应用于处理分析大量数据,由于其处理的工作量及工作强度明显提高,因此这些工作今后无需人工操作. 例如,人工智能被应用于分析学中以建立预测,帮助人们创建有力策略和更为有效的解决办法.金融科技公司将人工智能应用于投资平台中,进行市场调查并预测如何实现投资收益最大化.旅游业使用人工智能发送个性化建议,或是开

一步一步入门机器学习之五:机器学习自学指南

事实上有许多的途径可以了解机器学习,也有许多的资源例如书籍.公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手.本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学习指引. 机器学习的四个层次 根据能力可以将学习过程分成四个阶段.这也是一个有助于我们将所有学习资源进行分类的好方法. 初学阶段 新手阶段 中级阶段 高级阶段 我之所以把初学阶段和新手阶段区分开来,是因为我想让那些完全初学者(对这个领域感兴趣的程序员)在初学阶段对机器学习有一个大

程序员必读书籍及导读指南

最近在网上看了一个非常好的帖子<程序员一生必读的书>(我的腾讯微博上有分享该贴子链接,有兴趣就点击进去看看吧),该贴的第一个张图片是一个雷达图, 这张图是由ThoughtWorks(全球软件设计与定制领域的领袖级企业)的资深人士提供的,它将程序员要读的书分为四个类别,每个类别又分为初级.进阶和高级读物,并用黄色三角形点出了强烈推荐阅读的书籍.四个类别包括: 编程实践(Coding Practice) 设计与架构(Design & Architecture) 方法学(Methodolog

程序员必读书籍及导读指南(转)

原文:程序员必读书籍及导读指南 最近在网上看了一个非常好的帖子<程序员一生必读的书>(我的腾讯微博上有分享该贴子链接,有兴趣就点击进去看看吧),该贴的第一个张图片是一个雷达图, 这张图是由ThoughtWorks(全球软件设计与定制领域的领袖级企业)的资深人士提供的,它将程序员要读的书分为四个类别,每个类别又分为初级.进阶和高级读物,并用黄色三角形点出了强烈推荐阅读的书籍.四个类别包括: 编程实践(Coding Practice) 设计与架构(Design & Architecture