《机器学习》 西瓜书习题 第 2 章

习题

  • \(2.1\) 数据集包含 \(1000\) 个样本, 其中 \(500\) 个正例、\(500\) 个反例, 将其划分为包含 \(70\%\) 样本的训练集和 \(30\%\) 样本的测试集用于留出法评估, 试估算共有多少种划分方式.

  如果划分要保证正例和反例一样多的话, 那么划分方式数量 \(n\) 有
\[\begin{aligned}
n &= C^{500\times35\%}_{500}\times C_{500}^{500\times 35\%}\&=(C^{175}_{500})^{2}
\end{aligned}\]
  如果不考虑的话则有
\[n = C^{500\times 70\%}_{500}=C^{350}_{500}\]


  • \(2.3\) 数据集包含 \(100\) 个样本, 其中正、反例各一半, 假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别 (训练样本数相同时进行随机猜测) , 试给出用 \(10\) 折交叉验证法和留一法分别对错误率进行评估所得的结果.

   \(10\) 折交叉验证, 我们认为划分是随意的, 那么根据对称性可知, 对于每个子集来说正例更多的概率为 \(\frac{1}{2}\) , 反例也是一样, 所以预测测试集相当于随机预测, 即错误率为 \(50\%\) .
  而留一法要么选择一个正例作为测试集, 要么选择一个反例, 无论是哪一种, 总会预测与测试集相反的结果, 即正确率为 \(0\%\) .
  这告诉我们留一法并不一定比交叉验证法更 ‘好‘ . 而要看具体情况选择要划分为几个子集 (即几折交叉验证, 而留一法只是交叉验证法的特例, 即子集数等于样本数, 每个子集包含一个样本) .


  • \(2.3\) 若学习器 \(A\) 的 \(F1\) 值比学习器 \(B\) 高, 试析 \(A\) 的 \(BEP\) 值是否也比 \(B\) 高.

  \(F1\) 值和 \(BEP\) 并没有必然联系, 很容易就可以找出一个反例.


  • \(2.4\) 试述真正例率 (\(TPR\))、假正例率 (\(FPR\)) 与查准率 (\(P\)) 、查全率 (\(R\)) 之间的联系.

根据表
\(2.1\) 分类结果混淆矩阵

预测结果
真实情况
正例 反例
正例 \(TP\) (真正例) \(FN\) (假反例)
反例 \(FP\) (假正例) \(TN\) (假反例)

则有
\[\begin{aligned}
TPR = \frac{TP}{TP+TN}\FPR = \frac{FP}{FP + FN}\P = \frac{TP}{TP + FP}\R = \frac{TP}{TP + FN}
\end{aligned}\]


  • \(2.5\) 试证明式 (\(2.22\)).

\[\begin{aligned}
\ell_{rank} = \frac{1}{m^+m^-}\sum_{\boldsymbol{x}^+\in D^+}\sum_{\boldsymbol{x}^-\in D^-}\Big(\mathbb{I}\big(f(\boldsymbol{x^+}) < f(\boldsymbol{x^-})\big)+\frac{1}{2}\mathbb{I}\big(f(\boldsymbol{x^+})=f(\boldsymbol{x^-})\big)\Big)
\end{aligned}
\tag{2.21}\]
\[AUC = 1 - \ell_{rank}\tag{2.22}\]
  其实只要去分解 \((2.21)\) 就能发现它求的是 \(ROC\) 曲线每一小段的右边的面积之和. \(\frac{1}{m^+m^-}\) 求的是单位矩形的面积, \(\sum\limits_{\boldsymbol{x}^-\in D^-}\mathbb{I}\big(f(\boldsymbol{x^-}) < f(\boldsymbol{x^-})\big)\) 求的是左边有多少个单位矩形, \(\sum\limits_{\boldsymbol{x}^+\in D^+}\) 是对每一段都进行上述求和, 而 \(\frac{1}{2}\mathbb{I}\big(f(\boldsymbol{x^+})=f(\boldsymbol{x^-})\big)\) 是考虑到了斜线的结果 (某个正例和反例的分类概率相同) .



《机器学习》 西瓜书习题 第 2 章

原文地址:https://www.cnblogs.com/cloud--/p/12122258.html

时间: 2024-08-27 23:40:07

《机器学习》 西瓜书习题 第 2 章的相关文章

《机器学习》西瓜书习题 第 3 章

习题 3.1 试析在什么情况下式 \((3.2)\) 中不必考虑偏置项 \(b\) . 书中有提到, 可以把 \(x\) 和 \(b\) 吸收入向量形式 \(\hat{w} = (w;b)\) .此时就不用单独考虑 \(b\) 了. 3.2 试证明, 对于参数 \(w\), 对率回归的目标函数 \((3.18)\) 是非凸的, 但其对数似然函数 \((3.27)\) 是凸的. \[y = \frac{1}{1 + e^{-(\boldsymbol w^\mathrm T\boldsymbol x

《机器学习》西瓜书习题 第 4 章

习题 4.1 试证明对于不含冲突数据 (即特征向量完全相同但标记不同) 的训练集, 必存在与训练集一致 (即训练误差为 0)的决策树. 既然每个标记不同的数据特征向量都不同, 只要树的每一条 (从根解点到一个叶节点算一条) 枝干代表一种向量, 这个决策树就与训练集一致. 4.2 试析使用 "最小训练误差" 作为决策树划分选择准则的缺陷. \(4.1\) 说明了如果数据不冲突, 可以完全拟合数据集, 这正是使用 "最小训练误差" 作为决策树划分选择准则的结果. 而这是

《西瓜书》第三章,线性回归

? 使用线性回归来为散点作分类 ● 代码 1 import numpy as np 2 import matplotlib.pyplot as plt 3 from mpl_toolkits.mplot3d import Axes3D 4 from mpl_toolkits.mplot3d.art3d import Poly3DCollection 5 from matplotlib.patches import Rectangle 6 7 dataSize = 10000 8 trainRat

《西瓜书》第五章,神经网络

? 使用神经网络来为散点作分类 ● 单层感知机,代码 1 import numpy as np 2 import matplotlib.pyplot as plt 3 from mpl_toolkits.mplot3d import Axes3D 4 from mpl_toolkits.mplot3d.art3d import Poly3DCollection 5 from matplotlib.patches import Rectangle 6 7 dataSize = 2000 8 tra

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector:

《机器学习》 --周志华版(西瓜书)--课后参考答案

<机器学习> --周志华版(西瓜书)--课后参考答案 对机器学习一直很感兴趣,也曾阅读过李航老师的<统计学习导论>和Springer的<统计学习导论-基于R应用>等相关书籍,但总感觉自己缺乏深入的理解和系统的实践.最近从实验室角落觅得南京大学周志华老师<机器学习>一书,随意翻看之间便被本书内容文笔深深吸引,如获至宝.遂决定要认真学习本书并将学习过程记录下来.感觉若以读书笔记的形式做记录未免枯燥(且网上已有大量相关内容).那就暂且将课后练习的个人思路和答案写成

【转】《西瓜书机器学习详细公式推导版》发布

转自:https://github.com/datawhalechina/pumpkin-book https://mp.weixin.qq.com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook 周志华老师的<机器学习>(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,

西瓜书第二章--模型评估与选择

2.1 经验误差与过拟合 错误率:错分样本的占比 精度:分对样本的占比,与错误率是互补的. 误差:样本真实输出与预测输出之间的差异.学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为泛化误差. 由于事先并不知道新样本的特征,我们只能努力使经验误差最小化: 很多时候虽然能在训练集上做到分类错误率为零,但多数情况下这样的学习器并不好 过拟合:学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降: 解决措施:1.优化目标加正则项 :2.earl

西瓜书与蓝皮书 思维导图(转)

周志华著<西瓜书>思维导图 第一章:https://blog.csdn.net/liuyan20062010/article/details/68489427 第二章:https://blog.csdn.net/liuyan20062010/article/details/70054668 第三章:https://blog.csdn.net/liuyan20062010/article/details/70054758 第四章:https://blog.csdn.net/liuyan20062