机器学习基本概念和模型训练基本问题

分类与回归的区别

二叉树

二叉树很容易理解,在这里我们一般用满二叉树:就是非叶子节点都有2个分支的树形数据结构

决策树分类

决策树最初是用来做决策用的,就好像下面的见不见相亲对象的决策过程一样;

如果把最后的决策结果看成是分类,那么决策树就可以用来分类了,例如,下面的例子就是把相亲对象分为见和不见两种。

下面通过一个例子来区分这些概念

特征,正负样本,训练集(数据),验证集(数据),预测集(数据)

我们的数据集是一百个点,如下图所示,是二维平面的100个点,这个就是我们总的数据集(全集),这些数据在文本中就是下面第二张图所示的三个字段(x坐标,y坐标,label(正样本还是负样本))

对于每个数据点来说,都有自己的x,y坐标以及自己的类别(正还是负,0或者1);

而我们的目标是通过每个数据点的x,y坐标去确定该数据点的类别,但是我们不想每来一个数据点都自己亲眼观察去判断,我们希望教会机器怎么去辨别每个数据点的类别。

我们需要告诉机器什么样的数据点的类别是1,什么样的数据点的类别是0,这就是正负样本

我们把正负样本放在一起,就组成了一个数据集,并从中抽取一部分或者全部,这就是训练集

我们要教会机器通过什么属性来区分数据点的类别,例如我们教会机器通过数据点的x,y坐标来判断数据点的类别,那么在这里x,y坐标就是特征

教会了机器区分数据点,一般我们需要验证机器区分的正确率,我们需要用一些已知类别的数据点,对比这些数据点原本的类别和机器辨别出来的类别,计算机器区分的正确率,这些数据点的特征和类别就是验证集。

训练集和验证集都是正负样本组成的集合的子集,两者数据的格式是一样的。一般来说我们可以在正负样本集调整训练集和验证集的比例。

最后,我们有一批新的数据点,我们只有这些数据点的特征(x,y坐标),我们想让机器预测这些数据点的类别,这些只有特征的数据集我们成为预测集。

验证集在验证的过程中也充当了预测集的角色,不过验证集自带类别,可以验证预测的准确性,而预测集则是完全依赖与机器的预测。

所以,我们需要保证预测集和训练集、验证集是属于同一个样本空间的,否则,预测的结果可能不如人意。

下面我们来看下模型训练过程中常见的问题

1:样本选择的问题

在这个例子中,我们是有一个全集的,我们可以看到数据整体分布,这是比较理想的;

然而很多时候,我们甚至不知道样本空间的边界在哪里,我们不知道我们抽取的正负样本是否能代表整个样本空间?

2:正负样本比例问题

在这个例子中,正负样本比例1:1,然而,在实际数据中,我们甚至不知道真实的样本空间里面正负样本的比例;

而正负样本的比例有时候会对模型的评价产生影响

3:模型评价的问题

我们一般通过验证集来检验模型的好坏,然而模型是过拟合还是欠拟合我们是很难衡量的,而过拟合还是欠拟合一般也是通过验证结果来判断,但是训练集和验证集的选择有一定的随机性,

所以,模型评价也是一个难题。

而且,对于不同的集合,对模型的要求也是不一样的,是尽量不要预测错,还是尽量找回更多,因实际情况而定。

时间: 2024-10-21 18:56:13

机器学习基本概念和模型训练基本问题的相关文章

Day2 机器学习基本概念——笔记整理总结

td p { margin-bottom: 0cm } p { margin-bottom: 0.25cm; line-height: 120% } Day2 机器学习基本概念 Eg1. 样例 天气 温度 风力 享受运动 1 晴 暖 小 是 2 晴 暖 大 是 3 晴 适中 大 否 4 雨 冷 大 否 5 晴 适中 适中 是 Eg2. 样例 面积(平方米) 学区(1-10) 房价(100$) 1 100 8 1000 2 120 9 1300 3 60 6 800 4 80 9 1100 1.基

机器学习与Tensorflow(1)——机器学习基本概念、tensorflow实现简单线性回归

一.机器学习基本概念 1.训练集和测试集 训练集(training set/data)/训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集 测试集(testing set/data)/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集 2.特征向量 特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例 3.分类问题和回归问题 分类 (classific

机器学习第六周--机器学习重要概念补充

一.sklearn中的Pipeline串联用法 Python搭建机器学习模型时,Pipeline是一个加快效率的方法,主要介绍学习串联用法.Pipeline处理机制就像是把所有模型塞到一个管子里,然后依次对数据进行处理,得到最终的分类结果,例如模型一可以是一个数据标准化处理,模型二可以是特征选择模型或者特征提取模型,模型三可以是一个分类器或者预测模型.Pipeline就是把这三个模型(模型不一定非要三个,根据自己实际需要)塞到管子里合并成一个模型调用,其中最后一个模型一定要是估计器,例如分类器.

关于”机器学习:概念与理解“系列

"机器学习:概念到理解"系列,我本着开放与共享(open and share)的精神撰写,目的是让更多的人了解机器学习的概念,理解其原理,学会应用.现在网上各种技术类文章很多,不乏大牛的精辟见解,但也有很多滥竽充数.误导读者的.这个系列对教课书籍和网络资源进行汇总.理解与整理,力求一击中的,通俗易懂.机器学习很难,是因为她有很扎实的理论基础,复杂的公式推导:机器学习也很简单,是因为对她不甚了解的人也可以轻易使用.我希望好好地梳理一些基础方法模型,输出一些真正有长期参考价值的内容,让更多

机器学习:概念与理解(二):回归、稀疏与正则约束 ridge regression,Lasso

"机器学习:概念与理解"系列,我本着开放与共享(open and share)的精神撰写,目的是让更多的人了解机器学习的概念,理解其原理,学会应用.现在网上各种技术类文章很多,不乏大牛的精辟见解,但也有很多滥竽充数.误导读者的.这个系列对教课书籍和网络资源进行汇总.理解与整理,力求一击中的,通俗易懂.机器学习很难,是因为她有很扎实的理论基础,复杂的公式推导:机器学习也很简单,是因为对她不甚了解的人也可以轻易使用.我希望好好地梳理一些基础方法模型,输出一些真正有长期参考价值的内容,让更多

概念主题模型简记

概念主题模型(PTM, probabilitytopical model)在自然语言处理(NLP,natural language processing)中有着重要的应用.主要包括以下几个模型:LSA(latentsemantic analysis). PLSA(probability latent semantic analysis).LDA(latentdirichlet allocation)和HDP(hirerachical dirichlet processing),这里用一张图给出它

模型训练技巧

模型训练技巧 神经网络模型设计训练流程 图1-1 神经模型设计流程 当我们设计并训练好一个神经网络之后,需要在训练集上进行验证模型效果是否良好.这一步的目的在于判断模型是否存在欠拟合:在确定已经在训练集上拟合的很好,就需要在测试集上进行验证,如果验证结果差就需要重新设计模型:如果效果一般,可能需要增加正则化,或者增加训练数据: 欠拟合处理策略 当模型在训练集上的表现结果并不好的时候,在排除不是数据集和训过程有问题,你可以采用以下几个方法来进行处理. 更换激活函数 Sigmoid激活函数 Sigm

ML_6机器学习重要概念补充

学习目标 sklearn中的Pipeline 偏差与方差 模型正则化之L1正则.L2正则 一.sklearn中的Pipeline 研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression).多项式回归是线性回归模型的一种,其回归函数关于回归系数是线性的.其中自变量x和因变量y之间的关系被建模为n次多项式. 如果自变量只有一个时,称为一元多项式回归:如果自变量有多个时,称为多元多项式回归.在一元回归分析中,如果变量y与自变量x的关系为非线性

浅谈UML的概念和模型之UML九种图

文件夹: UML的视图 UML的九种图 UML中类间的关系 上文我们介绍了,UML的视图,在每一种视图中都包括一个或多种图.本文我们重点解说UML每种图的细节问题: 1.用例图(use case diagrams) [概念]描写叙述用户需求,从用户的角度描写叙述系统的功能 [描写叙述方式]椭圆表示某个用例:人形符号表示角色 [目的]帮组开发团队以一种可视化的方式理解系统的功能需求 [用例图] 2.静态图 类图(class  diagrams) [概念]显示系统的静态结构,表示不同的实体是怎样相关