机器学习概念

机器学习就是把无序的数据转换成实用的信息。

机器学习的主要任务就是分类,通过通过训练数据训练算法,终于能够将实际的数据分到合适的类别中

监督学习算法:预測目标变量的值

k-means算法。线性回归

朴素贝叶斯算法,局部加权线性回归

支持向量机。ridge回归

决策树。lasso最小回归系数预计

无监督学习算法:不须要预測目标变量的值

k-均值。最大期望算法

DBSCAN,parzen窗设计

确定哪种算法之后,还要确定目标变量的类型:

离散型:是/否,1/2/3     分类器算法

连续性:-999~999  回归算法

数据归一化:

为了使得不同纬度的数据大小相似

newValue = oldValue - min / max - min

k-means:     http://www.cnblogs.com/zhangchaoyang/articles/2181869.html

一堆測试数据,这些数据,每一行都有对应的分类

兴许将输入数据依据測试数据去学习,将输入数据进行分类

计算输入数据集中每一个数据与已有分类中心的距离,将样本归到距离最短的中心所在类里。然后将该类中全部点计算平均值。更新中心位置维度数据,重复。知道该中心维度数据不变,或者变化误差小于自己定义的误差,则停止,学习结束。

决策树         http://www.cnblogs.com/zhangchaoyang/articles/2196631.html

信息熵:

假如时间A的分类是(A1。A2......AN),每部分发生的概率是(P1,P2.......PN),那信息熵的计算公式例如以下:

H = -p1logp1-p2logp2-......-pnlogpn

当这件事的不确定性越大。那么要搞清它所须要的信息量也就越大,也就是信息熵越大。

信息熵衡量的是在你知道一个事件的结果后平均会带给你多大的信息量。

假设一个骰子六个面都是1的话,那么它不会给你带来不论什么新的信息。由于H=-log1 = 0

信息熵计算的是了解这件事所付出的平均信息量。比方32个球队夺冠可能性同样即,pi=1/32,那么信息熵的计算例如以下:

H = -(1/32)log(1/32)-(1/32log(1/32))-......=5/32+5/32+.......5/32 = 5

所以就须要5个比特的信息量才干搞清它的全部结果。

信息增益:

衡量一个属性区分以上数据样本的能力,信息增益量越大。这个属性作为一棵树的根节点就能使这棵树越简洁

DEMO

NO. , Outlook , Temperature , Humidity , Wind , Play 1 , Sunny , Hot , High , Weak , No 2 , Sunny , Hot , High , Strong , No 3 , Overcast , Hot , High , Weak , Yes 4 , Rain , Mild , High , Weak , Yes 5 , Rain , Cool , Normal , Weak , Yes 6 , Rain , Cool , Normal , Strong , No 7 , Overcast , Cool , Normal , Strong , Yes 8 , Sunny , Mild , High , Weak , No 9 , Sunny , Cool , Normal , Weak , Yes 10 , Rain , Mild , Normal , Weak , Yes 11 , Sunny , Mild , Normal , Strong , Yes 12 , Overcast , Mild , High , Strong , Yes 13 , Overcast , Hot , Normal , Weak , Yes 14 , Rain , Mild , High , Strong , No
1 计算分类系统熵类别是 是否出去玩。取值为yes的记录有9个,取值为no的有5个,即说这个样本里有9个正例,5 个负例。记为S(9+,5-),S是样本的意思(Sample)。那么P(c1) = 9/14, P(c2) = 5/14
这里熵记为Entropy(S),计算公式为:
Entropy(S)= -(9/14)*log2(9/14)-(5/14)*log2(5/14)用Matlab做数学运算
2 分别以Wind、Humidity、Outlook和Temperature作为根节点。计算其信息增益

我们来计算Wind的信息增益
当Wind固定为Weak时:记录有8条,当中正例6个,负例2个。
相同,取值为Strong的记录6个,正例负例个3个。

我们能够计算对应的熵为:
Entropy(Weak)=-(6/8)*log(6/8)-(2/8)*log(2/8)=0.811Entropy(Strong)=-(3/6)*log(3/6)-(3/6)*log(3/6)=1.0
如今就能够计算出对应的信息增益了:
所以。对于一个Wind属性固定的分类系统的信息量为 (8/14)*Entropy(Weak)+(6/14)*Entropy(Strong)
Gain(Wind)=Entropy(S)-(8/14)*Entropy(Weak)-(6/14)*Entropy(Strong)=0.940-(8/14)*0.811-(6/14)*1.0=0.048
这个公式的奥秘在于,8/14是属性Wind取值为Weak的个数占总记录的比例,相同6/14是其取值为Strong的记录个数与总记录数之比。
同理,假设以Humidity作为根节点:Entropy(High)=0.985 ; Entropy(Normal)=0.592Gain(Humidity)=0.940-(7/14)*Entropy(High)-(7/14)*Entropy(Normal)=0.151以Outlook作为根节点:Entropy(Sunny)=0.971 ; Entropy(Overcast)=0.0 ; Entropy(Rain)=0.971Gain(Outlook)=0.940-(5/14)*Entropy(Sunny)-(4/14)*Entropy(Overcast)-(5/14)*Entropy(Rain)=0.247以Temperature作为根节点:Entropy(Cool)=0.811 ; Entropy(Hot)=1.0 ; Entropy(Mild)=0.918Gain(Temperature)=0.940-(4/14)*Entropy(Cool)-(4/14)*Entropy(Hot)-(6/14)*Entropy(Mild)=0.029这样我们就得到了以上四个属性对应的信息增益值:Gain(Wind)=0.048 ;Gain(Humidity)=0.151 ; Gain(Outlook)=0.247 ;Gain(Temperature)=0.029最后依照信息增益最大的原则选Outlook为根节点。子节点反复上面的步骤。这颗树能够是这种,它读起来就跟你觉得的那样:

决策树的关键是怎样选定树的根节点。后面依次递归










				
时间: 2024-10-26 03:47:08

机器学习概念的相关文章

机器学习概念_1

p.p1 { margin: 0.0px 0.0px 2.0px 0.0px; font: 14.0px ".PingFang SC" } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px "Helvetica Neue"; min-height: 14.0px } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC&q

机器学习——概念

机器学习的大概概念 你们可以上百度查找—https://baike.baidu.com/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/217599?fr=aladdin 我当初学机器学习的时候用的是 jupyterlab 安装 jupyterlab pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jupyterlab Jupyther notebook(曾经的Ipython notebook),

1.0 机器学习概念介绍

机器学习的基本概念 数据 数据集 数据的整体叫做数据集   ( data set ) 样本 每一行数据被称为一个样本   ( sample ) 标记 最后一列, 称为标记   ( label ) 特征 表中的每个列都是一个特征, 用特征向量来表示一个特征值 特征空间 特征进行数据表示后的范围空间 此图中的形式是一个二维的特征空间, 高维的话则基于低维进行推导即可 抽象特征 很多的特征并不一定非要具体, 比如图像识别像素点 机器学习的基本任务 分类任务 二分类 多分类 多标签分类 回归任务 什么是

机器学习概念_2

降低损失:减少模型预测和标签之间的误差 迭代方法:在训练机器学习模型时,首先对权重和偏差进行初始猜测,然后反复调整这些猜测,直到获得损失可能最低的权重和偏差为止 原文地址:https://www.cnblogs.com/jp-mao/p/10108929.html

莫烦Python之机器学习概念了解

1.机器学习分类 有监督学习 无监督学习 半监督学习 强化学习 遗传算法 2.神经网络 一种基于传统统计学的模型,由大量的神经元与其关系构成.常用来对复杂的输入和输出关系进行建模 误差反向传递:给出信号,得到经过神经网络算法之后的结果(信号正向传播),再根据结果来修改神经网络中的神经元强度(信号反向传播) 通过正向和反向传播来更新神经元,从而形成更好的神经系统 每一个神经元都有属于它的激活函数,在训练过程中可以通过调整不同神经元的激活参数来调整模型 输入层:负责信息的传入 输出层:权衡.中转.输

图像处理、机器学习概念一箩筐

Population Sparsity(种群稀疏) vs Lifetime Sparsity(存在稀疏) Fn×m=Wn×d?Xd×m d:表示原有的特征空间 n:变换后的特征空间 m:样本的数目 F:特征矩阵(Feature Matrix) 每个样本都只用很少的激活(非零)特征来描述.具体来说,对于特征矩阵的每一列(一个样本)f(i),只有很少的非零元素.其他的都是0 .例如,一幅图像可以由里面包含的一些目标来描述,如果里面存在很多可能的目标,那么在某一时刻,也只可能出现一些.我们称之为pop

机器学习---概念基础

分类:针对离散型数据 回归:针对连续型数据 代价函数就是目标函数和实际训练集的误差 平方误差代价函数可能是解决回归问题最常用的手段. https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049095158&courseId=1004570029 原文地址:https://www.cnblogs.com/yzhnm/p/10472224.html

轻松入门机器学习之概念总结(二)

欢迎大家前往云加社区,获取更多腾讯海量技术实践干货哦~ 作者:许敏 接上篇:机器学习概念总结笔记(一) 8)逻辑回归 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域.例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等.以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等.因此因变量就为是否胃癌,值为"是"或"否",自变量就可以

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用Random Forest来做,下了几篇论文看了看,简单的random forest还比较容易弄懂,复杂一点的还会与boosting等算法结合(参见i