机器学习01

对于一组对象的数据,将其的集合按照不同“属性”,而其对应的值为“属性值”,由“属性”所张成的空间称为“属性空间”。而一个对象的各个数据在”属性空间“中为不同坐标轴上的对应”属性值“,而在”属性空间“中的对应点所对应的向量就是该对象的”特征向量“。

由在这个”属性空间“中各个”特征向量“所建立的模型,可以预测后续对象的相应值。

若想要预测离散值,则被称为”分类“;若想要预测连续值,则被称为”回归“。对于只涉及两个类别的”二分类“,通常称其中一个为”正类“,另一个为”反类“;对于涉及多个类别的,称为”多分类“。

学习模型后,试用其进行预测的过程被称为”测试“,被预测的样本被称为”测试样本"。

对于“聚类”,是指对一组对象进行分组,每组称为一个“簇”,这些自动形成的簇可能对应一些潜在的概念划分,有助于了解数据内在规律,更深入地分析数据建立基础。但是,在“聚类”学习中,实际上的“概念”是事先未知的,且在学习过程中所使用的训练样本通常不具备标记信息。

根据训练数据是否拥有标记信息,可以将学习任务大致划分为两大类:“监督学习”和“无监督学习”。分类和回归是前者的代表,聚类是后者的代表。

机器学习的目标是使学得的模型能较好地适用于“新样本”,而不仅仅是在训练样本上做的好;即使是对于聚类这种无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力被称为“泛化”。具有强泛化能力的模型能更好地适用于整个样本空间。所以,为了使我们的模型能具有强泛化能力,我们期望我们的训练样本能较好地反映整个样本空间的特征。如:假设样本空间中全体样本服从一个未知的“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。一般而言,训练样本越多,我们得到的关于D的信息越多,就越可能通过学习获得具有强泛化能力的模型。

原文地址:https://www.cnblogs.com/wzc440302/p/9886465.html

时间: 2024-10-15 06:55:58

机器学习01的相关文章

Mooc机器学习-01机器学习

1 关于机器学习 机器学习是实现人工智能的手段, 其主要研究内容是如何利用数据或经验进行学习, 改善具体算法的性能 多领域交叉, 涉及概率论.统计学, 算法复杂度理论等多门学科 广泛应用于网络搜索.垃圾邮件过滤.推荐系统.广告投放.信用评价.欺诈检测.股票交易和医疗诊断等应用 机器学习的分类 监督学习 (Supervised Learning) 从给定的数据集中学习出一个函数, 当新的数据到来时, 可以根据这个函数预测结果, 训练集通常由人工标注 无监督学习 (Unsupervised Lear

AutoML学习---机器学习01

一.机器学习 1.机器学习框架 转换为网络结构,如下图所示: 2.框架分析 (1)数值特性: ① 连续特征:log1P.|x| .ex.归一化.离散化.顺序号等. ② 离散特征:频率.目标编码.One-hot 编码.合并.Label-Encoder 等. (2)特征提取(以文本为例): 特征特征提取与特征选择有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征.后者是将这些特征应用到机器学习中. (3)交叉特征: ① 文本交叉特征:文本相似度.N-gram 集合关系.词

我喜欢减肥我们来减肥吧

http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313278016/2015.01.28.html http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313282016/2015.01.28.html http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313289016/2015.01.28.html http://www.ebay.com/cln/usli

百度回家看沙发沙发是减肥了卡斯加积分卡拉是减肥

http://www.ebay.com/cln/hpryu-caw8ke/cars/158056866019/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/158445650015/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/158445674015/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/1584456790

巢哑偕倥乇椭煞谙暗逞帕俸

IEEE Spectrum 杂志发布了一年一度的编程语言排行榜,这也是他们发布的第四届编程语言 Top 榜. 据介绍,IEEE Spectrum 的排序是来自 10 个重要线上数据源的综合,例如 Stack Overflow.Twitter.Reddit.IEEE Xplore.GitHub.CareerBuilder 等,对 48 种语言进行排行. 与其他排行榜不同的是,IEEE Spectrum 可以让读者自己选择参数组合时的权重,得到不同的排序结果.考虑到典型的 Spectrum 读者需求

我国第三代移动通信研究开发进展-尤肖虎200106

众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.此次课程以<星际争霸II>回放文件分析为例,集中在IBM Cloud相关数据分析服务的应用.面对星际游戏爱好者希望提升技能的要求,我们使用IBM Data Science Experience中的jJupyter Notebooks来实现数据的可视化以及对数据进行深度分析,并最终存储到IBM Cloudant中.这是个介绍+动手实践的教程,参会者不仅将和讲师一起在线

pl/sql学习1——标量变量psahnh6S

为类型.不能用于表列的数据类型.范围为的子类型.自然数.为的子类型.具有约束为单精度浮点数.为变量赋值时.后面要加为双精度浮点数.为变量赋值时.后面要加.为数字总位数.为小数位数是的子类型.最大精度位是的子类型.最大精度位单精度浮点型是的子类型.最大精度位双精度浮点型定义精度为位的实数..定义为位的整数.变长字符串.最长测试变量数据!.定长字符串.最长测试变长二进制字符串物理存储的为类型...固定长度.个字节使用定义数据类型那个最小值:最大值:最小值:最大值:最小值:最大值:最小值:最大值:最小

机器学习中的矩阵方法01:线性系统和最小二乘

机器学习中的矩阵方法01:线性系统和最小二乘 说明:Matrix Methods in Data Mining and Pattern Recognition 读书笔记 非常 nice 矩阵在线计算器,网址:http://www.bluebit.gr/matrix-calculator/. 1. LU Decomposition 假设现在要解一个线性系统: Ax = b, 其中 A 是 n×n 非奇异方阵,对于任意的向量 b 来说,都存在一个唯一的解. 回顾我们手工求解这个线性方程组的做法,首先

机器学习读书笔记01 机器学习基础

顾名思义,机器学习的目的就是让机器具有类似于人类的学习.认识.理解事物的能力.试想一下,如果计算机能够对大量的癌症治疗记录进行归纳和总结,并能够给医生提出适当的建议和意见,那对病人的康复来说,是多么的重要.除了医疗领域,金融股票.设备维护.自动驾驶.航空航天等领域也对机器学习表现出了越来越多的关注. 大量的经济活动都依赖于信息,我们不能在海量的数据中迷失,机器学习将有助于我们穿越数据雾霭,从中抽取出有用数据. 开发机器学习应用的步骤 收集数据 准备输入数据 分析输出数据 训练算法 测试算法 使用