机器学习(一)绪论

  首先,为什么机器学习很重要?我们一般的程序只能解决输入一定、计算过程一定、输出一定的问题。但是在现实生活中我们有很多问题都是无法用语言进行准确描述,我们在这里以一个反垃圾软件系统为例。如果我们需要建立一个反垃圾邮件系统,传统的手段没有办法很好的解决。对于这个问题,我们可以如下分析:1)通过人工手段判断可以简单分辨的邮件,并对这些邮件进行分类。2)对垃圾邮件的内容进行分析,归纳总结出一些特征。3)将这些特征写成代码,并且编写一个程序。4)通过这个程序对新的一批邮件进行判断,并且通过人工监督它的判断是否正确,然后不断调整特征。这样我们就能够很好的解决这个问题了,上面的过程就是机器学习要干的事情。

  目前,机器学习主要解决10种典型问题:

  1)垃圾邮件检测  2)信用卡盗用检测  3)数字识别  4)语言识别  5)人脸识别  6)商品推荐  7)医疗诊断  8)股票交易  9)顾客区分  10)图形预测。

  其实也是四大问题,

  1)分类问题:数据被贴了标签,而且肯定属于某个类。例如垃圾邮件检测系统。

  2)回归问题:数据拥有有个数值,而且这个数值与时间有关,例如股票的价格总是会在某个值上下波动,我们主要是为了预测下一个时间它的价格。

  3)聚类问题:数据没有被贴上标签,但是它们其实是属于不同类的,我们需要给它们贴上标签。

  4)发掘关系:有两个看似无关的东西,它们其实内在存在我们人类无法察觉到的关系。

典型的机器学习方法有两张:

1)监督学习

  我们要去判断预测出来的东西对还是不对。

2)无监督学习

  整个过程中没有人工参与。

时间: 2024-12-16 21:01:33

机器学习(一)绪论的相关文章

机器学习:绪论

学习教材为周志华教授的西瓜书<机器学习> 1.2 基本术语 维数 dimensionality 示例 instance 属性或特征 attribute or feature 特征向量 feature space 预测 prediction 标记 label 好瓜 样例 example  具有标记信息的示例 标记空间或输出空间 label space 所有标记的集合 分类classifaction 预测的是离散值(好瓜 坏瓜)的学习任务 回归regression 预测的时连续值(成熟度0.5 0

《机器学习》(西瓜书)笔记(1)--绪论

第一章    绪论 1.1 引言 机器学习致力于研究如何通过计算的手段,利用经验(计算机系统中通常以数据的形式存在)来改善系统自身的性能. 机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法(learning algorithm). 1.2 基本术语 数据集(data set) 示例(instance) / 样本(sample):也叫作特征向量(feature vector) 属性(attribute) / 特征(feature) 属性值(attribute value)

机器学习总结之第一章绪论

机器学习总结之第一章绪论 http://www.cnblogs.com/kuotian/p/6141728.html 1.2基本术语 特征向量:即示例,反映事件或对象在某方面的性质.例如,西瓜的色泽,敲声. 属性:例如 青绿 乌黑 清脆. 数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)-- 例如,D = {X1,X2,--,Xm}表示包含m个示例的数据集. Xi = (xi1:xi2:--:xid)每个示例有d个

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector:

Chapter1——机器学习绪论

第一章的主要目的是为了了解一下基本概念,如什么是机器学习.无监督学习.监督学习等等. 一.什么是机器学习 1.机器学习是一门新的研究领域,主要是指在不需要显示编程情况下,计算机具有学习的能力 Field of study that gives computers the ability to learn without being explicitly programmed——Arthur Samuel (1959) 2.A computer program is said to learn f

『Sklearn』机器学习绪论

机器学习 目标: 1.一定的自主能力 2.进化能力 方法: 1.归纳统计:经验结论 2.演绎推理:逻辑结论 流程: 原始数据 -> 特征提取 -> 学习机器 -> 规律知识 主要内容: 1.特征提取 2.学习机器 应用:

【机器学习笔记】第一章:绪论

主要符号表: $x$ 标量 $\mathit{x}$ 向量 X 变量集 $\mathbf{A}$ 矩阵 $\mathbf{I}$ 单位阵 $\chi$ 样本空间或状态空间     $D$ 数据样本     $H$ 假设集 $\varepsilon$   学习算法 $\left \|  \cdot \right \|_p $ $L_p$范数,缺省为2 $sup\left(\cdot \right)$ 上确界 $\mathbb{I}\left( \cdot \right)$ 指示函数 $sign\l

《机器学习导论》学习笔记 第一章 绪论

必须先搞清楚机器学习中两个很重要的概念,一个是监督学习(Supervised Learning)和无监督学习(Unsupervised Learning). 这两者的区别就是前者知道了结果的正确值,后者没有这个指导值,也就是说你不知道所谓的正确结果. wikipedia上这样描述: 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的. 无监督学习与监督学习相比,训练集没有人

机器学习学习笔记-绪论

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:"监督学习"和"无监督学习",分类和回归是前者的代表,聚类是后者的代表. 预测的若是离散值,学习任务则成为"分类",涉及两个类别的是"二分类",涉及多个类别的是"多分类": 预测任务对象若是连续值,此类学习任务成为"回归": 聚类,是根据训练集的数据内在规律进行划分,不依赖标记信息. 归纳与演绎--科学推理的两大基本手段. 演绎: