【机器学习笔记】第一章：绪论

主要符号表：

$x$	标量
$\mathit{x}$	向量
X	变量集
$\mathbf{A}$	矩阵
$\mathbf{I}$	单位阵
$\chi$	样本空间或状态空间

$D$	数据样本

$H$	假设集
$\varepsilon$	学习算法
$\left \\| \cdot \right \\|_p $	$L_p$范数，缺省为2
$sup\left(\cdot \right)$	上确界
$\mathbb{I}\left( \cdot \right)$	指示函数
$sign\left( \cdot \right) $	符号函数

1.1 引言

机器学习：通过研究计算的手段，利用经验改善系统自身特性。从数据中学习模型.

1.2 基本术语

data set: 数据集，一组记录的集合.

instance: 示例，关于事件或者对象的描述

attribute/feature: 属性/特征，反映事物或对象在某方面的表现或者性质的事项.

attribute value: 属性的取值

attribute/sample space: 属性空间，属性张成的空间.

feature vector: 一个示例称为一个feature vector.

dimensionality: 维数，每个示例由多个d个属性描述，则称样本维度为d.

training/learning: 训练习得模型的过程

training data: 训练过程中使用的数据

training sample: 训练样本

training set: 训练样本组成的集合

hypothesis: 学习得到的模型关于数据的某种潜在规律.

ground-truth:潜在规律自身

label: 示例信息的结果信息

label space: 标记空间/输出空间

example: 拥有标记信息的示例

classification:需要预测的值为离散值

regression:需要预测的值为连续值

clustering: 聚类

supervised learning: 监督学习，分类和回归

unsupervised learning: 无监督学习，聚类

generalization:习得模型适用于新样本

distribution: 样本空间样本服从的分布

i.i.d: independent and identical distribution,独立同分布

1.3 假设空间

1. induction:归纳，特殊到一般，泛化generalization

　 deduction:演绎,一般到特殊, 特化specialization

2. 概念学习：

1.4 归纳偏好

1. inductiive bias:算法在学习过程中对某种类型假设的偏好

2. Occam‘s razor:奥卡姆剃刀，一种常用的，自然科学研究基本原则，“若有多个假设与观察一致，则选择最简单的那个”.

3.No Free Lunch Theorem 没有免费午餐——算法优劣比较

在所有问题出现机会相同，或者所有问题同等重要的情况下，不同学习算法产生的误差相同。

1.5 发展历程

时间： 2024-10-16 11:41:32

【机器学习笔记】第一章：绪论的相关文章

数据库系统概论学习笔记-第一章绪论

数据库系统概论-第一章绪论写在前面:寒假来临,除却走亲戚和同学聚餐,王者荣耀等游戏上分花销一点时间之外,自认为要花一点时间学习数据库和Android,以此来为下学期和共建项目打下一丢丢的基础.为了鞭策自己,定了一个小目标( 一个亿),每个两至三天我会发表一篇数据库或Android学习笔记.还是那句话你的才华撑不住你的野心时,那就静下来学习吧 . 数据库系统概述数据库常用的术语和基本概念数据库基本概念数据(Data) 数据是数据库中存储的基本对象,可以对数据做如下定义:描述事物的符号记录称

[MOOC笔记]第一章绪论(数据结构)

1. 计算学习DSA的目的是实现有效的和高效的计算,同时在资源消耗的方面做到足够的低廉. 计算 = 信息处理:借助某些工具,遵照一定规则,以明确而机械的形式进行. 计算模型 = 计算机 = 信息处理工具算法:在特定的计算模型下,旨在解决特定问题的指令序列. 算法的要素: 输入待处理的信息(问题) 输出经处理的信息(答案) 正确性的确可以解决指定的问题确定性任一算法都可以描述为一个由基本操作组成的序列可行性每一基本操作都可实现,且在常数时间内完成有穷性对于任何输入,经有穷次

《机器学习导论》学习笔记第一章绪论

必须先搞清楚机器学习中两个很重要的概念,一个是监督学习(Supervised Learning)和无监督学习(Unsupervised Learning). 这两者的区别就是前者知道了结果的正确值,后者没有这个指导值,也就是说你不知道所谓的正确结果. wikipedia上这样描述: 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的. 无监督学习与监督学习相比,训练集没有人

《信息系统项目管理师教程》读书笔记—第一章绪论

1.1 什么是项目 1.1.1 项目的定义项目(Project)是为提供某项独特的产品.服务或成果所进行的临时的一次性努力. 项目的特点: (1)临时性 (2)独特的产品.服务或成果 (3)渐进明细(Progressive Elaboration) 1.1.2 信息系统项目的特点典型的信息系统项目有如下特点: 目标不明确需求变化频繁智力密集型设计队伍庞大设计人员高度专业化涉及的承包商多各级承包商分布在各地,相互关系复杂系统集成项目中需研制开发大量的软硬件系统项目生命期通常较短

【深入理解Linux内核】《第一章绪论》笔记

1.商用Unix操作系统包括: - AT&T公司开发的(System V Release 4) SVR4. - 加州伯克利分校发布的4.4BSD - Dec公司(现属于HP)的Digital Unix - IBM公司的AIX - HP公司的HP-UX - Sun公司的Solaris - Apple公司的Mac OS X 所有商业版本都是SVR4或4.4BSD的变体,并且都趋向于遵循某些通用标准:如IEEE的POSIX(Portable Operating Systems based on U

机器学习总结之第一章绪论

机器学习总结之第一章绪论 http://www.cnblogs.com/kuotian/p/6141728.html 1.2基本术语特征向量:即示例,反映事件或对象在某方面的性质.例如,西瓜的色泽,敲声. 属性:例如青绿乌黑清脆. 数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)-- 例如,D = {X1,X2,--,Xm}表示包含m个示例的数据集. Xi = (xi1:xi2:--:xid)每个示例有d个

《机器学习》西瓜书第一章绪论

机器学习绪论基本术语基础模型:泛指从数据中学得的结果数据集 data set:一组记录的集合示例 instance/样本 sample:关于一个事件或对象的描述属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项属性值 attribute value:属性上的取值属性空间 attribute space/样本空间 sample space:属性张成的空间即 $n$ 个特征描述出的 $n$ 维空间特征向量 feature vector:

《Hadoop权威指南》笔记第一章&第二章

? ? ? ? ? ? ? ? ? ? ? ? ? ? 使用MapReduce ? ? ? ? ? ? ? ? import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; // 会继承这个基类 import org.apache

iOS 读书笔记第一章

1.确定某个实例或类方法是否可用. 1)使用NSObject的类方法instancesRespondToSelector:来确定是否在该类的一个实例中存在一个特定的选择器. NSArray *array = @[@"1",@"2"]; if ([NSArray instancesRespondToSelector:@selector(sortUsingComparator:)]) { //do something use sortUsingComparator: }

编程之美笔记--第一章游戏之乐--1.2中国象棋将帅问题

后来一版作者又将最后一句改为:”要求在代码中只能使用一个字节存储变量“. 我的解法: package android.zlb.java; /** * * @author zhanglibin * */ public class TestXiangqi { public static void main(String[] args) { for(int i = 11; i < 100; i++) { if(i / 10 % 3 == 1 && (i % 10 == 1 || i % 1