Chapter1——机器学习绪论

第一章的主要目的是为了了解一下基本概念,如什么是机器学习、无监督学习、监督学习等等。

一、什么是机器学习

1、机器学习是一门新的研究领域,主要是指在不需要显示编程情况下,计算机具有学习的能力

Field of study that gives computers the ability to learn without being explicitly programmed——Arthur Samuel (1959)

2、A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E——Tom Mitchell (1998)

question:

Suppose your email program watches which emails you do or do not mark as spam, and based on that learns how to better filter spam.  What is the task T in this setting?

A. Classifying emails as spam or not spam.                T

B. Watching you label emails as spam or not spam.     E

C. The number (or fraction) of emails correctly classified as spam/not spam.         P

D. None of the above—this is not a machine learning problem.

二、机器学习算法

1、Supervised learning

2、Unsupervised learning

3、Reinforcement learning

4、Recommender system

三、Supervised learning

有监督学习的特点:样本是有标签的

1、回归问题:预测给定样本(测试样本)的输出值

2、分类问题:分类出给定样本(测试样本)的标签,如:肿瘤问题,1表示肿瘤是恶性的,0表示良性

question:

Problem 1: You have a large inventory of identical items.  You want to predict how many of these items will sell over the next 3 months.

Problem 2: You’d like software to examine individual customer accounts, and for each account decide if it has been hacked/compromised.

Should you treat these as classification or as regression problems? 

A. Treat both as classification problems.

B. Treat problem 1 as a classification problem, problem 2 as a regression problem.

C. Treat problem 1 as a regression problem, problem 2 as a classification problem.

D. Treat both as regression problems.

四、Unsupervised learning

无监督学习的特点:样本没有标签,如下图,聚类是经典的无监督学习

question:

which would you address using an unsupervised learning algorithm?

A. Given email labeled as spam/not spam, learn a spam filter.

B. Given a set of news articles found on the web, group them into set of articles about the same story.

C. Given a database of customer data, automatically discover market segments and group customers into different market segments.

D. Given a dataset of patients diagnosed as either having diabetes or not, learn to classify new patients as having diabetes or not.

时间: 2024-11-05 10:58:25

Chapter1——机器学习绪论的相关文章

『Sklearn』机器学习绪论

机器学习 目标: 1.一定的自主能力 2.进化能力 方法: 1.归纳统计:经验结论 2.演绎推理:逻辑结论 流程: 原始数据 -> 特征提取 -> 学习机器 -> 规律知识 主要内容: 1.特征提取 2.学习机器 应用:

机器学习-chapter1机器学习的生态系统

1.机器学习工作流程 获取->检查探索->清理准备->建模->评估->部署 2.搭建机器学习环境 1..通过安装Python,配置相关环境变量 2.强烈建议直接安装anacomda,这是一个单一的可执行程序,几乎包含所有需要的软件包和依赖者,因为这个发行版是针对Python科学栈的用户,本质上是一个一劳永逸的解决方案,其中conda update <package_name>库就能更新到最新的稳定版本 3.安装jupyter,如果你安装的是anacomda就不需要

《机器学习》西瓜书 第一章 绪论

机器学习绪论 基本术语 基础 模型:泛指从数据中学得的结果 数据集 data set:一组记录的集合 示例 instance/样本 sample:关于一个事件或对象的描述 属性 attribute/特征 feature:反映事件或对象在某方面的表现或性质的事项 属性值 attribute value:属性上的取值 属性空间 attribute space/样本空间 sample space:属性张成的空间即 \(n\) 个特征描述出的 \(n\) 维空间 特征向量 feature vector:

《机器学习》(西瓜书)笔记(1)--绪论

第一章    绪论 1.1 引言 机器学习致力于研究如何通过计算的手段,利用经验(计算机系统中通常以数据的形式存在)来改善系统自身的性能. 机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法(learning algorithm). 1.2 基本术语 数据集(data set) 示例(instance) / 样本(sample):也叫作特征向量(feature vector) 属性(attribute) / 特征(feature) 属性值(attribute value)

机器学习总结之第一章绪论

机器学习总结之第一章绪论 http://www.cnblogs.com/kuotian/p/6141728.html 1.2基本术语 特征向量:即示例,反映事件或对象在某方面的性质.例如,西瓜的色泽,敲声. 属性:例如 青绿 乌黑 清脆. 数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)-- 例如,D = {X1,X2,--,Xm}表示包含m个示例的数据集. Xi = (xi1:xi2:--:xid)每个示例有d个

机器学习:绪论

学习教材为周志华教授的西瓜书<机器学习> 1.2 基本术语 维数 dimensionality 示例 instance 属性或特征 attribute or feature 特征向量 feature space 预测 prediction 标记 label 好瓜 样例 example  具有标记信息的示例 标记空间或输出空间 label space 所有标记的集合 分类classifaction 预测的是离散值(好瓜 坏瓜)的学习任务 回归regression 预测的时连续值(成熟度0.5 0

机器学习(一)绪论

首先,为什么机器学习很重要?我们一般的程序只能解决输入一定.计算过程一定.输出一定的问题.但是在现实生活中我们有很多问题都是无法用语言进行准确描述,我们在这里以一个反垃圾软件系统为例.如果我们需要建立一个反垃圾邮件系统,传统的手段没有办法很好的解决.对于这个问题,我们可以如下分析:1)通过人工手段判断可以简单分辨的邮件,并对这些邮件进行分类.2)对垃圾邮件的内容进行分析,归纳总结出一些特征.3)将这些特征写成代码,并且编写一个程序.4)通过这个程序对新的一批邮件进行判断,并且通过人工监督它的判断

【机器学习笔记】第一章:绪论

主要符号表: $x$ 标量 $\mathit{x}$ 向量 X 变量集 $\mathbf{A}$ 矩阵 $\mathbf{I}$ 单位阵 $\chi$ 样本空间或状态空间     $D$ 数据样本     $H$ 假设集 $\varepsilon$   学习算法 $\left \|  \cdot \right \|_p $ $L_p$范数,缺省为2 $sup\left(\cdot \right)$ 上确界 $\mathbb{I}\left( \cdot \right)$ 指示函数 $sign\l

《机器学习导论》学习笔记 第一章 绪论

必须先搞清楚机器学习中两个很重要的概念,一个是监督学习(Supervised Learning)和无监督学习(Unsupervised Learning). 这两者的区别就是前者知道了结果的正确值,后者没有这个指导值,也就是说你不知道所谓的正确结果. wikipedia上这样描述: 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的. 无监督学习与监督学习相比,训练集没有人