机器学习入门：机器学习概论

什么是机器学习？

在1959年，Arthur Samuel：不用编程去指定机器做什么，而是让机器有能力自己学习；

在1998年，Tom Mitchell：首先定义任务T，经验E，表现P，如果机器有一个任务T，随着经验E的增多，表现P也会变好，则表示机器正在经验E中学习；

以上就是对机器学习的两个定义；

机器学习在生活中也处处可见，比如：

(1)在gmail中，提供了一个“垃圾邮件”选项，可以通过机器学习辨别邮件是否为垃圾邮件，此处利用了分类算法；

如果我们根据Tom Mitchell的定义，则：

T：classify email as spam or not spam.

E：watching you label emails as spam or not spam.

P：The number of emails correctly classified as spam or not spam.

(2)ebay利用学习型算法判断某个信用卡是否被盗；

(3)“深蓝”下棋胜过国际象棋大师，是因为“深蓝”已经通过机器学习的方法学习了下棋的技术；

以上这些例子就是机器学习的常见案例；

机器学习的常见算法分为：

(1)Supervised Learning（监督学习）：下面的图片就是典型的监督学习的例子，监督学习分为Classifying和Regression，两者的区别后面解释，下图的文字明确地解释了监督学习的定义：

监督学习的例子：垃圾邮件的分类，这个在上面已经讲解过；

(2)Unsupervised Learning（非监督学习）：给定一组数据，这些数据从外表上来看没有什么差别，都落在了坐标轴上，我们的目标是从中找出结构，并将其分组，如下图，是聚类的例子，每个数据都是以原点的形式出现的，但是我们能够很清晰地将这些点分成两组（group into）：

非监督学习的例子：

google News中，会将一些新闻进行聚类（分组），即每个大类的新闻下面都会有多个URL，这些URL虽然来自不同的网站，但是都是这一类新闻，比如：

Market segmentation：将客户分组为几组，对每组客户进行不同的销售手段，如下图：

两个人在话筒前面同时说话，录音后发现这两个人的声音会混杂在一起，但是如果通过非监督学习，则可以将这两个人的声音分离开来；

以上介绍了机器学习的常见分类（监督学习和非监督学习），并详细介绍了定义及应用；

刚才我们说到监督学习分为：

(1)分类；

(2)回归；

这两者有什么区别呢？

区别在于分类的output为离散的，而回归的output为连续的，这样讲可能比较抽象，比如上面的例子就是回归，因为output为price，虽然看起来price是离散的，但是他的值是可以无限制的，因此是连续的，而下图为分类的例子，因为output=恶性or良性，可能的取值就两个值，因此为回归；

以上说明了分类和回归的区别；

练习题

1.你现在在证券所上班，对于某个特定的股票A，希望根据以往的价格走势，来推算出明天的价格是多少，这算是分类问题还是回归问题？

答：属于回归问题，因为股票的价格是连续的，因此是回归问题；

2.我们给出4个问题：

我们已经知道了这一堆是垃圾邮件，想要将这些垃圾邮件继续分子类；
给定一个数据集，全是心脏病的病人，我们需要将他们分成不同的簇，对每个簇用不同的治疗方法；
两个足球队要比赛，根据以往的数据，预测哪个队会赢；
根据一个人的DNA，预测10年后得糖尿病的几率；

哪些是监督学习，哪些是非监督学习？

答：(1)和(2)是监督学习，(3)和(4)是非监督学习；

原文链接：http://blog.csdn.net/xiazdong/article/details/7949981

时间： 2024-12-19 09:41:33

机器学习入门：机器学习概论

机器学习入门：机器学习概论的相关文章

机器学习入门资源--汇总

简单粗暴地入门机器学习

机器学习入门：线性回归及梯度下降

从零单排入门机器学习：Octave/matlab的常用知识之矩阵和向量

从零单排入门机器学习：OctaveMatlab的常用知识之画图

机器学习入门——单变量线性回归

机器学习--入门答疑

【转载】机器学习入门者学习指南（经验分享）

一步一步入门机器学习之五：机器学习自学指南

机器学习入门 - 1. 介绍与决策树(decision tree)