什么是机器学习?
在1959年,Arthur Samuel:不用编程去指定机器做什么,而是让机器有能力自己学习;
在1998年,Tom Mitchell:首先定义任务T,经验E,表现P,如果机器有一个任务T,随着经验E的增多,表现P也会变好,则表示机器正在经验E中学习;
以上就是对机器学习的两个定义;
机器学习在生活中也处处可见,比如:
(1)在gmail中,提供了一个“垃圾邮件”选项,可以通过机器学习辨别邮件是否为垃圾邮件,此处利用了分类算法;
如果我们根据Tom Mitchell的定义,则:
T:classify email as spam or not spam.
E:watching you label emails as spam or not spam.
P:The number of emails correctly classified as spam or not spam.
(2)ebay利用学习型算法判断某个信用卡是否被盗;
(3)“深蓝”下棋胜过国际象棋大师,是因为“深蓝”已经通过机器学习的方法学习了下棋的技术;
以上这些例子就是机器学习的常见案例;
机器学习的常见算法分为:
(1)Supervised Learning(监督学习):下面的图片就是典型的监督学习的例子,监督学习分为Classifying和Regression,两者的区别后面解释,下图的文字明确地解释了监督学习的定义:
监督学习的例子:垃圾邮件的分类,这个在上面已经讲解过;
(2)Unsupervised Learning(非监督学习):给定一组数据,这些数据从外表上来看没有什么差别,都落在了坐标轴上,我们的目标是从中找出结构,并将其分组,如下图,是聚类的例子,每个数据都是以原点的形式出现的,但是我们能够很清晰地将这些点分成两组(group into):
非监督学习的例子:
- google News中,会将一些新闻进行聚类(分组),即每个大类的新闻下面都会有多个URL,这些URL虽然来自不同的网站,但是都是这一类新闻,比如:
- Market segmentation:将客户分组为几组,对每组客户进行不同的销售手段,如下图:
- 两个人在话筒前面同时说话,录音后发现这两个人的声音会混杂在一起,但是如果通过非监督学习,则可以将这两个人的声音分离开来;
以上介绍了机器学习的常见分类(监督学习和非监督学习),并详细介绍了定义及应用;
刚才我们说到监督学习分为:
(1)分类;
(2)回归;
这两者有什么区别呢?
区别在于分类的output为离散的,而回归的output为连续的,这样讲可能比较抽象,比如上面的例子就是回归,因为output为price,虽然看起来price是离散的,但是他的值是可以无限制的,因此是连续的,而下图为分类的例子,因为output=恶性or良性,可能的取值就两个值,因此为回归;
以上说明了分类和回归的区别;
练习题
1.你现在在证券所上班,对于某个特定的股票A,希望根据以往的价格走势,来推算出明天的价格是多少,这算是分类问题还是回归问题?
答:属于回归问题,因为股票的价格是连续的,因此是回归问题;
2.我们给出4个问题:
- 我们已经知道了这一堆是垃圾邮件,想要将这些垃圾邮件继续分子类;
- 给定一个数据集,全是心脏病的病人,我们需要将他们分成不同的簇,对每个簇用不同的治疗方法;
- 两个足球队要比赛,根据以往的数据,预测哪个队会赢;
- 根据一个人的DNA,预测10年后得糖尿病的几率;
哪些是监督学习,哪些是非监督学习?
答:(1)和(2)是监督学习,(3)和(4)是非监督学习;
原文链接:http://blog.csdn.net/xiazdong/article/details/7949981