AI,DM,ML,PR的区别与联系

数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解。数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。

而模式识别和机器学习的关系是什么呢,传统的模式识别的方法一般分为两种:统计方法和句法方法。句法分析一般是不可学习的,而统计分析则是发展了不少机器学习的方法。也就是说,机器学习同样是给模式识别提供了数据分析技术。

至于,数据挖掘和模式识别,那么从其概念上来区分吧,数据挖掘重在发现知识,模式识别重在认识事物。

机器学习的目的是建模隐藏的数据结构,然后做识别、预测、分类等。

因此,机器学习是方法,模式识别是目的。

-----------------------------------------------------------------

人工智能(Artificial Intelligence,AI) 、机器学习(Machine Learning,ML) 、模式识别 (Pattern Recognition, PR)、数据挖掘 (Data Mining, DM)、信息检索(Information Retrieval,IR)……我想起之前在 BeBeyond 的一个同学,我说我做 ML 的,他说“我 做 DM 的,我们都是搞计算机的呢!”后来我才明白,ML 和 DM 根本就没有多大区 别。其实,上面列的这些学科本质上都没有太大区别,只不过它们要解决的核心问 题不同,而运用的数学模型如出一辙。

先说 AI。这个词大众比较熟悉,通常一个电子游戏的 AI 直接决定了游戏的可玩 性。简单的 AI 比如超级玛丽里会扔刺猬的云怪,复杂的 AI 比如红色警戒中需要操 纵整个国家的电脑敌人。我很小的时候就在想这些算法得有多么复杂。慢慢地我意 识到电脑控制方式与我不一样。 我是单线程的, 在一个时间点上要么控制坦克进攻, 要么控制基地建设;而电脑的每个单位都有独立的思考能力和通信能力。这些是通 过设计逻辑来实现的(难怪在 98 年买的电脑上跑一点也不卡) ,比如坦克的逻辑可 能是“IF 附近的友军收到攻击,THEN 前去支援”,矿车的逻辑可能是“IF 受到攻击, THEN 向基地撤退”……等等。 AI 其实就是计算机自动做决策。做决策的原则可以是上面简单的条件判断,可以 是穷举,也可以是多个因素连接成的网络,比如下图(称为贝叶斯网络,Bayesian Network) ,这是一个通过判断是否有地震和盗窃的简单的智能系统。 用贝叶斯网络做决策,需要设置的参数都是概率形式的,比如地震发生的概率是 2.6%,盗窃发生的概率是 12.4%,地震发生时警报响的概率是 72%……等等。这些 参数有了之后,当有一天警报响起,系统就能够回溯地计算出警报响是由地震发生 还是盗窃发生引起的。

下面说 ML。ML 是最可怕的部分。上面说的 AI 系统的规则都是人为设定的,所 以它的表现绝大多数情况在人们的期待以内。而 ML 算法可能使系统变得过分地聪 明。一个绝佳的 ML 例子见以下链接。 http://en.akinator.com/ 这是一个网络小游戏,你在心中想一个人物,然后算法会问你一系列的一般疑问 句(比如“这个人是科学家吗?”)你回答 Yes 或者 No。若干个问题后,算法会知道 你心中的人物是谁了(通常比你预计的要快) 。 之所以说这是一个 ML 系统,是因为它不仅做决策下一个问题该问什么、已经问 的问题和答案能推出什么结果,它还在不断地自我改进。比如说,我心中想的人物 是亚运会的吉祥物阿和 (几年前这个游戏推出时它肯定不知道阿和是谁) ,于是在很 多个问题过后,这个 ML 算法猜成喜羊羊了,然后我告诉它“你猜错了,我想的是阿 和”,于是,它会更新它的决策网络,增加阿和这个节点,改变各个概率值。下次有 人想阿和的,它就可能猜中了。 所以,从上面的例子可以看出,ML 重点研究的是算法的学习过程,强调的是一 个反馈的框架。一开始系统可能很弱智,但是经过长期训练后它能做出很高超的决 策。

举个我的例子。比如说,我老板希望能做一个自动作曲的系统,要求能做莫扎特 风格的钢琴奏鸣曲,而听起来不能像海顿和贝多芬。想一想这个决策规则就复杂得 看似不可能实现, 也许 10000 个 IF...THEN...也不能实现。 但是从 ML 的角度来思考, 就变得有可能了。我可以把莫扎特已有的乐谱输入给系统,告诉它这是好结果;再 把海顿和贝多芬的给系统,告诉它这是坏结果。然后就期待这个系统能够学到点什 么。当然,真正实现起来设计这个学习框架是有难度的,不过 ML 是正确的思路。

接下来说的是 PR。我本科时北邮的课程就叫模式识别。PR 充满了工程的思维方 式,“解决问题是关键,不关心系统在理论上是否最优”。比如人脸识别、癌细胞识 别、语言识别、入侵检测等等,拿各种分类器(SVM、神经网络神马的)一个一个 试,用最好的那个分类器来应用就 OK 了。

然后是 DM。DM 是一项应运而生的科学,正因为互联网蓬勃发展,才吸引那么 多人研究 DM。个人认为 Google 之所以比百度聪明,就是因为 Google 的 DM 牛。 对于成千上万个网页(看做是众多单词组成的序列) ,DM 算法可能发现“新闻”、“报 导”、“记者”等词语是具有关联性的,于是用户在搜索“新闻”这个关键词时,与“新 闻”相关的词也可能提供对用户有价值的信息。总之,DM 是从数据中挖掘出高层的 语义关联信息。

再举个我的例子。我前一段时间做了一个音乐结构分段的算法,旨在将音乐中主 歌、副歌这些结构单元自动分离。DM 中就有一个热门的算法能够达到我的目的, 如下图,把《Creep》分解成为两个部分。技术细节就省略吧。 最后,提一提 IR。IR 的目的希望互联网能够变得更加人性化。比如你在搜索引 擎中输入“推荐个便宜的可以玩桌游的地方”, 算法一方面从这句话中提取 IR (retrieve) 出有用的信息:是个地方,要可以玩桌游,便不便宜自己看着办;另一方面从网络 上取出(retrieve)合理的网页给用户。

总结一下吧。只要跟决策有关系的都能叫 AI,所以说 PR、DM、IR 属于 AI 的具 体应用应该没有问题。 研究的东西则不太一样, ML 强调自我完善的过程。 Anyway, 这些学科都是相通的,Google 也是越来越聪明的,不是么。 前一段时间看到关于机器阅卷比人工靠谱的消息。也许在不久的将来会有一大批 人失业,机器会代替会记、医生、甚至程序员。也许,机器的智能会产生很多很多 的争议, 但是我们必须承认, 在不太需要创造性的工作中, 我们真的比不上机器的。 最好的方式大概就是机器与人协同合作。 CCRMA 的 Jonathan Berger 来北京演讲, 他提到的 sonification 给我挺大的启发。他说:“我们买西瓜时拍一拍就知道西瓜是 否熟了,因为人耳对于这种音色可以做决策,而机器目前还很难做到。监测工作很 辛苦,比如核电站工作人员需要成天盯着很多很多数据,不停地做决策,判断是否 出异常。为什么不能把数据通过某种算法变换出某种音色,工作人员只需要学习什 么是正常的声音,什么是异常的声音,听就行了,这与听拍西瓜的声音是一样的道 理。”

摘录于:http://www.cnblogs.com/growup/archive/2011/04/26/2029393.html

http://wenku.baidu.com/view/c1b5120103d8ce2f0066233a.html

时间: 2024-07-29 23:00:08

AI,DM,ML,PR的区别与联系的相关文章

The year in AI: 2019 ML/AI advances recap

The year in AI: 2019 ML/AI advances recap 2020-01-26 11:47:14 Source: https://medium.com/@xamat/the-year-in-ai-2019-ml-ai-advances-recap-c6cc1d902d5 It has become somewhat of a tradition for me to do an end-of-year retrospective of advances in AI/ML

DM/ML学习实践(一)

//数据挖掘&机器学习实践 1.简单的手写数字识别 原理:可以先通过多次手写的图片生成训练集,然后利用knn就行了……代码如下(下面代码需要安装PIL/numpy库,PIL安装有点坑==官方的貌似还有点问题...) 1 //knn.py 2 from numpy import * 3 import operator 4 import os 5 6 def createDataSet(): 7 group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0

认识:人工智能AI 机器学习 ML 深度学习DL

人工智能 人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的一门新的技术科学. 人工智能是对人的意识.思维的信息过程的模拟.人工智能不是人的智能,但能像人那样思考.也可能超过人的智能. 人工智能的定义可以分为两部分,即"人工"和"智能". 机器学习 1.    什么是机器学习 根据等人事件中判断人是否迟到了解什么是机器学习,具体参见地址:http://www.cnblo

搭建一个新手学习AI/ML的Python环境

不知不觉消失了好久,公众号也很久没有更新了.因为跑去学习微软AI方向的MPP课程了.MPP是目前微软最先提供关于AI的培训课程,关于MPP的学习体系,我后面会再写一篇简单的介绍. ???? MPP包含了很多的内容,开始学习的时候速度还挺快,到后面越来越艰涩.这也是很久没有精力去更新内容的原因之一.在学习的过程中,逐步接触到了AI或者ML所需要的Python环境.还记得我们之前的介绍吗?通过Python去调用AI的很多API,来快速实现AI的一些功能. ??? 在学习Azure AI的API的eD

AI - 一些概念

001 - AI.ML与DL的关系 从涵盖范围上来讲,人工智能(AI)大于机器学习(ML)大于深度学习(DL) 人工智能(AI):能够感知.推理.行动和适应的程序: 机器学习(ML):能够随着数据量的增加不断改进性能的算法: 深度学习(DL):是机器学习的一个子集,利用多层神经网络从大量数据中进行学习: 002 - 深度学习 "深度学习是一种特殊的机器学习,通过学习将世界使用嵌套的概念层次来表示并实现巨大的功能和灵活性,其中每个概念都定义为与简单概念相关联,而更为抽象的表示则以较不抽象的方式来计

5 Ways AI is Transforming the Finance Industry

https://marutitech.com/ways-ai-transforming-finance/ As global technology has evolved over the years, we have moved from television to the internet, and today we are smoothly and gradually adapting Artificial Intelligence. The term AI was first coine

当AI遇上K8S:使用Rancher安装机器学习必备工具JupyterHub

Jupyter Notebook是用于科学数据分析的利器,JupyterHub可以在服务器环境下为多个用户托管Jupyter运行环境.本文将详细介绍如何使用Rancher安装JupyterHub来为数据科学和机器学习开发创建可扩展的工作区.  本文来自 Rancher Labs 人工智能(AI)和机器学习(ML)正在成为技术领域的关键差异化因素.从本质上讲,人工智能和机器学习都是计算量巨大的工作负载,它们需要一流的分布式计算环境才能够蓬勃发展.因此,AI和ML为Kubernetes提供了一个完美

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

推荐系统中所需的概率论与数理统计知识

前言 一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友只看不发的围脖评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣.想想,甚合我意.自此,便从rickjin写的"正态分布的前世今生"开始研习数学. 如之前微博上所说,"今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从'正态分布的前后今生'中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,