关于机器学习中规则与统计方法的思考

最近工作了一段时间,今天跟大家讨论一下关于“规则与模型”的问题。

大家肯定都知道,机器学习方法主要分两类,一类是基于统计的方法,比如贝叶斯、KNN等,都是对数据的某种特征进行归类计算得到数据划分的依据的;另一类是基于规则的方法,比如,语义规则,语法规则或者业务规则等等,这些规则主要是根据数据本身的特征人为地对分类细节进行限定,没有什么太高深的理论,但是实用性很强。当然,我觉得还有第三种方法,就是基于统计与基于规则相结合的方法,比如关联规则,apriori方法,或者决策树方法。这些方法在分类或者求变量关系的时候本质上是基于规则分类,但是在训练过程中却是使用统计的方法的。比如apriori方法,该方法本身就是求规则的一种方法,但该方法训练的时候是需要对各种关联特征进行统计的。训练完毕后寻找强关联性的特征可以进行分类,因为我觉得找出哪些是强关联哪些不是强关联就是一个分类的过程。再比如决策树,同样的道理,决策树本身得到的那棵树就是一棵规则树,但是在寻找树的分裂属性上,无论是ID3还是C4.5,都是基于统计方法的。我认为这种通过训练出的规则进行统计分类的方法就是统计与规则相结合的方法。那么这三类方法哪些是比较有效的呢,或者说哪些是比较适合大部分数据的呢?

我的个人理解是,没有。我们在学校里写paper,最主要的任务有三:第一,提高算法性能;第二,提高算法对数据的匹配度;第三,提高数据对算法的匹配度。举个例子来说,我用SVM对新浪微博文本做情感分析,要么改进SVM核心算法,提高分类精度;要么对SVM选取特征的方法或空间构造的方法进行改进,提高分类精度;要么就是直接改进数据特征提取方式,提高数据对分类器的匹配度。但是,不管是哪一种方法,都要满足最小泛化阈值。也就是说,对训练数据之外的测试数据的分类准确度一定要满足最低要求。我们把训练数据和测试数据的概念扩大一下,如果我们把要训练的某类数据作为训练数据,把该类别之外的数据作为测试数据,情况就完全不一样了。比如,我把微博数据作为训练数据,把短信类短文本数据作为测试数据,虽然同样都属于短文本,但泛化值出奇的低。这是因为我们无论采用哪一种方法,数据都必须是封闭的,或者说是相对封闭的。我们用分类器或者基于统计的方法,其实主要就是为了提高泛化能力,因为统计一个词的个数和一个数的个数的意义是一样的。但是现在看来,好像基于统计的方法的泛化能力还是有限。

导致这种现象的原因是什么呢?我在刚开始学机器学习的时候就遇到一个很大的矛盾,既然SVM是最好的基于统计的分类方法,而基于统计的方法的目的就是为了提高泛化能力,为什么在使用SVM的时候还是需要去适应数据呢?在我理解,分类方法对数据适应的越多,规则成分就越多。我在最近做“技能词识别”的时候使用了各种规则,尝试了各种方法,然后我返现我犯了两个个错误,第一SVM是一种思想,不是一种具体的方法。思想本身无法使用,只有把它应用到实践才有价值;第二就是数据挖掘,或者机器学习的核心的重点永远是数据和思想的问题,没有方法的问题。因为我们选择的方法一定是要匹配数据的,目前来说这是根本;方法也是必须要符合分类某数据的核心思想的。由此我想出,无论是基于规则的方法还是基于统计的方法都是基础理论,单纯的使用基础理论是没有什么意义的,或者说只能满足很少一部分数据的。只有结合实际情况,结合多种基础理论,才能把机器学习运用到实际当中,因为我们的核心是数据,是实际情况。

所以说,如果们分类的时候发现基于统计的方法远远不如基于规则的方法,或者反过来,并不表明哪一种方法好,而是说明某一种方法更适合目前要分析的数据。对完全不同数据类型的数据进行泛化我觉得目前来说不太现实,因为对于真实的人来说让一个人根本不懂英语的中国人去理解英文那是不可能的。当然,以后会发展到什么程度我是难以预料的,我的眼光目前也比较短浅看不到很深远的东西。但我觉得,如果某一天这种泛化能力实现了,人类将走向灭绝。

对了,最后一点,我觉得将“基于统计的学习方法”和“基于规则的学习方法”改为“基于统计的学习思想”和“基于规则的学习思想”更好一些。

可能会有逻辑不对的地方,欢迎批评指正!

时间: 2024-10-13 00:34:05

关于机器学习中规则与统计方法的思考的相关文章

【转载】机器学习中的相似性度量,方法汇总对比

机器学习中的相似性度量,方法汇总对比 人工智能  林  1周前 (01-10)  876℃  0评论 作者:苍梧 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance).采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马

ASP.net中网站访问量统计方法代码(在线人数,本月访问,本日访问,访问流量,累计访问)

一.建立一个数据表IPStat用于存放用户信息 我在IPStat表中存放的用户信息只包括登录用户的IP(IP_Address),IP来源(IP_Src)和登录时间 (IP_DateTime),些表的信息本人只保存一天的信息,如果要统计每个月的信息则要保存一个月.因为我不太懂对数据日志的操作,所以创建此表,所 以说我笨吧,哈哈. 二.在Global.asax中获取用户信息 在Global.asax的Session_Start即新会话启用时获取有关的信息,同时在这里实现在线人数.访问总人数的增量统计

机器学习中的度量——统计上的距离

??????机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量"可以显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种"度量","度量"主要由两种,分别为距离.相似度和相关系数,距离的研究主体一般是线性空间中点:而相似度研究主体是线性空间中向量:相关系数研究主体主要是分布数据.本文主要介绍统计上的距离. 1 马

机器学习中防止过拟合方法

过拟合 ??在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布,即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立模型,即使用已经产生的数据去训练,然后使用该模型去拟合未来的数据.但是一般独立同分布的假设往往不成立,即数据的分布可能会发生变化(distribution drift),并且可能当前的数据量过少,不足以对整个数据集进行分布估计,因此往往需要防止模型过拟合,提高模型泛化能力.而为了达到该目的的最常见方法便是:正则化,即在对模型的目

机器学习中三类参数估计的方法

本文主要介绍三类参数估计方法-最大似然估计MLE.最大后验概率估计MAP及贝叶斯估计. 1.最大似然估计MLE 首先回顾一下贝叶斯公式 这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即 最大似然估计就是要用似然函数取到最大值时的参数值作为估计值,似然函数可以写做 由于有连乘运算,通常对似然函数取对数计算简便,即对数似然函数.最大似然估计问题可以写成 这是一个关于的函数,求解这个优化问题通常对求导,得到导数为0的极值点.该函数取得最大值是对应的的取值就是我们估计

机器学习中的范数规则化之(一)L0、L1与L2范数

机器学习中的范数规则化之(一)L0.L1与L2范数 [email protected] http://blog.csdn.net/zouxy09 转自:http://blog.csdn.net/zouxy09/article/details/24971995 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一

机器学习中的范数规则化

机器学习中的范数规则化之(一)L0.L1与L2范数 [email protected] http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正.谢谢. 监督机器学习问题无非就是"minimizeyour er

机器学习中的正则化和范数规则化

机器学习中的正则化和范数规则化 正则化和范数规则化 文章安排:文章先介绍了正则化的定义,然后介绍其在机器学习中的规则化应用L0.L1.L2规则化范数和核范数规则化,最后介绍规则化项参数的选择问题. 正则化(regularization)来源于线性代数理论中的不适定问题,求解不适定问题的普遍方法是:用一族与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法.如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容.通常的正则化方法有基于变分原理的Tikhonov正则

机器学习中的范数规则化 L0、L1与L2范数 核范数与规则项参数选择

http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 [email protected] http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问题.这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文.知识有限,以下都是我一些浅显