从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、欺诈风险侦测,还是半导体、电子、化工、医药、钢铁等制造行业的研发技术人员在进行新产品实验设计与分析、流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析。

回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制。但是,稍微对回归模型的有效程度和预测精度有一定要求时,我们就会发现回归分析有一些先天性的不足和隐患:

1. 缺少用实际数据验证模型有效性的环节,经常听到的抱怨是:模型看上去很美,但是一到应用环节就发现预测不准确;

2. 建模手段单一,不能多角度地考虑问题,从而更好地拟合数据;

3. 无法系统地比较通过不同方法得到的不同模型,更谈不上在众多候选模型中甄选出一个相对最佳的模型。

这时,想要消除上述隐患,突破工具瓶颈的理想办法就是从“回归分析”的层次上升到“数据挖掘”的层次。

数据挖掘是一个更大的数据分析概念,主要指从大量的企业数据中揭示出隐含的、先前未知的并有潜在价值的信息的整个过程。从统计技术层面上讲,数据挖掘至少具有三大特征:

1. 强调分析建模之前的数据源划分,一般需要将所有原始数据分为模型训练数据training data、模型验证数据validation data、模型测试数据test data三类。从而从源头上确保了由此求得的模型是经得起现实复杂情况的严峻考验。

2. 提供了丰富的建模手段,除了基于最小二乘法、逐步法和Logistic法等传统的回归分析之外,还包括很多新颖又实用的建模技术,如:决策树(Decision Tree)、神经网络(Neural Network)、关联规则(Association Rule)、支持向量机(Support Vector Machine)、文本挖掘(Text Mining)等。这使我们在遇到回归分析失效的情况下,依然具备解决问题的能力。

3.“模型比较(Model Comparison)”是数据挖掘后期的过程中必不可少的一个环节,这样一来,我们就可以科学、客观地从不同的候选模型中找到最理想的模型来做最精准的预测分析,将预测误差降低到最低。

显然,数据挖掘的这三个特征有效地弥补了回归分析的不足,为我们的建模预测工作奠定了扎实的基础。下面用一个真实案例来说明从回归分析到数据挖掘的实际应用,出于数据安全性的考虑,核心数据(包括变量名称)已做了相应的编码处理。

某知名钢铁公司的研发部门在一个构建结构钢端淬曲线预测模型的项目中,先用用SAS公司面向普通工程师和科学家开发的交互式可视化统计发现软件JMP中的逐步回归做了一个预测模型(见下图)。

从分析报告上来看,这个预测模型还是不错的。但在模型的推广过程中,多次发现预测误差很大,甚至严重动摇了技术人员应用统计建模的信心。所幸在权威咨询机构的指导下,发现造成模型预测失误的主要原因是模型过度拟合,包含了很多不必要拟合的噪声信息。项目成员重新思考了技术攻关中需要用到的方法论,最终决定升级到高级版JMP Pro,没有多做一次现场实验,没有申请任何额外预算,却显著改善了模型的预测效果,达到了预期效果。

从技术细节上来看,项目后期与前期的不同之处也恰巧体现了前面所介绍的数据挖掘的三大特征,即:

第一,没有囫囵吞枣地把所有数据全都用来构建模型,而是有计划地按照一定比例将所有数据分为训练数据、验证数据、测试数据三类,各类数据各司其职,确保由此产生的模型在生产阶段的有效性。

第二,开拓思路,有机地运用除了回归分析之外的多种数据挖掘建模工具,如决策树、神经网络,以及其衍生工具(如随机森林Bootstrap Forest、提升树Boosted Tree等),避免了由于单一方法的生搬硬套而导致的建模错误。

第三,先松后紧,整合之前求得的各个候选模型,将科学严谨的统计量化指标与实际业务经验相结合,挑选出整体上最合适的预测模型,体现了“博采众长,取长补短”的建模理念。

总之,“从回归分析到数据挖掘”是企业在精细化管理发展到一定阶段后必定会遇到的一个问题。当然,相对于传统的回归分析,数据挖掘会显得相对复杂一些。但是,融合先进算法而关注界面友好的现代化统计分析软件(如案例中用到的JMP Pro软件),已经大大降低了数据挖掘的技术门槛,使得无论是科班出身的统计学家,还是没有统计学功底的普通技术人员,都能快速上手,真正地数据中挖掘出对企业运营有益的信息。

--------------------------------------------------------------

微信搜索【数据海洋】

时间: 2024-12-15 01:44:49

从回归分析到数据挖掘的相关文章

关于数据挖掘中“多重共线性”的确定方法(有图有真相)

回归分析是数据挖掘中最基本的方法,其中基于普通最小二乘法的多元线性回归要求模型中的特征数据不能存在有多重共线性,否则模型的可信度将大打折扣.但是就是技术而言,如何确定模型中的各各特征之间是否有多重共线性呢? 先来看一组数据 我们能否用这组数据来建立多元线性回归模型呢?现在这组数据的问题还不十分明显,我们不妨用最简单的交叉散点图来透视一下数据可能存在的问题.于是我们在R中绘制了下图: 从散点图中我们可以看出每个解释变量都与被解释变量有较明显的线性关系,而且这也是我们所希望看到的.但是两个解释变量之

Python检验多元共线性-VIF方差扩大因子

python入门/爬虫/数据统计/数据分析人工智能/机器学习/自然语言视频教程网址https://pythoner.taobao.com/ 在一个回归方程中,假如两个或两个以上解释变量彼此高度相关,那么回归分析的结果将有可能无法分清每一个变量与因变量之间的真实关系.例如我们要知道吸毒对SAT考试分数的影响,我们会询问对象是否吸收过可卡因或海洛因,并用软件计算它们之间的系数. 虽然求出了海洛因和可卡因额回归系数,但两者相关性发生重叠,使R平方变大,依然无法揭开真实的情况.因为吸食海洛因的人常常吸食

微软数据挖掘算法:Microsoft 线性回归分析算法(11)

前言 此篇为微软系列挖掘算法的最后一篇了,完整该篇之后,微软在商业智能这块提供的一系列挖掘算法我们就算总结完成了,在此系列中涵盖了微软在商业智能(BI)模块系统所能提供的所有挖掘算法,当然此框架完全可以自己扩充,可以自定义挖掘算法,不过目前此系列中还不涉及,只涉及微软提供的算法,当然这些算法已经基本涵盖大部分的商业数据挖掘的应用场景,也就是说熟练了这些算法大部分的应用场景都能游刃有余的解决,每篇算法总结包含:算法原理.算法特点.应用场景以及具体的操作详细步骤.为了方便阅读,我还特定整理一篇目录:

R语言数据挖掘中的,“回归分析”是如何操作的?

回归分析是对多个自变量(又称为预测变量)建立一个函数来预测因变量(又称为响应变量的值). 例如,银行根据房屋贷款申请人的年龄.收入.开支.职业.负担人口,以及整体信用限额等因素,来评估申请人的房贷风险. 线性回归 线性回归是利用预测变量的一个线性组合函数,来预测响应变量的统计分析方法,该线性回归模型的形式如下: y = c0 + c1x1 + c2x2 + -+ ckxk; x1, x2,- xk为预测变量,y为对预测的响应变量. 下面将在澳大利亚消费者价格指数(CPI)的数据上使用函数lm做线

数据挖掘-回归分析

回归分析 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器,自变量数量可以是单个也可以是多个)之间的关系. 这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系. 例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归. 回归分析技术区别 回归分析的技术区别是自变量的个数,因变量的类型以及回归线的形状. 回归分析技术 回归分析技术 1.Linear Regression线性回归 类似于一元方程拟合直线使用最小二乘法,对于观测数据,它通过最小化

数据挖掘——回归分析2——简单神经网络的python实现

神经网络(Artificial Neural Network):全称为人工神经网络(ANN),是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型. 部分原理: 下面是单个神经元的数学模型: +1代表偏移值(偏置项, Bias Units):X1,X2,X2代表初始特征:w0,w1,w2,w3代表权重(Weight),即参数,是特征的缩放倍数:特征经过缩放和偏移后全部累加起来,此后还要经过一次激活运算然后再输出. 最常见的激活函数是Sigmoid(S形曲线),

数据挖掘十大经典算法

一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足: 2) 在树构造过程中进行剪枝: 3) 能够完成对连续属性的离散化处理: 4) 能够对不完整数据进行处理. C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导

数据挖掘领域十大经典算法初探

译者:July   二零一一年一月十五日 ----------------------------------------- 参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.==============博主说明:1.原文献非最新文章,只是本人向来对算法比较敏感.感兴趣,便把原文细看了下,翻译过程中

数据挖掘第一天

---恢复内容开始--- 在看了大话数据挖掘这本书前36页后,学到的知识. 数据挖掘(Data Mining)和数据库中的知识发现(KDD)互为别名. 数据挖掘的实例:啤酒与尿布.流量套餐用户群.套餐用户流失量原因.捆绑销售.零件维修费用的节制. 数据挖掘的概念:基于大量的.不完全的.有噪音的.模糊的.随机的数据中发现隐藏的有价值的知识.不完全的意思是在收集相应数据有缺失的,有噪音是获得的数据偏离了真实值,比如外界的干扰.测量仪器的故障.人工输入或抄写时的误差等.模糊性是指事物本身从属概念的不确