数据挖掘-回归分析

回归分析

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器,自变量数量可以是单个也可以是多个)之间的关系。

这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系

例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。


回归分析技术区别

  回归分析的技术区别是自变量的个数,因变量的类型以及回归线的形状。

回归分析技术  


回归分析技术

1.Linear Regression线性回归

  类似于一元方程拟合直线使用最小二乘法,对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时,偏差先平方,所以正值和负值没有抵消。

特点:对异常值敏感,常采用向前选择法、向后剔除法和逐步筛选法选择最重要的自变量。

2.Logistic Regression逻辑回归

  逻辑回归是一个二分类问题。预测值y只有0和1两个取值(正类和负类), 如果我们忽略二分类问题中y的取值是一个离散的取值(0或1),我们继续使用线性回归来预测y的取值。这样做会导致y的取值并不为0或1。逻辑回归使用一个函数来归一化y值,使y的取值在区间(0,1)内,这个函数称为Logistic函数(logistic function),也称为Sigmoid函数(sigmoid function)。在进行样本估计是使用最大似然估计进行拟合,但是在样本数量极少的情况下,极大似然估计的效果比普通的最小二乘法差。

关于逻辑回归的公式和一般线性回归的关系推导可以参阅 逻辑回归

3.Polynomial Regression多项式回归

  自变量指数大于1的回归方程就是多项式回归方程。

  

4.Stepwise Regression逐步回归

参考:http://www.advancedtechnic.com/ud/Stepwise%20Regression%20Analysis.htm

  在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量, 而不显著的变量已被剔除。

  逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。

这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。

5. Ridge Regression岭回归

变量间存在共线性是,最小二乘回归得到的系数不稳定,方差很大,这是因为系数矩阵x与它的转置矩阵相乘得到的矩阵不能求逆,

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价,获得回归系数更为符合实际、更可靠的回归方法,对病态数据的耐受性远远强于最小二乘法。根据高斯马尔科夫定力,多重相关性并不影响最小二乘法估计量的无偏性和最小方差性,但是,虽然最小二乘估计量在所有线性估计量中是方差最小的,但是这个方差都不一定小,而实际上可以找到一个有偏估计量,这个估计量虽然有较小的偏差,但它的精度却能够大大高于无偏的估计量。岭回归分析就是根据这个原理,通过在正规方程中引入有偏常熟二求的回归估计量的。

6. Lasso Regression套索回归

它类似于岭回归,Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。此外,它能够减少变化程度并提高线性回归模型的精度。

7.ElasticNet回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。

时间: 2024-10-07 20:47:11

数据挖掘-回归分析的相关文章

数据挖掘——回归分析2——简单神经网络的python实现

神经网络(Artificial Neural Network):全称为人工神经网络(ANN),是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型. 部分原理: 下面是单个神经元的数学模型: +1代表偏移值(偏置项, Bias Units):X1,X2,X2代表初始特征:w0,w1,w2,w3代表权重(Weight),即参数,是特征的缩放倍数:特征经过缩放和偏移后全部累加起来,此后还要经过一次激活运算然后再输出. 最常见的激活函数是Sigmoid(S形曲线),

从回归分析到数据挖掘

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用.无论是银行.保险.电信等服务行业的业务分析人员在进行数据库营销.欺诈风险侦测,还是半导体.电子.化工.医药.钢铁等制造行业的研发技术人员在进行新产品实验设计与分析.流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析. 回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制.但是,稍微对回归模型

微软数据挖掘算法:Microsoft 线性回归分析算法(11)

前言 此篇为微软系列挖掘算法的最后一篇了,完整该篇之后,微软在商业智能这块提供的一系列挖掘算法我们就算总结完成了,在此系列中涵盖了微软在商业智能(BI)模块系统所能提供的所有挖掘算法,当然此框架完全可以自己扩充,可以自定义挖掘算法,不过目前此系列中还不涉及,只涉及微软提供的算法,当然这些算法已经基本涵盖大部分的商业数据挖掘的应用场景,也就是说熟练了这些算法大部分的应用场景都能游刃有余的解决,每篇算法总结包含:算法原理.算法特点.应用场景以及具体的操作详细步骤.为了方便阅读,我还特定整理一篇目录:

R语言数据挖掘中的,“回归分析”是如何操作的?

回归分析是对多个自变量(又称为预测变量)建立一个函数来预测因变量(又称为响应变量的值). 例如,银行根据房屋贷款申请人的年龄.收入.开支.职业.负担人口,以及整体信用限额等因素,来评估申请人的房贷风险. 线性回归 线性回归是利用预测变量的一个线性组合函数,来预测响应变量的统计分析方法,该线性回归模型的形式如下: y = c0 + c1x1 + c2x2 + -+ ckxk; x1, x2,- xk为预测变量,y为对预测的响应变量. 下面将在澳大利亚消费者价格指数(CPI)的数据上使用函数lm做线

数据挖掘十大经典算法

一. C4.5  C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足: 2) 在树构造过程中进行剪枝: 3) 能够完成对连续属性的离散化处理: 4) 能够对不完整数据进行处理. C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导

数据挖掘领域十大经典算法初探

译者:July   二零一一年一月十五日 ----------------------------------------- 参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.==============博主说明:1.原文献非最新文章,只是本人向来对算法比较敏感.感兴趣,便把原文细看了下,翻译过程中

数据挖掘第一天

---恢复内容开始--- 在看了大话数据挖掘这本书前36页后,学到的知识. 数据挖掘(Data Mining)和数据库中的知识发现(KDD)互为别名. 数据挖掘的实例:啤酒与尿布.流量套餐用户群.套餐用户流失量原因.捆绑销售.零件维修费用的节制. 数据挖掘的概念:基于大量的.不完全的.有噪音的.模糊的.随机的数据中发现隐藏的有价值的知识.不完全的意思是在收集相应数据有缺失的,有噪音是获得的数据偏离了真实值,比如外界的干扰.测量仪器的故障.人工输入或抄写时的误差等.模糊性是指事物本身从属概念的不确

数据挖掘

1.数据仓库:是一种数据存储结构.是一种多个异构数据源在单一站点的同意的模式祖师的存储,以支持管理决策. 2.数据仓库技术包括数据清理.数据集成和联机分析处理(OLAP). 3.数据挖掘:是从大量数据中挖掘有趣模式和知识的过程.数据源包括数据库.数据仓库.Web.其他信息存储库或当台的流入系统数据. 4.数据库的最基本形式是:数据库数据.数据仓库数据.事务数据. 5.存在大量的数据挖掘功能:特征化与区分.频繁模式.关联换个相关性的挖掘.分类与回归.聚类分析.利群点分析 6.数据挖掘功能是指用于指

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,