数据挖掘之处理分类自变量与处理时间变量

某些数据挖掘方法能够直接处理分类自变量,但很多数据挖掘方法都只能处理数值自变量,如线性回归、神经网络等,使用这些方法时就需要把分类自变量转换为数值自变量。

对于定序自变量,最常用的一种转换是按各类别的序号直接将该变量转换为数值自变量。对于名义自变量,最常用的转换是将该变量转换为哑变量。例如,对于性别而言,可以生成一个二元哑变量,取值1表示“女”,0表示“男”。

对于有多个取值的名义自变量,可以生成一系列二元哑变量。例如,中国内地有31个省、自治区和直辖市,可以据此生成30个哑变量。但是,如果一个名 义自变量取值过多,生成过多的哑变量容易造成过度拟合。一个简单而有效的方法是只针对包含观测比较多的类别生成哑变量,而将剩余的类别都归于“其他”这个 大类别。还有一种方法是利用领域知识,将各类别归为几个大类之后再生成哑变量,例如,将中国内地31个省、自治区和直辖市归为华北、华中、华东、华南、西 北、东北、西南等地区,再生成地区的哑变量。

时间变量无法直接进入建模数据集,因为时间是无限增长的,在历史数据中出现的时间肯定不同于将来模型所需应用的数据集中出现的时间,所以直接使用历 史数据的时间建立的模型就无法应用于将来的数据集。如果要在建模过程中考虑时间变量,就必须对其进行转换。常用的转换有如下几种:

1.转换为距某一基准时间的时间长短,例如,“距离××年××月××日的天数”、“距离下一次春节的周数”等。

2.转换为季节性信息,例如,一年中第几季度或第几个月,每个季度或月对应于一个二元哑变量。

很多情形下可以考虑对时间进行多种转换,把所有可能影响因变量的时间信息都放入建模过程中。例如,对于某些食品的购买量而言,不仅存在节日效应,也存在季节性效应,这时就需要同时使用上述两种转换。

转载地址:http://www.cangfengzhe.com/sjwj/2895.html

时间: 2024-08-01 21:09:09

数据挖掘之处理分类自变量与处理时间变量的相关文章

SAS--input、put、处理时间变量

data sasuser.talent10; set sasuser.talent; month=month(lasthried); where month=10; run; /*sum等算数函数可以直接加不是numeric类型的变量,会建立一个临时变量将char变成num,但是where不行*/ /* Base2=input(testbase,4.)-avgbase; mean(of a1-a5); 一系列变量时*/ data sasuser.talent2; set sasuser.tale

「数据挖掘入门系列」数据挖掘模型之分类与预测 - 决策树

决策树在分类.预测.规则提取等领域有着广泛的应用. 决策树是一种树状结果,它的每一个叶节点对应一个分类.构造决策树的核心问题是:在每一步如何选择适当的属性对样本做拆分.对于分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程. 常见的决策树算法如下: ID3算法 C4.5算法 CART算法 其中ID3是最经典的决策树分类算法. ID3算法 ID3算法基于信息熵来选择最佳测试属性.它选择当前样本集中具有最大信息增益值的属性作为测试属性. 总的信息熵计算方式如下: 设S

分类变量的分析

分类变量的变量值通常是定性的.描述性的,可分为有序分类变量和无序分类变量. 无序分类变量又可分为二分类无序变量如性别(男,女)和多分类无序变量如血型(Q,A,B,AB) 有序分类变量通常在三个以上,各类别之间有程度上的差别,可以进行排序和比较. 分类变量属于相对低级的变量,数据信息量有限,因此在变量的相互转化中,通常都是高级向低级转化,鲜有低级向高级转化. ================================================== 分类变量主要分析以下几点 1.同一变量

数据挖掘中分类算法小结

数据挖掘中分类算法小结 数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强

【Python数据挖掘课程】九.回归模型LinearRegression简单分析氧化物数据

这篇文章主要介绍三个知识点,也是我<数据挖掘与分析>课程讲课的内容.同时主要参考学生的课程提交作业内容进行讲述,包括:        1.回归模型及基础知识:        2.UCI数据集:        3.回归模型简单数据分析. 前文推荐:       [Python数据挖掘课程]一.安装Python及爬虫入门介绍       [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍       [Python数据挖掘课程]三.Kmeans聚类代码实现.作业及优化 

数据挖掘最常见的十种方法

数据挖掘最常见的十种方法 下面介绍十种数据挖掘(Data Mining)的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用!(甚至有数据挖掘公司,用其中的一种算法就能独步天下) 1.基于历史的MBR分析(Memory-Based Reasoning:MBR) 基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较. 记忆基础推理法中有两个主要的要素,分别为距离函数(dista

《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖掘综述 衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法: 面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法

数据挖掘的十种分析方法

1.记忆基础推理法(Memory-Based Reasoning:MBR) 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较. 记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function).距离函数的用意在找出最相似的案例:结合函数则将相似案例的属性结合起来,以供预测之用.记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假

如何利用数据挖掘进行分析的方法

ps:作为目前人工智能和数据库领域研究的热点问题,数据挖掘从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程. 数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的.先前未知的并有潜在价值的信息的非平凡过程.数据挖掘是一种决策支持过程,它主要基于人工智能.机器学习.模式识别.统计学.数据库.可视化技