数据挖掘应用案例:RFM模型分析与客户细分(转)

正好刚帮某电信行业完成一个数据挖掘工作,其中的RFM模型还是有一定代表性,就再把数据挖掘RFM模型的建模思路细节与大家分享一下吧!手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模型的交易数据要求。

根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。

我早期两篇博文已详述了RFM思想和IBM Modeler操作过程,有兴趣的朋友可以阅读!

RFM模型:R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M  (Monetary)表示客户在最近一段时间内购买的金额。一般原始数据为3个字段:客户ID、购买时间(日期格式)、购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,进而可以进行客户细分,客户等级分类,Customer Level Value得分排序等,实现数据库营销!

       这里再次借用@数据挖掘与数据分析的RFM客户RFM分类图。

本次分析用的的软件工具:IBM SPSS Statistics 19,IBM SPSS Modeler14.1,Tableau7.0,EXCEL和PPT

因为RFM分析仅是项目的一个小部分分析,但也面临海量数据的处理能力,这一点对计算机的内存和硬盘容量都有要求。

先说说对海量数据挖掘和数据处理的一点体会:(仅指个人电脑操作平台而言)

  • 一般我们拿到的数据都是压缩格式的文本文件,需要解压缩,都在G字节以上存储单位,一般最好在外置电源移动硬盘存储;如果客户不告知,你大概是不知道有多少记录和字段的;
  • Modeler挖掘软件默认安装一般都需要与C盘进行数据交换,至少需要100G空间预留,否则读取数据过程中将造成空间不足
  • 海量数据处理要有耐心,等待30分钟以上运行出结果是常有的现象,特别是在进行抽样、合并数据、数据重构、神经网络建模过程中,要有韧性,否则差一分钟中断就悲剧了,呵呵;
  • 数据挖掘的准备阶段和数据预处理时间占整个项目的70%,我这里说如果是超大数据集可能时间要占到90%以上。一方面是处理费时,一方面可能就只能这台电脑处理,不能几台电脑同时操作;
  • 多带来不同,这是我一直强调的体验。所以海量数据需要用到抽样技术,用来查看数据和预操作,记住:有时候即使样本数据正常,也可能全部数据有问题。建议数据分隔符采用“|”存储;
  • 如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过,好的数据挖掘一定是市场导向的,当然也需要IT人员与市场人员有好的沟通机制;
  • 数据挖掘会面临数据字典和语义层含义理解,在MetaData元数据管理和理解上下功夫会事半功倍,否则等数据重构完成发现问题又要推倒重来,悲剧;
  • 每次海量大数据挖掘工作时都是我上微博最多的时侯,它真的没我算的快,只好上微博等它,哈哈!

传统RFM分析转换为电信业务RFM分析主要思考:

这里的RFM模型和进而细分客户仅是数据挖掘项目的一个小部分,假定我们拿到一个月的客户充值行为数据集(实际上有六个月的数据),我们们先用IBM Modeler软件构建一个分析流:

数据结构完全满足RFM分析要求,一个月的数据就有3千万条交易记录!

我们先用挖掘工具的RFM模型的RFM汇总节点和RFM分析节点产生R(Recency)、F(Frequency)、M  (Monetary);

接着我们采用RFM分析节点就完成了RFM模型基础数据重构和整理;

现在我们得到了RFM模型的Recency_Score、Frequency_Score、Monetary_Score和RFM_Score;这里对RFM得分进行了五等分切割,采用100、10、1加权得到RFM得分表明了125个RFM魔方块。

传统的RFM模型到此也就完成了,但125个细分市场太多啦无法针对性营销也需要识别客户特征和行为,有必要进一步细分客户群;

另外:RFM模型其实仅仅是一种数据处理方法,采用数据重构技术同样可以完成,只是这里固化了RFM模块更简单直接,但我们可以采用RFM构建数据的方式不为RFM也可用该模块进行数据重构。

我们可以将得到的数据导入到Tableau软件进行描述性分析:(数据挖掘软件在描述性和制表输出方面非常弱智,哈哈)

我们也可以进行不同块的对比分析:均值分析、块类别分析等等

这时候我们就可以看出Tableau可视化工具的方便性

       接下来,我们继续采用挖掘工具对R、F、M三个字段进行聚类分析,聚类分析主要采用:Kohonen、K-means和Two-step算法:

         这时候我们要考虑是直接用R(Recency)、F(Frequency)、M  (Monetary)三个变量还是要进行变换,因为R、F、M三个字段的测量尺度不同最好对三个变量进行标准化,例如:Z得分(实际情况可以选择线性插值法,比较法,对标法等标准化)!另外一个考虑:就是R、F、M三个指标的权重该如何考虑,在现实营销中这三个指标重要性显然不同!

有资料研究表明:对RFM各变量的指标权重问题,Hughes,Arthur认为RFM在衡量一个问题上的权重是一致的,因而并没有给予不同的划分。而Stone,Bob通过对信用卡的实证分析,认为各个指标的权重并不相同,应该给予频度最高,近度次之,值度最低的权重;

这里我们采用加权方法:WR=2 WF=3 WM=5的简单加权法(实际情况需要专家或营销人员测定);具体选择哪种聚类方法和聚类数需要反复测试和评估,同时也要比较三种方法哪种方式更理想!

下图是采用快速聚类的结果:

以及kohonen神经算法的聚类结果:

接下来我们要识别聚类结果的意义和类分析:这里我们可以采用C5.0规则来识别不同聚类的特征:

其中Two-step两阶段聚类特征图:

采用评估分析节点对C5.0规则的模型识别能力进行判断:

       结果还不错,我们可以分别选择三种聚类方法,或者选择一种更易解释的聚类结果,这里选择Kohonen的聚类结果将聚类字段写入数据集后,为方便我们将数据导入SPSS软件进行均值分析和输出到Excel软件!

输出结果后将数据导入Excel,将R、F、M三个字段分类与该字段的均值进行比较,利用Excel软件的条件格式给出与均值比较的趋势!结合RFM模型魔方块的分类识别客户类型:通过RFM分析将客户群体划分成重要保持客户、重要发展客户、重要挽留客户、一般重要客户、一般客户、无价值客户等六个级别;(有可能某个级别不存在);

另外一个考虑是针对R、F、M三个指标的标准化得分按聚类结果进行加权计算,然后进行综合得分排名,识别各个类别的客户价值水平;

至此如果我们通过对RFM模型分析和进行的客户细分满意的话,可能分析就此结束!如果我们还有客户背景资料信息库,可以将聚类结果和RFM得分作为自变量进行其他数据挖掘建模工作!

转自:http://shenhaolaoshi.blog.sohu.com/201923838.html

时间: 2024-08-04 05:37:12

数据挖掘应用案例:RFM模型分析与客户细分(转)的相关文章

KNIMI数据挖掘建模与分析系列_003_利用KNIMI做客户细分

利用KNIMI做客户细分 老帅 20150801 http://blog.csdn.net/shuaihj 一.测试数据 需要测试数据,请留下邮箱 二.计算消费金额和消费次数 1.读入(销售数据.csv) 读取列标题 2. 时间格式转换 按指定时间格式识别"订单创建日期"列 3.对金额分组加和 依据客户编号对"销售金额"加和 4.字段重命名更可读 统计结果 5. 对订单分组计数 依据客户编号对"销售订单编号"进行去重加和 6.字段重命名更可读 统

RFM模型的变形LRFMC模型与K-means算法的有机结合

应用场景: 可以应用在不同行业的客户分类管理上,比如航空公司,传统的RFM模型不再适用,通过RFM模型的变形LRFMC模型实现客户价值分析:基于消费者数据的精细化营销 应用价值: LRFMC模型构建之后使用了经典的聚类算法-K-Means算法来对客户进行细分,而不是传统的来与参考值对比进行手工分类,使得准确率和效率得到了大大提升,从而实现客户价值分析,进行精准的价格和服务设置: 经常买机票的朋友不知道有没有发现,机票的价格通常“阴晴不定”.3个月前是一个价格,2个月1个月1周前又是另一个价格:有

RFM模型——构建数据库营销的商业战役!(转)

RFM模型:R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M (Monetary)表示客户在最近一段时间内购买的金额.一般原始数据为3个字段:客户ID.购买时间.购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,对得分排序,输出营销名单topN! 上图来自于@数据挖掘与数据分析 下面我们采用IBM Modeler 14.1版本操作RFM模型:(采用数据挖掘技术来分析RFM是一件简单的工作,因为软件非常智能化,或者说基

《SAS编程与数据挖掘商业案例》学习笔记之十八

接着以前的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖掘综述 衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标,有很多种方法,只有高效解决商业目标的方法才是最牛的方法,即使是看似简单的方法,只要能高效解决商业目标,我们就认为是牛的方法: 面对海量的数据,即使是使用了最先进的工具,最复杂的算法,但是如果挖掘出来的知识是无用的,或者挖掘的结果是无法

《随机RFM模型及其在零售顾客价值识别中的应用》整理

根据<随机RFM模型及其在零售顾客价值识别中的应用>进行摘抄,整理,以备后期借鉴使用 一.问题与思路 问题:对顾客价值进行准确的识别与评估 输入:流失时间(最近一次购买时间)(Recency,R).购买次数(Frequency,F).购买金额(Monetary,M) 输出:顾客未来反应的可能性 思路: 1.利用随机概率模型建立起R-F-M变量与顾客未来购买行为反应间的联系 通常都是利用泊松(Poisson)或指数(Exponential)分布捕捉顾客购买时间以及 次数,再利用Gamma分配捕捉

MyCat线程模型分析

参考MyCat权威指南,对MyCat-Server里面的线程模型做简要分析: 1. 线程模型图 根据MyCat权威指南,做出以下线程模型图: MyCat的线程模型主要分为三部分(: 网络通讯线程.业务线程和定时任务线程,下面分别介绍这些线程的使用: [温馨提示] 这里排除JVM自身使用的线程,只关注MyCat服务所使用的线程,如果需要详细了解MyCat里面使用的所有线程,请参考<MyCat权威指南>-> 开发篇 -> MyCat线程模型分析 2. 网络通讯线程 MyCat-Serv

【数学建模】创意平板折叠桌的模型分析与优化设计

? ? 创意平板折叠桌的模型分析与优化设计 魏淙铭 陈星曼 田桃 ? 摘要: 本题要求设计创意折叠桌,问题一给定了具体的长方形平板尺寸.桌高等设计参数求折叠桌的动态变化过程和桌脚边缘线的数学描述,问题二中任意给定桌高和桌面直径求折叠桌的最优设计参数,问题三则要求根据客户提供的桌面边缘线和桌脚边缘线的大致形状给出一款能够确定最优设计参数的软件的数学模型. 本题中,我们以折叠桌桌面中心为圆心,建立空间坐标系求解数学模型. 对于问题一,我们通过使用切片法降低维数来确定桌腿长度.开槽的长度等设计参数,并

javascript内存模型分析猜想

/* * 这里我是利用分析java内存模型的方法来猜想javascript的内存模型, * 由于没有看到国内有关于分析javascript的书籍,但是可以借鉴java的 * 内存模型结构来帮助理解javascript的内存模型中的原型机制,下面先 * 给出一个简单的原型例子 * */ "use strict"; function PrototypeModel(name,author,time){ } PrototypeModel.prototype.name = "Proto

(&#160;转)性能测试--地铁模型分析

地铁模型分析 和绝大部分人一样,小白每天都要乘坐地铁上下班,那么就拿地铁来分析,再次深刻理解下性能.早上乘坐地铁上班,最典型的就是北京地铁1.5.10.13号线等,人多得简直没法形容!为了方便理解分析,先做如下假设. 某地铁站进站只有3个刷卡机. 人少的情况下,每位乘客很快就可以刷卡进站,假设进站需要1s. 乘客耐心有限,如果等待超过30min,就会暴躁.唠叨,甚至选择放弃. 按照上述的假设,最初会出现如下的场景. 场景一:只有1名乘客进站时,这名乘客可以在1s的时间内完成进站,且只利用了一台刷