随机森林 - 寿险客户信息分析

注:  出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码

目标:

个险客户特征分析

背景:

目前市场部使用的推广活动分析系统只能针对客户调查返回的信息分析,且仅有年龄/性别/婚姻状态/收入四个维度, 预测精度不高.  市场部希望能从现有的寿险客户信息分析出影响他们选择保险产品的关键因素, 借此更有针对性地改进市场推广活动

建模过程:

输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等.  用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等.

算法:

首先使用决策树作粗略的预测检验输入数据的有效性,使用随机森林输出重要的特征

决策树的优点在于直观, 容易实现, 并且能同时处理离散型和连续型变量, 过程中添加变量的改动也不大. 从数据中抽取了一年的客户信息作为训练集, 建立决策树来预测客户选择的保险产品类别.

结果分析:

第一次运行命中率只有40%, 分析其混淆矩阵:

可以看出, 决策树在最后一个分类的效果很差, 可以说没有效果,在第三第四个分类上区分度也不高.

最后一个分类是投资险, 说明现有客户特征并不能满足投资险种分类的区别, 需要添加特征值

第三,四个分类其实都是定期险, 一种是缴费年限定期, 另一种是被保年龄定期, 本质上区别不大,可以合并起来

暂时过滤掉投资险客户信息, 合并定期险客户信息后, 重运行的混淆矩阵

可以看到分类已经有所改进了, 命中率可以达到60%

二三四分类的区分度看上去已经不错了, 唯有第一类储蓄险种区分度不高, 把这部分客户信息过滤掉之后, 就可以达到不错的命中率了.

随机森林相比决策树的优点除了准确率高之外, 更重要的是它能够给出哪些feature比较重要! 而这正好就是市场部分所需要的东西.

最终结果显示, 在过去的10年中, 客户的婚姻状态/年龄/身高体重对客户的保险产品选择贡献度最高.

模型的结果最终会在Tableau上显示:

如特征值贡献度走势

重要特征分类下的保单数统计

时间: 2024-08-07 08:40:30

随机森林 - 寿险客户信息分析的相关文章

随机森林 算法过程及分析

简单来说,随机森林就是Bagging+决策树的组合(此处一般使用CART树).即由很多独立的决策树组成的一个森林,因为每棵树之间相互独立,故而在最终模型组合时,每棵树的权重相等,即通过投票的方式决定最终的分类结果. 随机森林算法主要过程: 1.样本集的选择. 假设原始样本集总共有N个样例,则每轮从原始样本集中通过Bootstraping(有放回抽样)的方式抽取N个样例,得到一个大小为N的训练集.在原始样本集的抽取过程中,可能有被重复抽取的样例,也可能有一次都没有被抽到的样例. 共进行k轮的抽取,

Spark2.0机器学习系列之6:GBDT(梯度提升决策树)、GBDT与随机森林差异、参数调试及Scikit代码分析

概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树.     GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net等,其实它们都是一个东西(参考自wikipedia – Gradient Boosting),发明者是Friedman. 研究GBDT一定要看看Friedman的pa

R包 randomForest 进行随机森林分析

randomForest 包提供了利用随机森林算法解决分类和回归问题的功能:我们这里只关注随机森林算法在分类问题中的应用 首先安装这个R包 install.packages("randomForest") 安装成功后,首先运行一下example library(randomForset) ?randomForset 通过查看函数的帮助文档,可以看到对应的example data(iris) set.seed(71) iris.rf <- randomForest(Species

随机森林,决策树(Random Forest)

http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容 回到顶部 1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做

mahout 随机森林RF算法

在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性 能解决分类与回归问题,并且都有很好的估计表现 1.生成数据说明文件 mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生成数据的说明文件) 2.训练模型 mahout buildforest -d input.csv -ds input.info -sl 5 -p -t 5 -o forest_result(生成随机森

随机森林(Random Forest)详解(转)

来源: Poll的笔记 cnblogs.com/maybe2030/p/4585705.html 1 什么是随机森林?   作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性.最初,我是在参加校外竞赛时接触到随机森林算法的.最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛.2014年阿里巴巴天池大数据竞赛

使用基于Apache Spark的随机森林方法预测贷款风险

使用基于Apache Spark的随机森林方法预测贷款风险 原文:Predicting Loan Credit Risk using Apache Spark Machine Learning Random Forests 作者:Carol McDonald,MapR解决方案架构师 翻译:KK4SBB 责编:周建丁([email protected].NET) 在本文中,我将向大家介绍如何使用Apache Spark的Spark.ml库中的随机森林算法来对银行信用贷款的风险做分类预测.Spark

随机森林(Random Forest)

 阅读目录 ?1 什么是随机森林? ?2 随机森林的特点 ?3 随机森林的相关基础知识 ?4 随机森林的生成 ?5 袋外错误率(oob error) ?6 随机森林工作原理解释的一个简单例子 ?7 随机森林的Python实现 ?8 参考内容 1 什么是随机森林? 作为新兴起的.高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性

机器学习实战之 第七章 集成方法(随机森林和 AdaBoost)

第7章 集成方法 ensemble method 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:是对其他算法进行组合的一种形式. 通俗来说: 当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见. 机器学习处理问题时又何尝不是如此? 这就是集成方法背后的思想. 集成方法: 投票选举(bagging: 自举汇聚法 bootstrap aggregating): 是基于数据随机重抽样分类器构造的方法 再学习(boosting): 是基于