随机森林 - 寿险客户信息分析

注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码

目标:

个险客户特征分析

背景:

目前市场部使用的推广活动分析系统只能针对客户调查返回的信息分析,且仅有年龄/性别/婚姻状态/收入四个维度, 预测精度不高. 市场部希望能从现有的寿险客户信息分析出影响他们选择保险产品的关键因素, 借此更有针对性地改进市场推广活动

建模过程:

输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等.

算法:

首先使用决策树作粗略的预测检验输入数据的有效性,使用随机森林输出重要的特征

决策树的优点在于直观, 容易实现, 并且能同时处理离散型和连续型变量, 过程中添加变量的改动也不大. 从数据中抽取了一年的客户信息作为训练集, 建立决策树来预测客户选择的保险产品类别.

结果分析:

第一次运行命中率只有40%, 分析其混淆矩阵:

可以看出, 决策树在最后一个分类的效果很差, 可以说没有效果,在第三第四个分类上区分度也不高.

最后一个分类是投资险, 说明现有客户特征并不能满足投资险种分类的区别, 需要添加特征值

第三,四个分类其实都是定期险, 一种是缴费年限定期, 另一种是被保年龄定期, 本质上区别不大,可以合并起来

暂时过滤掉投资险客户信息, 合并定期险客户信息后, 重运行的混淆矩阵

可以看到分类已经有所改进了, 命中率可以达到60%

二三四分类的区分度看上去已经不错了, 唯有第一类储蓄险种区分度不高, 把这部分客户信息过滤掉之后, 就可以达到不错的命中率了.

随机森林相比决策树的优点除了准确率高之外, 更重要的是它能够给出哪些feature比较重要! 而这正好就是市场部分所需要的东西.

最终结果显示, 在过去的10年中, 客户的婚姻状态/年龄/身高体重对客户的保险产品选择贡献度最高.

模型的结果最终会在Tableau上显示:

如特征值贡献度走势

重要特征分类下的保单数统计

时间： 2024-12-22 20:38:43

随机森林算法过程及分析