【2020冬季挑战赛】建立客户评分卡

楼主
我是社区第241858位番薯,欢迎点我头像关注我哦~
1.选手简介

1.1选手介绍
大家好,我叫蓉蓉,现在深圳某公司,做数据开发工作,入职以来的主要工作是数仓搭建对数据可视化比较感兴趣,也希望趁着这次比赛的机会,让自己能更多的思考和学习

1.2参赛初衷
对数据可视化比较感兴趣,也希望趁着这次比赛的机会,让自己能更多的思考和学习

2.场景介绍

2.1样本来源及业务背景介绍
数据来源于DF网站的潜在客户评分数据集,旨在建立客户评分卡。获得潜在顾客后,销售人员通过使用给全部潜在客户打电话、写电子邮件等方式促进用户转化,但由于潜在客户数据众多,销售技巧单一,其但铅转化率非常差。为了提高流程效率,需要从潜在客户中识别出最有潜在的潜在客户线索,以便销售人员将精力集中在最有潜在的潜在线索上,更专注于与潜在潜在客户沟通,提高铅转化率

2.2分析思路
围绕分析主题,我将围绕着以下几步完成整个建模过程:
1) 变量说明。理解数据集中包含的变量以及统计变量的缺失值情况
2) 空值处理
3)变量的描述性分析。变量的特征分布情况
4) 变量与目标变量的相关性分析
5) 变量选择
6)将变量带入逻辑回归模型
7)模型检验
8) 得到客户评分

3.建模过程简介

3.1变量说明
数据来源于DF网站的潜在顾客评分数据集,共9240条记录,37个变量(见表1)。其中客户id、潜在客户编号是针对记录的唯一标识,从分析变量中剔除,剩余35个变量;潜在客户质量、不对称配置文件分数、非对称活动分数、非对称配置文件索引、标签--分配给客户的标签空值占比超过30%,其中非对称活动分数、非对称配置文件分数为数值型变量,缺失值太多且非对称活动指数、非对称配置文件指数由这两个数值型变量转换得到,所以可保留离散型变量非对称活动指数、非对称配置文件指数,将这两个数值型变量剔除,其余离散型变量可以将空值作为特征值处理,如果变量选择结果显示这些变量不是关键变量,则将这部分变量剔除。
表1 变量概览
3.2空值插补
对于缺失值较少的变量,插补空值。对于数值型变量,总访问、每个访问的页面浏览次数空值采用均值插补;对于离散型变量,潜在客户源、最后一项活动采用众数插补,而其他的离散型变量缺失值太多,将缺失值作为一种状态。

3.3变量描述性分
3.3.1变量的离散度
通过画出变量的柱形图(见附件1),可以得到:
  • 不呼叫、搜索、报纸文章、X教育论坛、报纸、数字广告、通过推荐的数值波动波动很小,在9240条记录中,只有少于5条的记录为Yes,其余全为No,Yes占比小于0.05%,将这部分变量从研究变量中剔除,剩余26个变量;
  • 杂志、接受关于我们课程的更新、在供应链内容上的更新、获取DM内容上的更新、是否同意使用支票支付变量为常量,将这部分变量从研究变量中剔除,剩余21个变量;

3.3.2总访问与是否转化
转化与未转化的潜在客户总访问的50%分位数没有差异,但转化的潜在客户的总访问波动性更大。

图1 总访问箱型图

3.3.3在网页上花费的总时长与是否转化
转化与未转化的潜在客户在网页上花费的总时长的50%分位数差异较大,且转化的潜在客户的在网页上花费的总时长波动性更大。
图2 在网页上花费的总时长的箱型图

3.3.4每个访问的页面浏览次数与是否转化
转化与未转化的潜在客户每个访问的页面流浪次数的50%分位数没有差异,但转化的潜在客户的每个访问的页面浏览次数的波动性更大。
图3 每个访问的页面浏览次数


3.3.5变量之间的相关性
掌握面试的免费副本、国家与是否转化相关系数低于0.01。结合后续变量选择情况,考虑是否剔除相关性较低的变量。
图4 变量之间的MIC值


3.4变量选择
3.4.1使用随机森林进行变量选择
利用随机森林得到的变量重要性见图5,可以看到选择本课程时,您最主要的选择、非对称配置文件指数、国家、不要通过电子邮件发送、掌握面试的免费副本的重要性低于0.02。
  
图5 变量重要性

3.4.2使用IV值进行变量选择
IV值的降序排列见图6,掌握面试的免费版本的重要性低于0.02。


图6 IV值

掌握面试的免费版本在随机森林得到的重要性以及IV值都比较低,且与是否转化的相关性系数也较低,从分析变量中剔除。最终得到的变量如下:

表2 筛选后得到的变量

3.5模型训练及检验
将筛选的变量使用woe分箱,因分箱后的值不能直接进模型,将分箱后得到的编码得到的编码带入逻辑回归模型,模型的准确度0.9257,ROC曲线见下图7,auc值为0.92,K-S值为0.8356,模型拟合效果很好

图7 ROC曲线

图8 K-S曲线
3.6模型效果转评分
因为我们的目的是尽可能得识别出高价值的客户,因此评分卡设定的值刻度可以使用下面的线性表达式来定义
            
假定基准分值为200;Odds(胜率)增加一倍时,分数增加增加20;因为目标是提高转化率,且目标转化率需要达到80%,所以假定好坏比为5,最终得到的客户评分情况见附件2.

4. 总结

4.1克服的困难
在实际整个分析的过程中,才深知自己现在所了解知识的局限性,所幸的是自己坚持下来了,也才有了总结整个分析过程的机会。将遇到的困难总结为一下几点:
1)工具的差异性。以前的数据探索主要是用tableau,首次使用帆软BI进行数据熟悉,使得会将tableau提供的一些操作带入帆软来使用,在完全没有摒弃tableau的前提下,加大了自身的学习成本,后期改为一个小白视角来了解帆软BI且积极查阅帮助文档后,学习成本大大较低
2)大量离散型变量、少量连续性变量的数据集处理。在以前的分析过程,主要处理的是大量连续性变量、少量离散型变量的数据集,由于缺少经验,查阅了大量的资料来学习变量的处理,也在这个过程中收获很多

4.2收获
1) 开阔了视野。在以前的学习过程中,主要是学,缺少实践,无法量化评估自己的学习效果,也无法查漏补缺。这次参加比赛。让我更加深刻认识到自己知识的局限性,以后会更加注重在实践中学习
2)加深可视化的认识。对于可视化,自身可能更多的认为只是一个图形展示过程,并不需要做很多花哨的东西,这次得奖的参赛作品,深刻的意识到所有花哨的东西是为了让客户更好的理解分析结果,而简单的图形展示对于非转专业人士来说,是无法理解图形蕴含的意义的


分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表