【2020冬季挑战赛】建立客户评分卡

dongrr

1.选手简介

1.1选手介绍

大家好，我叫蓉蓉，现在深圳某公司，做数据开发工作，入职以来的主要工作是数仓搭建对数据可视化比较感兴趣，也希望趁着这次比赛的机会，让自己能更多的思考和学习

1.2参赛初衷

对数据可视化比较感兴趣，也希望趁着这次比赛的机会，让自己能更多的思考和学习

2.场景介绍

2.1样本来源及业务背景介绍

数据来源于DF网站的潜在客户评分数据集，旨在建立客户评分卡。获得潜在顾客后，销售人员通过使用给全部潜在客户打电话、写电子邮件等方式促进用户转化，但由于潜在客户数据众多，销售技巧单一，其但铅转化率非常差。为了提高流程效率，需要从潜在客户中识别出最有潜在的潜在客户线索，以便销售人员将精力集中在最有潜在的潜在线索上，更专注于与潜在潜在客户沟通，提高铅转化率

2.2分析思路

围绕分析主题，我将围绕着以下几步完成整个建模过程：

1）变量说明。理解数据集中包含的变量以及统计变量的缺失值情况

2）空值处理

3）变量的描述性分析。变量的特征分布情况

4）变量与目标变量的相关性分析

5）变量选择

6）将变量带入逻辑回归模型

7）模型检验

8）得到客户评分

3.建模过程简介

3.1变量说明

数据来源于DF网站的潜在顾客评分数据集，共9240条记录，37个变量（见表1）。其中客户id、潜在客户编号是针对记录的唯一标识，从分析变量中剔除，剩余35个变量；潜在客户质量、不对称配置文件分数、非对称活动分数、非对称配置文件索引、标签--分配给客户的标签空值占比超过30%，其中非对称活动分数、非对称配置文件分数为数值型变量，缺失值太多且非对称活动指数、非对称配置文件指数由这两个数值型变量转换得到，所以可保留离散型变量非对称活动指数、非对称配置文件指数，将这两个数值型变量剔除，其余离散型变量可以将空值作为特征值处理，如果变量选择结果显示这些变量不是关键变量，则将这部分变量剔除。

表1 变量概览

3.2空值插补

对于缺失值较少的变量，插补空值。对于数值型变量，总访问、每个访问的页面浏览次数空值采用均值插补；对于离散型变量，潜在客户源、最后一项活动采用众数插补，而其他的离散型变量缺失值太多，将缺失值作为一种状态。

3.3变量描述性分析
3.3.1变量的离散度

通过画出变量的柱形图（见附件1），可以得到：

不呼叫、搜索、报纸文章、X教育论坛、报纸、数字广告、通过推荐的数值波动波动很小，在9240条记录中，只有少于5条的记录为Yes，其余全为No，Yes占比小于0.05%，将这部分变量从研究变量中剔除，剩余26个变量；
杂志、接受关于我们课程的更新、在供应链内容上的更新、获取DM内容上的更新、是否同意使用支票支付变量为常量，将这部分变量从研究变量中剔除，剩余21个变量；

3.3.2总访问与是否转化

转化与未转化的潜在客户总访问的50%分位数没有差异，但转化的潜在客户的总访问波动性更大。

图1 总访问箱型图

3.3.3在网页上花费的总时长与是否转化

转化与未转化的潜在客户在网页上花费的总时长的50%分位数差异较大，且转化的潜在客户的在网页上花费的总时长波动性更大。

图2 在网页上花费的总时长的箱型图

3.3.4每个访问的页面浏览次数与是否转化

转化与未转化的潜在客户每个访问的页面流浪次数的50%分位数没有差异，但转化的潜在客户的每个访问的页面浏览次数的波动性更大。

图3 每个访问的页面浏览次数

3.3.5变量之间的相关性

掌握面试的免费副本、国家与是否转化相关系数低于0.01。结合后续变量选择情况，考虑是否剔除相关性较低的变量。

图4 变量之间的MIC值

3.4变量选择
3.4.1使用随机森林进行变量选择

利用随机森林得到的变量重要性见图5，可以看到选择本课程时，您最主要的选择、非对称配置文件指数、国家、不要通过电子邮件发送、掌握面试的免费副本的重要性低于0.02。

图5 变量重要性

3.4.2使用IV值进行变量选择
IV值的降序排列见图6，掌握面试的免费版本的重要性低于0.02。

图6 IV值

掌握面试的免费版本在随机森林得到的重要性以及IV值都比较低，且与是否转化的相关性系数也较低，从分析变量中剔除。最终得到的变量如下：

表2 筛选后得到的变量

3.5模型训练及检验

将筛选的变量使用woe分箱，因分箱后的值不能直接进模型，将分箱后得到的编码得到的编码带入逻辑回归模型，模型的准确度0.9257，ROC曲线见下图7，auc值为0.92，K-S值为0.8356，模型拟合效果很好

图7 ROC曲线

图8 K-S曲线

3.6模型效果转评分

因为我们的目的是尽可能得识别出高价值的客户，因此评分卡设定的值刻度可以使用下面的线性表达式来定义

假定基准分值为200；Odds(胜率)增加一倍时，分数增加增加20；因为目标是提高转化率，且目标转化率需要达到80%，所以假定好坏比为5，最终得到的客户评分情况见附件2.

4. 总结

4.1克服的困难

在实际整个分析的过程中，才深知自己现在所了解知识的局限性，所幸的是自己坚持下来了，也才有了总结整个分析过程的机会。将遇到的困难总结为一下几点：

1）工具的差异性。以前的数据探索主要是用tableau，首次使用帆软BI进行数据熟悉，使得会将tableau提供的一些操作带入帆软来使用，在完全没有摒弃tableau的前提下，加大了自身的学习成本，后期改为一个小白视角来了解帆软BI且积极查阅帮助文档后，学习成本大大较低

2）大量离散型变量、少量连续性变量的数据集处理。在以前的分析过程，主要处理的是大量连续性变量、少量离散型变量的数据集，由于缺少经验，查阅了大量的资料来学习变量的处理，也在这个过程中收获很多

4.2收获

1）开阔了视野。在以前的学习过程中，主要是学，缺少实践，无法量化评估自己的学习效果，也无法查漏补缺。这次参加比赛。让我更加深刻认识到自己知识的局限性，以后会更加注重在实践中学习

2）加深可视化的认识。对于可视化，自身可能更多的认为只是一个图形展示过程，并不需要做很多花哨的东西，这次得奖的参赛作品，深刻的意识到所有花哨的东西是为了让客户更好的理解分析结果，而简单的图形展示对于非转专业人士来说，是无法理解图形蕴含的意义的

0回帖数	2关注人数	7906浏览人数
最后回复于：2020-12-16 09:41

提问

【2020冬季挑战赛】建立客户评分卡