一、选手简介
1.选手介绍
- 名称:爱数据社区—微云淡月
业余级选手,略知数据分析方法和工具,但是数据分析思维和技术不落一头,所以也处于转行的边缘地带。
本次参赛的初衷是希望借假修真,锻炼下数据分析思维以及模型的搭建。期间查阅不少资料,整理出很多常用思维模型,提升了认知层次,对日后分析解决问题的能力想必会有很大的帮助。在帆BI帮助文档的指引下,使用了一下BI工具,了解到很多数据分析经典模型,破除了之前对技术的恐惧。通盘走这一遍,发现技术实现不是关键,最难的还是在于统计学的思维框架和数据分析思维能力。
二、作品介绍
1、业务背景/需求痛点:
对于电商平台,仅有访问量是不够的,如何提高浏览率和转化率是电商平台经营的关键。根据用转化漏斗从用户行为数据出发,分析用户行为整体转化情况,并根据不同用户行为路径的表现,解释转化率低的原因,从而减少获客成本,实现增长。
2、数据来源及处理:
数据集来自:https://www.kaggle.com/datasets/mkechinov/ecommerce-events-history-in-cosmetics-shop
选取2020-Jan和2020-Feb两个用户行为数据表中2020-01-05至2020-02-03共计30天约400万行数据作为子集。
说明:一月份节日分布比较均衡,鉴于活动前预热活动期间活动后期为一个活动周期,把2020.1.5至2020.2.3期间(周期)分成5个活动周期,每个周期持续时间为6天。
关于数据集中每一列的详细描述如下:
其中event_type (用户行为类型)共有四种:
关于数据集大小的说明:
该数据共有两个表,2020-Jan(2020年01月份数据)和2020-Feb(2020年02月份数据)。其中,2020-Jan表共有4,264,752条数据;2020-Feb表共有4,156,682条数据。
清洗并处理子数据集
(1)删除重复行。由于event_type行为类型中无缺失值,未进行缺失值处理。
(2)由于event_time日期列为文本类型,且带有后缀,如“2020-02-01 00:00:01 UTC”,故需要先通过拆分行列去除后缀,再将其更改为日期格式,处理步骤及处理结果如下:
由于数据体量太大,FineBI运行速度缓慢。用SQL取出该时间区间每天的数据表,SQL代码如下(修改日期即可得到当天的用户行为数据):
得到如下共计30张每天行为数据表格如下所示:
3、分析思路:
分析框架
在数据分析中有两个典型的场景:
一种是有数据,没有问题,需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。
另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。
本分析属于前者,需要先借助漏斗模型这套流程式数据分析,通过漏斗图展现出整体用户行为路径各个阶段的转化率,对漏斗各环节相关数据进行比较,能够直观地发现和说明问题所在;再通过用户行为分析利器-“桑基图”对多用户行为路径进行分析,看用户主要流向哪里,发现用户的流失点,从而验证优化的方向。
3.1构建漏斗模型——转化率分析
漏斗模型反映用户行为从起点到终点(浏览页面到完成支付)之间各阶段的转化率情况。
通过事先定制好漏斗过程的每一个步骤,分析从上一步到下一步的转化数据,从而分析转化路径上的用户转化情况,进而进行针对性产品运营和产品改善工作。
漏斗分析模型几个基本概念和计算逻辑:
指标定义:
总用户数:所有的user_id用户数量
访客量:所有的user session数量
View用户数:有浏览行为的用户数量
Cart用户数:有加购物车行为的用户数量
Purchase用户数:有支付行为的用户数量
说明:浏览人数、加购人数、支付人数的统计不是按一个单独用户访问完一个网站的全部行为旅程,而是按漏斗模型每一层(各环节)还剩多少人,层层过滤沉淀的统计逻辑。
3.2用户行为路径分析
用户session统计,用户行为事件
1 ,一个 session :
开始:从用户进入网站
结束:离开网站
2 ,用户行为:4种行为事件类型(event _ type)
浏览(view),加入购物车(cart),移除购物车(remove_from_cart),支付(purchase)
3 ,session - event _ type:对应关系
session - event _ type:1对1或者 1 对多
session:登录一次,可以有很多操作
归纳起来总共有以下几种用户行为路径类型:
11种用户行为路径类型
• view_only:只有浏览记录的用户行为
• cart_only:只有加入购物车记录的用户行为
• purchase only:只有购买记录的用户行为
- remove_from_cart only:只有移除购物车记录的用户行为
• cart- view only:加入购物车浏览的用户行为
• cart- remove from cart -view:加入购物车移除购物车浏览的用户行为
• cart- purchase -remove from cart:加入购物车购买移除购物车的用户行为
• cart -remove from cart:加入购物车移除购物车的用户行为
• cart- purchase -remove from cart-view:加入购物车购买移除购物车浏览的用户行为
• cart -purchase -view:加入购物车购买浏览的用户行为
• remove from cart -view:移除购物车浏览的用户行为
桑基图能非常直观地展现用户旅程,尤其是用户旅程纷繁复杂的时候,桑基图能很直观地表现出用户的使用习惯,帮助我们了解用户行为,从而进一步提高产品体验。
说明:该图直观的描绘出有一大半的访客的行为旅程只停留在浏览阶段
产品
- 用户浏览前十 VS 用户实际购买前十(考察系统推荐和用户的精准度)
- 用户浏览的品类前十 VS用户实际购买的品类前十(系统推荐什么和用户想买什么)
4、数据处理:
指标口径:
5、可视化报告
通过漏斗分析模型整体上描述各层级转化情况,发现浏览转化率过低的问题。
5.1制作漏斗图
把漏斗图数据导入,细粒度选“层级”
大小选“人数”、颜色选“层级”,标签拉入“层级和人数”字段
通过多用户路径分析模型上对用户行为进行解读,近一半访客量点击落地页面(首页或活动页面)浏览完就离开没有后续的操作
5.2制作桑基图
通过对比分析,发现1.27和1.28两日的支付转化率、浏览转化率和架构转化率都远远高于其它日。从产品的维度分析对比用户的转化情况,策略验证。
5.3制作组合图
转化率都从柱状图改成折线图
设置右值轴
作品预览:
5.4分析思路及结论
(1)通过分析对业务链路流程进行监测,发现1.5-2.3节日月周期内支付转化率不高的问题,尤其是浏览转化率更是低于正常值。
(2)进一步定位原因,根据桑基图描绘出的不同用户行为路径,发现近一大半访客只有浏览行为,就停止了行为旅程。
(3)对比分析诊断问题,发现1.5-2.3期间的日活用户数和各项转化率都比较均衡,唯有1.27和1.28两日的各项转化率远高于它日。
(4)通过产品、品类、维度拆解问题,对比1.5日和1.27、1.28日的用户浏览前十和实际支付前十的差异。发现1.27和1.28两日的重合度较高,正好印证了这两日转化率高的原因。
(5)结论建议:要从提高浏览转化率入手,通过精准流量、分析定价、丰富产品品类,提高用户的浏览时长,延长用户的行为路径。 |