参赛选手:林凯丽。
一、分析背景
近年来,互联网电商的获客成本逐渐增加,电商由“流量”时代逐渐过渡为“存量”时代。如何做好用户管理,是每一个互联网商家需要思考的问题。
在这样的背景下,本次分析通过一个淘宝用户数据集,对用户购物过程中的行为(现象)作出分析,找出运营过程中存在的问题以及出现问题的原因并提供优化改善的建议。
二、分析问题
1、淘宝的用户流失情况的怎样?(是什么)
2、造成该种流失的原因是什么?(为什么)
3、该怎么避免类似流失的发生?(怎么办)
三、数据加工
数据来源:阿里云.天池网https://tianchi.aliyun.com/dataset/dataDetail?dataId=46(选取100万行数据作为分析依据)——为虚构数据的时效性,此文将数据的日期2014年改成了2021年。
3.1字段翻译
① user_id:用户编号
② item_id:商品编号
③ behavior_type:用户行为类型(包含点击、收藏、加购、购买四种行为,原始字段中分别用数字1、2、3、4表示)
④ user_geohash:地理位置
⑤ item_category:商品类别编号
⑥ time:用户行为发生时间
3.2数据清洗
1、选择字段
item_category 列地理位置的数据大多是空值 NULL ,且位置信息被加密处理了,难以研究。所以不选择该列分析,即直接删除。
2、删除重复值
数据中未发现重复数据
3、缺失值处理
数据中的分析字段中未发现缺失值
4、一致化处理
由于 time 字段的时间包含(年-月-日)和小时,为了方便分析,将该字段分成 2 个字段,一个日期列和一个小时列。
5、异常值处理
检查各字段是否出现异常值,是否符合规范。检查后,所有数据正常,数据符合规范,无需删除数据。
整理后的数据预览如下:
3.3派生指标
① 品类数:COUNTD_AGG(${商品类别})
② 商品数:COUNTD_AGG(${商品编号})
四、数据分析
4.1分析思路概述
本次分析采用漏斗模型分析,假设检验分析。
在用户维度,使用漏斗模型分析顾客点击、加购、收藏、购买的不同阶段之间的转化率,找出转化率在一天当中不同时段的分布情况,针对地在转化率高的时段加大投放,争取最大化提高转化率,从而提高流量的利用和店铺销售额。
在商品维度,通过假设检验,分析流量商品与畅销产品的分布情况,优化新品引进、付费推广的投入、产品备货量和备货周期。
4.2数据分析过程
1、用户流失情况
用户行为包括点击、加入购物车、收藏以及购买,图1显示,点击占总行为数的94.22%,而放进购物车只占2.8%,最后实际购买占不到1%,用户流失主要在放进购物车这一环节上。
于是我们做出假设:可能出现的原因是用户在淘宝花了大量时间搜寻不到自己想要的产品,以致于放弃在淘宝平台购买产品,转而去其他平台购买。
针对这个假设(猜测),从以下3个维度分析来验证此猜测:
①用户想要在淘宝找到什么商品?
②用户习惯什么时候(时间段)购买?
③平台推送的商品是否满足用户需求?
2、用户流失情况原因分析
(1)用户想要在淘宝找到什么商品
衡量用户最想要在淘宝平台找到什么产品,最重要的指标是商品点击数。通过该项指标,可最大程度上了解到哪类产品用户的需求量较大,哪类产品的需求较小。(注:点击量反应用户需求)
从图中可看出,商品类别编号为1863、13230、5027、5894、6513的在淘宝APP中点击数最高,说明用户最想要在淘宝平台中找到这五类商品。
在这五种类型下,各类中点击数排名前三的商品又为:
从图3中看出,各类商品中,5027类的商品需求较高,前三名商品的点击量均在40以上;6513类的商品需求量相对较小。
(2)用户习惯什么时候购买商品
根据以上结果,分析在一个月内和一天内用户寻找这五类商品的主要时间段。结果如下:
从图4中可看出,因为淘宝的双十二活动,这五类商品的点击数在双十二前夕及双十二这天剧增,双十二过后恢复到正常的范围,其他时间都未有较大的波动。
一天内用户寻找这五类商品的主要时间段。可以看出,这五类商品的用户点击数从每日0点到5点快速降低,4点左右降到一天中的点击数最低值,6点到10点用户点击数快速上升,10点到18点用户点击数较平稳,18点到23点用户点击数快速上升,21点左右达到一天中的最高值。
再看看各类商品中,商品需求最高5027类的前三产品的一日内的点击数分布。5027类的商品,用户主要集中在下午6点到晚上11点在淘宝平台寻找这几类商品,若细分到各分类下的具体商品,主要搜寻时间会略有不同,但基本都会包含晚上6点以后这个时间段。
对比可知,18-23点这个时间段,用户明显活跃起来。对此,有做站内付费推广(如直通车、钻展等)的商家可以侧重于这几个时间段加大投放,争取流量获得最大转化。
综合上述分析可知,用户在淘宝平台最想要寻找到商品类别编号为1863、13230、5027、5894、6513的这五类商品,在这五类商品中,5027类的商品需求最高。用户主要集中在下午6点到晚上11点在淘宝平台寻找这几类商品,若细分到各分类下的具体商品,主要搜寻时间会略有不同,但基本都会包含6点以后这个时间段。
因为数据集有限,只能大致分析出淘宝用户想要寻找哪几类商品。若要更细致地分析出用户想要什么样的商品,还需知道用户使用的搜索高频词,利用该项数据建立用户搜索画像,并结合商品点击数数据,建立搜索点击率指标,分析总结出点击率高的搜索高频词和点击率低的搜索高频词。从而更精确地总结出用户在淘宝平台最想要寻找什么商品。
(3)淘宝平台推送的商品是否满足用户需求
从上一步中分析出用户想要寻找什么产品后,接下来需要知道淘宝平台筛选推送的商品是否满足了用户的需求。
首先从商品数量占比上分析这五类商品是否在淘宝平台上足够多,以供用户选择。
从以上图7结果可以看出,淘宝平台共有7034种品类,种类繁多(673013种),而需求量最多的前五类商品在商品数量上一共占到了约13.25%,说明淘宝平台对这五类商品的提供了足够多的选择。
在选择足够多的情况下,需从商品购买数上分析淘宝对这五类商品的推送机制是否合理,即在用户搜索某类商品后,出现的商品是否满足用户的需求。
从上图可以看出,除了1863类商品的购买次数较多外,其他需求多的四类商品的购买次数并不多,甚至都没有进入购买次数的前五名。
显然,需求最高的五类商品的购买数都远低于购买数最高的五类商品,说明淘宝对这五类需求最高的商品的推送机制并不合理,淘宝平台给用户推送的这五类商品没有满足用户的要求,即用户在点击查看该类商品后,发现并不是自己想要的商品放弃加入购物车,造成转化率的降低。
五、结论与建议
根据以上分析,证实了前面的猜测(假设),淘宝APP的用户在放进购物车环节流失严重的原因是,用户在淘宝花了大量时间搜寻不到自己想要的产品,以致于放弃在淘宝平台购买产品,转而去其他平台购买。
根据以上结论,提出以下几点改进建议:
1、算法部门建议:建议算法部门改善淘宝推送商品机制,尤其针对需求最高的1863、13230、5027、5894、6513这五类商品,监控这五类商品的购买数,优先将购买数高的商品推送给用户,使用在搜索该类商品后,能在前三个或前五个商品页面看到这些购买数较高的商品,缩小用户寻找商品的时间,提高用户的转化率。
2、市场部门建议:淘宝的用户偏爱1863、13230、5027、5894、6513这五类商品,建议市场部门在淘宝的主要投放渠道,多投放这五类商品的广告,尤其是投放五类商品中销量较高的商品广告,获取到更多的用户到淘宝平台。
3、运营部门建议:淘宝的用户搜寻商品的时间段主要在下午6点至晚上11点,也就是大多数人下班后休息的时间。建议运营部门在这个时间段对这五类商品多策划一些营销活动,例如“聚划算”、“满减活动”等,刺激用户消费,提高用户转化率。并对这五类商品中需求很高的一些商品,精确用户对这些商品的主要搜寻时间段,在这些主要的搜寻时间对该商品进行促销活动。例如上述分析中提到五类商品中需求最高的是5027类商品,分析中给出了5027类点击数前三的商品的主要搜寻时间段,运营部门可根据这些精确的时间段策划推广相应的营销活动,激活用户,提高转化率。
六、心得体会
作为数据搬运工几年,但真正的开窍,却是因为参加了这次的比赛。
一开始,我还以为像之前的比赛那样,只要把作品做得好看就行了。但和指导老师交流的过程中发现,这次的比赛更加注重的应该是分析,而不是简单的可视化。并且他告诉我,一次完整的数据分析流程主要分为以下六个环节:明确分析目的、数据获取、数据处理、数据分析、数据可视化、结论与建议。
最让我纠结的,还是“数据分析”这一环节,因为数据处理过程都只是机械活。后面他又对我说了一句:如果你真的不知道怎么下手,那你就采用“是什么,为什么,怎么办”的逻辑对数据进行一步步的探索分析。
他还针对我的作品举了个例子。比如,你发现转化率很低,那么接下来就得去进一步的探索为什么转化率那么低,知道具体原因了之后,你还得针对原因提出有效的建议和解决措施。
感谢帆软提供的这次比赛机会,对于我来说工具的使用有了进一步的提升,更重要的是,感受到了数据分析的魅力。数据驱动的时代,无论你的工作内容是什么,掌握一定的数据分析能力,可以帮助你更好地认识这个世界,更好地提升工作效率。
七、可视化作品
|