【2022BI数据分析大赛】英国在线零售数据分析报告
作者:侯继欢
一、作品介绍
作品根据英国在线零售数据(https://www.kaggle.com/carrie1/ecommerce-data)进行人货场数据分析。通过“人-货-场”三个关键维度,再加“时间”一个维度进行全面的销售经营探索,发现其中的问题,并给出改善的建议。
二、数据加工
1、选择子集
只选择对数据分析有意义的字段,无意义的字段隐藏掉。增加两个字段,将原来的销售日期字段拆解为销售日期和销售时间;增加一个销售额字段,其字段值为销售数量与单价之积;删除产品描述。
2、列名重命名
将列名更改为我们容易理解的形式。将英文字符替换成中文字符。
3、删除重复值
目前保留的这些字段其重复值都是有含义的,消费者ID的重复表示多次购买,产品号码重复是表明多次被购买,交易号码重复则是因为将消费者一次购买的多个商品拆分为多条数据。因此不删除重复值。
4、缺失值处理
缺失值处理的 4 种方法:
①通过人工手动补全(定位空值,输入数据后按「Ctrl + Enter」批量填充)
②删除缺失的数据
③用平均值代替缺失值
④用统计模型计算出的值去代替缺失值
定位到的空值基本为消费者编号,大约有13万个数据是无效的空值,无法进行后续的分析。因此我们先用筛选把这些空值全部选出来并删除掉。
5、一致化处理
整个数据内容都较为一致,没有需要处理的字段。
6、异常值处理
根据查找和筛选功能发现销售数和单价有些数据值为负数,表明其是退货交易,在后续分析中会对其进行分析。
到此数据清洗的所有步骤已完成,接下来我们开始作品的数据分析部分。
三、分析思路
四、分析过程
1、哪些消费者是购买的主力?
“头部客户”贡献明显,其中14646排名首位;客户“长尾效应”突出,大部分用户贡献销售额在5万英镑以下。
2、哪些商品较受欢迎?
长尾商品是电商平台的基本盘。
头部商品优势很突出,销售前十的商品超过了销售占比的8%,建议与这些商品的供应商达成长期的、品牌化的合作和互利共赢的协议。
长尾效应明显,可以看出,这家公司的商品中除了头部商品外,大部分的业绩是由底部产品提供的,90%的商品销量20000以下。
3、哪些地区是主要的销售市场?
主要面向英国本土市场。英国的市场份额遥遥领先,说明这家英国线上零售商仍然只是一个主要面向国内的本土企业。
4、交易平台的退货情况怎样?
16446客户退货严重,需要重点关注商品作品质量、物流或者客情关系;另外需要留言12346和15098退货原因。
23843、M、23166商品退货情况吐槽,需重点专注这些商品的供应商、和负责销售的销售员(客服人员)等。
英国本地市场退货情况较为明显(市场占有份额较大的原因)。
5、哪些时段是购买的高峰期,这些时段有什么特征?
3、5、9、10、11月等节假日(复活节、劳动节、万圣节、感恩节、黑色星期五等)月份销售增加明显。
①节日对销量有很强的带动力,其他月份销量较为稳定。
②不同节日畅销的商品有所不同,其中11月到达了高峰。
③客户主要选择在8-18时进行交易,休息时间几乎不交易。
四、结论建议
1、给予高价值客户特别服务
通过向高价值客户提供更为便利的服务提高其客户忠诚度,保证公司的营收能力。
2、对头部商品做针对性营销
头部商品在不同节日中的销量敏感度不同,,针对这个特点做针对性的营销
3、提高市场占有率
巩固英国本土市场,扩展欧洲其他国家的市场,尝试开拓世界其他地区的市场。
4、注重节日营销
礼品具有强烈的节日属性,可以针对不同节日的特点推广不同的商品。
5、合理精准推送
根据用户购物习惯的时间段(8-18时),再根据用户画像将对应的商品对用户进行精准推送。
6、关注退货情况
关注用户退货原因,对保质期、商品质量、物流、客服态度等关键指标进行监控,尽可能避免退货情况的发生。
五、参赛心得
通过简单的数据,探索出它的价值,才是数据分析的灵魂。
最终作品展示