【2022BI数据分析大赛】某超市2015年-2018年产品销售数据分析

楼主
我是社区第735141位番薯,欢迎点我头像关注我哦~

一、自我介绍

1、社区用户

柒悦,数据运维及数据可视化开发人员,一个喜欢和数据打交道的茶树菇。通过大赛的交流同行业作品的接触,提升自己BI的可视化水平和分析水平,同时也了解BI在各行业数据业务落地上能做到什么样的地步!

 

2、参赛初衷

我想抓住每一个能锻炼自己的机会,既然走上了BI这条路,那么可视化分析是必不可少的,想通过比赛了解到自己的不足,以此更好成长。比赛丰厚的奖励,相比往届可视化大赛,这届春季挑战赛无论是奖项还是福利都准备的蛮到位的(希望帆软主办方继续保持这个好习惯)。这是帆软今年第一个大活动,作为和帆软已接触4年的我,不想因为错过,给自己留下遗憾。

 

二、作品介绍

1、业务背景

研究背景:研究2012至2015年间全球超市对办公用品、技术和家具三类产品的销售情况,分析2012年至2015年间产品的销售额和利润额等数据及各类产品销售情况,从中发现问题。为下一步生产计划提供有价值的建议。并且预测未来销售数据。

 

2、数据来源

自选数据:数据来源于网上,数据包括两个表一个是订单数据一个是销售人员数据,两个表以地区作为连接,字段包括行ID、订单ID、订购日期、装运日期、装运方式、客户ID、客户名称、细分市场、邮政编码 (Postal Code)、城市 (City)、省/市/自治区 (State/Province)、国家/地区 (Country)、地区、市场、产品ID、类别、子类别、产品名称、销售额、数量、折扣、利润、装运成本、订单优先级、销售人员。

 
3、分析思路

 

1)销售分析

2015-2018年整体销售情况2016-2019年超市的利润和销售额均逐年增长,且销售额的增幅逐年加大,2017和2018年利润分别同比增长26.6%和33.86%,2019年利润同比增长大幅下跌至7.86%。

 

2)区域分析

各大区销售排名华东和中南地区的销售额连续四年排名前两名,2019年华东和中南的销售额分别占总销售额的28.08%和26.08%。西北和西南地区销售额较差。

 

3)帕累托分析

从销售额的帕累托图可以看出,该超市80%的销售额来源于33%的产品,建议重点关注这33%的产品。

 

4)RFM分析

使用RFM模型对客户进行分类,R指的是客户最近一次订单距离数据中最近日期的天数,F指的是客户购买的数量,M指的是客户购买的销售额。计算出客户的R、F和M值后,根据如下打分规则进行打分。具体实际业务中,如何定义打分的范围,要根据具体的业务来灵活定,没有统一的标准。

  

数据模型:

 

5)物流分析

该超市的邮寄方式有当日达、一级、二级和标准级四种,根据订单日期和发货日期字段计算发货天数,从箱型图可以看出:

当日发货存在一些发货天数为1的订单,可能是超过了当日的下单时间

● 一级的发货天数为1-4天,50%的订单发货天数在1-2天

● 二级的发货天数为1-5天,50%的订单发货天数在1-3天

● 标准级的发货天数为3-7天,50%的订单发货天数在3-5天,标准级中存在异常点,可找出来分析原因

 

 

 

4、数据处理

1)选择子集

根据要研究的问题选择需要的字段,不需要的字段利用隐藏功能将其隐藏。对于我们要研究的数据集,邮政编码是不需要的,可以选择隐藏此列数据。

2)重命名列名

可以将列名修改成便于理解的名称,将数据中包含的单位删除后将单位在字段名称中显示

3)删除重复值

Fixed 函数 —— 固定聚合维度{fixed A:countd(B)},在维度A下对指标B进行去重,即可去除重复值计数。

4)缺失值处理

缺失值处理的四种方法:通过人工手动补全、删除缺失的数据、用平均值代替缺失值、用统计模型计算出的值去代替缺失值

5)一致化处理

同一字段的数据类型和内容要一致,否则会影响后续的分析。由于本文中不涉及此问题,所以没有相关的数据处理。数据清洗结束后就可以对数据进行分析了

(6)盒须图的制作

盒须图又叫箱线图,是一种常用的统计图形,用以显示数据的位置、分散程度、异常值等。箱线图主要包括6个统计量:下限、第一四分位数、中位数、第三四分位数、上限和异常值。通过绘制盒须图,观测数据在同类群体中的位置,可以知道哪些表现好,哪些表现差;比较四分位全距及线段的长短,可以看出哪些群体分散,哪些群体更集中。 

第一四分位数:数据按照大小顺序排列,处于总观测数25%位置的数据
中位数:数据按照大小顺序排列,处于中间位置,即总观测数50%的数据。
第三四分位数:数据按照大小顺序排列,处于总观测数75%位置的数据为第三分位数
下限:第一四分位数 - 1.5 * IQR
上限:第三四分位数 + 1.5 * IQR
异常值:在上限和下限之外的数据
IQR:四分位全距,即第三四分位数与第一四分位数之差 
 
可以通过构建盒须图分别对比销售额的分位值、上下限值在2015-2018年的变化趋势,从而能够很直观的发现销售额的变化规律。
Step1:将“订单日期”拖进行列功能区,“销售额”拖进行功能区
Step2:将“订单ID”拖进“标记卡 - 详细信息”进行解聚,然后在智能推荐区域选择盒须图
 

 

5、可视化报告

1、相关推荐:【可视化分析教程】如何让您的可视化作品更出色

● 分析图片网址链接:https://unsplash.com/

 

● 分析元素网址链接:https://www.iconfont.cn

● 网址配色网址链接https://coolors.co/

 

2、可视化制作领悟:颜色总体偏深色调布局,浅色系布局一直不好拿捏,后期再进行尝试,统一调整了字体和字号,让画面看起来更整齐美观,并在结论处对应指标做颜色标识,如代表好的指标为红色系,代表差的指标为绿色系,整个优化采取局部美化,完成时整体调优的方式。
        
3、终结果呈现的页面布局:部分作品展示(有些模糊,原图太大,放不进来,只能压缩,将就着看了,有兴趣的可以下载PDF看)

 

 

三、参赛总结

参赛感慨:deadline果然是第一生产力。道阻且长,行则将至,行而不辍,数据分析,未来可期。  

经验分享:带着目的去分析,按照分析框架,循序渐进,去享受分析的过程。感谢帆软官方组织这次比赛,给了自己一个交流和挑战的机会,特别要赞的就是fineBI的帮助文档和培训视频都很全面,非常容易上手,希望帆软活动越来越丰富精彩。让我们执着于理想,纯粹于当下,燃烧自己的数据魂,走好自己的数据之路,加油,数据人!

分享扩散:

沙发
发表于 2022-5-9 20:25:52
案例打卡:很奇怪,怎么利润就2个省有吗?桌子怎么赔了这么多钱?色彩和布局都是ok的,分析深度也有,用到了rfm和abc,分析思路也ok,谢谢分享
参与人数 +1 F币 +6 理由
帆软苏茜 + 6 有效打卡奖励

查看全部评分

板凳
发表于 2022-5-29 23:21:15
案例打卡:配色确实不错!作者专门研究有心了!销售情况、整体利润那部分图片很有意思~学习了~
参与人数 +1 F币 +1 理由
帆软苏茜 + 1 有效打卡奖励

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

3回帖数 1关注人数 6364浏览人数
最后回复于:2022-5-29 23:21

返回顶部 返回列表