一、自我介绍
1、社区用户
柒悦,数据运维及数据可视化开发人员,一个喜欢和数据打交道的茶树菇。通过大赛的交流同行业作品的接触,提升自己BI的可视化水平和分析水平,同时也了解BI在各行业数据业务落地上能做到什么样的地步!
2、参赛初衷
我想抓住每一个能锻炼自己的机会,既然走上了BI这条路,那么可视化分析是必不可少的,想通过比赛了解到自己的不足,以此更好成长。比赛丰厚的奖励,相比往届可视化大赛,这届春季挑战赛无论是奖项还是福利都准备的蛮到位的(希望帆软主办方继续保持这个好习惯)。这是帆软今年第一个大活动,作为和帆软已接触4年的我,不想因为错过,给自己留下遗憾。
二、作品介绍
1、业务背景
研究背景:研究2012至2015年间全球超市对办公用品、技术和家具三类产品的销售情况,分析2012年至2015年间产品的销售额和利润额等数据及各类产品销售情况,从中发现问题。为下一步生产计划提供有价值的建议。并且预测未来销售数据。
2、数据来源
自选数据:数据来源于网上,数据包括两个表一个是订单数据一个是销售人员数据,两个表以地区作为连接,字段包括行ID、订单ID、订购日期、装运日期、装运方式、客户ID、客户名称、细分市场、邮政编码 (Postal Code)、城市 (City)、省/市/自治区 (State/Province)、国家/地区 (Country)、地区、市场、产品ID、类别、子类别、产品名称、销售额、数量、折扣、利润、装运成本、订单优先级、销售人员。
3、分析思路
(1)销售分析
2015-2018年整体销售情况,2016-2019年超市的利润和销售额均逐年增长,且销售额的增幅逐年加大,2017和2018年利润分别同比增长26.6%和33.86%,2019年利润同比增长大幅下跌至7.86%。
(2)区域分析
各大区销售排名:华东和中南地区的销售额连续四年排名前两名,2019年华东和中南的销售额分别占总销售额的28.08%和26.08%。西北和西南地区销售额较差。
(3)帕累托分析
从销售额的帕累托图可以看出,该超市80%的销售额来源于33%的产品,建议重点关注这33%的产品。
(4)RFM分析
使用RFM模型对客户进行分类,R指的是客户最近一次订单距离数据中最近日期的天数,F指的是客户购买的数量,M指的是客户购买的销售额。计算出客户的R、F和M值后,根据如下打分规则进行打分。具体实际业务中,如何定义打分的范围,要根据具体的业务来灵活定,没有统一的标准。
数据模型:
(5)物流分析
该超市的邮寄方式有当日达、一级、二级和标准级四种,根据订单日期和发货日期字段计算发货天数,从箱型图可以看出:
当日发货存在一些发货天数为1的订单,可能是超过了当日的下单时间
● 一级的发货天数为1-4天,50%的订单发货天数在1-2天
● 二级的发货天数为1-5天,50%的订单发货天数在1-3天
● 标准级的发货天数为3-7天,50%的订单发货天数在3-5天,标准级中存在异常点,可找出来分析原因
4、数据处理
(1)选择子集
根据要研究的问题选择需要的字段,不需要的字段利用隐藏功能将其隐藏。对于我们要研究的数据集,邮政编码是不需要的,可以选择隐藏此列数据。
(2)重命名列名
可以将列名修改成便于理解的名称,将数据中包含的单位删除后将单位在字段名称中显示
(3)删除重复值
Fixed 函数 —— 固定聚合维度{fixed A:countd(B)},在维度A下对指标B进行去重,即可去除重复值计数。
(4)缺失值处理
缺失值处理的四种方法:通过人工手动补全、删除缺失的数据、用平均值代替缺失值、用统计模型计算出的值去代替缺失值
(5)一致化处理
同一字段的数据类型和内容要一致,否则会影响后续的分析。由于本文中不涉及此问题,所以没有相关的数据处理。数据清洗结束后就可以对数据进行分析了
(6)盒须图的制作
盒须图又叫箱线图,是一种常用的统计图形,用以显示数据的位置、分散程度、异常值等。箱线图主要包括6个统计量:下限、第一四分位数、中位数、第三四分位数、上限和异常值。通过绘制盒须图,观测数据在同类群体中的位置,可以知道哪些表现好,哪些表现差;比较四分位全距及线段的长短,可以看出哪些群体分散,哪些群体更集中。
第一四分位数:数据按照大小顺序排列,处于总观测数25%位置的数据
中位数:数据按照大小顺序排列,处于中间位置,即总观测数50%的数据。
第三四分位数:数据按照大小顺序排列,处于总观测数75%位置的数据为第三分位数
下限:第一四分位数 - 1.5 * IQR
上限:第三四分位数 + 1.5 * IQR
异常值:在上限和下限之外的数据
IQR:四分位全距,即第三四分位数与第一四分位数之差
可以通过构建盒须图分别对比销售额的分位值、上下限值在2015-2018年的变化趋势,从而能够很直观的发现销售额的变化规律。
Step1:将“订单日期”拖进行列功能区,“销售额”拖进行功能区
Step2:将“订单ID”拖进“标记卡 - 详细信息”进行解聚,然后在智能推荐区域选择盒须图
5、可视化报告
1、相关推荐:【可视化分析教程】如何让您的可视化作品更出色
● 分析图片网址链接:https://unsplash.com/
● 分析元素网址链接:https://www.iconfont.cn
● 网址配色网址链接: https://coolors.co/
2、可视化制作领悟:颜色总体偏深色调布局,浅色系布局一直不好拿捏,后期再进行尝试,统一调整了字体和字号,让画面看起来更整齐美观,并在结论处对应指标做颜色标识,如代表好的指标为红色系,代表差的指标为绿色系,整个优化采取局部美化,完成时整体调优的方式。 3、终结果呈现的页面布局:部分作品展示(有些模糊,原图太大,放不进来,只能压缩,将就着看了,有兴趣的可以下载PDF看)
三、参赛总结
参赛感慨:deadline果然是第一生产力。道阻且长,行则将至,行而不辍,数据分析,未来可期。
经验分享:带着目的去分析,按照分析框架,循序渐进,去享受分析的过程。感谢帆软官方组织这次比赛,给了自己一个交流和挑战的机会,特别要赞的就是fineBI的帮助文档和培训视频都很全面,非常容易上手,希望帆软活动越来越丰富精彩。让我们执着于理想,纯粹于当下,燃烧自己的数据魂,走好自己的数据之路,加油,数据人! |