【2022BI数据分析大赛】智能制造核心监控分析报告
一、选手简介
团队名称:Team
团队介绍:智能制造企业BI团队核心成员,liao、chu、yetta、du、kenny(队长)
参赛初衷
帆软和我司是长期友好的业务合作伙伴,平时工作会用到贵司的BI可视化工具,刚好通过本次比赛掌握finebi的使用,提升工作技能,加深对数据分析、数据可视化的理解,对数据的价值有更加清晰的了解,同时也希望在开发过程中发现finebi的优势和不足,将所遇的产品需求反馈至帆软技术团队,完善产品功能,彼此能协同进步,也希望能和业界同行有更多的交流和思维的激烈碰撞。争取拿奖!
二、作品介绍
1、业务背景
随着科技的发展,大数据成为当今的热点话题。从IT时代走向DT时代,数据量爆炸式增长,其潜在的巨大价值有待发掘。冰冷的数据沉浸在业务系统数据库中,需要焕发其生命力,让数据这一新的动力能源,驱动制造业不断升级变革。我司作为制造业的一员,也亟需挖掘堆积如山的历史数据的价值,将生产、销售、售后的数据贯穿在一起,让数据更好地服务于公司业务,形成智能制造,精准营销,优质服务的闭环。
2、需求痛点
公司业务体系庞大,各子分公司的业务系统相对独立,而要研究分析公司整体的产销情况,需要打通不同业务系统的堵点。以往的产销数据沉浸在数据库,生产、销售、售后这三大业务域之间的数据如何构建联系,如何将它们串在一起,发现、解释、解决问题。若不能将历史数据进行可视化呈现,则不利于管理高层的整体把控和决策分析,也将影响到公司下一步的战略部署。如何在杂乱无章的记录中发展业务域之间的内在联系,是我司所遇到的痛点,也是本文要重点解决的难点。
3、数据来源
为了严格保密,我们没用到公司的真实数据,而是参考数据。不仅做了常规的数据脱敏等处理,包括但不限于通配符替换,基于ODS层表只抽取该项目所用到的字段,也将某些字段所有的值都用其他文字表述;由于数据量过于庞大,为了缩小分析范围,紧密围绕特定主题,以小见大深入分析,在不影响结论的前提下,从上亿条记录中抽取了近5年数据3大业务域国内市场的相关数据,约40W条。
4、分析思路
4.1 结构脑图:
4.2 指标拆解:
4.3 分析方法:
Top分析、帕累托分析、因子分析和主成分分析、控制变量法、线性方程
5、数据处理
5.1 统一口径:
由于3大业务域的数据存在于不同的业务系统(如ERP系统和MES系统)中,各子分公司的操作型数据库之间各自分离,形成“信息孤岛”,故在将各子分公司的数据捞到总部的数仓时,必须打通各业务系统数据源不一致的堵点,统一规范化指标口径,如字段名称、数据类型,表结构等,最后再将数仓中的表导出为xls格式作为源表,避免直连数仓。
5.2 维度退化:
3张源表来自ODS层的事实表,有50多个字段,而此项目用到的字段10几个,考虑到性能,仅抽取需要的字段,并对大表进行优化,采用垂直拆分,维度退化的方式来分表存储,抽取出品类等相关维度表,通过机器编码主键关联。
5.3 字段冗余:
虽源表有销售、维修等时间字段,以datetime类型存储,但考虑大部分图表仅用到年份或年月作为维度或彼此建立关系进行联动,若不处理,后续联动会比较麻烦,故基于该时间字段冗余了年月日;通过机器编码前8位left join品类维度表冗余种类、大类、系列等字段。
5.4 数据清洗:
由于前端做了异常值、唯一性判断,后端也建立唯一索引,当用户输入的数据有重复值或缺失值,系统会不予存储并提示重输,故源表无人为的脏数据;为便于读者顾名思义,表名和字段名全部转为中文。
5.5 数据脱敏:
将手机号脱敏置为*号,将我司的产品系列的真实名称全置为其他文字。
5.6 数据准备:
表名
表描述
表类型
生产
生产域ODS层
原始表
销售
销售域ODS层
原始表
售后
售后域ODS层
原始表
生产_明细表
生产域DWD层
事实表
销售系列表
销售域DWD层
事实表
售后_明细表
售后域DWD层
事实表
品类维度表
public域DIM层
维度表
其他数据集都是基于上述表进行粒度细化,创建的相关自助数据集,不逐一枚举了。
6、可视化报告
6.1 排版布局
共4个版面架构,依次为:总览、生产、销售、售后。整体采用总分结构,总览是对这3大业务域进行一个总括概览,总体看经营情况,局部来追本溯源。
6.2 样式风格
整体为科技蓝,预警提示采用红色预警线线、红绿文字、闪烁动画等标识。部分图表隐藏标题,是考虑到了用户体验或分析结论更具有直观性,年份组件控制标为橘橙色文字的图表,切换年份则这些图表的年份也会联动改变。
6.3 字体字号
过滤组件:12px,默认字体和颜色(白),必选,默认初始年2018
KPI指标卡:24px,默认字体和颜色(白)
图表标题:16px,默认字体和颜色(白),被时间组件控制的年份置为橘橙色(HEX:ef8b07 R:239 G:139,B:7)
结论报告:12px,默认字体和颜色(白)
6.4 分析报告
【总览】版面指标剖析
功能简介:图一和图四均可省市钻取,一个为总览地区进行定性观看,一个为详细显示进行定量观看。
业务含义:
平均交期:评估成品生产交付的能力。指标逻辑为sum(销售订单下单日期-生产入库日期)/sum(订单数)
帕累托分析:识别影响因子最大的极少数。
【总览】版面分析结论:
1、全国各地年销量、年销售额、年返修率:据图一【总览地图】和图四【帕累托分析图】,可整体知,在年销售额Top10省,北京市(¥1276.45万)、广东省(¥1035.834万)、上海市(¥740.57万)名列前茅,销售额累计占比高达24.99%。点击地图某省或柱状图(如广东省),联动钻取到市,其中深圳(¥186.70万)、广州市(¥180.73万)、珠海市(¥123.45万)独占鳌头,销售额累计占比47.39%,几乎占据半壁江山。在全国各地,这些省市成为“至关重要的极少数”,其购买力之强,需求量之大。我司应加强和北上广经销商的合作,开设多家线下门店,巩固一线省市的市场,稳住经济发达地区的基本盘,稳中有进增大优质客流量。
2、各种类KPI指标:据【KPI指标卡】和图二【环状饼图】知,指定年的各种类销量差距悬殊均衡稳定,业务发展多元化,其中空调占比最多,近5年占比区间为 ,连年占据主导地位。据因子分析和主成分分析,空调为我司主营业务收入,依然是今后业务发展的重点方向,而AI智能占比最小但不容小觑,说明了随着科技发展和人工智能技术日臻成熟,AI智能是一个新方向,需持续关注。
3、近5年销量、销售额趋势和同比增长率:据图三【柱状图-折线图】和图五【双折线图】知,销量和销售额趋势协同波动,呈现“V”型趋势,在2020年均跌落低谷,之后触底反弹并稳步回升,但高峰点(2021年)并未恢复到转折点之前(2019年)的水平,这表明,2020年疫情爆发冲击了制造行业,导致同比增长率自2019年的3.11%跌落至2020年的-46.99%,尽管2021年同比增长65.57%,增速最大,但因基数受创也未能使指标超越2019年。而2022年也为负值是因为统计截止4月份,相比2020年,年未过半但销量却接近2020全年的一半,销量可观,故两者虽为负但后者未来可期。
4、近5年各种类目标产量和实际产量:据图六【多系列柱状图-折线图】知,各种类均超产(产量差=实际产量-目标常量),在库存允许的范围内(警戒线之下),避免了供不应求、供货紧张的局面,但2019年超产严重,导致库存积压、产品滞销,而2020年疫情突然爆发,清仓挑战更加严峻,好在后3年产量差控制在上限之下;生活电器超产量总体比其他两个高,说明小家电相比于空调等大物件产出率高,供需流动较快,不易造成库存积压,毕竟小家电寿命比空调短,需求侧会加快供给侧的输出。整体看5年的柱状图,2020年6根柱子都比其他年份矮,这也从侧面反映了结论3的2020年指标最低现象,生产和销售存在正相关的协同特征。
【生产】版面指标剖析
功能简介:图一采用柱子闪烁动画和颜色进行区分预警,点击柱子可联动其余三个图表,其中质检合格率明细表采用文字颜色和小图标进行区分标识。
业务含义:
配送异常率:评估物料配送到各生产车间出异常状况的风险。指标逻辑为配送异常次数/配送次数
质检合格率:产品的质量检验合格的比率。指标逻辑为质检状态“通过”记录数/总记录数
【生产】版面分析结论:
据图一【柱状预警图】发现,各产线产量分布不均衡,产出悬殊过大,其中有5条产线超额完成,KS8452产线最多,值得表扬,高达20.58万台,而有10条产线产量低于5万台,WH8112最少,需预警跟进,最值通过柱子的备注和闪烁提醒。结合【KPI指标卡】、图二【人数趋势图】和【质检合格率明细表】,从此三个维度追溯原因,具体为:点击最值对应产线的柱子(KS8452和WH8112产线),联动此三个图表,得:
(1)异常配送率:0.10%、0.28%,值越低,产量越高,即异常配送率曲线和生效效率曲线呈现“”此消彼长“”的对应关系。成品生产所需的各零部件配送延迟或异常,未能按时运到产线上组装生产,导致生产效率底下。
(2)在职员工数:194、57,值越高,产量越高,即产线充足的劳动力提高了成品产量,反至则会出现“用工荒”情况,人员离职导致产量下降,单位产出量减少。从两产线近5年的在职员工数趋势看,KS8452产线虽有所降低,但减少量不大,而WH8112产线经历过2020年低谷后,增加至2022年的61,比2018年有所增加,说明两产线差距逐渐缩小,有回归到均衡水平的趋势,不必过于担忧。
(3)质检明细表:KS8452产线整体的质检合格率为95.69%,顺利通过,其中2020年的生活电器、2022年的空调这2个种类存在较大的质量隐患,标红警示,需加强质量安全检测,避免因质检不合格或封存返包导致合格率过低;WH8112产线整体的质检合格率为95.69%,和KS8452产线相同,却有5个被标红的记录,这说明,两个产线虽平均质检合格率一样,但经计算,两者标准差分别为0.00844,0.0163,说明KS8452产线历年各种类的质检合格率的分散程度较轻,大部分数值集中稳定在数学期望上,而WH8112产线数据点偏离均值严重,这很有可能跟产线在职员工的工作技能和品质素养参差不齐,个体化差异明显有关。一群有多年丰富工作经验,熟稔业务的老员工骨干和初入职称的小白,两者的产出是一个量级差异,新手操作不当,很容易出现质量问题,我司应给WH8112产线的员工开展职业技能相关课程,集中培训,定向帮扶。
【销售】版面指标剖析
功能简介:点击图一,可联动图二,点击图二,可“种类→大类→品牌→系列”逐级下钻,图三是下钻的最底层。
业务含义:
能效比分为两种,分别是制冷能效比EER和制热能效比COP。空调制热只是冬季取暖的一种辅助手段,其主要功能仍然是夏季制冷,为简化参数,这里我们均采用EER来表示能效比。EER值越高,越省电省钱
耗电量=制冷量/EER
【销售】版面分析结论:
1、年销售KPI:据【目标完成率KPI指标卡】,通过时间控件查看各年目标完成率知,除2020年和2022年低于100%,其余各年均达到150%以上。2022年用了4个月的时间就达到了2020全年49.91%的完成率,印证了【总览】的结论3。
2、各年龄层用户的销量、销售额级热销产品:图一【雷达图】、图二和图三【聚合气泡图】通过时间和产线控件彼此联动。由图一知,青年、壮年各指标均大于其他年龄层,点击“青年”节点,联动图二知,生活电器是青年人热衷的种类,按“种类→大类→品牌→系列”逐级下钻至最低层知,“Tsot(天朔)”是生活电器下的最热销的小家电品牌系列。图三列出了所有系列对应的销售额,横向看青年在各系列的销售额贡献都是最大的,我司主要经营所得的优质用户是青年、壮年;纵向看,生活电器中的“压力锅”和AI智能中的“智能门锁smart”的气泡最大,是青年最热衷的两大系列。故:我司应增加生活电器和AI智能的生产,尤其是“压力锅”和“智能门锁smart”这两个系列的产品。
3、节日与非节日销售占比:据图四【玫瑰图】知,节日与非节日销量分别为4194,5806,差距不大,而全年中的节日天数远小于非节日天数,即节日每天的平均销量远大于非节日的,这说明很多用户都选择在节日促销活动时购买,而购买原因【词云图】解释了这一现象,“物美价廉”是用户首选的因素,我司应多在节日开展促销活动,利用直播带货等方式,多推出特价爆品,以低价实惠引流吸客,同时,继续严格把控产品质量,质量好才能赢得持久的好口碑
4、能效等级匹数占比:据图五【玫瑰图】知,三级能效的空调销量总体多于最为省电的一级能效的空调销量,尤其是三级能效1.5匹占比最多,比一级能效略胜一筹,出现了反常情况(按理说质量越好,越省电,就越好卖)。如下进行定性和定量分析:
(1)定性分析:结合购买原因【词云图】,客户购后反馈,“物美价廉”比“质量好”占比高一些,而且夏季5-7月销量是全年占比最大的月份,加上三级能效比一级能效要便宜几百甚至上千,经分析发现:对于大多数普通家庭来说,只是夏季炎热的那一两个月开空调较多,一年开不了多少次,所耗电费不是很多,总体算下来的所耗电费差价还没购买时的差价高,买款三级能效的空调就足够。故:在价格和质量的利弊权衡中,客户考虑价格因素更多点,优选性价比高的产品,由图三【聚合气泡图】知,家用空调中的“i天汉系列”堪称性价比之王。
(2)定量分析:
【模型假设】
温度、室内面积、空调模式(如睡眠模式)、匹数等均可影响耗电量,如匹数越大,制冷量越大,则耗电越大。故这里采用控制变量法,在同种外界环境下,只研究能效和耗电量的线性关系。假设用户全年仅夏季(5-10月)开4个月制冷,设定为恒温26摄氏度,每天10小时(晚8晨6)。
以珠三角某市为例,下图分别是该市的阶梯电价表和空调的制冷量和能效比矩阵
【模型建立】
据上图建立耗电量和总电费的数学模型:设月用电量为x千瓦时,总电费为y元,则
用户用1.5匹1级能效(0.917度/时),则耗电量为4*30*10*0.917=1100.4千瓦时,共需0.90*1100.4-163=827.36元。
用户用1.5匹3级能效(1.031度/时),则耗电量为4*30*10*1.031=1237.2千瓦时,共需0.90*1237.2-163=950.48元。
即:一年可省123.12元。按空调的平均使用寿命10年,则可省1231.2元,即对于同品牌同品类同一匹数的空调,这笔当初选购两种能效等级的价格差(一级能效均价3499-三级能效均价2699=800元)更划算,若考虑客户夏季制冷不止这么多小时,或冬季也开空调制热,则可省的价格额度更高。
故:从中短期(10年以内)或全年开空调的总小时数较少(1000h以内)来看,则三级能效比一级能效更具有性价比,而从长期(10年以上)或一年开空调的总小时数较多(1000h以上)来看,一级能效还是比三级能效更划算。
【售后】版面指标剖析
功能简介:图四采用柱子颜色进行区分预警,点击图六、图七的饼块可弹出对应的明细数据表,以便查看详细信息。
业务含义:
品类返修率:该品类报返修单的比率,用于衡量该品类的质量状况。指标逻辑为返修数/销售量
【售后】分析结论:
1、年累计报返修单数和维修费:据图一、图二【仪表盘】知,数组分别为(1454,0),(3252,247000),说明在保修期内发生故障导致返修的单数较少,因为有售后质保服务,用户无需掏钱,而随着时间推移,过了售后服务期的报返修单数增加1倍多,而这仅经历了短短的5年,故猜测很可能是售后服务期短的产品占多数,因为空调一般8-10年质保期,而生活电器等质保期不超过3年,过了质保期就需要用户掏钱。而图四【柱状图】刚好印证了这个猜想,报返修率最高的前5个都不是空调这种质保期长的产品,结合图六【圆形饼图】进一步知道,“智能网关smart”这一系列是最容易造成这种局面的产品之一。故:我司应加强对小家电、智能门锁这两大类,尤其是AI智能这一系列的质量控制,确保产品保质保量完成;而由图七【圆形饼图】知,芯片和胶管这两个配件出现问题是导致上述大类系列的产品被报返修的内在原因,而根本原因可由图三【词云图】知,如:芯片出问题是因为中的“芯片损坏”,次数高达756。当然,大部分是因为用户使用不当,这反应了很多用户买回产品,尤其是小家电等小物件产品后,并不会像空调等大物件或操作复杂的产品那样细看使用手册,而是买了直接拆开使用。
2、压缩机故障率:结论1的商用空调和家用空调的报返修率最低,得益于图五【折线预警图】,近5年都没有超出预警线,空调的心脏其实就是压缩机,其故障率在很大程度上影响到空调的报返修率,而这块我司做得不错,一贯执行高标准高要求。
三、总结
1、FineBI工具
这款产品在数据可视化方面不错,尤其是图表类型丰富,制作的图形化界面美观整洁,而且是基于web编辑开发,有助于提高开发效率,预览快速不卡顿。当然,有些小问题若能完善,就更好了。如:文本组件不能重命名,当文本组件较多时,在设置控件联动文本组件时,开发人员不能一下子就找到该组件;做好的仪表板预览没有问题,但导出为PDF时,文本组件中的文字排版错乱,导致售后的结论文字被截断。
2、心得体会
数据是从业务中产生的,只有通过数学分析,进行数据挖掘,并借助于finebi等可视化工具呈现出来,让数据服务于业务,才能真正体现出价值。“驱动未来制造业的最大能源,不是石油,而是数据”。最后,辛苦团队的每个成员,也感谢帆软苏老师和陈导师的答疑解惑,谢谢您们!
【最终效果图】