一、团队介绍
1.1 团队介绍
团队名称:数源智分
团队成员:
士心:初出茅庐的应届数据分析师,在视源股份从事数据分析工作;
海瑞:同上
1.2 参赛初衷
- 公司业务借鉴:FineBI应用推广在集团已形成一定体量,但一直以来缺少一个契机做FineBI推广与应用的全局回顾与分析。因此,借助本次大赛作品制作契机,梳理集团内部FineBI推广成效及应用现状,挖掘实际应用中存在的问题并提出提效建议。
- 团队成员成长:基于FineBI系统化设计、制作、分析、支持决策的过程,增强成员的数据分析思维能力以及报表配置能力,见识一下各路大神,以便更好提升自己并赋能业务。
二、作品介绍
2.1 业务背景
自2019年上线FineBI以来,集团的精细化运营有了显著的成效。通过FineBI的数据可视化和分析能力,公司实现了数据透明化,将各业务系统和线下数据做了统一的整合、处理及展示,极大提高了人效。然而,近5年的运营以来,极速增长的报表、数据集、用户给软硬件资源都带来了挑战,权限管控也愈发复杂。
- 痛点
- BI推广效果未评估。此前并没有一个整体的用户画像,对BI的推广做出评估,只能根据日常进行反馈的用户,主观地判断哪个BG或哪个岗位用的多,缺少回访及定点推广;
- 资源冗余。报表、数据集日益增多,大数量的数据集以及相关的数据库表给服务器带来了压力,许多离线作业出数越来越慢,数据及时性降低;
- 权限隐患。用户增多,使用场景越来越复杂,给权限管理也带来了很多挑战。用户一会要看这个,一会要看那个,从业务角度来看具备合理性,但在开权限的过程中是否有出现数据泄露尚未可知。
- 费用分摊。BI及其衍生费用(如软硬件及人力费用)需要分摊到各个业务部门承担。而在以往的分摊规则中,缺少“多用多付”的客观数据,仅仅是根据各业务部门的营收情况均分,造成了不公,于是需要清晰可见的数据支撑及分摊指标。
2.2 作品简介
作品主题:视源股份BI运维驾驶舱
分析目标:
1) 提供一站式集团BI应用多维数据展示平台。通过整合各个组件的数据,包括用户维度、报表维度、数据集维度和费用分摊维度等,BI运维驾驶舱能够以可视化的方式展示集团BI应用的各项指标和数据,帮助管理层全面了解BI应用的情况。
2) 能够实时、准确地展示办公工具的关键指标、运维数据及其相关建议。通过监控用户的活跃度、报表的状态和使用情况、数据集的数量和增长趋势以及费用的分摊情况等,BI运维驾驶舱能够提供相应的结论和建议,帮助管理层优化BI应用的运维策略和决策。
3) 满足集团管理层及时了解BI应用情况并调整运维策略的管理需求。通过提供实时、准确的数据展示和分析,BI运维驾驶舱能够帮助管理层及时了解BI应用的情况,并根据数据提供的结论和建议,调整运维策略,以优化BI应用的效果和价值。
2.3 数据来源
企业真实数据,包括FineBI平台日志、FineBI底层数据库、数仓人员组织架构信息等,以上均做数据脱敏处理。
2.4 分析思路
本作品从用户、报表、数据集和费用四个维度构建BI运维驾驶舱。其中,维度设计遵循BI工具的应用主体(用户)、应用客体(报表、数据集)、应用成本(费用)的思路,系统化展示并分析BI应用情况。
通过用户维度的图表信息,可以了解FineBI的用户数量、活跃度和访问习惯,从而全面了解FineBI的应用情况。通过报表维度的图表信息,可以了解报表的数量、状态、价值和使用情况,从而明确报表的管理和维护方向。通过数据集维度的图表信息,可以了解数据集的数量、使用情况和增长趋势,从而优化数据集的管理和利用。通过费用分摊维度的图表信息,可以了解FineBI的软硬件成本和费用分摊情况,从而合理规划和管理资源。通过这些图表信息的分析,可以得出相应的结论和建议,以解决上述痛点,提升FineBI应用的科学性和有效性。下面将展开讲述各部分的分析内容。
2.4.1 用户维度
1)可视化设计思路:通过图展示总用户数量、近30天访问用户数、近30天活跃用户数等指标,以帮助了解用户的数量和活跃度,从而判断用户对办公工具的使用情况。同时,用户访问次数榜、用户访问频次日历图和用户访问时点习惯分布可以帮助了解用户的访问行为和习惯。通过这些指标和图表,可以分析用户的使用情况,从而提出相应的结论和建议。
2)可视化设计内容:
- 基于总用户数量统计指标展示BI用户概况;
- 从近30天访问的用户数、次数、活跃用户数、用户访问次数榜等方面可视化展示BI用户活跃情况;
- 分别立足于事业群、月份、时点等角度分析用户活跃所属组织与时间习惯分布;
- 基于活跃用户指标定义方式的说明,综合分析可视化结果,总结分析结论并为BI运维管理提出建议;
2.4.2 报表维度
1)可视化设计思路:
通过展示总报表数、已挂出报表数量、本月下架等指标,以帮助了解报表的数量、状态和变化情况。同时,活跃报表榜和沉默报表明细可以帮助了解哪些报表受到用户的关注,哪些报表没有被使用。通过这些指标和图表,可以分析报表的价值和使用情况,从而提出相应的结论和建议。
2)可视化设计内容:
-
- 基于总报表数、已挂出报表数、本月下架、本月净增长、机密报表数、秘密报表数等统计指标展示BI报表概况;
- 从活跃报表榜、沉默报表明细、报表用户权限数量榜展示报表活跃情况;
- 分别立足于年份、报表所用数据集成本、人力工时、被访问次数等角度分析报表发展趋势与价值;
- 基于综合分析可视化结果,总结分析结论并为BI运维管理提出建议。
2.4.2 数据集维度
1)可视化设计思路:
通过展示数据集总数、未使用数据集数、大数据集明细等指标,以帮助了解数据集的数量和使用情况。同时,数据集数量历年增长趋势和抽取数据集平均大小可以帮助了解数据集的增长趋势和大小。通过这些指标和图表,可以分析数据集的使用情况和趋势,从而提出相应的结论和建议。
2)可视化设计内容:
-
- 基于数据集总数、未使用数据集数、实时数据集总数、抽取数据集总数、抽取数据集平均大小等统计指标展示集团内部数据集概况;
- 通过大数据集明细展示服务器占存主要数据集情况;
- 立足于年份,分别统计分析数据集的磁盘占用和数量的趋势发展;
- 基于综合分析可视化结果,总结分析结论并为BI运维管理提出建议。
2.4.2 费用分摊
1)可视化设计思路:
通过展示软件成本、硬件成本、人工成本等指标,以帮助了解各个费用的分摊情况。通过软件费用分摊情况、硬件费用分摊情况和BG费用分摊情况,可以帮助了解各个费用的具体分摊情况。通过这些指标和图表,可以分析费用的分配情况,从而提出相应的结论和建议。
2)可视化设计内容:
-
- 基于固定的软件成本、硬件成本和每工时的人工成本指标展示成本概况和费用计算基础;
- 立足于软件费用、硬件费用和费用分摊明细分析各事业群BG的费用分摊情况;
- 为便于读者理解给出了背景和费用计算方式,综合分析可视化结果,总结分析结论并为BI运维管理提出建议。
2.5 数据处理
数据处理主要包含以下4个步骤:
step1 数据抽取
数据集主要采用SQL数据集和Excel数据集,因此基于SQL语句从集团数据库抽取数据权限表、报表所用数据集、BI数据集信息等数据信息(数据集支持每日更新)。
step2 数据关联
将抽取到的数据集通过表连接的方式构建BI运维驾驶舱数据集维表(记录BI操作日志,并关联展示用户名、报表名等信息)。
step3 数据清洗
1)剔除用户id和报表id的空值数据记录;
2)分析计算操作耗时的箱线图,剔除操作耗时异常值;
3)通过SQL的replace函数对用户名和报表名进行“*”替代脱敏处理,最终用户名格式形如“王**”,报表名格式形如“整机***分析”。
step4 指标计算
1)为更科学的评估活跃用户,联合考虑用户的操作次数和操作耗时等维度,因此对操作次数和操作耗时进行了Z_score标准化,以便于依据阙值判断并统计活跃用户(阈值设计见指标说明)。
2)为便于指标卡等组件的制作,在数据处理环节分别计算近30天平均耗时、近30天访问次数、近30天访问用户数等指标。
最终获得待分析的数据集。
数据处理流程图如下图所示:
2.6可视化报告
2.6.1 用户维度
近7天有访问记录 + (近30天平均每次停留时长 > 7000s or 近30天总访问次数 > 42次 )
-
- 对停留时长及访问次数按用户聚合,分别计算2023年4月的z分位数;
- 对得到的两个z分位数序列画箱线图,以上下边缘为界,筛选出有代表意义的用户;
- 对z分位数处于箱型图上下边缘范围内的用户,计算停留时长及访问次数均值;
- 对得到的均值取整,得到上述静态阈值(7000s、42次)。
首先对整体情况做一个展示:
可以看出:
- 活跃用户占比20%左右,还有较大提升空间。影响此指标有两个因素:1、报表数据是否真实、可靠、及时;2、分析的数据,给出的业务建议是否可靠、可落地、是否能真正赋能业务。因此,跟进此指标,有助于复盘整体的BI可用性,并可以下钻,做更细粒度的分析(如对于个人,自己开发的报表用户粘性如何);
- 近30天用户活跃度都有所提高,其可能由两个原因影响:1、近期为公司主营业务旺季,业务活跃、BI随之活跃;2、年中时各部门都在召开年中总结,需要查看BI数据以制作PPT。同时,近期部分用户反馈BI使用卡顿,针对以上几点可以在每年的旺季期间做好人力储备,以应对活跃的业务需求及可能的一些运维问题;
- 对于用户访问次数榜靠前的用户,可以做一个访谈,看看平时使用BI的场景,以及有何建议与诉求,帮助一起建设BI;
再对用户访问时点做一个展示:
对用户访问做时点分析,除了有一个概览,还可以帮助确定多频任务的更新时间。部分数据在BI是直连,但在数仓是多频抽取,可以根据具体报表的访问时点设定抽取时间,不会影响业务的使用。
接着分不同岗位族进行展示:
可以看到商务族占据了半壁江山,其一是因为其基数较大,其二是因为许多岗位,如销售,以往许多数据都是手工线下填写、互传,BI的推广较大程度给他们带来了便利,客户可追踪、数据可溯源,有助于其更好地开展业务;进行下钻,排名靠前的职位是销售、部门经理、总监、采购工程师等,相较于岗位族更细粒度。
接着分不同事业群进行一个展示:
不同事业群的活跃用户数量反映出了BI在不同BG推广的效果,对于深度使用BI的BG,考虑更多的是如何保持系统稳定,在不出问题的前提下探索更多分析场景;而对于BI使用并不活跃的BG,可以考虑以专项的形式试点、推广。用户肯定有需求,只是没有被发现;
2.6.2 报表维度
敏感级别定义:
秘密——字段名包含单价、金额、隐私等;
机密——包含毛利、成本等;内部——包含供应商、客户等
首先展示报表整体情况:
存在大量未挂出报表,大部分为用户测试使用,这些对服务器资源带来的负担较少,暂不做调整;同时对报表进行敏感级别的划分,有助于更好地进行数据安全管理,涉密报表权限审计要更加谨慎也由此查看用户权限情况:
大部分高权限用户为高管,基本符合规范,这一板块也需要定时监控。同时,沉默报表也是需要额外关注的点,对此做一个展示,需要统一清理:
此外,我们还对报表价值做了一个定义,核心是考量投入产出比,并通过散点图的方式展示出来:
处于坐标轴左上的,是高成本、低回报,这部分报表需要复盘,找出问题所在,是数据不准确、业务变化快,还是根本就是个伪需求?而对于坐标轴右下角,是低投入、高回报的报表,需要挖掘是否存在相似场景,做进一步推广。
2.6.3 数据集维度
同样地,做一个统一的展示:
未使用的数据集,结合具体的业务情况,可以考虑清理,释放磁盘空间;实时数据集占比相对偏少,而抽取数据集的平均大小达到了298MB,相对来说是偏高的。对于我司的场景,实时连接安全、实时性高、还能避免资源的冗余。虽然这更依赖于底层数据库的性能,但目前来看底层服务器没有太多性能瓶颈,故可以优先考虑切换至实时。(可参考https://help.fanruan.com/finebi/doc-view-327.html介绍);
根据上图历史趋势,2022-2023年数据集数量保持较高增速的同时,总的磁盘占用增速却明显放缓,这是由于做了一次数据治理。结合左表,对于大数据集,可以做定期监控及治理,不需要进行分析的字段和存档数据可以删除、不需要明细数据的数据表可以汇总分析,减轻磁盘的负担。
2.6.4 费用分摊
BI及其衍生费用(如软硬件及人力费用)需要分摊到各个业务部门承担。而在以往的分摊规则中,缺少“多用多付”的客观数据,仅仅是根据各业务部门的营收情况均分,造成了不公,于是需要清晰可见的数据支撑及分摊指标。
我们将磁盘占比、数据集数量占比、报表数占比进行公式统计,得到硬件分摊百分比;并根据硬件分摊、访问次数和访问用户,确定了软件分摊比例,具体公式如下:
经过计算,得到了每个BG所需支付的软硬件费用:
2.6.5 最终效果
三、参赛总结
3.1 FineBI工具
本作品制作全程使用Fine BI 6.0,涉及数据来源多样性的处理、数据指标的计算、组件设计、仪表板生成等操作,切实的感受到Fine BI工具的灵活性、便捷性以及可视化呈现的清晰性,丰富的组件和功能可以帮助数据分析的高效、多维、深入。
相较于5.X版本,Fine BI 6.0有了多个新功能,极大了增加报表配置的效率。首先是计算公式在同一分析主题下,对各个组件可以实时同步了,不用再一个一个复制,好评!其次,增加了协同功能,再也不用各种另存为了,好评!再者,一些细节方面,比如增加了箱线图、在图例里可以选择选中和反选,都能很提高效率和使用体验。
3.2参赛总结
BI运维驾驶舱仪表盘是关于视源集团内部BI工具的应用运维情况。通过对用户、报表、数据集和费用等维度的分析可以帮助全面了解办公工具的使用情况和运维状况。
在本次仪表盘的制作过程中,学习到仪表盘的制作开发是一个综合考虑数据分析要点和展示方式选取的过程。在仪表盘制作前,要充分考虑分析问题的价值性和深刻度。在仪表盘制作过程中,要注重数据的准确性、适用性及实时性,也要同时兼顾仪表盘的美观和易用性。在仪表盘制作完成后,不仅需要进行测试和优化,保证用户能够顺利使用和理解仪表盘,比如必要的指标或专业名词的定义文字可在仪表盘中插入展示,更需要数据分析师结合对于数据背后业务逻辑的理解,使加强数据分析的深度,并发现数据规律变化后的业务问题,提出有价值、可落地的建议,才能有效的支持管理者的决策。 |