一、选手简介
1. 选手介绍
个人用户:你是吃可爱多长大的吗?
个人简介:帆软用户J0g91HF97e,city worker,出版行业办公室岗位菜鸟,对数据领域感兴趣,希望通过参赛提升自己的BI使用能力。
2. 参赛初衷
公司上新帆软BI,抱着对新生事物的好奇,我先给办公室搭了几个仪表板。希望通过比赛实践进一步学习BI的使用技巧,学习高手的分析方法和呈现、总结、提炼,希望可以在以后的工作中可以运用到,也希望可以更好地提升我数据分析的思维。
二、作品介绍
1. 业务背景
中国标准书号(简称“书号”、“ISBN”)是由国家新闻出版署分配给各个出版社的,是合法出版物的统一编号,是一本图书的“身份证号”。按照出版条例的规定,每本新出版的图书都应分配一个书号,一定程度上讲,书号核发数量关系着出版社新书生产力。管理部门从某年开始希望加强对出版社年度书号核发数量管控,从新书出版门类、年度选题完成和调整情况、重点选题完成和调整情况、图书重印情况等方面对出版单位进行打分,通过打分来评判下一年度书号的核发数量。
为了更加清楚地了解全社在上述方面的表现,出版社办公室对近几年的数据进行分析,找出薄弱板块。选取2019-2022年近4年的数据进行分析,前两年2019-2020年管理部门未出台书号管理政策,通过分析可以看到出版社的在管理政策出台前的出版表现。2021年管理部门开始管控,出版社在选题报送、图书生产等各方面做了相应的调整,通过分析可以比较调整前后的数据,供领导决策参考。
2. 数据来源
企业数据:
表①2019-2022年图书出版信息表。
表②2019-2022年新书出版信息表。
表③2019-2022年度及补报选题表。
表④2019-2022年度重点选题表。
表⑤2019-2022年度重点选题明细表。
表⑥2019-2022年度重点选题调整表。
表⑦出版门类。
3. 分析思路
使用主题模型将所有表格关联起来,在BI中做一张表⑧,将以上所有表格上下合并,去重。通过选题编号将表1-7关联起来。其中表④和表⑤是一对多的关系,表⑦和表②是一对多的关系。
4. 数据处理
对初始数据进行清洗,将数据中的异常空格去掉,将不同年度的数据合并到一个表格中,区分报送选题中的年度选题和补报选题。将新书信息表格从图书信息表中拆出来,方便建立主题模型。
脱敏过程:8000条左右的数据,包括书名、编号、编辑室等所有都进行调整,花了大半天的时间,脱敏完成后,各个分社的年度选题完成率组件居然出问题了,所以又开始了排查原因的漫漫长路。
5. 可视化报告
按照出版门类、重版率、年度选题完成率和调整率、年度重点图书完成率和调整率四个部分进行分析。
分析中多处使用到了DEF函数,下面是几个比较典型的场景
年度选题完成率
这个柱状图使用了DEF函数,计算年度选题在当年、次年、再后一年的出版数量。本打算年度选题完成率用DEF函数在组件里做,但是尝试了好久没有成功,后来放到基础数据表格中做出来的。年度选题完成率比较难在组件里是因为我用DEF函数的时候提醒我非聚合字段不可以跨表计算。年度选题完成率=本年的年度选题在本年的出版数量/本年年度选题总量。在基础数据中,出版时间字段和选题年度字段是在不同的表格中,我想用出版时间的年份提取出来等于选题年度,这样作为DEF函数的过滤条件。但是遗憾的是DEF函数不能跨表,所以无法实现,后来询问了指导老师,在基础数据表格中将出版时间列添加到年度及补报选题的表格中才实现的。
主题模型中最后一行的合计行没有实际意义,但是也无法去掉。这个我认为是主题模型的一个bug。
年度重点选题完成率
年度重点选题的完成率这个计算字段也是在基础数据表格中通过DEF函数实现的,因为有的选题是一个选题对着多个品种,多个品种都在当年实现出版了,这个选题才算出版,其中只要有一个品种没有出版,这个选题就不算出版。基础数据中有一张重点选题表,一张重点选题明细表,两张表是1:N的关系。具体的操作步骤可以移步我的基础数据分析部分。这个问题在公司上BI之前就已经困扰我了,Excel中我一直没有找到比较快捷方便的解决方法,在BI中通过DEF函数实现了,就很有成就感!
参赛总结
本次大赛锻炼了自己的数据分析能力,加深了我对DEF函数、主题模型的了解,也帮助我解决了日常工作中的一些统计难点痛点。此次参赛让我更加体会到不是会使用BI的人厉害,BI的设计者——藏在BI软件背后的开发工程师才最厉害! |