帆软社区用户名:solo_ma 职业简介:就职于青岛海信网络科技股份有限公司,作为乙方单位为客户提供公交公司信息化软硬件产品,在公司负责业务系统数据查询,报表开发等相关工作。
1.2.参赛初衷 - 提升数据分析能力,结交数据分析相关朋友。
- 准备为客户推广FineBI产品,目前已成功推荐2家客户,个人觉得你们应该给我点奖金O(∩_∩)O~~
- 为CPDA认证名额奋斗一把✊
2.场景介绍
公交公司每年会发生多起安全事故,且由于属于社会公共资源,一旦发生事故极易引起社会舆论关注,如18年10月重庆万州公交坠江事件,20年7月的贵州安顺公交坠江事件等,因此公交领导层十分重视安全事故,但安全事故的影响因素极多,如车辆品牌,车型,驾驶员情况,路况,车辆年限,事故责任,性质,费用等,传统的数据报表无法提供全方位的分析,因此需要使用BI分析工具进行多角度全方面的安全事故分析。
2.1.业务背景介绍&数据来源 2.1.1.公交车的安全事故影响重大,但导致事故的原因众多,急需要进行全方面多角度的安全事故分析,降低事故发生率。 2.1.2.对可能影响事故发生率的各种原因进行分析: (1)组织维度:总公司>分公司>路队>线路的下钻维度分析 (2)时间维度:事故发生时间 (3)事故属性: - 事故责任:主责,次责,同责,无责等
- 事故原因大类>事故原因二级分类,交通,客伤等
- 事故性质:特大,重大,一般,轻微等
- 事故费用等级:无费用,千元以下,千元至万元等
- 事故高发地点
(4)天气维度 (5)车辆维度 - 车辆品牌>车型
- 车辆燃油类型:电动,气电混动,柴油等
- 车辆车龄
- 车辆颜色:主要是车身广告颜色。
(6)驾驶员维度 - 年龄
- 驾龄
- 性别
- 事故发生时当日已累计工作时间
- 事故发生时段(小时)
- 高发驾驶员
(7)数据来源: 使用企业数据: - 事故信息
- 组织信息:已对分公司名称和车队名称进行脱敏处理。
- 车辆信息 :已对关键信息车牌号进行脱敏处理。
- 驾驶员信息
个人获取数据:
2.2.分析思路 - 分析事故数量随着时间的趋势
- 分析事故各属性分布,找出事故的主要原因,事故易发地点,事故主要责任,主要性质,事故费用分布,从而为来年车险及事故费用预估提供依据。
- 分析天气对事故的影响,由于晴天占据大多数,无法通过各天气下事故发生天数简单判断,通过不通天气下,发生事故的天数 / 该天气下的总天数,得到天气下的事故发生概率。
- 分析温度对事故的影响,算法同上,计算温度对事故发生概率的影响。
- 分析车辆维度对事故的影响,包含品牌,车型,车身颜色,车龄,燃料类型等不同维度,由于不同车辆的保有数量不同,不能单独通过事故车辆数来判断,因此通过 该维度下发生事故车辆数/该维度下总车辆数,计算不同维度下的车辆事故率。
- 分析驾驶员对事故的影响,包含性别,年龄,驾龄,事故发生时的累计工作时间等维度,原因同上,因此使用 该维度下发生事故的驾驶员数量/该维度下总驾驶员数,计算不同唯独下的驾驶员事故发生率
2.3.数据整理 更多的处理为数据库导出之后,进行的EXCEL数据预处理 - 将事故信息导出之后,对数据进行清洗处理,去除重复数据,关键字段缺失数据,非营运组织的事故数据。
- 将事故信息与天气信息关联,得到每一天的事故发生次数
- 导入数据,建立自助数据集。
- 通过事故基础信息,建立自助数据集,发现无组织事故2条,过滤掉无组织的事故信息。
- 通过车辆数据,新增列<是否发生事故>,判断该车辆是否发生事故,如发生事故则填写1,未发生事故则填写0,继而在仪表板组件中通过添加计算指标,计算事故发生率。
-
- 通过驾驶员数据,新增列<是否发生事故>,判断该驾驶员是否发生事故,如发生事故则填写1,未发生事故则填写0,继而在仪表板组件中通过添加计算指标,计算事故发生率。
- 通过天气数据,新增列<是否发生事故>,判断该日期是否发生事故,如发生事故则填写1,未发生事故则填写0,继而在仪表板组件中通过添加计算指标,计算事故发生率。
2.4.完成分析报告 2.4.1可视化图表的选择和制作步骤 - 对于事故随时间变化趋势,用折线图和散点图组合显示,将最高和最低的月份标出。
- 组织需要钻取,所以采用柱形图设置钻取格式及路径
- 由于需要分析各天气情况下的事故数量与事故概率,使用散点图,继而制作四象限,找出需要重点关注的天气情况
- 对于多维度的事故情况,如天气,温度,驾驶员工龄与年龄使用矩形块图,对矩形块进行大小和颜色区分,一目了然的看到哪些温度条件下,事故易发。
- 使用条形图对各种天气情况的事故概率进行排序。
- 对于分布占比使用圆环图。
- 对比排序使用柱状图或条形图展示。
- 对事故高发地,高发人员采用词云,直观了解易发地点,易发人员。
2.4.2通过图表的分析,得到以下结论 (1)从整体来看 - 近两年事故总次数为1792起,车辆事故发生率为27.39%,驾驶员事故发生率为19.67%,其中2019年7月事故次数最高,达到1406起事故,受疫情原因影响,2020年2月营运车次数骤减,故2020年2月事故次数最低,随着疫情逐渐稳定,营运车次逐步恢复,事故次数逐步攀升,到2020年8月达到20年的最高值83起。
(2)组织及事故属性维度 - 从组织维度来看,19年7月,三公司事故概率最高,达到91.43%,通过钻取发现三车队,五车队事故率更是达到100%,事故主要为交通事故,通过钻取发现路口事故占比最高,从事故易发地多为路口也可看出。
- 事故责任方面,主要责任为无责轻微事故,无费用及千元以下费用占比将近75%,事故虽然次数较多但大多为无责且轻微小事故。
- 因此需要对以上组织和路口进行重点管控,重点查看由于线路站点位置设置是否合理。
(3)天气维度 - 从事故发生时天气情况来看,处于左上角区域的阵雪/阵雨/大雪/大雨/暴雨天气事故高发,事故发生率为100%,温度范围为16~30℃,20~35℃时,事故易发,且低温-5~0℃区间,事故也极其易发。从图中温度范围可以看出,事故易发多为温度适宜的春秋季节。
(4)车辆维度 - 从车辆维度来看,处于右上角重点关注区域的中通,车辆保有量和车辆事故率都最高,钻取发现车型为LCK6127PHEVG的事故概率最高,联动发现车龄为2-5年和5-8年的车辆事故率最高,其中油电混动车辆,气电混动车的事故概率最高。
- 因此需要对达到使用年限的车辆更换为单一燃料或采购新车时尽量采购单一燃料车辆,降低事故概率。
- 从车身颜色来看,白色车辆事故率最低,红色次之,因此需要对车身广告颜色与厂商协调行设计调整,降低事故概率。
(5)驾驶员维度 - 当累计工作时间为0-2,2-4小时时,上午7-9时,极易发生事故,一是由于刚上班,路上车辆及行人极少,二是早班视线不佳,极易发生事故,2-4小时处于驾驶与疲劳期,也极易发生安全事故。对于0-2小时,需要加强教育培训,降低车速,对于2-4小时,则需要根据驾驶员情况,进行排班调整,延长休息时间,降低事故概率。
- 当年龄处于20-30岁,50岁以上时,事故高发,尤其是在50周岁且驾龄小于10年的情况下,事故概率极高,同样20-30岁,驾龄在2-5年的驾驶员也需要同样注意,需要对此类驾驶员重点进行监管,其车辆应全部配备主动安全监控系统。
- 从性别来看,男性驾驶员事故概率明显高于女性驾驶员。且联动发现,女性驾驶员事故造成的经济损失和事故性质都明显低于男性,可能和女性天然的细致有关。
- 对于事故高发驾驶员,如张维奇,刘杰等需要重点关注,如通过教育培训,增加主动安全监控等仍不能降低事故,则考虑其他方式如更换岗位等。
2.4.3.图表 配色设置 - 设置背景
- 设置组件标题
- 设置组件的系列配色
- 设置组件背景
2.4.4.附上最终作品
2.5.总结 - 通过此次数据分析,对公交公司安全事故涉及的多方面因素进行了分析,尤其联合了天气数据,对分析结果有一定的支撑性。
- 因为此次缺少了仪表板讲解环节,不得不把很多结论写在仪表板中,为了保持一贯性,缺少了更多的联动分析。在实际工作中会去掉此部分结论,通过多方面数据联合分析,得出专门的数据分析报告。
- 感谢此次活动组织,允许使用企业脱敏数据。也感谢配合客户,允许使用近两年的事故数据。
|