【2020冬季挑战赛】《都市迹》FINEBI可视化作品
1.选手简介
1.1.选手介绍帆软社区用户名:城落满芯职业简介:报表开发工程师,日常的工作主要是报表的开发和运维?那是不可能的。主要做的是大数据相关的工作,数仓建设、模型设计、应用搭建等一系列数据可视化之前的工作。很少会将数据做成成果报告,展现在大众面前。同时也渴望着能用自己的分析方法将数据中的乐趣用有趣的方式表达出来,那么FINEBI就是一个不错的选择。
1.2.参赛初衷看到大赛宣传的时候,只是想着能为着一个目标而去努力,用已有的知识技能储备去完成一个有趣的数据分析报告。用较为美观的方式展现数据的乐趣。从不断的锻炼和成就中,带动身旁的人对其产生兴趣,那么自己也就成为大师了。
2.作品介绍
2.1.业务背景介绍&数据来源
背景介绍:本作品主要通过上海市一个月的共享单车骑行数据,分析上海市区选择绿色出行的人们的喜好,以及上海市的交通高峰期人潮涌动的流向。查找上海市默默奋斗的弄潮儿。
数据来源:和鲸社区{kesci}https://www.kesci.com/home/dataset
2.2.分析思路根据现实生活中的实际经验,分为四个模块、区域分析、时间分析、时段分析、车辆分析。139646
2.3.数据整理主要数据处理过程
数据源 表名处理过程使用出处
EXCEL Excel_mobike合鲸社区下载源数据
EXCEL 序号尾表自增序号500行辅助表
EXCEL 各区坐标网络拾取上海市各区经纬度辅助表
自助数据集 单车数据处理_转换数据清洗过程,时间转换,基础指标计算、经纬度转换辅助表
自主数据集 时钟分析时间处理,分组汇总仪表板使用
自主数据集 时段分析时间处理,分组汇总仪表板使用
自主数据集 周骑行分析时间处理,分组汇总仪表板使用
自主数据集 区域分析明细坐标转换,匹配区域名称分组汇总辅助表
自助数据集 区域流向分析分组汇总仪表盘使用
自助数据集 单车复用分析分组汇总仪表盘使用
自主数据集 用车距离用车时长分析分组赋值,分组汇总仪表盘使用
自助数据集 笛卡尔积单行切割多行,经纬度分离仪表盘使用
对数据整合清洗的主要方法(1)骑行距离计算方法:6371004 * ACOS((SIN(RADIANS(${单车数据处理_转换_start_location_y}))*SIN(RADIANS(${单车数据处理_转换_end_location_y}))+COS(RADIANS(${单车数据处理_转换_start_location_y}))*COS(RADIANS(${单车数据处理_转换_end_location_y}))*COS(RADIANS(${单车数据处理_转换_end_location_x}-${单车数据处理_转换_start_location_x}))))(2)骑行距离分组139648
(3)骑行时长分组139649
(4)单个字段存储多个值切割(单行转多行处理)indexofarray(SPLIT(${笛卡尔积_track},"#"),${笛卡尔积_序号})
(5)经纬度分离:indexofarray(SPLIT(${笛卡尔积_途径地点},","),1)
2.4.完成分析报告
2.4.1关键数据视化图表的制作(1)单车分布点图139645
(2)日常行走在路上的人139650
(3)分时段分析用车情况139651
(4)象限分析139652
(5)行进轨迹分析139653
2.4.2仪表板排版(1)基础配色设置:设置背景色、设置标题颜色、组件间隙(2)增加配图美化139647
最终作品见附件。
2.5.总结
数据分析是一项循序渐进的事务,需要不断的学习,不断的练习,不断地深入了解业务,才能深层次的分析数据,挖掘数据中的奥妙。
分享经验:
在分析中,可以利用数仓建模的概念理论,将数据统一处理,为后期数据做调整时提供很多便捷性。
分模块分析,需要先设计模块及模块内需要分析的指标,避免指标偶合性,分析思路进入瓶颈区。
仪表板美化时,需开始时选择好色彩搭配方案,避免后期反复调试增加工作量。
分析需要循序渐进,也是探索的过程,没有固定的结论,根据数据所显示的结果,再加上外部社会因素,便可以得出较为合理的结果。
附可视化作品:139654
140335