1.1.选手介绍
在公司从事数据分析工作,日常工作负责数据汇聚、数据治理融合等。
1.2.参赛初衷
作为一名对数据分析和可视化应用充满兴趣的人,偶尔看到此次挑战赛,觉得是一次更深入的了解FineBI软件功能、性能和使用方法,提升自己操作技能的机会,也是能够与各位同仁学习交流数据可视化创意和数据分析处理的方式方法的机会。更希望能通过深入试用,能更好的将该FineBI运用到日后的数据分析工作中,或许还可以确定该工具软件是否适用实际工作。
2.场景介绍
2.1.业务背景介绍&数据来源
因为没有数据来源,根据组赛方提供的网站下载了部分数据,故选择数据比较简单的2020年世界幸福报告作为分析数据。为了便于理解国家幸福指数相关内容,专门百度了相关内容,结合提供的数据结构做了一些归纳研究:
2.1.2业务背景
联合国于2012年首次发布《
全球幸福指数报告》,比较全球一百五十多个国家和地区人民的幸福程度。报告由纽约哥伦比亚大学地球研究所共同发布。2020年3月20日,联合国当天发布了2020年度《全球幸福指数报告》,
如何衡量一个国家的幸福感,有一套非常复杂的标准,这套标准包括各国的人均国内生产总值、社会支持度、健康寿命期望、自由选择人生、慈善与慷慨、反腐力度和反乌托邦等7个衡量要素。
2.1.2需求背景
近期需要为初中学生们做一次2020年国家幸福报告,让学生们详细了解被评估的国家情况、各国家排名情况、排名如何计算、中国排名情况、中国排名差距分析等,令其并从中得到一些启发。
2.1.3数据来源和组成
该数据主要来源于组赛方提供的参考数据3:2020 年世界幸福报告。数据为一张excel表格,共153条记录,对应153个国家和地区,每条记录20个字段,包含于幸福指数相关的各个要素和指标值,字段如下表:
[td]
序号 | | | |
| | | |
| | | |
| | | |
| standard error of ladder score | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| freedom to make life choices | | |
| | | |
| perceptions of corruption | | |
| | | |
| explained by log gdp per capita | | |
| explained by social support | | |
| explained by healthy life expectancy | | |
| explained by freedom to make life choices | | |
| | | |
| explained by perceptions of corruption | | |
| | | |
2.2.分析思路
2.2.1研究数据中各字段含义及其之间的关系
由于不是研究国家幸福指数的专业人员,对提供的各字段及其数值内容并不熟悉,时间有限也不能深入研究各参数获取方式、计算方法、作用组成等,只是纯粹根据数据进行分析,获取各字段所表达的含义和之间的关系。
2.2.2.1 各字段之间的关系
组赛方提供的数据中包含的国家名、区域名、人均国内生产总值、社会支持、期望寿命、自由选择人生、慷慨、反腐、反乌托邦、人均国内生产总值指数、社会支持指数、期望寿命指数、自由选择人生指数、慷慨指数、反腐指数、反乌托邦指数等20个字段。
(1)区域名称
数据中153个国家分为东亚、东南亚、南亚、西欧、中东欧、北美和ANZ、拉丁美洲和加勒比海、独联体共和国、中东和北非、亚撒哈拉非洲等10个区域,各个区域的每个国家数量见下表:
| |
北美和ANZ | 4 |
东亚 | 6 |
南亚 | 7 |
东南亚 | 9 |
独联体共和国 | 12 |
中东和北非 | 17 |
中东欧 | 17 |
拉丁美洲和加勒比海 | 21 |
西欧 | 21 |
亚撒哈拉非洲 | 39 |
(2)国家幸福指数
国家幸福指数=人均国内生产总值指数+社会支持度指数+健康寿命期望指数+自由选择人生指数+慷慨指数+腐败指数+反乌托邦指数。
(3)人均国内生产总值指数
人均国内生产总值指数=0.3099ⅹ人均国内生产总值-2.0123
(4)社会支持指数
社会支持指数=2.3619ⅹ社会支持-0.7545
(5)预期寿命指数
预期寿命指数=0.0036ⅹ预期寿命-1.6273
(6)自由选择人生指数
自由选择人生指数=1.1985ⅹ自由选择人生-0.4753
(7)慷慨指数
慷慨指数=0.6614ⅹ慷慨+0.199
(8)反腐指数
反腐指数=-0.6456ⅹ反腐+0.604
(9)反乌托邦指数
2.2.2 提供的这些数据能说明什么
围绕分析主题,可以将分析方向分为三个方向:
- 评估国家分布,可以分析各区域国家数量多少?各有哪些国家?
- 各国幸福指数分析,可以分析2020年幸福指数排名怎样?各洲/区域中各个国家幸福指数排名情况是什么?各国幸福指数组成情况如何?
- 中国幸福指数分析,可以分析中国2020年排名如何?历年排名如何?哪些要素制约了总体排名?
2.3.数据整理
由于采用的数据比较简单,可视化分析之前基本没有太复杂的数据处理,主要整理如下:
- 将《2020国家幸福报告》汉化后导入,构建“2020年世界幸福报告”数据集。
- 在分析处理前网上查询,增加了中国历年排名和幸福指数值,构建“中国”数据集。
- 在数据集中分别抽取各要素指标排名第一的国家,将这7个国家(实际是6个,新加坡占两个第一)和中国一起构建新的数据集“中国各指数分析”数据集。
2.4.完成分析报告
本着“一切朝前看”的原则,我们只看排名靠前的国家,不注重末位国家。
2.4.1评估国家情况2.4.1.1 图表的选择和设置
(1)先从2020年世界幸福报告数据集中创建一个自定义图标,以并将国家数量最多的区域做闪烁标记。
(2)构建一个国家词云。
2.4.1.2 通过分析得出的结论
各区域参与评估的国家数量不均,北美最少4个,亚沙哈拉非洲最多39个。
云词虽然能显示所有国家名,然而因为词云大小由幸福指数决定,其值范围太小,不能明显的区分开,且国家数量较多显示较为混乱,故舍弃。
2.4.1.3 最终结果呈现的页面布局
2.4.2国家幸福感排名
2.4.2.1 图表的选择和设置
(1)从数据集中创建一个明细表,按照排名顺序,直观的显示各国家的排名情况。为了便于快速查询感兴趣的国家的排名,增加了区域名称。
(2)从2020年世界幸福报告数据集中创建”自定义图表”,图形形式选择“柱形图”。横轴选择两个要素,分别是“区域名称”和“国家名称”。纵轴为排名,但是排名数值越小,排名越高,与直观思维和阅读习惯不同,因此纵轴改选为“幸福指数”,将排名增加到“标签”中。
(3)从2020年世界幸福报告数据集中创建一个堆积柱形图,将国家幸福指数相关的7个因素指标叠加显示,可以直观看出各国幸福指数组成情况。为了排版,纵轴设为“区域名称”和“国家名称”,横轴设为7个因素指标。
(4)从2020年世界幸福报告数据集中创建一个“自定义图表”,图形形式选择“饼图”。可一体化展示各国排名情况。
(5)从2020年世界幸福报告数据集中创建一个“玫瑰图”,具体参数见下图。可一体化展示各国排名情况。
2.4.2.2 通过分析得出的结论
2020年,芬兰依旧是幸福感最高的国家(芬兰已经连续多年位居排行榜第一),排名前10的国家有9个位于西欧国家。
幸福感最高的区域为北美和ANZ,该地区综合指标很平衡,4个国家,国家幸福感排名平均12,最高排名8,最低排名18。
亚撒哈拉非洲参与评估的39个国家,排名基本都在一百多名以后,这些国家经济均处于刚刚起步阶段,有大量贫困人口,温饱问题尚待解决,健康寿命期望值偏低。
2.4.2.3 最终结果呈现的页面布局
2.4.3中国幸福感分析
2.4.3.1 图表的选择和设置
(1)从中国数据集中创建一个“分区折线图”,以时间为横轴,分别以排名和幸福指数为纵轴。可直观展示中国幸福指数每年变化情况。
(2)从中国各指数分析数据集中创建一个“明细表”,以列表形式展示中国的幸福指数及其7个因素指标的情况。从153个国家中分别提取出7大要素指标排名第一的国家,将中国和这7个国家(实际是6个,新加坡占两项)比较。
因可视化时无法强调每一个因素指标排名第一的单元格,故按照从右往左的顺序从上到下的顺序排放数据。
(3)从中国各指数分析报告数据集中创建一个“多系列柱形图”,横轴为国家,纵轴内容包含幸福指数及其7个因素指标。可通过选择图例的方式,动态展示比较各项要素指标。
2.4.3.2 通过分析得出的结论
(1)2020年,中国排名有所下降,从幸福指数上看,中国处于连续4年下降状态,下降趋势减缓。具体是那些要素,因没有找到历史详细数据,无法具体分析。
(2)制约中国排名的要素主要是社会支持、慷慨、反乌托邦这三个要素。
(3)新加坡有两项排名第一,分别是预期寿命和反腐。
2.4.3.3 最终结果呈现的页面布局
2.4.4 排版布局设计
2.4.4.1 设计、设置颜色
本着“系统、简洁、美观”的原则将前面分析结果用可视化的形式展现出来。
(1)凸显主题
用主题形式,在居中、居上的位置,醒目的标显“2020年世界幸福报告”。居于其下方简洁明了的以表格的形式显示排名前10的国家,该表格可以拉动滚动条,依照排名的顺序查阅各国排名。
(2)系统考试所有要素
针对主题分割的三个问题,将仪表板划分各功能区,通盘考虑各组件的分布、格局和大小。
(3)简洁直观不繁琐
由于大量信息展现在一个仪表盘中,为了凸显主题内容,同一组件,尝试不同的显示方式,从中甄选最直观简洁的展现形式。
(4)力求美观可欣赏
在仪表板中选择深蓝色背景,显得整体大气沉稳。配色选择多彩不繁复,能够一目了然显示主体。
2.4.4.2 最终作品
2.5.总结
对于非自主数据可视化分析研究时,首先研究整体数据,挖掘各字段含义以及字段间的关系,同时不断给自己设问,通过数据分析和处理来逐一解惑,最后考虑如何更好的使用这些数据系统地、一体地、美观地展示出来,并形成一定的推导结论。
3.意见建议
比赛过程中发现的一些不适用的地方,因为没有和指导人员细致沟通交流,可能软件有这样的功能,没有被我挖掘出来,故还是简单提出一二。
(1)图形扩展/压缩
环圈处,数据差距不大,折线图线束不明显,建议增加扩展或压缩等算法在弹出菜单中直接调整。
(2)组件中数据排序条件,可否设为数据集的任意字段。例如作品左上组件中,组件选取维度和指标时,因为没有排名或幸福指数,所以纵轴不能按照排名顺序显示,无法达到即显示各指数组合情况,又能显示各区域国家排名情况。