【2023BI数据分析大赛】可视化点亮世界杯
可视化点亮世界杯
作品选题
· 本次帆软数据分析大赛,我们小组选取了历届世界杯举办数据来进行分析。主要从承办地点(大洲,国家)及承办规模,进球与队伍数量关系,主客场胜率,夺冠国家地缘关系,观众数与赛事进度关系等角度进行了分析。希望对未来观球以及预测趋势方面有所帮助。
一、选手简介
1、选手介绍
(1)团队选手版
· 团队名称:干饭不排队
· 队长介绍:帆软社区用户名:印度F3,目前在金陵科技学院进行本科学位学习。
· 成员-帆软社区用户名:印度F2,目前在金陵科技学院进行本科学位学习。
· 团队介绍:暑期留校丰富自己的BI知识,锻炼自己的应用能力。Ps:绝对不是因为心血来潮
2、参赛初衷
· 暑期留校丰富自己的BI知识,锻炼自己的应用能力。
· 希望通过比赛实践提升BI工具的使用方法和技巧。
· 准备在部门内推广BI工具,先来学习了解。
· 和更多FineBI大神交流学习,进行数据可视化作品以及分析思维的激烈碰撞。
· 大赛奖励很诱人!!!!!
二、作品介绍
1.业务背景
随着互联网的不断发展,世界杯的社会关注程度在日后只会越来越高,不管你是否是一名资深老球迷,可能都会在闲暇时间无意关注,本数据大屏分析专门面向此类人群,让你一眼了解世界杯历届举办以及观赛信息。做更好的观赛安排。储备更多的世界杯知识。
2,数据来源:阿里云天池:世界杯数据可视化分析数据(世界杯数据可视化分析_数据集-阿里云天池 (aliyun.com))
世界杯成绩信息表:WorldCupsSummary
包含了所有21届世界杯赛事(1930-2018)的比赛主办国、前四名队伍、总参赛队伍、总进球数、现场观众人数等汇总信息,包括如下字段:
· Year: 举办年份
· HostCountry: 举办国家
· Winner: 冠军队伍
· Second: 亚军队伍
· Third: 季军队伍
· Fourth: 第四名队伍
· GoalsScored: 总进球数
· QualifiedTeams: 总参赛队伍数
· MatchesPlayed: 总比赛场数
· Attendance: 现场观众总人数
· HostContinent: 举办国所在洲
· WinnerContinent: 冠军国家队所在洲
世界杯比赛比分汇总表:WorldCupMatches.csv
包含了所有21届世界杯赛事(1930-2014)单场比赛的信息,包括比赛时间、比赛主客队、比赛进球数、比赛裁判等信息。包括如下字段:
· Year: 比赛(所属世界杯)举办年份
· Datetime: 比赛具体日期
· Stage: 比赛所属阶段,包括 小组赛(GroupX)、16进8(Quarter-Final)、半决赛(Semi-Final)、决赛(Final)等
· Stadium: 比赛体育场
· City: 比赛举办城市
· Home Team Name: 主队名
· Away Team Name: 客队名
· Home Team Goals: 主队进球数
· Away Team Goals: 客队进球数
· Attendance: 现场观众数
· Half-time Home Goals: 上半场主队进球数
· Half-time Away Goals: 上半场客队进球数
· Referee: 主裁
· Assistant 1: 助理裁判1
· Assistant 2: 助理裁判2
· RoundID: 比赛所处阶段ID,和Stage字段对应
· MatchID: 比赛ID
· Home Team Initials: 主队名字缩写
· Away Team Initials: 客队名字缩写
世界杯球员信息表:WorldCupPlayers.csv
· RoundID: 比赛所处阶段ID,同比赛信息表的RoundID字段
· MatchID: 比赛ID
· Team Initials: 队伍名
· Coach Name: 教练名
· Line-up: 首发/替补
· Shirt Number: 球衣号码
· Player Name: 队员名
· Position: 比赛角色,包括:C=Captain, GK=Goalkeeper
· Event: 比赛事件,包括进球、红/黄牌等
3.数据处理
· 对主队国家(Home Team Name)和客队国家(Away Team Name)通过公式“CONCATENATE(CONCATENATE(CONCATENATE(CONCATENATE(${Home Team Name}," "),"VS")," "),${Away Team Name}”新增列“主客国家”,再对主场队比分(Home Team Goals)和客场队比分(Away Team Goals)通过公式“ABS(${Home Team Goals}-${Away Team Goals})”新增列“比分差”
· 添加条件标签列对主场队比分(Home Team Goals)和客场队比分(Away Team Goals)进行比较,若主场比分大于客场比分,记为主场胜,若主场比分小于客场比分,记为客场胜,若主场比分等于客场比分,记为平局,得到新的列“主客队胜负”
· 添加条件标签列对比赛类型(Stage)进行区分,分为小组赛(Group X),16进8(Quarter-finals),半决赛(Semi-finals),季军赛(Third place),决赛(Final),得到新的列“赛事”
4.可视化报告
(1)数据含义表达和图表排版布局
世界杯数据可视化大屏整体使用科幻大屏风格,整体以蓝紫色为基调进行排版布局。主要分为以下几个分析图。
n 举办地规模气泡图,热力地图和词云图
通过对世界杯举办地及参加队伍(规模)进行分析,我们可以直观察觉到欧洲国家相较于非洲亚洲以及大洋洲国家,承办世界杯的次数及规模明显高出不少,同样的,虽然南美洲国家较少,但举办次数及规模仅次于欧洲。可见足球文化在其发展之盛,这点在以下组件中或多或少也都会有体现。
n 每届世界杯进球数与参赛队伍数比较图
分区折线图,通过双折线图能够清晰地展示每届世界杯进球数与参赛队伍数的数据随每届世界杯举办时间的变化趋势,并观察折线的上升或下降趋势,可以直观地了解每届世界杯进球与参赛队伍及它们之间的数据变化情况。
以时间为维度作为横轴,再以每届世界杯进球数和参赛队伍数分别为指标作为纵轴,呈现每届世界杯进球数与参赛队伍数的数据随每届世界杯举办时间的分区折线图。
n 场均进球折线图
我们通过新增列计算(GoalsScored/MatchesPlayed)得到列场均进球,转化为指标后代入折线图,通过分析可知,在经历1954年场均进球5.38一个巅峰之后,60余年场均球基本维持在2到3之间,1954年世界杯发生了什么我们不得而知,但场均2-3球将会是世界杯比赛的一个常态。
n 各场次比分差降序图
多系列柱状图,通过世界杯每场比赛的比分差降序柱状图可以反映比赛的竞争激烈程度,比赛的比分差反映了两支球队在比赛中的实力对比,较大的比分差意味着一方球队在比赛中占据了明显的优势。如果柱状图中的大部分柱子分布在较小的比分差范围内,表示比赛中球队之间的实力差距较小,比赛的竞争比较激烈。而如果柱状图中的柱子呈现较为平均和较大的分布,说明比赛中存在较大的比分差异,一方球队在比赛中占据了明显的优势,这样的柱状图可以帮助我们对比赛的结果和球队之间的实力对比进行直观的了解和观察。
首先对主队国家(Home Team Name)和客队国家(Away Team Name)通过公式“CONCATENATE(CONCATENATE(CONCATENATE(CONCATENATE(${Home Team Name}," "),"VS")," "),${Away Team Name}”新增列“主客国家”,再对主场队比分(Home Team Goals)和客场队比分(Away Team Goals)通过公式“ABS(${Home Team Goals}-${Away Team Goals})”新增列“比分差”,以主客国家为维度作为横轴,比分差为指标作为纵轴,比分差采用最大值汇总,并对比分差降序排列,把比赛时间作为颜色区分,呈现各场次比分差降序多系列柱状图。
n 夺冠次数比较图
由winner列去重转化出一个新的country(我们发现仅凭一个winner列无法完成柱形图制作,手动添加了一个维度。)对横轴取1为跨度最大值为6,避免小数及柱形过小的情况。由图发现巴西五次夺冠遥遥领先,意大利其次,其余多为1-2次,这也充分体现了南美以及欧洲国家的足球优势,赶超巴西其余各国还需努力。
n 主客场胜率
饼图,通过表示世界杯各场比赛主场队伍和客场队伍的胜负关系,主场胜:表示在世界杯比赛中,主场队伍在主场比赛中获得胜利的比例,这意味着主队在自己的主场上打败了客队,反之客队在主队的主场上打败了主队,即客场胜。其次平局:表示在世界杯比赛中,主场和客场的球队在比赛结束时得到相同的比分,没有明确的胜负结果。展示了世界杯比赛中主场和客场的胜利比例,该饼图可以通过不同的扇区来表示主场胜利、客场胜利和平局的比例,并且可以看出哪个因素对于获胜更具有优势,这些数据有助于分析世界杯比赛中主客场的影响以及球队在不同场地条件下的表现。
首先通过添加条件标签列对主场队比分(Home Team Goals)和客场队比分(Away Team Goals)进行比较,若主场比分大于客场比分,记为主场胜,若主场比分小于客场比分,记为客场胜,若主场比分等于客场比分,记为平局,得到新的列“主客队胜负”,以记录数为维度作为角度,主客队胜负为指标作为半径和颜色,呈现主客场胜率的玫瑰饼图。
n 世界杯主裁执裁场次数降序图
多系列柱状图,通过世界杯主裁执裁场次数降序柱状图可以反映主裁执裁比赛的频率和分布情况。比赛中的主裁判负责裁判比赛的各项规则,包括判罚犯规、判罚点球等。通过统计主裁执裁场次数,可以了解哪些主裁在比赛中担任裁判的频率较高,柱状图的高度表示主裁执裁的场次数,较高的柱子代表主裁执裁的场次数较多,较低的柱子代表场次数较少,且以年作为颜色展示各裁判在每届世界杯上的执裁场次数,这样的柱状图可以帮助我们对裁判的活跃度和表现进行直观的了解和观察。
以裁判名字(Referee)为维度作为横轴,记录数为指标作为纵轴,并对记录数降序排列,把每届世界杯举办时间作为颜色区分,呈现世界杯主裁执裁场次数降序多系列柱状图。
n 各级赛事观众平均数量对比图
多系列折线图,通过世界杯各级赛事观众平均数量对比的多系列折线图可以反映每届世界杯不同赛事阶段观众的平均数量的变化趋势的差异,通过绘制不同赛事阶段的观众平均数量,可以直观地比较不同赛事阶段的观众规模和观众参与度。折线图的纵坐标表示不同赛事观众平均数量,横坐标可以表示每届世界杯举办年份,通过连接不同年份可以观察到不同赛事观众平均数量的变化情况。
首先通过添加条件标签列对比赛类型(Stage)进行区分,分为小组赛(Group X),16进8(Quarter-finals),半决赛(Semi-finals),季军赛(Third place),决赛(Final),得到新的列“赛事”,以年份(Year)为维度作为横轴,观众数量(Attendance)为指标纵轴,观众数量采用平均值汇总,以赛事作为颜色区分赛事,呈现世界杯各级赛事观众平均数量对比的多系列折线图。
n 附球队球员教练及其担任位置信息表。
(2)通过分析得出的结论
l 每届世界杯进球数与参赛队伍比数较图
通过分区折线图能够清晰地看到每届世界杯进球数与参赛队伍数的数据随每届世界杯举办时间的呈正比,表示这两个分区之间存在一种稳定的线性关系,可以看到整体的数据变化是正向增长的,即每届世界杯进球数与参赛队伍数成正比。
通过数据可以发现,由于二战影响,1942,1946两届世界杯未能举办,但二战过后的世界杯中,参赛队伍数量相对较少,但进球数却有所增加。1950年世界杯(巴西)只有13个队伍参加了此届世界杯,尽管参赛队伍数量少于以往,但进球总数却为88个,这部分归因于巴西队在该届比赛中进了22球。尽管二战结束后参赛队伍数量减少,但进球数增加的情况表明了足球运动的复苏和对这项运动的热情,也反映了战后时期人们对和平、娱乐和团结的渴望。
l 各场次比分差Top20:
竞争程度:如果柱子分布在较小的比分差范围内,表示比赛中球队之间的实力差距较小,竞争激烈。反之,如果柱子较为平均和较大分布,说明比赛中存在较大的比分差异,一方球队占据明显优势。
实力对比:较大的比分差意味着一方球队在比赛中占据了明显优势,较小的比分差表示球队实力相近。通过图数据可以发现比分差距最大的是9分,且有三场比赛,分别是‘Hungary VS Korea Republic’,‘Hungary VS El Salvador’,‘Yugoslavia VS Zaire’可见这两两球队的实力差距较大。
球队表现:通过分析柱状图的高度,我们可以了解到哪些球队在比赛中表现出色,哪些球队表现较差。
l 主客场胜率:
主场优势:主场胜率占比为57.28%,相对较高,这意味着在世界杯比赛中,主场球队在自己的主场上获胜的概率更高,这可能是因为主场球队可以获得主场优势,如更多的支持者、熟悉的球场等。
客场挑战:客场胜率占比为20.42%,相对较低,这表示客场球队在对手的主场上取得胜利的机会较少,客场球队面临的挑战包括不熟悉的球场、来自主队球迷的压力等。
平局结果:平局胜率占比为22.30%,占比相对较高。
通过数据发现,主场优势是世界杯比赛中的一个重要因素,主场球队在取得胜利方面具有一定的优势。然而,平局结果表明,世界杯比赛中也存在很多激烈的竞争,球队之间的实力相对均衡。
l 世界杯主裁执裁场次数Top20:
主裁活跃度:柱状图的高度表示主裁执裁的场次数,较高的柱子代表某些主裁担任裁判的场次较多,较低的柱子代表场次较少。
通过分析柱状图,可以看到主裁Ravshan IRMATOV (UZB)执裁场次最多,共在2010年和2014年两届时间杯执裁了10场比赛,其次是主裁ARCHUNDIA Benito (MEX),LARRIONDA Jorge (URU),QUINIOU Joel (FRA)和RODRIGUEZ Marco (MEX),其中主裁QUINIOU Joel (FRA)和RODRIGUEZ Marco (MEX)分别在三届世界杯执裁了8场比赛,而主裁ARCHUNDIA Benito (MEX)和LARRIONDA Jorge (URU)分别在两届世界杯执裁了8场比赛
裁判表现:通过柱状图可以了解场次多的主裁可能表明他们在比赛中得到了球迷、球队和组织方的认可。
裁判分布:通过比较柱子之间的高度来了解不同主裁执裁比赛的数量分布,从而了解到比赛中哪些主裁的执裁数量更多。
l 各级赛事观众平均数量对比图:
观众数量趋势:某些赛事阶段的观众数量可能逐渐增加或减少,可以分析背后的原因。例如,决赛阶段通常吸引更多观众参与,而小组赛阶段观众数量可能较少,这些趋势可以帮助我们了解观众对不同阶段比赛的关注程度。
通过观察,每届世界杯场均观众数量都在递增,可见世界人民对世界杯的关注度越来越高,如果哪一年数量特别高,可见决赛的两个队伍的粉丝都特别多,且他们两队的实力也非常强。
观众参与度差异:某些赛事阶段吸引了更多的观众参与,例如决赛阶段可能观众参与度较高,而季军赛阶段观众参与度可能较低。这些差异可以帮助我们了解观众对不同阶段比赛的兴趣和投入程度。
通过观察每届世界杯对小组赛,16进8,半决赛,季军赛,决赛这五个赛事阶段的观众平均数量的对比发现,大部分世界杯赛事级别越高,该赛事观众场平均数量越高。
l作品总览:
三、参赛总结
1、FineBI工具
· 作为一款可视化分析工具,Finebi拥有了它应有的功能,对低代码掌握者十分友好。
· 图标可自行实现联动,勾选即可,大大降低了人工联动的繁琐步骤!!为它点赞!
· 信息爆炸的时代数据只会越来越多,我们需要Finebi此类的工具帮我们快速高效处理这些数据,从而提取其中有用的信息,掌握其价值,掌握并熟练运用帆软的各种数据分析工具,对未来的学习或者工作中都会有很大的帮助。
2、参赛总结
· 遇到想要制作的图表但现有的数据中没有可用的维度,可从数据加工再入手增加需要的维度,可能需要一点函数基础但大多可以从帮助文档中学得,不必退缩。
· 感谢帆软,感谢老师,更感谢和我一起完工的同学!!
· 有一个好的比赛伙伴在作品完成过程中真的可以事半功倍,两人一起讨论思考往往可以产生第三个不同的想法与火花,为我的伙伴点赞。
· 参加比赛不仅帮助我提升了专业技能,还让我认识到团队合作的重要性。在项目中,我与队友紧密合作,相互帮助和支持,共同完成了任务。通过与队友的合作,我学会了倾听和尊重他人的意见,善于沟通和协调,这些都是我职业生涯中必不可少的能力。
· 通过这次比赛,我不仅学到了很多关于FineBI和数据分析的知识和技巧,还锻炼了自己的解决问题的能力和团队合作能力。在面对困难和挑战时,我学会了不轻易退缩,而是勇敢地去尝试和创新。我明白只有不断突破自己的舒适区,才能取得更好的成绩和进步。