不然的帖子 - 我的帆软

【2023BI数据分析大赛】你待的城市幸福吗？

城市幸福度与人口增长关系浅析一、选手简介 1、选手介绍个人介绍孙松山，社区用户名“不然”。目前就职于某信托公司，我司属于金融行业中的私募投资公司，主要从事信托投资和资产管理服务等相关业务。我个人目前从事投融资项目的投后管理工作，在日常工作中，通过帆软BI对业务数据进行分析跟踪，实现了对业务数据的持续动态高效跟踪，感受颇多。个人照片 2、参赛初衷参加此次比赛，首要目的是以赛促学，希望借助此次比赛，全方位的锻炼和提升自己在BI工具应用方面的综合水平，此外，借此机会，也向各位朋友和同行交流学习。二、作品介绍 1、业务背景/需求痛点业务背景：原计划报名金融投资行业的相关作品，后来由于公司数据涉及合规性考虑无法使用，且无法从外部获取足够数量和质量的业务数据，因此调整了作品方向。本作品选取了城市幸福度视角，通过可以量化的相关指标进行建模分析，尝试着提供一种新的城市排名方法，而这种排名方法，对每个个体而言，将是更为直观且可量化的。需求痛点：此次选题是源自我多年的困惑，大学毕业之后究竟要不要回家乡发展。我的老家在山东省某地级市，自2008年求学至今，我一直在浙江省杭州市生活。究竟要不要回老家？或者说在杭州发展是不是一个明智的选择，我心中一直没有个较为明确的分析思路和判断框架。在借助此次比赛的机会，我通过搭建模型，结合量化数据，从客观数据的角度，来对各个城市的幸福度做一个综合测评并排名，在某种程度上解答我自己心中多年的疑惑，也为在外求学、在外工作的朋友和伙伴提供一个参考思路。 2、数据来源国家统计局其中主要为2022年的年度数据，用于与各个城市的平均数据做对比。红黑人口库主要是各个城市的常住人口数据，约2000多条，包括地级市及县级市。中国现域数据库包含近20年的数据（本次使用了近10年的数据），主要是县级市的相关指标经济指标，如城镇居民人均可支配收入、普通小学专任教师数、医院卫生院床位数等等。钜惠数据主要是各城市2023年6月份的房价信息。网络公开数据如知乎上某位网友统计的全国各个省份的预计寿命等。 3、分析思路梳理分析路线图在确定本次的分析目标后，首先梳理了分析路线图（详见分析思路脑图），从幸福城市的定义确定、量化指标选取到排名测算，搭建起幸福城市的数据框架；第二步是分析了幸福城市的分布情况，以及各个省份中幸福城市相关指标的排名情况；第三步为人口流动情况测算，简要分析城市幸福度与人口流动的相关关系。指标的筛选与数据的取得分析过程中，最大的难点在于幸福城市分析框架的确定。本次分析，结合数据获取的难易程度，将城市的幸福度从两个视角穿透处理：第一、比别的城市可获得越多越幸福，比别的城市投入越少越幸福；第二、可获得的资源，与投入的资源相比，比值越高越幸福。在此基础上，确定了可获得性和投入性两大指标，其中可获得性包含教育资源指标、医疗资源指标、社会福利（养老）指标、固定资产指标、可支配收入指标共5个子指标，投入性指标包含购房支出指标和消费支出2个子指标。数据整理与分析为平衡不同指标的权重，本次分析未通过绝对值进行加权计算，而是通过“排名即得分”的原则，确定各个指标的得分，其中可获得性指标按升序排名，即可获得的资源越多越幸福；投入性指标按降序排名，即投入越少越幸福、得分越高。在此基础上，对各类子指标按相关年限赋予权重，如教育资源主要指中小学教育，按照我们国家的教育层级，自小学至高中为12年，则权重为12；又如医疗资源终身受益，则权重为预计寿命值。可获得性指标，与投入性指标的比值，即为幸福城市得分。数据的呈现形式对于城市幸福度数据，按经纬度，主要以热力图形式呈现，在此基础上，添加明细表，便于查阅。对于单个城市的分析，则通过两个城市对比分析，以及蛛网图分析的形式实现。对于幸福城市在各省的分布，则通过饼图、矩形树图等形式呈现。对于人口增长情况，则通过折线图结合预警线的形式，做出各个城市间的对比。具体分析详见下文可视化报告介绍。分析思路脑图 4、数据处理数据拆分与字段设置红黑数据库的地区字段包含了地级市名称和区县名称，如“浦东新区”，首先通过拆分行列的方式，将其拆分为地级市和区县，对于人口数量字段，通过字段设置将其转化为数字形式，以便于后续计算。缺失数据调整及重复项调整对缺失数据进行观测，并尽可能将其进行完善，比如第7次人口普查数据中，部分区县为过去十年间新设立的行政区，在第6次人口普查时没有相关数据，这种情况下，我们假设其第6次人口普查的数据与第7次人口普查数据相同。鉴于新设行政区数量较少，预计不足以对观测结果产生实质性影响。另在对中国县域数据库的分析过程中，我们发现其中个别城市存在重复的情况，为此，主要通过分组汇总加过滤的方式将其排除。首先通过分组汇总的形式，统计城市出现的次数，然后筛选出出现次数大于1的城市，最后将相关重复数据进行过滤。分组汇总与添加标签从城市资产的获取方面，对于地级市的市辖区而言，以城市为维度来对城市进行整体分析相对更为合理，因此需要将各个城市的市辖区的数据合并为整体。在对红黑人口库中的城市进行分列后，先通过左右合并，将全国县级房价排行榜中的县级市标签并入，再将地级市下的区分组汇总为整体。在为城市设置城市级别的过程中，首先筛选出地级市，在此基础上，通过条件标签列新增地级市标签。上述步骤也可通过新增公式列直接添加。上下合并与左右合并对于县级市和地级市的相关数据分别提取整理后，通过上下合并，汇总到同一表格中备用。左右合并主要为通过同一字段，将相关指标新增到汇总表中。函数计算与新增赋值得到两列人口普查数据之后，我们通过函数计算了，七普较六普的人口增长比例。通过新增汇总列，对相关指标进行排序，按照前文所属“排名即得分”的原则，获得相关指标的得分。最终城市数量的确定结合各个数据源的数据质量情况，在经过上述整理、分析后，最终纳入统计分析的地级市265个、县级市284个。 5、可视化报告整体布局及配色仪表盘部分，整体选用的仪表盘样式中的智慧城市模板，黑底白字，将重要信息表示出，便于读者有效阅读。首页为标题及结论展示布局设计首先标题部分采用文本框的形式进行填写和展示，通过问句的表达方式，吸引读者的好奇心。副标题为城市幸福度排名，也是本次分析的核心部分。首页中央部分主要展示了城市幸福度热力图，即将本次研究的成果，以热力图的形式在地图中展现。其中越幸福的城市颜色越红。需要指出的是，台湾等省份由于没有数据，因此暂未纳入统计分析。热力图左侧上方为查询设置，可以精准查询相关省份和城市的热力图，也可以一键重置。热力图左下方为此次分析的数据来源，尊重相关资源方的知识产权。热力图右侧为部分数据口径的介绍。热力图组件的制作热力图的设置上，首先将经纬度数值转换为地理角色中的经纬度，然后分别放入横轴和纵轴。以城市为细粒度，按“城市幸福度排名（降序）”确定热力色。最终得到所需热力图。主体第一部分为指标体系介绍及计算结果展示布局设计接下来是分析的主体部分，首先定义了幸福的两个评价标准，第一、比别的城市可获得越多越幸福，比别的城市投入越少越幸福；第二、可获得的资源，与投入的资源相比，比值越高越幸福。基于上述理念，本次幸福城市排名主要从两条脉络展开计算，首先将城市的相关指标进行排名，对于可获得性指标而言按升序排名，排名即得分；对于投入性指标而言，按降序排名，排名即得分。可获得性指标，也就是我们能够从城市中获得的相关资源，比如可支配收入，医疗资源，教育资源，养老资源，可固定资产投资。投入性指标主要包含两个部分，一个是住宅商品房平均销售价格，另外一个是人均社会消费零售总额，这两个指标总体上涵盖了我们的衣食住行的各个方面。城市的可获得性与投入性的，投入性指标的比值即为幸福城市的得分，以该得分排序即得出城市幸福排名。本部分以KPI指标卡的形式展示了相关资源指标方面，我们国家的人均水平。两大类指标之后通过明细表的形式，展示了各个城市的相关得分及排名。对于教育资源这类自带两个子指标的情况，采用Tab组件的形式，将两个子指标放在一起，有利于提高各个指标的区分度。除计算指标之外，还将另外三个较为直观的指标一并列示，如房价、可支配收入以及预计寿命，有助于大家在浏览的时候有一个直观的印象。主体第二部分为单个城市的幸福度指标展示与对比布局设计主体第二部分，重点展现单个城市的幸福度指标得分情况。幸福度指数主要由两部分组成，其中第1部分为该城市与全国平均水平的指标对比，此外，也可以任选其他两个城市做对比。第2部分为城市幸福度蛛网图，可以从蛛网图上侧面了解该城市各方面资源的均衡情况。蛛网图组件的制作蛛网图在BI中也称作折现雷达图，将城市和指标名称放入纵轴，相关指标得分放入横轴，就可以得到基本的结构图。将指标名称放入颜色属性，系统自动配色，相较自己配色而言更为协调。蛛网图做好后，需要与城市幸福度查看的文本过滤组件做好联动设置，这样的话，在仪表盘中就会实现仅显示所选城市的效果（如果选择多个城市，则会出现上图中的情况，美感欠佳）。主体第三部分为幸福百城（不区分城市级别）的分布情况分析布局设计本次目标样本总共包含500多个城市，其中地级市265个、县级市284个。在接下来的一部分中，将地级市与县级市放在同一个水平线作比较，重点分析了前100名城市的分布情况。分析主要分为三块内容：首先是城市级别与幸福百强市数量的关系，从图表可以看出，地级市28个，县级市72个，可见城市级别与幸福度并没有直接关系；第二部分从省份分布来看，浙江省36个，福建省21个，江苏省17个，这三个城市总共有74个城市进入了幸福城市前100强，广东和山东等经济总量排名靠前的省份，在该模块表现一般；第三部分则分析了各个省份在各类五大类资源指标的排名分布情况。需要指出的是，上述排名均依据其排名得分，而非绝对值。组件的制作这部分涉及三个类型的组件：玫瑰图、对比柱状图、饼图。饼图是以“城市级别标签”为细粒度属性，采用系统自动配色方案。玫瑰图采用“所属省份”为颜色属性，亦，采用系统自动配色方案，角度属性采用“记录数”，可实现自动排序。对比柱状图的制作过程中，由于其有两个子指标，故将第一个子指标按“逆序轴”展示，这样的话可以实现两个指标背靠背展示的效果。主体第四部分为人口增长情况布局设计主题第四部分主要为人口增长情况，重点描述了各个城市户籍人口变动情况以及常住人口变动情况，分别通过热力图和明细表的形式进行展示，除此之外还新增了一个明细表，用来展示各个城市常住人口增长率与户籍人口增长率之间的差额。其中可以发现。部分城市的常住人口增长率，超过户籍人口增长率，而这部分城市的幸福指数排名也较为靠前。这一部分实际上也隐含着一个大的研究方向，即人口流动与城市各类资源的相关关系，除本次分析所涉及到的资源类指标外，其他要素也可以作为分析素材进行分析，如上市公司数量、人均水资源数量等等。主体第五部分为幸福百城（分城市级别）与人口流动布局设计主体第五部分，实际上是一个延伸，由于地级市与县级市资源禀赋及期望值不同，因此存在无法放在同一水平线比较的可能，在此，将地级市与县级市分类排名，各自取前百名，分析观察其在各个省份的分布情况，以及人口增长情况。组件的制作组件制作主要涉及两类：矩形树图、折线图。其中矩形树图以“所属省份”为细粒度属性指标及颜色属性指标，以记录数为大小属性指标。折线图部分，横轴为城市，按城市幸福度排名排序，纵轴分别为户籍人口增长率和常住人口增长率，通过预警线将常住人口增长率平均值和户籍人口增长率平均值进行展示，以供参考。分析结论分析结论及缺陷此次分析最重要的内容是通过量化的形式对各个城市的幸福度做了一个排序。分析发现，部分二三线城市、甚至三四线城市的幸福度排名较为靠前，其幸福度排名远高于其广义上的知名度或城市等级。上述发现也从侧面告诉我们，广大毕业生在今后选择城市方面，除了北上广深这些一线以及特大型城市，还有其他一些幸福感较高的城市可供选择。此外，并不是幸福感越高的城市，其人口增长率越快。需要指出的是，本次分析可能存在两类缺陷，一方面是本次研究的数据存在缺陷，另一方面，受限于作者的研究水平，对于幸福度计算的各个因子，缺少更为宏观的考量。对个人的建议此次的分析结果，在一定程度上也解答了作者多年的困惑，为今后城市的选择提供了可量化的参考指标。对于读者朋友而言，如涉及到选取哪个城市定居的困惑，除了可以参考此次幸福度的排名，另外一方面还要结合自身的一些个人资源或者家庭资源，综合来做出决策。对政府部门的建议通过此次分析发现，不同城市之间的民生资源差别较大，对于政府部门而言，尤其是中央政府，可能要进一步做好各个地区之间的转移支付工作。三、参赛总结 1、FineBI工具我们公司采购了5.0版本的帆软BI，我目前使用了两年多的时间，主要用于投后管理中4个方面数据的统计分析及监控：第一类，该项工作有没有在系统中落地，如果未落地，将及时通过相关人员完善工作，以便后续实现事找人；第二类是该项工作有没有完成；第三类是相关数据是否准确；第四类是相关工作是否及时。通过相关指标建模，实现动态数据的自动分析和结果展示，真正的实现事半功倍的效果。此次比赛使用的是6.0版本，那么这个版本有一个最明显的优化点，就是在做数据分析的时候，可以将相关步骤直接拖拽，这一点是5.0版本没有的。后期的话，希望帆软BI能够开放邮件推送功能，这样的话，我可以将运维监控的相关指标和数据，通过某种条件的触发，实现自动化的邮件推送，相关效率可能会更高。 2、参赛总结通过这次比赛，能够相对较为全面的剖析自己在BI这款工具使用过程中的缺点和不足，比如说在配色方面，目前主要依靠系统自动配色为主，如果在今后那么作为工作成果展示材料来看的话，可能会缺乏这种配色上的主动性。此外，在相关图表制作过程中，也存在着一些细节上打磨不到位的地方。此次比赛也能够，让我更清楚的感受到学无止境，后续也将继续向各位老师和同行学习。 “然”字由三部分组成：月，在甲骨文中意为肉的意思，引申为物质资源充足；犬，联想到“左牵黄右擎苍”，引申为精神生活丰富；四点水，原形为火，引申为心中有希望。“然”即为一种理想的生活状态。 “不然”则更多地表达一种不满于现状，积极进取的精神追求。 ↑

9424浏览

13回帖

FineBI

2023-8-3发布

提问

调整图片尺寸与位置

不然（uid：430158）