选手介绍:
个人赛选手:
时亚东,现就职于浙江养生堂天然药物研究有限公司的检测中心,日常负责实验室管理系统的运维管理和数据报表开发。目前技术能力主要涉及Java、Python、SQL、FineReport、PowerBI和FineBI 等数据分析工具。本次已经是第三次参加帆软举行的FineBI可视化大赛了,一次次的锻炼,使我在数据分析领域越来越得心应手,每次同这些志同道合的小伙伴们通过作品交流总是受益匪浅。
本次参赛项目从设计到实现全流程均由我一个人完成,由于水平有限,肯定还是有多方疏漏,请读者们见谅。
项目及数据源介绍:
自比赛启动后,我花了一周时间来选择项目主题,从kaggle、天池、知乎等各个网站搜索数据,但是这些零散的数据始终难以形成完整的分析思路,最后还是在不舍中放弃从头再来。在翻看本地数据库时,发现之前练习Python网络爬虫时,针对链家网数据进行了“扫荡”,但仅仅获取了杭州二手房的数据。于是,顺着这个思路我开始建立起本次项目的分析思路。
一直以来,在杭州都想拥有一套自己的房子,但是目前微薄收入难以支付起高昂的新房首付,我便时常关注杭州二手房的情况,挑选出一套各方面都满意的二手房便成了我的执念!杭州,这座城市一直以来的发展是全国人民有目共睹的,但是离我们常说的北上广深这样的一线大城市相比,还有一定的差距,究竟这种差距有多大呢?于是便有了获取北上广深杭这5座城市二手房的房源数据的想法,在房子特征上是否能找到些印证呢?我希望能通过本次项目的深度分析成功获取到买房最佳方案,实现多年来的梦想!
本次参赛数据源主要来源于链家网、安居客。其中安居客主要获取到北上广深杭5城的房价数据;链家网获取了北上广深杭5城的房源信息。均采用Python结合BeautifulSoup模块获取网站数据,存储至本地数据以备后面数据ETL清洗工作。
Python爬虫代码示例:
数据处理:
数据获取来了之后,为了满足自己的分析要求,针对数据进行数据清洗工作,去除不必要的字段、转换数据类型、定量数据转换为定性数据等操作。
主要分为:房价数据清洗、房源信息清洗
房源信息清洗主要针对时间进行了拆分,获取了年、月、季度字段,单价进行了数据类型转换。
房源信息清洗主要做了房源基本信息、房源满意度、核心卖点、周边配套等方面的清洗
数据清洗步骤截图:
作品介绍:
- 本次作品主题是关于二手房挑选方案的,主要从房价现状、二手房整体画像和房源满意度评价三个方面着手分析。
- 首先为本次报告起一个振聋发聩的标题,并留下作者信息
- 第一部分:北上广深杭五城房价现状分析(数据来源:安居客)
2022年4月五城房价对比分析:杭州市房价以21466元/平方米的单价获得五城最低房价城市,而深圳市以52873元/平方米的单价获得五城最高房价城市;
2022年4月五城房价环比对比分析:杭州市和上海市相对于3月份分别环比增长1.15%和1.78%,而深圳市、广州市和北京市相对于3月份环比均有所下降;
2022年4月五城房价同比对比分析:杭州市是唯一相较去年4月份同比下降的城市,同比降低了2.97%,其他四城均呈现同比增长趋势,其中深圳市竟同比上升了23.39%;
基于以上对2022年4月份的房价分析,杭州市可谓是买房的最佳选择城市。
接下来我们看一下,杭州市2022年全年的房价走势,除1月份相较2021年12月份环比下降1.34%以外,其他月份均有环比增长趋势;相较2021年同期,2022年所有月份的房价均同比下降,其中1月份同比下降做多,同比降低了8.66%;
结合2013年-2022年杭州市历年房价趋势,在2016年-2018年出现了大幅度上涨,当时杭州举办了2016年“G20峰会”以后其知名度打响之后,房价收到了明显的影响。2018年以后房价略有缓和,但是2022年9月杭州市将举办“亚运会”,预计房价会有新一轮的波动,但波动不会太大,因为杭州的调性相较于其他四城来说,更希望发展为适宜居住的,休闲养老的幸福感城市,具体情况让我们拭目以待吧。
- 第二部分:二手房整体画像(数据来源:链家网)
本次共计获取到12868条房源信息,其中上海市2849条,占比22.14%;深圳市2650条,占比20.59%;杭州市2491条,占比19.36%;广州市2441条,占比18.97%;北京市2437条,占比18.94%。
房源信息中针对户型介绍主要包括采光、阳台、方正、通风等关键词;针对核心卖点介绍主要包括满五唯一、交通便利、装修等关键词;针对周边配套主要包括医院、公园、银行、地铁等关键词。
接下来列出房源信息的明细表,点击每一条明细均可调转到对应的房源网页。
房源数随挂牌时间的变化趋势可以看出二手房购买率变化情况,可以对比出不同城市二手房销耗能力,主要受房价和贷款优惠政策影响。
基于房源数的帕累托分析:房屋户型、单价分类、建筑面积分类、总价分类、公摊面积分类、建造时间,分别明确了80%房源数的各种房源特征。
基于筛选的90%房源数的房屋户型:查看不同户型单价的分布情况、单价与建筑面积之间的四象限分析、户型总价与建筑时间的分布情况、单价与关注人数分布、建筑面积与总价之间的线性关系。
其他二手房画像特征:装修情况、配备电梯、所在楼层、房屋年限、建筑类型、房屋用途、交易权属等。
- 第三部分:房源整体满意度评价(数据来源:链家网)
不同城市房源整体满意度排名:杭州市房源整体满意度排名第二,为0.34,仅次于广州市的0.39;北京市房源整体满意度排名最低,为0.22。
不同单价类型房源整体满意度排名:5000-10000元/平方米和10000-15000元/平方米分别以0.60和0.56的整体满意度位居前两名;45000元/平方米以上的整体满意度为0.20,位居最后一名。
不同总价分类房源整体满意度排名:50万以下和50-100万的总价范围以0.56和0.53的整体满意度占据前两名;450万以上的整体满意度为0.19,位居最后一名。
不同建造时间房源整体满意度排名:未知年份的房源整体满意度位列第一,分数为0.34,可以通过明细表具体查看相关房源信息;2010-2015年和2015-2020年同时以0.31并列第二名;而1970-1980年和1960-1970年则以0.21并列最后一名。
不同房屋户型房源整体满意度前十名:3室1厅0厨0卫和3室1厅1厨0卫的房源整体满意以0.57和0.55位居前两名。
不同建筑面积房源整体满意度排名:建筑面积50平米以下和90-100平方米位居前两名,整体满意度分别为0.33和0.31;130平方米以上的整体满意度为0.25,位居最后一名;
不同公摊面积房源整体满意度排名:公摊面积5平方米以下和5-10平方米的整体满意度均为0.35,并列位于第一名;40-45平米以上的整体满意度为0.22,位居最后一名;
户型满意度、配套满意度、建筑满意度与房价满意度四象限分析:气泡大小为整体满意度,气泡颜色为房屋户型,我们可以通过选择分布在第一象限的房源,房价满意度、户型满意度、建筑满意度以及配套满意度最高的房屋户型,通过单价可以查看具体户型的明细信息。
- 结论与建议
基于以上分析结果,我们发现杭州市目前房价最低,2022年全年房价趋势以及杭州市历年来房价趋势来看,在杭州市选择一套合适的二手房是最佳的。但是2022年9月举办的“亚运会”对房价会有轻微的影响,加上近几年政府对房地产的干预,贷款利率的调整,整体上应该处于稳定波动。
基于杭州市获取的2491条二手房房源信息来看,2021年下半年挂牌时间的几乎每个月房源数都还有100多套二手房未被交易,2022年03月新增挂牌房源664套。
从对杭州市房源信息的分析来看,80%房源数的房屋户型主要有3室2厅1厨2卫、2室1厅1厨1卫、3室2厅1厨1卫/4室2厅1厨2卫、2室2厅1厨1卫以及 3室1厅1厨1卫,对于我来说,这些房源都是相当不错的选择,适合90后小夫妻安逸生活。
从对杭州市房源信息的分析来看,80%房源数的总价分类范围在450万以上、200-250万、150-200万、250-300万、300-350万,对于我的预期总价250万以内的需求来说,有相当一部分房源储备量。
从对杭州市房源信息的分析来看,80%房源数的建筑面积分类范围在80-90平方米、130平方米、50平方米以下、120-130平方米以及50-60平方米,对于我个人需求来讲,建筑面积在90平以上的房源储备也是相当多了。
从对房源整体满意度的分析来看,杭州市房源整体满意度为0.34,排名第二,仅此于广州市的0.39。
从个人需求来说,预期选购建筑面积在90平方米以上的二手房,所以这里需要对建筑面积优先过滤,杭州市的建筑面积分类在90-100平方米的二手房整体满意度最高的房屋户型为2室1厅1厨1卫,单价分类的整体满意度最高的范围是5000-10000元/平方米和10000-15000元/平方米均可,总价分类的整体满意度最高的范围是50万-100万和100-150万也在预期之内,公摊面积在5平方米以下和15-20平方米也是可以接受的。
经过层层筛选,终于定位到一套优等房源,位于杭州市钱塘区,标题为“房子是经典的跃层loft户型视野好精装修 业主诚心出售”,可以通过明细表跳转至详情页面查看。房价满意度0.78,户型满意度0.3,建筑满意度0.2,配套满意度0.76,房源整体满意度为0.62。但是本身还是希望入手一套普通住宅,可以再退而求其次,选择心仪的房源。
建议:这里在计算整体满意度时,针对房价满意度、户型满意度、配套满意度和建筑满意度分别按 5 : 2 : 2 : 1 的方式进行加权计算,可以根据大家的个人需求进行比例调整,获取自己心仪的二手房房源信息。
参赛总结:
通过本次项目又一次锻炼了自己的数据分析能力,虽然成长之路还有很长,但每取得一点进步都让人获取巨大的幸福感,就像之前FineBI课程的老师所说——莫问前程,勇往直前。在数据分析领域的大神们一直都在强调“培养用数据讲故事的能力”,我想在这句话中有两层意思,一是整个数据分析报告中要具有逻辑性,二是一定要让数据分析报告有足够的吸引力,而吸引力最重要是能够解决大家的困扰。当我们遇到问题了,可以尝试用数据分析的思维方式去思考一下,找数据,做分类,正如我这个项目一样,就是为了解决困扰我如何选择合适的二手房的问题。
再次感谢帆软团队组织的可视化大赛,让我能有机会和大家在这个比赛中,通过作品彼此学习,共同成长。 |