【2022BI数据分析大赛】电商平台冰箱业务数据分析
一、作品选题
通过对国内某电商平台家电(冰箱)销售数据进行分析,窥探数据背后传递出的用户消费习惯及偏好。
1、选手介绍
团队名称:一马腾飞
队长介绍:帆软社区用户名zuozzz,账号id:1148061。
目前就职于华能太仓港务公司,目前在人资与党建部门主要独立负责工会工作。
成员介绍:帆软社区用户名88991122,账号id:1106276。
丁小飞,前端开发。
2、参赛初衷
也经过了一年的数据分析学习,借此机会检验一下自己的学习成果。
二、作品介绍
1、业务背景/需求痛点
简述业务背景,如:
互联网电商行业日新月异,针对国内某电商平台一日的冰箱销售数据进行分析,得出该电商平台冰箱消费用户的消费习惯,并给活动出业务建议。
2、数据来源
贪心学院课程:京东AI数据分析实训营。http://47.94.6.102/jd-Data_analysis/course-info/tree/master/ppt/jws/data/0816
3、分析思路
(1)观察数据
首先我们拿到数据后,观察数据集中的字段描述:
t.user_log_acct, --用户账号
t.parent_sale_ord_id, --父订单号
t.sale_ord_id, --订单号
t.sale_ord_tm, --订单时间
t.sale_ord_dt, --订单日期
t.item_sku_id, --商品sku
t.item_name, --商品名称
t.brandname, --品牌名称
t.sale_qtty, --商品数量
t.item_first_cate_name, --一级品类名称
t.item_second_cate_name, --二级品类名称
t.item_third_cate_name, --三级品类名称
t.before_prefr_unit_price, --优惠前单价
t.after_prefr_unit_price, --优惠后单价
t.user_actual_pay_amount, --实际支付价格
t.sale_ord_valid_flag, --订单有效标志
t.cancel_flag, --订单取消标志
t.check_account_tm, --支付时间
t.total_offer_amount, --总优惠金额
t.self_ord_flag, --自营标志
t.user_site_city_id ,--用户所在城市编号
t.user_site_province_id,--用户所在省份编号
t.user_lv_cd --用户会员等级
可以看到数据包括了订单信息(订单编号、价格、日期、数量等)以及用户信息(用户所在城市编号、会员等级等),整体数据以订单信息为主,所以我们在分析时侧重对订单的分析。
(2)数据清洗
在观察数据过后,通过字段之间的逻辑关系来剔除部分不合理数据,比如:
总优惠金额不得大于优惠前单价;
实际支付价格不得小于0;
支付时间不得早于订单时间;等
以及处理一些空数据:
对于用户账号为空时,我们根据空数据的数量可以直接删除整行数据;
用户所在城市编号及用户所在省份编号为空时,思考原因,若不影响分析过程则不作处理或赋予固定值;等
(3)数据分析
a.从单条数据维度进行分析:
比如通过对订单时间的统计分析,可以确定用户的下单时间规律;
通过对用户所在城市编号及用户所在省份编号分析,可以得出不同省市的消费习惯。
b.从数据整体进行分析:
比如通过对用户所在城市编号及订单数量、订单有效标志进行分析,可以分析出不同省的有效订单数量分布。
4、数据处理
(1)通过借助jupyter notebook对数据非空统计及数据的逻辑性进行分析:
a.缺失值处理:
用户账号有5个空数据,基于数据量对分析结果不构成影响,直接删除这5行数据。
支付时间存在23271个空值,猜测原因是订单尚未支付,不影响分析,可以将其赋特殊值代替或者不处理
用户所在城市编号存在38190个空值,用户所在省份编号存在38033个空值,猜测原因是部分用户在填写个人信息时,因个人隐私等原因,未填或漏填了信息,不影响分析,可以用‘缺失值’代替。
b.数据逻辑错误
通过词条之间的逻辑性来分析数据:
before_prefr_unit_price(优惠前单价)、after_prefr_unit_price(优惠后单价)、user_actual_pay_amount(实际支付价格)这三列数据应该大于0,total_offer_amount(总优惠金额)此列数据应该大于等于0。
同时优惠前冰箱的最低价格为288,有14252条数据最低价格高于288,是保修、返现等无价值订单,故只筛选出优惠前价格大于288的数据。
通过筛选后,符合要求的数据共计62379条。
c.去重:
删除sale_ord_id(订单号)重复的值,余下共计61535条数据。
(2)数据分析:
a.宏观分析
在订单数据中分为有效订单及取消订单,统计取消订单及未取消订单的占比(见图一)及支付和未支付订单占比(见图二)。
图一 图二
对订单的价格分布进行分析(图三):可以看到订单价格为2800左右时,订单量达到总量的80百分之。
图三
对品牌订单量进行分析(图四):发现海尔、容声连个品牌占据订单量的30%。
图四
b.微观分析
订单数量:
从有效订单在时间上的分布(图四)及人均有效订单在时间上的分布(图五)来看:
图五--有效订单量
图六--人均有效订单量
可以看到在0点时,有效订单处于最高值,人均有效订单家出现了两个波峰,一个是晚上0点,一个是中午11点。
客单价:
我们对客单价及平均订单价(图六)进行分析:客单价及平均价格都在0点达到了峰值,在下午13点至晚上23点持续处于低值。
图七
针对0时的订单价格进行分析(图七):发现80%的订单的价格都小于4000,元,说明用户的购物喜好偏向于4000元以下的订单。
图八
不同品牌的平均支付价格(图九):西门子、松下、卡萨帝的客单价均超过3000元,其中卡萨帝超过了4000元,格力客单价超过了2000元。
图九
5、可视化报告
(1)数据含义表达和图表排版布局,如
在仪表盘的布局上采用了以分析类型来划分区域,左边一列的三个表格是针对订单量的分析。
右边一列是针对平均订单价格及优惠前后价格对比的分析图表,中间下面两个图表放置平均优惠金额及品牌客单价。
因为饼图及词云这种类型的图表表现数据形式较为直观,给人输出的观点比较清晰明了,所以放置在中间偏上的位置。
全局仪表盘图片:
(2)通过分析得出的结论
通过对不同时段有效订单数量、人均有效订单量,得出用户下单集中在晚上0点,
通过对品牌的客单价及订单数量进行分析,得出用户更喜欢购买2800元以下的产品,海尔为最受欢迎的品牌,卡萨帝、西门子、松下三个品牌的平均价格均高于3000。
通过对以上的分析,得出以下结论:
用户更偏向于海尔这种客单价低于2800的产品,如果平台需要搞活动或推动品类的销量时,建议将优惠券发放时间或底价开售时间放在晚上0点,活动主要针对的产品为优惠后2800元以下的产品。
三、参赛总结
1、FineBI工具
FineBI最大的亮点就是自动绘制仪表盘的功能,而且仪表盘绘制结束后会带数据的联动,在一个组件中点击一个数据,其他的组件的表格也会相应的改变。
2、参赛总结
在第一次使用FineBI这个软件的过程中还是遇到了很多的问题,比如不太清楚在哪里可以键入公式,导致很多在python上的分析,在最终的可视化报告中并没有呈现出来,只能在数据分析部分以两个结合起来的方式进行展示。
在最后导出的部分,导出pdf只能很直观的呈现仪表盘,但是缺失了数据联动这一功能,导出excel也是,希望可以在后面的更新中,导出excel之后可以分sheet绘制表格,并且可以进行数据联动。