【2020冬季挑战赛】用户行为分析

楼主
我是社区第522559位番薯,欢迎点我头像关注我哦~
1.选手简介

1.1 选手介绍
团队名称:脑门渐秃终不悔

1.2 参赛初衷
  • 作为BI的技术人员,不希望只局限在数仓,ETL等,希望同时能掌握整条线的能力,包括报表的制作与分析
  • 比赛追求不是结果,而是追求比赛过程,希望通过实践学习Fine BI操作的方式方法,提升职业技能

2.场景介绍

2.1 业务背景介绍&数据来源
2.1.1 业务背景
数据集是来自阿里天池平台的2014年11月18日至2014年12月18日淘宝数据,主要记录的是客户购买行为(浏览,收藏,加入购物车,购买)以及行为发生时间。通过此次的用户行为分析,了解电商关注的重要指标,学习数据分析的基本方法以及Fine BI的基础操作及使用。

2.1.2 数据来源:
选取了2014年11月18日至2014年12月18日之间,有行为的约一百万名随机用户的所有行为(行为包括点击、购买、加购、喜欢),分析了用户行为与商品规律。数据集大小情况为:用户数量8477,商品数量约701552,商品类目数量7095以及总的淘宝用户行为记录数量为1048475。

数据整体情况参考如下:
  
字段
  
中文名
字段说明
数据类型
原始数据量
User_id
用户id
用户标识
varchar
8477
Item_id
商品id
商品标识
varchar
701552
Item_category
商品类目id
商品类目标识
varchar
7095
Behavior_type
行为类型
类型包括点击、收藏、加购物车、支付,分别用数字1、2、3、4表示
varchar
1048475
time
时间戳
用户行为发生时间戳
varchar
2014年11月18日至2014年12月18日

2.2分析思路
根据用户的行为特性对用户进行分类分析,统计不同特征下的用户数量、分布,分析不同群体的分布特征,通过分析可以了解行业动态,比如人群消费习惯、消费偏好分析、以及不同地域的消费差异情况。

根据现有数据及分析目的,从从以下角度进行分析:
  • 用户购物情况整体分析:以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
  • 商品购买情况分析:从成交量、人均购买次数等指标,探索用户对商品的购买偏好,了解商品的销售规律
  • 用户行为转化漏斗分析:依据点击、收藏、加入购物车以及购买四种行为进行分析
  • 用户地域分析:找出各区域的商品销售规律
  • 对商品的销售情况:商品的销售类目以及销售量,优化商品营销策略

2.3 数据整理
2.3.1 数据清洗
  • 缺失值处理:在创建表格的时候,5个字段均定义为NOT NULL,数据导入保证没有缺失值。
  • 一致化处理:转换时间数据类型。
  • 数据异常值处理:检查日期是否在规定范围内。
  • 时间处理:增加一列hour,故数据源中含有年月日,年月日时间两列数据。
  • 行为类型数字更改为指定字符:
   update test.user_behavior_list set behavior_type =replace(behavior_type,1,'点击');  
   update test.user_behavior_list set behavior_type =replace(behavior_type,2,'收藏');  
   update test.user_behavior_list set behavior_type =replace(behavior_type,3,'加购物车');  
   update test.user_behavior_list set behavior_type =replace(behavior_type,4,'购买');  

  • 地理位置处理:因原表结构中并无地理位置信息,故在数据库中将城市信息随机对应到用户ID中。
  最终表结构如下:
表名
test.user_behavior_list

列名
字段类型
注释
user_id
varchar(255)
用户ID
item_id
varchar(255)
商品id
behavior_type
varchar(255)
商品类目id
item_category
varchar(255)
行为类型
time
timestamp
时间戳
hour
timestamp
时间戳
country_id
varchar(255)
国家编码
country_name
varchar(255)
国家名称
area_id
varchar(255)
地区编码
area_name
varchar(255)
地区名称
province_id
varchar(255)
省份编码
province_name
varchar(255)
省份名称
city_id
varchar(255)
城市编码
city_ name
varchar(255)
城市名称


2.3.2 构建模型
用户购物情况整体分析
  • 这一个月里PV(浏览量),返回结果是:987819
    select count(behavior_type) as 浏览量 from Test.user_behavior_list
    where behavior_type='点击';

  • 这一个月里UV(用户数),返回结果是:8477
    select count(distinct user_id)as 用户数 from Test.user_behavior_list;

  • 平均访问量是: 987819/8477= 116.5,即每个用户平均访问了117个页面。
  • 每天访问量/访客数情况
    select time,count(behavior_type)as 访问量 from Test.user_behavior_list
    where behavior_type='点击'group by time;

  • 每天的访客数情况:
    select time,count(distinct user_id) as 访客数 from Test.user_behavior_list
    group by time;

  • 每个时段访问量/访客数
    alter table Test.user_behavior_list addcolumn hours varchar(25) not null;
    update Test.user_behavior_list sethours=left(times,2);
    select a.hours,a.访问量,b.访客数 from
    (select hours,count(behavior_type)as 访问量 from Test.user_behavior_list
    where behavior_type='点击'
    group by hours)a
    inner join
    (select hours,count(distinct user_id) as 访客数 from Test.user_behavior_list
    group by hours)b
    on a.hours=b.hours;

  • 不同时段成交量
    select hours,count(behavior_type)as 成交量 from Test.user_behavior_list
    where behavior_type='购买'
    group by hours
    order by hours;

2.4 完成分析报告

2.4.1 可视化图表的选择和制作步骤
  • 数据准备-添加自助数据集

  • 数据集-字段类型设置


  • 新建仪表板


  • 添加组件


  • 制作图表
①添加计算字段
②选取合适的维度以及指标,图表类型
③调整图形属性以及组件样式

2.4.2 通过分析得出的结论
  • 全国各地用户分布情况,从此图来看,广东以及沿海地区用户数相对来说较多。西部地区是接下来要推广的重点。


  • 品类喜好TOP20,说明这20种商品更受大家欢迎,可考虑是否作为后续发展的重点品类


  • 行为漏斗图,用于表达各种不同用户类型的行为量,点击与其他行为的转化率较低。


  • 在这段时间中,几种用户行为都在12月12日这一天有爆发式增高


  • 大部分用户在下午晚上会比较活跃,其中21到22时,是一天当中最活跃的时段,成交量也是这一时段最高。建议可以在用户活跃的时段进行推广以使运营效果最大化。

  
  • 用户区域占比以及前20用户城市占比


  • 各区域产品点击量


2.4.3 排版布局&设置颜色

  • 仪表盘主题样式选择


  • 在仪表盘主题选择完毕后,图表依据主题色进行调整,一是如上图可在仪表盘样式中做一些简单的图表颜色调整;二是可直接进入图表设置界面对图表颜色进行设置。例如,地图中采用区域渐变


2.4.4 最终结果呈现的页面布局

  • 用户行为分析页


  • 区域分析


  • 用户活跃规律



2.5 总结

通过这次参赛让我俩收获颇多,虽然过程很辛苦,因为工作原因只能在下班后才能进行学习和参赛制作。但同样让我俩养成了下班回家学习的习惯。参赛过程中遇到了许多之前没遇到的问题和困难,但通过互相讨论分析将问题一一解决。通过参赛学习提升了掌握整条线的能力,包括报表的制作与分析。并且通过实践学习FineBI操作的方式方法,提升职业技能。总之,虽然比赛的结果是重要的,但是,在准备的过程中收获的东西更真实,更有意义,我们收获了并快乐的体验着这个过程。

用户活跃规律.pdf (1.41 MB, 下载次数: 50)

用户行为分析.pdf (1.58 MB, 下载次数: 58)

文档介绍.docx (11.47 MB, 下载次数: 40)

区域分析.pdf (1.02 MB, 下载次数: 40)



分享扩散:
参与人数 +1 贡献 +500 F币 +500 理由
帆软-苏瑞 + 500 + 500 恭喜荣获“优秀参与奖”

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部 返回列表