先报上参赛成员——队长,梁少红;成员,莫文彦、梅伟;队名:BI小分队。
要不顺便再卖个关子?论坛的大神们有没人能把FineBI当成PPT来使用呢?我指的不仅仅是它所发挥的作用,而是来形式(格式)也和PPT大同小异。反正我们做到了,并且是因为在两个大项目中采用了这种方式。
本作品同样采用PPT格式般的仪表板来进行数据分析报告的展示,有兴趣的帆软们可以交流借鉴,希望大家也能在工作中得到应用。
一、分析背景及目的
随着科技的不断进步和人们生活水平的不断提高,智能产品已经遍布生活的各个方面,只能产品也成为了各大商家争夺的一块肥肉。商家了解市场行情,制定正常的产品策略,在这一宝地占据一席之地,尤为关键。本作品主要通过对消费者评论数据进行隐藏信息的挖掘,达到如下两个分析目的:
① 如何在众多产品中选择受欢迎的产品?
② 如何制定有效的产品销售策略?
二、数据加工处理
2.1数据来源说明
本报告的数据集是2017年9月至2018年10月更新的智能产品数据库中的亚马逊产品(如Kindle,Fire TV Stick等)的5,000个消费者评论列表,其收集了超过3.4W条评论,包含了产品编号、品牌、产品类别等21个字段。
该文章使用Kaggle的项目——亚马逊智能产品的消费评论,并通过筛选数据集,选择产品类别中含有 Tablet 字样的数据集,对平板电脑类别的产品进行数据分析。根据数据集的重要字段,分析买家评价指标,其中包括买家评论数、买家评价率、买家好评率以及买家差评率。分析这些指标需要使用到数据集中以下字段:
① asins-产品编号
② categories-产品类别
③ date-评论时间
④ rating-评分
⑤ text-评论文字内容
数据地址https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products
2.2数据加工过程
1、选择分析字段
在产品类别(categories)中筛选含 Tablets 类别的产品,删除无关的字段,保留以下字段:name-产品名称、asins-产品编号、categories-产品类别、date-评论时间、doRecommend-评论是否被推荐、rating-评分、text-评论文字内容、title-评论标题。
2、列名重命名
将数据集中字段的名称更改为清晰的中文字段。
3、重复项删除
重复项为数据集中重复的数据,需要根据字段的唯一性进行删除,避免选取错误字段而删除有用的数据。在此数据集中,选取字段——评论内容(text)进行删除重复项,此操作删除0个重复项。
4、缺失值处理
缺失值处理方法有四种:(1)对比缺失内容,通过手动输入内容补全;(2)删除缺失的数据;(3)用平均值代替缺失值;4)用统计模型计算出的值去代替缺失值
在清洗数据集时,为了获取准确的数据分析结果,也避免输入错误信息或删除有用的信息。A. 删除产品名称(name)、产品品牌(asins)、评分(rating)和评论时间(date)字段中的缺失值;B. 用FALSE手动补全评论是否被推荐(doRecommend)字段中的缺失值。
5、一致化处理
(1)日期格式转换:评论时间字段中格式包含日期+时间;(2)对评分字段进行分组,0~3分为差评,4~5分为好评。
三、分析思路
根据以上分析思路,提出以下问题:
1)哪种产品最受欢迎?
2)该产品的各评分的评论数情况?
3)最受欢迎产品的好评率如何?高了还是低了?
4)该产品评论数随时间变化情况?
5)好评率和差评率随时间变化情况?
四、数据分析过程
4.1哪种产品最受欢迎?
4.2最受欢迎产品的各评分的评论数情况?
4.3最受欢迎产品的好评率是高是低?
4.4最受欢迎产品的评论数随时间变化如何?
4.5好评率和差评率随时间变化情况?
分析各时间段的评论数中,好评率和差评率是怎样的?通过这一指标,可以分析哪个时间段是产品好评数量最多的时段,那个时间段差评数量最多?可以根据其他数据进行分析,是什么原因导致好评评论数量的增加或差评数量的增加?
五、结论与建议
5.1结论
①Tablets品类中最受欢迎的产品是B018Y229OU。
②B018Y229OU用户评价较高,但好评率低于Tablets品类中的所有产品。
③每年的11月和下年的1月,产品B018Y229OU的评论数骤增。
④在11月到次年2月产品的好评率和差评率有所波动。
5.2建议
①应结合评论内容进一步分析原因,尽量提高产品 B018Y229OU好评率。
②在黄金时期(11-1月)加大宣传力度,刺激产品销售,提高销售量。
③在黄金时期(11-1月),要提高服务质量,做好销售回馈,提高消费者好评率。
最终作品展示(仪表板)
|