新闻中心
淘宝用户数据分析(淘宝app用户行为分析报告)
一.项目背景
基于淘宝用户行为数据集,分析用户行为数据,研究隐式反馈推荐问题[1],提出淘宝产品改进、优化建议,从而降低流失,提升商品购买转化率,并改善用户体验。
[1].推荐系统中用户对物品的反馈分为显式和隐式反馈,显式反馈 (如评分、评级) 或单一的隐式反馈 (如浏览、点击、加入购物车)。 隐式反馈推荐是推荐系统通过对内容和用户行为的分析,建立适当的模型,帮助用户从海量的数据中找到自己感兴趣的内容。推荐系统中用户的行为反馈包括显式反馈和隐式反馈,隐式反馈信息在推荐系统算法中被广泛应用。隐式反馈体现着用户的兴趣爱好,对隐式反馈信息的挖掘有助于提高推荐系统的效果,以更好地设计推荐系统。二.数据理解
1.数据来源:阿里天池数据集
User Behavior Data from Taobao for Recommendation-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
2.数据含义
数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:

3.提出问题:
新用户分析:日新增用户数量是多少?平均值是多少?流量分析:单日人均pv是多少?商品pv前十是多少?流失分析:用户为什么流失?用户各行为情况的转化率是多少?用户在哪个环节流失的?留存分析:次日留存率、3日留存率、7日留存率分别是多少?曝光与需求分析:淘宝高曝光的商品是用户需求量高的商品吗?产品角度分析:搜索结果或推荐商品的转化率是多少?复购分析:复购率是多少?复购商品的流失率是多少?时间维度分析:不同时段的产品策略是什么?如何根据RFM模型将用户细分,实现精准营销?4.数据清洗
修改字段名称,将UserID、ItemID、Timestamps这三个字段设置为主键。
分析一:查看统一商品类别下,淘宝搜索推荐量最大商品是否是用户购买量最大的商品。
基于淘宝用户日常的购物场景,通过搜索商品类别进行商品浏览和购买是目前的主要购物场景。即 搜索商品类别 -> 商品目录页 -> 商品详情页 -> 加购物车、收藏、购买、跳失。根据这个业务场景,提出假设:同一个商品类别下,淘宝搜索推荐的商品,未必是用户购买量最大的商品。
因此,从商品浏览量出发,找出pv量Top3的商品类别ID,在商品类别下再找出pv量Top3的商品ID,这9个商品可认为是用户浏览最多的商品,也从侧面体现出这9个商品是淘宝主要推荐,和搜索排名靠前的商品。
从商品购买量出发,找出pv量Top3的商品类别ID,在商品类别下再找出buy量Top3的商品ID,这9个商品可认为是用户购买量最多的商品,也从侧面体现出这9个商品是用户购买需求最大的商品。
分析过程。。。。。。。。。
结论:假设正确,在同一个商品类别下,淘宝搜索推荐的商品,未必是用户购买量最大的商品。此处推断淘宝搜索推荐机制可能出现问题,目前的主要根据关键词进行搜索推荐,在关键词匹配等情况下,假设搜索推荐方法分为:
根据用户行为进行搜索推荐;如果根据用户行为来推荐商品,但被推荐商品的成交量低,则可能是用户画像刻画不够准确,或用户行为把握不够完整。比如用户购买衣服,可能推荐商品的价格和用户的心理价位存在差距,也可能淘宝未能给用户推荐其喜欢的衣服风格、品牌等。这些可根据用户消费同类型商品的价格、品牌、风格、频率等指标得出。根据商户付费进行搜索推荐;商户通过付费进行推广,虽然浏览量增加了,但是购买量并未增加,则可能原因是商品价格较高,性价比低,也可能是商品详情页未描述清楚,商品图片质量有待提升,抑或是商品历史评价较低。淘宝小二可建立一套严格的商品描述和图片审核标准来提升商品详情页质量,优化用户浏览体验。也可对比同类型商品的定价水平,指导商户对商品进行合理定价,提升销量。如果商品历史评价分数较低,需分析差评原因,针对性的提升商品质量和商户服务水平,从而改善商品评分。根据商品热度、商品评价、商品购买量等综合评分后再进行搜索推荐。如果综合评分较高的商品浏览量高但成交量低,则可能原因是季节、地域、周期等客观因素引起的。分析二:分析用户流失情况
分析三:分析用户留存率
分别计算次日留存率、三日留存率、七日留存率和30日留存率。
分析四:利用RFM模型分析用户价值
分析五:产品复购率分析