新闻中心
电商项目数据分析报告(电商 数据库设计)
本文结构:

一、数据介绍
1、数据简介
该数据集包含两个表—orderinfo和userinfo。
Orderinfo记录了537510条数据,表的每一行记录了一个订单信息(包括已支付和未支付),该表由订单编号、用户ID、是否支付、订单金额、订单时间构成。
Userinfo记录了每个用户的信息,每一行记录包含一个用户的信息,其中包含的信息有用户ID、性别、出生日期,一共有101535条数据。
2、字段介绍
Orderinfo:

其中ispaid包含“已支付”和“未支付”。
Userinfo:

二、分析思路
1、提出问题
2、数据探索
该数据集为电商领域的数据,包含了用户的下单信息及用户的信息,包括了用户、订单号、是否支付、订单金额、订单时间五个维度。因为是电商数据,所以得先了解相关的电商运营基础指标,指标如下:

了解电商基础运营指标后,结合本数据及看数据能做的分析包含哪些方面:
基于price、orderid、paidtime等字段数据可以分析销售额等整体销售业绩指标;基于userid、ispaid、paidtime等字段,可以进行用户行为分析,计算复购和回购的情况。结合userinfo中提供的用户信息,进行用户特征分析。三、清洗数据
导入数据:直接通过sequel pro的导入按钮,将数据源导入。
1、重复值处理

不存在重复记录:

2、缺失值处理
Orderinfo:

记录均为539414个,无缺失值。
查询结果userinfo表也无缺失值。
3、异常值处理
以日期(分组)对orderinfo表的数据量进行查看,得知数据主要集中在2016年3月和4月,5月的数据量只有7条,无参考意义。因此先删除2016年5月的7条数据。

四、构建模型
1、总体运营指标:
(1)销售业绩指标:销售金额、订单量、单比订单金额
查询代码:

2、用户行为分析
(1)订单量/下单人数变化趋势(日期、周、小时粒度)
a、日期粒度
查询代码:


按日期粒度来看,订单量和下单人数基本呈正相关的关系,且呈现有规律的波动。并且从图标上波动的规律来看,订单量在每周六达到最低点,同时,在4/2与4/3,订单连续两天到达在最低点(4/2-4/4为清明小长假)。我们也会在后面周粒度中去印证这一现象。
b、按周粒度
查询代码:



如日粒度中的展示结果,订单量周六达到最低点,后面逐渐回升,在周二到周四达到峰值。因此,平台或店铺的营销活动可以选择在工作日展开,以达到最好的促销效果。
c、按小时粒度
查询代码:


每日0点到5点订单量快速降低,降到一天中活跃量最低值,6点到10点订单量快速上升,10点达到峰值。12点到21点用户订单量较平稳。
结论:用户白天的购买行为比率相比于晚上会高,白天使用平台购买的目的性最强。
(2)用户的回购率和复购率特征
a、回购率:本月购买用户中下个月又再次购买的比例,因此本月回购率=本月购买下个月再次购买的用户数/本月购买的用户总数。
查询代码:

b、复购率特征
a、复购率
复购率=购买了多次的用户占所有用户的比例
查询代码:查询结果现象描述/分析:整体复购率为37.9%,无其它数据比较,不展开分析。b、复购特征分析
查询代码
查询结果可视化呈现:看分布
复购特征分析由此可见大部分用户集中在7次以内,将客户按购买1次,2-4次,5-7次,8次以上分组,结果如下:
各购买次数占比如图:
现象描述/分析仅购买一次的客户占比为50%,2-4次客户占比为31%,5-7次为18%。说明该平台绝大多数客户购买少于4次,发展空间较大。
3、用户画像--用户特征分析
a、男女消费频次和金额的差异
查询代码查询结果现象描述/分析:有查询结果看来,男女生在消费频次上无太大差异。从中销售额和平均消费金额来看,男女相差也不大。男生总消费额相比女生高5%,而平均消费金额比女生低6%。b、不同年龄段及性别的消费金额差异
查询代码查询结果可视化呈现不同年龄段及性别的消费总金额现象描述/分析:从总体来看,消费人群主要集中在20-50岁,占了总销量的89%,其中以30-34分布最多,20-30次之。在性别分布方面,20-30岁区间女性比男性销量略高,其它区间,均是男性高于女性,后期可以针对具体主力人群进行目的性的广告投放。
4、基于RFM模型分析用户价值:
(1) RFM模型简介
(2)分类维度及分类标准
(3)实现过程
参考RFM模型,结合该数据集的字段,通过R(Recency)、F(Frequency)和M(Monetary)三个维度把客户分成8大类:
a、建立视图,统计用户R、F、M值:
这里以2016/4/30为参考时间
查询代码查询结果b、给R、F、M分组,给用户打分
—数值分组
查看最大值和平均值,确定分组标准。
查询代码查询结果将R/F/M分成5组:R值:0-9,10-19,20-29,30-44,45-60分别对应5分、4分、3分、2分、1分;
F值:1-6,7-12,13-18,19-24,24-31分别对应为1分、2分、3分、4分、5分;
M值:1-1000,1001-2000,2001-4000,4000以上分别对应为1分、2分、3分、4分、5分。
(1)为用户价值打分
将R、F、M分组后按照上面的标准进行打分
查询代码:查询结果(2)计算R_score、F_score、M_score的平均值,确定评分标准,按RFM的平均值打标签,然后将R/F/M的评分跟平均值做比较。
查询代码:查询结果(3)给不同价值用户贴上价值标签:
代码:
查询结果(4)查看不同价值用户占比情况
各类型用户计数:
查询代码查询结果可视化展示:
客户类型占比(5)现象描述/分析:
针对不同用户实行不同的营销策略:
新客户:该类用户占比最高,新付费用户,需要挖掘客户需求,提高用户粘性,引导用户再次购买。重要价值客户:他们是最优质的用户,需要重点关注并保持, 应该提高满意度,增加留存,占整体客户的25%。重要深耕客户:该类客户潜力很大,但忠诚度不够,可以推荐其它产品和服务,拓展用户的消费场景和需求,提高用户忠诚度。该类用户也占了很高的比例,20%。重要挽留客户:他们虽然最近没有购买,但以往购买频率高,可以做触达,以防止流失,12%比例比较高了。五、总结建议
(1)用户行为特征
现象:按周来看,工作日活跃,周四开始活跃度下降,周六后活跃度继续上升到正常值。按日来看,用户在10点-21点活跃,在10点时,成交量达到最高峰。
建议:营销活动时间节点选择可根据用户以上活跃规律进行,实现活动效果最大化。
(2)用户的回购率和复购率特征
建议:总体复购率37.9%,可针对复购率高的商品和用户,分析其画像,提升复购,增加留存。
(3)用户特征分析
现象:消费人群主要集中在20-50岁,占了总销量的89%。在性别分布方面,20-30岁区间女性比男性销量略高,其它区间,均是男性高于女性。
建议:后期可以针对具体主力人群进行目的性的广告投放和运营。
(4)用户价值
新客户:该类用户占比最高,占了总用户的43%,说明近期针对新用户的运营效果显著。需要挖掘客户需求,提高用户粘性,引导用户再次购买。
重要价值客户:他们是最优质的用户,就是最近有消费且频次高的用户,占整体客户的25%。 需要重点关注并保持, 应该提高满意度,增加留存,
重要深耕客户:该类客户潜力很大,但忠诚度不够,可以推荐其它产品和服务,拓展用户的消费场景和需求,提高用户忠诚度。该类用户也占了很高的比例,20%。
重要挽留客户:他们虽然最近没有购买,但以往购买频率高,可以做触达,以防止流失,12%比例比较高了。