新闻中心
电商销售数据分析
本文依据某在线零售电商销售数据,分别从公司销售订单情况、用户行为和用户价值分层三个角度进行分析。主要利用python进行数据清洗和探索,配合matplotlib和Tableau进行可视化呈现。项目分析思维导图如下:
数据集来源于:Online Retail Data Set
源码链接:https://pan.baidu.com/s/13lsLVDpm0yFDNoiLlwWQ1w 提取码:qwer
0 数据展示及数据处理(详见源码)
0.1 数据展示
前五行数据展示数据集共有551919条数据,8个字段,字段详情如下:
1、InvoiceNo/发票号码:每笔交易分配唯一的6位数,含字母C开头取消订单。
2、StockCode/商品编码:每个不同的商品分配唯一的5位整数。
3、Description/商品信息:商品描述。
4、Quantity/数量:每笔交易中商品的数量。
5、InvoiceDate/发票日期和时间:订单发生的日期和时间。
6、UnitPrice/单价:商品单价。
7、CustomerID/顾客编号:每个客户分配唯一的5位整数。
8、Country/国家:客户所在国家/地区的名称。
0.2 数据处理
0.2.1 数据清洗
数据清洗操作主要包括:
1、缺失值处理:Description及CustomerID字段缺失数据删除,共删除135080条;
2、重复值删除,共删除5225条数据;
3、数据类型转换:CustomerID字段的数据类型由浮点型转换为字符型;
4、拆分字段:拆分InvoiceDate字段,得到date(日期)字段和month(月份)字段;
5、构造字段:由UnitPrice(单价)和Quantity(数量)构造TotalPrice字段,得到每条记录涉及的订单金额。
数据类型和缺失值占比表0.2.2 异常值处理
数据处理过程中发现有产品数量Quantity和产品单价UnitPrice低于0的情况。分析对其进行分析并处理。
1、以C开头的取消订单。
构造临时表,计算得到被取消订单总数为3654单,占总订单数的16%,将取消订单删除。
2、单价为0或负的订单。
得知,负单价订单2条,用于坏账调整;另判断单价为零的产品为赠品,共2510条。将这两种异常数据条目删除。
最后得到处理完毕的DataFrame以及其数值型字段的统计描述如下:
最终数据概览最终数据统计描述数据处理部分小结:
1、销售量和总销售额方面:均值均超过了第三四分位数,呈现长尾分布,即存在异常大的值拉高了平均水平,后续分析中要特别注意离群数据的影响。
2、商品单价方面:3/4的商品单价均低于3.75,但也存在高单价的商品。表明该电商主打低价商品,后续在商品分析单元对此进行专题分析。
1 订单分析
构造一张extract表,将每笔订单内的多条购买数据汇总为客户/订单维度,将数据聚合得到每笔订单内的商品品类/ProductsCate、商品数量/ProductsQuant、单笔订单总金额/InvoiceSales等字段便于后续分析。
客户/订单维度汇总表1.1 订单详情分析
1.1.1 订单详情及连带率
1、订单合计18532笔,连带率(单笔订单销售件数)约为278件,可见该商店以批发为主。
2、订单平均销售额为479.56英镑,接近第三四分位数,表明有大额订单拉高销售额平均水平,后续用户分析中需对这类订单的高质量客户进行定位,提取相关用户信息重点营销。
订单统计描述1.1.2 订单销售额分布情况分析
因数据存在极度偏斜,分析时剔除销售额为1000英镑以上订单(占总订单的7.1%)后做进行分析。
小结:大部分订单销售额位于0-400英镑之间,在300英镑左右出现峰值。
1.2 商品详情分析
构造products表,以商品为维度进行聚合,计算每个商品销售的总件数和总金额,两个字段相除得到商品的平均单价。得到的products表如下:
products(含AvgPrice字段)表商品平均单价/AvgPrice统计描述初步观察,3/4的商品单价在3.74以下,单价20以上的商品仅占0.8%,单价10以上的商品仅占3.5%。
1.2.1 商品单价区间分布
注:为消除单价离群值的影响,商品单价分布图绘制时剔除单价20以上的商品。
结论:
该电商销售商品单价几乎都在10英镑以下,主要分布区间为0-5英镑;销售品类以低价商品为主。那么,低价策略对销售额是怎么影响的呢?
1.2.2 商品单价、销量、销售额相关性
单价、销量、销售额分布散点图注:绘图时,剔除极大值的影响,控制单价上限为20(销量上限为10000件,总销售额上限为20000元,数据占总数据量的96.15%)。
小结:1、很明显,公司销售产品以低价为主,可见其采用的营销策略可能是用低价商品打造爆款进行销售;2、低价并不影响销售额的降低,低价对销量的增加的正面影响远远超过其本身单价低的劣势,表明公司商品定价的合理性。
1.3 订单时间变化分析
订单维度对InvoiceDate/发票日期、TotalPrice/销售额进行聚合,得到订单/时间相关的表,order_grouped,导出后用Tableau分析。
1.3.1 销售额时间变化情况
由图可见,1、订单数量和销售额均在11月到达巅峰,推测是受到国外类似于双十一的促销活动活动影响,比如美国的黑色星期五;2、销售额在2011年12月9日剧增,是错误数据还是确有大额订单产生,在下面进行探究。
1.3.2 销售额异常值分析
观察到2011年12月9日销售异常数据,将当天完整数据取出,如下:
2011年12月9日销售数据取数发现,CustomerID为16446的用户,一次性购买了80995件纸质工艺品,需对这类用户进行持续跟踪,提供优质服务进行重点营销。
1.4 国家消费能力分析
销售额前十名的国家小结:
1、该公司以英国为大本营,英国的客户数和销售额自然遥遥领先;
2、看到销售额前十的基本都是欧洲国家,和英国本土差距甚远,有极大的潜力。对如荷兰/Netherlands、爱尔兰/EIRE、澳大利亚/Australia等国家,其客单价很高,但客户量很少,需要积极拓客。
2 用户行为分析
2.1 客单价/复购率
客户指标描述注:CustomerSalesCounts为客户消费订单数,CustomerSalesAmount为客户消费金额。
复购率(月)变化折线图结论:
1、共有4338名客户,客单价约2048英镑,远超第三四分位数的1660英镑,表明数据倾斜严重,大部分的效益由少部分人产生,后续将就用户价值用RFM模型对用户分层;
2、平均每个用户消费4.27单,至少由25%的客户仅购买一次商品,表明至少75%的用户消费次数在5次以下,年复购率为65.58%。
3、月复购率:2010年12月、2011年5月/11月,月复购率均在25%以上,相当于4个人里面有1人复购,其他月份基本在20%以上,月复购率较为可观。
2.2 回购率
回购率是指某一个时间窗口内消费的用户,在下一个时间窗口仍旧消费的占比。这里计算当月消费的用户在下个月仍消费的占比。
回购率(月)详细数据注:因数据集12月仅有前9天的数据,导致11月回购率指标不准确,在回购率折线图绘制时进行剔除。
回购率(月)变化折线图结论:
1、回购率出3月份出现低点(31.2%)后,其余月份均在40%上下波动,较为平稳,且整体有上升趋势,即用户活跃度稳中有升。
2.3 用户生命周期
根据用户消费的最早和最晚日期,整理得到用户的生命周期表lifetime,其统计特征和分布直方图(剔除0周期用户)如下:
用户生命周期统计特征描述注:用户生命周期分布直方图绘制剔除0周期。
结论:
1、至少有1/4的客户下过一次单后未能留存,首次购买用户的留存不理想,需在用户发生购买行为后及时跟踪营销,发放优惠券或者返利,提高首次购买用户留存率,具体在留存率分析中进一步探究;
2、对用户下单最近日期进行分析,发现2011年12月8日有103名用户下单,即截止日期,表明有许多用户的实际消费周期高与分析得到的用户生命周期,这是由数据集有限的客观原因所造成的。
3、用户生命周期均值在131天左右,在350天左右出现峰值,考虑到低估的情况,整体用户生命周期表现良好。
2.4 用户留存分析
结论:
1、用户首次购买后90天之后再购买用户数量可观,这类用户忠诚度较高,需跟踪保持;
2、对其他低留存的用户:1)分析这类用户的特征,包括渠道来源、用户共性,是采取营销还是放弃策略;2)对分析后有潜力的用户,要在每次购买行为发生后及时营销,比如短信提醒、发放优惠券、返利等手段。
2.5 用户平均购买周期分析
分析用户平均购买周期,可以据此用户消费周期情况适时营销。
结论:
大部分用户购买周期在20-60天之间,可以将时间召回点设为消费后立即赠送优惠券,消费后10天询问用户礼品怎么样,消费后20天提醒优惠券到期,消费后30天短信推送,加大营销的频率,缩短用户平均购买周期。
3 用户分层(RFM)
用RFM模型来评判用户价值,根据不同用户的分层情况进行精准营销。R用于衡量最近购买时间,F用于衡量购买频率,M用于衡量购买金额。
3.1 RFM模型分析数据准备
从原始数据构造如下value表用于RFM模型分析:
value表(RFM模型基础数据)RFM值统计表述RFM各值分布比例情况
R值比例分布饼图F值比例分布饼图M值比例分布饼图根据以上RFM值的分布情况进行打分,对应五个区间的五个分值。最后RFM三值分别与其各自平均值比较,判断每个用户的值是否高于平均值。最终得到的表格如下:
用户分层数据展示3.2 用户价值分析
根据每位用户标签,对其进行分类,查看每类用户的数量和各自消费的金额。
结论:
1、重要价值客户占比28.4%,贡献的销售额占71.9%;销售额贡献前20%的用户贡献了74.66%的销售额。这属于很明显的二八倾斜,要对这类用户重点把握,持续营销、跟踪,甚至利用其进行传播;
2、针对R1级别(重要保持用户)的用户,调查看他们最近消费是什么驱使的,是平台的优惠活动吸引、还是对某些新上商品有兴趣,抑或是某些季节性商品需求,据此作出针对性调整;针对R0级别的用户,分析不活跃用户的共性即用户不活跃或者流失的原因。
3、针对F1级别(重要发展用户)的用户,调查其持续登录的原因,找到产品对于用户的价值;对于F0级别的用户,选取样本进行调研,他们购买频率不高的原因,是商品问题(品类不符合需求、定价不合理)还是产品问题(产品功能、支付、安全问题等)。
4、针对M1级别(重要发展用户)的用户,可用某种激励措施让其来参与社区运营,达到病毒营销的效果。