新闻中心
服装商品销售数据分析(服装销售数据分析范文)
一:分析背景和数据来源
随着电商的快速发展,人们的购物行为占比也快速增加。作为电商卖家为了获取更多的用户并提升店铺销售量,可以结合产品销售情况和用户情况进行分析,得到有价值的信息,规划自己的销售策略。本文以淘宝天猫上服装商品购买情况数据为例,通过对产品和用户行为分析,得出结论,为业务部门提出可行的建议,本次分析数据主要是来自公司的服装商品销售数据。
二:理解数据
共收集了两表:分别为clothes_trade_history.csv称为表1,clothes_user.csv称为表2

三:提出问题
产品角度:
1,商品的销量随时间发生怎样的变化?
2.哪个类别商品的销量最多?能提出什么建议?
3,哪个类别商品的销量最少?能提出什么建议?
用户角度:
1,用户的年龄分布情况如何?能提出什么建议?
四,分析方法
分析方法应用:
1.逻辑树分析方法
2.多维度拆解分析方法
3.对比分析方法
分析思维导图:

五、数据清洗
(1)选择子集
由于物品编号和商品属性对我们分析的问题没有意义,故将其隐藏,以便于我们的分析。
(2)列名重命名
由于两张表的字段已经非常便于理解,所以无需重命名。
(3)删除重复值
对整合后的表2在数据选项之下按照用户编号这一唯一标识删除重复值,发现没有重复的数值。
(4)缺失值处理
对表2中的数据查找空白值,并未发现缺失值。(这里查找空白处可以用观察右下角计数的方法,也可以使用excel中的筛选功能)。
(5)一致化处理
表中数据日期显示格式不对,对其进行分列+设置单元格使其按日期格式显示。
(6)异常值处理
性别异常值:性别中出现2的情况,剔除这部分值。
购买数量异常值:对购买数量借助excel数据分析工具进行描述性分析

1.对销售数量进行描述性统计分析:可以发现中位数和众数都是1,平均数量为2.5,而最大值却高达10000,虽然销售数量存在如此高的情况,比如企业型订购,但是这样的数据会对分析情况造成极大的影响,所以会将此类高度异常的值给剔除掉。
这里我们将与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值,通过计算,当count值大于194.5时,可以称为异常值,这些值可以剔除掉。
六:分析问题
问题:商品的销量随时间发生怎样的变化?
分析:
想看出各类产品的销量波动如何,以及分析出原因,先做出各类产品销量的图表。

从产品销量的总体波动情况来看,2017年和2018年销量情况比较良好,而2016年销量十分低,这是为什么呢?
假设:2016销售数据缺失,导致总体数量下降。
验证假设:

得出结论:可以看出,折线图中2016年3月份~6月份销售数量为0,说明的确是数据缺失,验证了猜想。
从上图可以看出,1,2月份的销量出现低峰,在5月份出现了销量的高峰,11月份又出现了销量高峰。
考虑到16年的数据缺失,所以以上问题主要分析17年和18年的销售数据。
问题1.1 1,2月份销量为什么会出现低峰?
假设:1,2月份出现低峰的原因是,春节假期影响.
验证假设:

可以观察到,2017年1月26日至2月2日销量在1~2月份最低,2018年2月3日至2月15日在1~2月份销量最低,参考下图,可以发现,17年的春节假期在1月27日到2月2日,18年的假期在2月15日至2月21日,再加上临近春节,会有使用年假提前回家的情况,可以推出:春节假期和销量最低的时间段是吻合的。

结论:春节假期导致2月份商品销量降低。
问题1.2:为什么商品销量在五月份出现增长?

分析为什么商品会在五月份出现增长:
假设:五月份销量增长是因为节日的影响。
如果是上述假设是正确的,那么在5月份会有一些特定的商品销售比较高,如中老年装,职业装等。



验证假设:5月份的销量最高的天数,集中在5月12号,5月14号,5月17号,5月20,5月21好,5月28号,且占比较多的大多数为59702476,61661040,和业务部门沟通之后,发现这两类商品编号分别为女装和童装,经过查阅资料,5月份这些销量很多的日期和每年的母亲节、520节日、儿童节的日期比较接近,因此可以得出结论:5月的节日比较多,商品搞促销活动频繁,导致商品销量增加,出现小高峰期。
结论:五月份销量增长是因为和节日相关,商家促销活动较多,使得销量增加。
问题:1.3 11月份销量增长的原因
假设:11月份销量增加是因为双十一的原因。
验证假设:可以看出,将2016年,2017年,2018年11月商品销量按日展开,可以发现,2012年11月10号,2013年11月11号,2014年11月11号销量达到顶峰。结合双11平台大促的活动,可以推测销量的增长是由于活动导致的。

结论:每年双11节日平台大型促销活动导致商品销量大增。
问题2:哪类商品销量最高,哪类产品销量最少,能给出何种建议

分析:为什么各个大类产品销量差距如此之大,销量少的类,是所有小类销量都很低,还是少量低,突出的类比较多;销量多的大类,是每个小类的销量都很高,从而带动整体很高,还是有突出的一小类商品?
假设:类61661040产品各小类的销量较为均衡,但是胜在小类种类比较多,使得总销售量很多。

验证假设:类61661040总共有共有268小类产品,总共销售16321件产品,讲筛选标准设置为大于等于1%,剩下22小类产品,占总销售量的58.85%;将筛选标准设置为大于等于0.05%,剩下159类产品,占总销量的98%,这159件占商品种类的59.3%。
结论:类61661040产品因为小类种类比较多,使得总销售量很多。
建议:由于类61661040产品是童装,而儿童的年龄范围很大,从0到12岁,维度很多,建议对童装进行细分,让用户能便利地找到自己需要的产品,同时,在节假日加大促销活动的力度,因为买童装的往往是孩子的母亲,而不是儿童自身,加大促销力度,可以吸引更多的顾客。
假设:类122650008销量少,是因为子类商品太少,导致总量变少。


验证假设:类122620008的子产品一共有13类,总销量有2238,子类的数量是类61661040子类数量的5.22%,总销量是类61661040的13.7%,说明假设是成立。
结论:类122620008之所以销量最低,是因为子类产品类型太少,满足不了用户的需求
问题3:用户的年龄分布情况如何?能提出什么建议?
假设:用户年龄占比还是18-25岁的成年人为主力军,青少年和老年人比较少。


验证假设:表2为随机抽样的1000名用户情况,从图中可以发现,年龄为19岁的用户数量占最多数,同时也可以发现,17-24岁的用户占群体的大部分,占总量的87.09%,具体原因为:青少年用户在购物网站上的活跃度一直很低,主要是因为未成年人缺少付款途径,同时也会被家长限制使用手机或者电脑的时间,中年用户很少的原因,是因为大部分中年人还未习惯使用电商网站来进行购物。
结论:用户年龄占比还是18-25岁的成年人为主力军,青少年和老年人比较少,但是中老年服装的销量并不低,主要原因是网络上的中老年服装也是青年用户为老年人购买的,所以相关产品的营销活动在节假日还是有相关中老年的优惠活动。
五、建议
1.商品的销量在每年的1,2月份春节期间由于假期导致的快递停运等原因达到年度最低,因此可以减少相应的推广促销活动,控制商品的库存等对资源合理分配。
2.在每年的五月节日比较集中,双11节日是个大型的促销活动节日,因此可以针对这两个时间段加大商品的供应,并进行积极的推广活动。
3.通过对比,可以发现,类122620008产品有巨大的潜力,在子类数仅仅为类61661040数量的5.22%时,销量却达到了类61661040的13.7%,可以增加该大类的子类产品,拓宽销量;同时子类50012359,50012360,50012361,50012363,50012364,50012365,50012366这七类产品的销量遥遥领先,每个子类的销量占据总销量的6%以上,50012359的销量甚至占据了27.7%,这五类商品的总体销量占据了类122620008销量的总体的96.26%,因此可以主推这七类产品。
4.纵然青少年用户和老年用户比较少,但是还是要注意对童装和老年服饰的营销活动,因为有很大一部分青年用户是为了青少年和老年,这方面还是需要有相应的营销活动对应。