新闻中心
黑五消费数据分析-SQL分析(黑五什么时候打折)
一、数据来源
数据来自平台kaggle的文件BlackFriday.csv,,链接如下:
Black Fridaywww.kaggle.com/mehdidag/black-friday
这个数据文件是某个商场在褐色星期五期间的所有订单信息,包含50多万条记录,12个字段。由于数据量比较大,所以导入Navicat软件中使用mysql得到所需要的信息进行分析。数据的字段详解如下:
User_ID:用户编码,每个用户唯一标识
Product_ID:产品编码,每个商品唯一标识
Gender:性别(F表示女性,M表示男性)
Age:年龄(分0~17、18~25、26~35、36~45、46~50、51~55、55+共7个年龄段)
Occupation:职业(分为0~20 共20个类别)
City_Category:城市类别(分ABC共3个类别)
Stay_In_Current_City_Years:在当前城市停留的年份(分0、1、2、3、4+共5个类别)
Marital_Status:婚姻状况(0表示未婚,1表示已婚)
Product_Category_1:商品所属分类1,不可为空
Product_Category_2:商品所属分类2
Product_Category_3:商品所属分类3
Purchase:消费金额,以美元计算
二、提出问题
黑五期间,最畅销的商品和商品类别是哪些?用户购买力与职业、性别、居住城市、婚姻状况等的关系?
三、分析过程
1、最畅销商品
分别查询销量排名前十的商品,销售额排名前十的商品
select Product_ID ,count(*) as sales_volume,sum(purchase) as sales
from blackfriday
group by Product_ID
order by sales_volume DESC
limit 10;

select Product_ID ,count(*) as sales_volume,sum(purchase) as sales
from blackfriday
group by Product_ID
order by sales DESC
limit 10;

可以看到,这两个榜单中有些商品重复,但是销量最多的商品销售额并不是最多的,销售额还跟商品的单价有关。
2、最畅销商品类别
综合Product_Category_1、Product_Category_2、Product_Category_3这三个字段统计每个类别的销量。然后将结果导出到excel中,做出条形图,更直观地看到每个商品类别销量情况。

可以看到T5,T8,T1这3个商品类别销量最高,T18,T10,T7商品类别销量最低。
3、不同性别用户的购买力度比较
通过查询,我们发现在黑五期间,男性的购买力比女性强,比例达到3:1。
select 女 as 性别,count(*) as 销量 from blackfriday where Gender = F UNION
select 男 as 性别,count(*) as 销量 from blackfriday where Gender = M


再来看看不同性别的用户最喜欢购买的商品及商品类型
select Product_ID,count(*) as sales_volume
from blackfriday
where Gender = F
group by Product_ID
order by sales_volume DESC
limit 10;
select Product_ID,count(*) as sales_volume
from blackfriday
where Gender = M
group by Product_ID
order by sales_volume DESC
limit 10;

在男性和女性中畅销的商品中有重复的商品,比如P00265242,P00110742。

可以看出女性喜欢的商品类型是8,5,14,男性喜欢购买的商品类型是5,8,1,其中5,8这两类是男性和女性都喜欢购买的商品类型。类型18,10,7是男性和女性购买量都小的商品类型,很有可能是小众商品,只有很少一部分人喜欢。
4、不同职业用户的购买力度比较
select Occupation ,count(*) sales_volume
from blackfriday
group by Occupation
order by sales_volume desc

职业0,7,1的用户购买力最强,职业19,11,15的购买力度最弱。
5、不同年龄的购买力
select Age ,count(*) sales_volume
from blackfriday
group by Age
order by sales_volume desc

可以看到,购买主力集中在26-35这个年龄段,这个年龄段的用户有稳定的收入,而且没有特别沉重的家庭压力,又比较年轻、多样化,所以购买力会比较强。到了36-45岁的年龄段,虽然有稳定收入,但是家庭负担较重,一般会购买一些生活必需品。购买力度最小的是0-17、55+,这两个年龄段处于年龄周期的两端,一个是因为年龄太小,没有经济来源,一个是年级比较大,没有太强的购买欲望。
6、不同类型城市的购买力度
select City_Category ,count(*) sales_volume
from blackfriday
group by City_Category
order by sales_volume desc

可以看到,购买力度按照强弱排名为B>C>A
7、城市居住年份不同的用户购买情况
select Stay_In_Current_City_Years ,count(*) sales_volume
from blackfriday
group by Stay_In_Current_City_Years
order by sales_volume desc

可以看到居住年份为1年的用户购买数量最多,居住不到年的用户购买力度最强。不考虑0年的用户,随着居住年份越长,购买力也越弱。
8、不同婚姻状态的用户购买情况
select (case when Marital_Status = 0 Then 未婚
else 已婚 end) Marital_Status,count(*) as sales_volume
from blackfriday
group by Marital_Status

可以看到,未婚用户的购买量比已婚用户的购买量要多,因为未婚用户没有负担,可以随心所欲地选择自己想买的物品。但是两者的购买力差别不是特别大,说明未婚用户的潜力还没有被完全激发出来。
总结
从性别来看,黑五期间购买主力主要为男性,且男性和女性最喜欢的产品有所重复。
从职业分布来看,0,7,1这三种职业购买力靠前。
从年龄分布俩看,26-35年龄段消费最多,消费主要集中在中青年阶段,老年人、小孩购买力最弱。
从城市来看,B类城市购买力最强,C类次之,A类最弱。
从城市居住年份来看,居住1年的用户购买力最强,不到1年的用户购买力最弱。此外,如果不考虑居住不到1年的用户,购买力和居住年份呈现负相关。
从用户婚姻状态来看,未婚用户的购买力较强,但与已婚用户相差不大,未婚用户的购买力有待进一步挖掘。