新闻中心
淘宝商品数据集描述分析(淘宝指数的含义)
先回顾一下数据分析步骤:
1、明确问题
2、理解数据
3、数据清洗
4、数据分析或构建模型
5、数据可视化
1、2已经在上篇文章有写到:
淘宝商品数据集分析思路2 赞同 · 0 评论文章本篇主要针对3、4。
一、数据清洗
分为7个步骤:
1、选择子集,这个已经选好了
2、列名重命名,没有需要重命名的;隐藏了不需要用到的列(商品属性和商品编号)
3、删除重复值,没有发现重复值
4、缺失值处理,用“查找-定位-空值”查看后,没有发现空值
5、一致化处理,将日期格式通过分列调整为YMD格式
6、数据排序,将在下面的描述分析中呈现
7、异常值,无异常值
二、描述分析
1、产品数据
(1)总销量、最高销量
通过数据透视表对购买数量进行统计,得知店铺总销量为76260个,一级分类为28的商品销量最高,依次排序如下:

将二级分类也拉到“行”,排序,可得出各个一级分类下,各个二级分类的最高销量、最低销量。其中,28下的50011993销量最高,为3609。

手动统计每个一级分类下有多少个二级分类(此处是否有更便捷的方式?)

由下表分析可得出,一级分类50008168下各二级分类的平均购买数量最高,为251;一级分类28虽然总购买数量领先,但各二级分类下的平均购买数量仅为105。后续可优化28下的二级分类,提高平均购买数量。

(2)不同时间段的总销量、最高销量
通过数据透视表,组合,汇总,得出不同年、季度、月的销售情况,还可以进一步通过条件格式中的数据条填充,直观看出销量最高的月份。



进一步绘制动态折线图。由下图可以直观看出销售变化趋势——2013、2014年第四季度销量明显比平日大幅增加。

猜测:销量暴增是否因为双11促销呢?进一步查看数据可以发现,2013、2014年双11期间,销量明显比平日大幅增加。


从折线图的坡度可以看出,2014年11月较2013年11月对比该年月度总平均销量的增幅更大,因此,2014年双11的促销策略更为有效。
(3)购买数量描述统计
平均单次购买数量为2.5,单次购买数量众数为1,单次购买最大数量为10000等。

2、用户数据
(1)年龄段
以2015年为基准计算年龄,利用数据透视表、2015-年份公式、组合汇总,可得出:该店用户以1-5岁为主,占比超过77%。

(2)性别
由于性别不清楚编号的含义,但可通过统计百分比推测,男女用户占比差异不大,均接近50%。

3、产品数据及用户数据交叉分析
利用vlookup将表2婴儿信息填充至表1
有用户年龄、性别画像信息的占比96.8%,说明店铺在用户运营方面做得是不足的,大部分用户的特征无法识别。

(1)重点用户分析
将能识别用户信息的957条数据复制到一个新表格

通过数据透视表,排序,可识别出有用户画像信息的用户中最具购买力的用户,以及不同一级分类的最具购买力的用户,如下:


将购买数量10以上的用户标记为“重点用户”,vlookup至婴儿信息表中进行分析,查看他们的特征、以及他们买了什么

重点用户中,69%为性别0的用户,38%为年龄4岁的用户。


进一步vlookup至购买商品表,分析重点用户的购买行为。
重点用户中,性别为0的用户购买了重点用户总购买数量中的87%。
重点用户中,年龄为5岁的用户购买了重点用户总购买数量中的51%,他们的购买力较强。
重点用户最青睐的商品,是一级分类为50014815的商品,其中又以其二级分类中的50018831最受欢迎,
(2)用户复购率
对购买时间进行计数,仅有3位用户复购,且都是复购1次,复购率几乎可忽略不计。接下来店铺应加强用户运营,提升复购率。
(3)有用户画像的用户的购买数量描述统计
平均单次购买数量为1.6,单次购买数量众数为1,单次购买最大数量为160等。