新闻中心
如何对一组数据进行统计分析(如何对一组数据进行统计分析)
如何对一组数据进行统计分析
数据分析步骤:
1. 明确问题:解决工作中遇到的问题,明确的问题为数据分析提供了方向
2. 理解数据:采集数据(根据研究问题)采集数据理解字段含义
3. 数据清洗:整理数据分析所需要的内容
4. 数据分析或构建模型:根据分析结合统计方法得出业务指标
5. 数据可视化:以图表的形式或PPT形成商业分析报告
主要任务:对数据进行描述统计分析,并观察分析结论里的数据,解决问题或发现规律
一、明确问题
婴儿的性别分布是怎么样的?
婴儿的年龄分布如何?
哪种产品属性需求最大?
什么时间段的客户购买数量较高?
二、理解数据
数据集介绍
本数据集包括2个excel文件:表1购买商品信息,表2婴儿信息。
字段含义
表1购买商品字段:
① 用户ID:每个用户独有的编号
② 商品编号:商品独有的编号
③ 商品二级分类:如 母婴用品-奶粉
④ 商品一级分类:如 母婴用品
⑤ 商品属性:属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值
⑥ 购买数量
⑦ 购买时间
表2婴儿信息表字段:
① 用户ID
② 出生日期
③ 性别:0女性;1男性;2未知的性别
三、数据清洗
数据清洗分为以下7个步骤:
第一步,选择子集,即选择哪些表格的数据
第二步,列名重命名,将表格里的列名由英文改为中文
(这是为了使自己更加方便理解数据集并进行操作,非必要)
第三步,删除重复值,表2无重复数据,表1中用户id有1个重复项,此处可能为一个用户购买两个不同商品,因此无需删除
(操作方法如下)

第四步,缺失值处理,表1中商品属性那里有144个缺失值,但不影响数据分析所以无需删除
(操作方法:选中用户ID那一列可以看见计数29972,依次重复操作其他列,只发现商品属性计数为29828,说明商品属性缺失了144个数值)解决方法:人工添加,平均值代替

第五步,一致化处理,表1,表2中购买时间需要进行一致化处理,采用分列方式进行
(操作方法:选中出生日期,数据-分列-弹出框中选择分隔符号-下一步-下一步-列数据格式选择日期YMD-完成)

第六步,数据排序,在分析中透视数据后会用到
(排序在这里)

第七步,异常值处理:表中无异常数据
通过筛选功能寻找错误值,表1中的商品属性有一部分为“空白”,因属性种类过多无法确定并进行手动添加,所以全部“空白”修改为0方便后续处理;表2婴儿信息中有一个1984,应当是用户错填信息,处理方法删除
四、数据分析
1.婴儿性别分布?
由下图可得女性婴儿数量比男婴儿多(0女性,1男性,2未知)

2.婴儿年龄段分布?
操作步骤:
① 利用VLOOKUP函数将两个表格的内容进行匹配合并,提取出表一的购买日期,通过购买日期与出生日期计算婴儿的年龄(注意:购买日期那列的单元格格式需要设置为日期)

② 计算年龄

计算出来有小数,两种方法一种是利用round函数,一种设置单元格格式数值小数点后0位。
③ 通过数据透视表可见,0岁和1岁的婴儿最多(负数和年龄过大为用户错填信息?可以对数数据透视图进行筛选删除错误值)

3.哪类产品购买量最多?
由下图可得,一级类目产品中编号为28的商品类目销量最高,二级类目中50018831的销量最高


4.什么时间段的客户购买数量较高?
利用数据透视表得出,每一年的第三季度和第四季度购买数量较多,可能与节日促销活动有关

