新闻中心
利用excel进行数据分析
之前一直觉得excel只是很简单的做表格的工具,学习了之后才发现,啪啪打脸,excel的隐藏功能yyds。下面开始利用excel进行简单的数据分析。
数据分析的步骤
明确问题 →\rightarrow 理解数据→\rightarrow数据清洗→\rightarrow数据分析或构建模型→\rightarrow数据可视化
以母婴数据为例,数据来源阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
下面展开具体的分析:
1.明确问题
问题一:哪个季度销量最好,以及相同季度下哪一年销量最好
2.理解数据
数据集介绍本数据集包括2个excel文件
表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)
表2婴儿信息((sample)sam_tianchi_mum_baby.csv)
字段含义表1购买商品字段
用户ID:用户可重复购买商品,故购买商品中用户ID可不唯一
商品编号:每一个商品的编码都唯一,故不可重复
商品二级分类:商品种类ID,表示商品属于哪个类别
商品一级分类:商品种类ID,表示商品属于哪个类别
(商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)
商品属性:属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值,表格中为数字字符串
购买数量:单次交易数量
购买时间:交易时间
表2婴儿信息表字段
用户ID:可用于外键与购买商品表连接
出生日期:婴儿的出生日期
性别:0女性;1男性;2未知的性别
3.数据清洗
数据清洗的步骤
选择子集 →\rightarrow 列名重命名→\rightarrow删除重复值→\rightarrow缺失值处理→\rightarrow一致化处理 →\rightarrow 数据排序→\rightarrow异常值处理
两张表中,只有表1的商品属性列存在144个缺失值,由于该列与所要分析的问题无关,因此直接全部填充为0。
并且将两张表的时间字段进行一致化处理,转化为时间类型,利用分列功能变为
4.问题分析
问题一利用数据透视表可实现
从数据中可看出第四季度销售量普遍偏高。
从中可以看出第一,二,三,四季度均为14年销量最好,所以14年是销量最好的一年。