新闻中心

利用excel进行数据分析

2023-03-12
浏览次数:
返回列表

之前一直觉得excel只是很简单的做表格的工具,学习了之后才发现,啪啪打脸,excel的隐藏功能yyds。下面开始利用excel进行简单的数据分析。

数据分析的步骤

明确问题 \rightarrow 理解数据\rightarrow数据清洗\rightarrow数据分析或构建模型\rightarrow数据可视化

以母婴数据为例,数据来源阿里巴巴天池

https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

下面展开具体的分析:

1.明确问题

问题一:哪个季度销量最好,以及相同季度下哪一年销量最好

2.理解数据

数据集介绍

本数据集包括2个excel文件

表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)

表2婴儿信息((sample)sam_tianchi_mum_baby.csv)

字段含义

表1购买商品字段

用户ID:用户可重复购买商品,故购买商品中用户ID可不唯一

商品编号:每一个商品的编码都唯一,故不可重复

商品二级分类:商品种类ID,表示商品属于哪个类别

商品一级分类:商品种类ID,表示商品属于哪个类别

(商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)

商品属性:属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值,表格中为数字字符串

购买数量:单次交易数量

购买时间:交易时间

表2婴儿信息表字段

用户ID:可用于外键与购买商品表连接

出生日期:婴儿的出生日期

性别:0女性;1男性;2未知的性别

3.数据清洗

数据清洗的步骤

选择子集 \rightarrow 列名重命名\rightarrow删除重复值\rightarrow缺失值处理\rightarrow一致化处理 \rightarrow 数据排序\rightarrow异常值处理

两张表中,只有表1的商品属性列存在144个缺失值,由于该列与所要分析的问题无关,因此直接全部填充为0。

并且将两张表的时间字段进行一致化处理,转化为时间类型,利用分列功能变为

4.问题分析

问题一利用数据透视表可实现

从数据中可看出第四季度销售量普遍偏高。

从中可以看出第一,二,三,四季度均为14年销量最好,所以14年是销量最好的一年。

搜索