新闻中心
用EXCEL做数据分析
一、用EXCEL做数据分析的知识点汇总如下:
数据分析的步骤1 明确问题把原始数据复制为清洗数据2 理解数据根据研究问题采集相关数据查看数据集信息(描述统计数据、字段含义)3 数据清洗(数据预处理)选择子集(列隐藏,尽量不删除;全选表格-开始-格式-隐藏和取消隐藏)列名重命名(双击列名单元格修改)删除重复值(数据-删除重复项-取消全选-勾选列-确定)缺失值处理(通过查看列对应的计数判断)通过人工手动补全(选中列-开始-查找和选择CTRL+G-定位条件-空值-输入一个,按Ctrl+Enter)删除缺失值用平均值代替缺失值用统计模型计算值代替缺失值一致化处理分列(点击列号-复制-最后一列后空白列-粘贴;数据-分列ALT+A+E-分隔符号)文本转为数值截取字符串(find/left/right/mid函数)字符串形式数字转换成数字类型( 插入-复制-选择性粘贴-数值-分列)数据排序(选中列-开始-排序和筛选ALT+H+S-降序-扩展选定区域)异常值处理数据透视表原理:数据分组(split)应用函数(apply)组合结果(combine)应用(插入-数据透视表ALT+N+V-新工作表-拖拽行/列/值-行标签-其它排序选项-降序排序-计数项-插入函数IF判断是否包含关键字筛选数据)4 数据分析或构建模型工作城市职位数:(插入-数据透视表-行(城市)-列(工作年限)-值(城市)-城市-其它排序选项-排序降序-计数项-总计列任选一单元格-右键-值显示方式-列汇总的百分比)薪水描述统计分析日期数据的处理:(选中日期列-数据-分列-下一步-下一步-日期-选中日期列-右键-设置单元格格式-自定义-yyyy/m/d-数据透视表-行(日期)-值(涨分量)-日期列任选一单元格-右键-组合)多表关联:vlookup函数函数参数:(找什么,在哪找(第一列必须是要查找值的列),第几列,近似找1or精确找0),重复数据查找:利用辅助列,A&B可将两个单元格内容拼接实现分组:需使用模糊匹配查找范围三种引用方式:相对引用:A1(按四次F4),绝对引用:$A$1(按一次F4),混合引用:A$1(按两次F4),$A1(按三次F4)5 数据可视化(图表)二、用EXCEL进行数据分析的实战案例
仍然以阿里巴巴天池提供的数据为例进行分析。
数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=451 明确问题:
1)不同时间(年、季度、月)商品的销售情况;
2)不同类别商品的销售情况;
3)不同性别的用户数量及对各类商品的需求情况;
4)不同年龄段用户对商品的需求情况。
2 理解数据:在《统计学——数据分析的基石》一文中已经对表1购买商品,表2婴儿信息中的描述统计数据和字段含义进行了分析。
3 数据清洗
把表1购买商品和表2婴儿信息进行复制,对复制后的表格进行清洗。
表1隐藏商品编号和商品属性。
列名全部更改为中文。
表1删除了27个重复值,表2无重复值。
对表1中商品属性一列的缺失值填充为0。
对表1的购买时间和表2的出生日期均一致化为yyyy/mm/dd格式。
将表2中再插入一性别列,用IF函数将性别一列1改为男,0改为女,2的未知,筛选出所有未知,视为异常值,删除对应行。
通过表2出生日期筛选升序排列,发现出生日期为1984/6/16的不属于婴儿,是异常值,直接删除。再利用数据透视表看到表2中男女性别数量,男女比例分布相差不大。
表1无异常值。最终表1共29944条数据,表2共926条数据。
对表1按照购买数量降序进行排序。两表数据清洗结果如下:
4 数据分析
1)不同时间(年、季度、月)商品的销售情况。利用数据透视表对表1分析结果如下:
分析结果:表中分别显示了2012年-2015年每年、每季度、每月的一类商品的总销量。可以看出2013年和2014年均是从第一季度到第四季度商品销量递增,这可能是因为第四季度有双十一,导致第四季度销量最高。
2)不同类别商品的销售情况。利用数据透视表汇总表1中各个一类商品的销量,和各个一类商品中所有二类商品销量。
分析结果:销量最高的一类商品是28,销量为28537,销量最差的商品是122650008,销量是2239。
3)不同性别的用户数量及对各类商品的需求情况。利用vlookup函数找到表2中各个用户ID在表1中对应的购买数量:
利用数据透视表分析不同性别对应的用户数量及购买数量:
4)不同年龄段用户对商品的需求情况。在表2中新增列:年龄。利用vlookup函数找到表2中各个用户ID在表1中对应的商品一级分类,购买时间,用year(购买时间)-year(出生日期)即可得出所有用户年龄,设置格式为常规。
利用数据透视表分析不同年龄段的各类商品购买数量,在年龄中右键-组合-设置步长为3:
数据分析:年龄段在1-3岁的用户对商品需求量最多,为863,其次是0岁,用户更偏好购买50014815类商品和50008168类商品。