新闻中心
如何用Excel做数据分析(excel数据分析回归分析)
一般来说,数据分析的步骤如下:
明确问题理解数据数据清洗数据分析 或 构建模型数据可视化一个数据分析师是离不开Excel的,它是日常生活中最常用的,如果不考虑工作量的话,Excel是足够应付绝大部分的数据分析的。
人类的语言有不同的词汇,Excel语言也同样有不同的数据类型,不同数据类型在不同的场合下使用。Excel中有多种数据类型,一般可以归纳成下列的三种数据类型:
字符串类型(也称文本类型,一般是指汉字、字母等,此处注意,以字符串做数据类型的是不能用来计算的)数值类型(指整数、小数等)逻辑类型(描述一种条件的判断标准)在默认情况下,字符串类型是左对齐,数字类型是右对齐。
一、数据清洗
数据清洗的步骤如下:
选择子集(选择你要数据分析感兴趣的几个列)列名重命名删除重复值缺失值处理一致化处理数据排序异常值处理1、选择子集合
有时候我们拿到的数据太大,这时候,我们需要将一些我们不感兴趣、不需要的列隐藏起来。另外,我们也可通过全选表格、开始选项卡中的格式取消隐藏的行或列。我们通过对行列隐藏可以灵活的选择对研究对象的子集。
2、列名重命名
3、删除重复值
数据、删除重复项、取消全选
4、缺失值处理
原始数据经常由于如爬虫没有爬到等一些原因存在缺失的数据,我们需要对这些缺失值进行处理。首先要做的就是看一下有多少缺失值,接下来我们才是处理缺失值,一般使用四种方法处理缺失值:人工手动补缺(适用于缺失数据比较少的情况)、删除缺失的数据、用平均值代替缺失值、用统计模型计算代替缺失值。
5、一致化处理
一致化指的是数据是否有统一的标准或者命名。一般用Excel的分列功能进行一致化处理,将某一列按照特定的规格拆分,需要注意,分列功能会覆盖掉右列单元格,所以我们往往在分列前将需要分列的单元格粘贴在最后一列。再复制粘贴后,点击数据栏、分列功能弹出对话框、分隔符号、下一步、其他(使用什么符号进行分割)、连续分隔符号为单个处理、下一步、完成。
例如如下表格就可以通过分列功能达到想要的效果。

在上述操作中需要用到函数功能:
平均数
find函数(查找一个字符串,在另一个字符串中出现的起始位置):需要输入两个关键词,一个是“要查找的字符串”,另一个是要查找字符串所在单元格位置。
left函数(截取字符串):left(字符串所在单元格位置,从左边开始到某位置进行截取)
right函数(截取字符串):right(字符串所在单元格位置,从右边开始到某位置进行截取)
mid函数(截取字符串):mid(字符串所在单元格位置,开始位置,截取长度)
6、数据排序
7、异常值处理
对异常值处理一般用到数据透视表。
数据透视表数据透视表的原理是对数据分组(split)、应用函数(apply)、组合结果(combine)的实现。
二、数据分析 或 构建模型
多表关联查询Vlookup
如何使用Vlookup按条件查找数据vlookup(找什么,在哪找,第几列,是准确查找还是近似查找)
注意:“在哪找”中,选中的全部数据中第一列数据是我们要查找的值所在的列。
”第几列“是指所选择的区域的列,并非整个数据表中的列。
准确找(一般来说都是准确找):0 近似匹配:1
当有重复数据的时候,如何利用辅助列查找重复数据如何利用Vlookup对数据分组Excel中三种引用:绝对引用($A$1)、相对引用(A1)、混合引用($A1 A$1)三、数据实战
以下数据来源于阿里巴巴云天池
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45
共由两个表格数据组成,第一个为购买商品表,第二个为婴儿信息表。
1、明确问题
哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?
2、理解数据
3、数据清洗
首先,将数据另存为备份便于操作,以下操作皆在备份数据上操作。
(1)选择子集
这两个文档的子集都精简筛选此处不用操作
(2)列名重命名
将英文关键词改为中文关键词。
(3)删除重复值
表一中有重复值27项,进行了删除处理
表二中未发现重复值
(4)缺失值处理
通过分别选择每一列,发现表1中的除商品属性这一字段的行数有29803行外,其他字段的行数均为29945行,商品属性这一字段缺失数据有142行。
表2各字段均为954行,没有缺失值。
这里我们选择删除缺失值的方法对缺失值进行处理。
(5)数据格式一致化处理
两张数据表中都有日期数据,首先需要检查并处理其格式为“日期”格式。
利用数据-分列功能处理日期数据,使得变为规格化日期:


(6)多表关联
由于填写婴儿信息表数据的用户相对于表一中的用户来说特别少,故在解决和处理有关婴儿信息表数据时,直接在婴儿信息表中利用vlookup函数对表1、表2通过多表查询合并为统一的一张表格,并筛选出能够匹配的数据。
首先,在婴儿信息表中添加一列购买时间,用vlookup函数将表1中对应用户ID的购买时间vlookup到表2中:

添加字段:采用(购买日期-出生日期)/365的方法得出用户的年龄(需要注意的是:即使购买日期在出生日期之前也是符合业务实际的,可以将其划分为未出生)

4、数据分析建立模型
哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?
通过数据透视表可以发现,选择商品一级分类和购买数量这两个字段,得出商品一级分类28为购买率最高的商品

在得出商品一级分类28为购买率最高的产品的前提下,先通过数据筛选功能,筛选商品一级分类28的产品,再通过筛选功能得出商品一级分类28下的最畅销的二级分类商品是50012788。
