新闻中心

实操案例!用Excel做一次数据分析(实操案例!用excel做一次数据分析报告)

2023-11-22
浏览次数:
返回列表

今天将对上篇文章中的实例(淘宝和天猫婴儿用品)进行数据分析实操,主要内容是:利用Excel进行数据清洗。

数据集来源:Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45

使用的工具是Excel。Excel是进行数据分析用得最多、最基本的工具,也是入门级最好的选择。下面内容是我用Excel2016对实例的数据进行分析。

一般来说,数据分析包括如下5个步骤:

1. 提出问题 ——2. 理解数据——3. 数据清洗——4. 数据分析 ——5. 数据可视化

以下是我对这次实例数据分析的具体步骤。

Step1:提出问题

-首先要明确这次数据分析的目的是什么?也就是为了解决什么问题?

我想解决的问题:

哪种商品最热销?哪种商品相对冷门?

2.商品销售量是否随年份/季度/月份/节日等因素变化?变化情况是如何?

3.平台用户的购买忠诚度如何?

4.婴幼儿性别在商品需求中的影响?不同性别和不同年龄段的婴幼儿的对不同类别商品的购买需求各是怎样的?

Step2:理解数据

-理解表格中数据的各个字段表示什么?

通过上篇实例初探,已基本对两张表格字段理解,那么结合我想分析的问题,哪些字段有助于我的分析呢?

通过商品类别+购买数量 ,我们可以了解各类商品的销售情况,判断购买者喜好,清楚知道哪类商品更热销。通过用户编号+购买日期,我们可以对同一用户每次的购买情况进行统计分析,了解其偏好,了解用户的复购情况和购买忠诚度;通过购买日期+购买数量,我们可以了解商品在各时间段的销售情况,分析出每年/季度/月的销售情况,包括一些节日期间的效应,进而可调整售卖策略和供货需求;通过性别+购买数量,可以分析看出购买男女婴儿商品的比例。通过年龄分组+商品类别,可以分析看出各年龄段对不同商品类别商品的需求大小。

Step3:数据清洗

-数据清洗即数据预处理,目的是去掉无效、重复数据,以符合我们的需求,得到想要的数据。数据清洗的步骤:

选择子集;列名重命名;删除重复值;缺失值处理;一致化处理;数据排序;异常值处理

1)选择子集

隐藏一些用不到的字段(注意不是删除,需保证数据的完整性)。

在这里,商品属性 只是帮助了解一些商品信息,对分析帮助不大,选择做隐藏处理。

2)列名重命名

该步骤在上篇文章实例初探部分已经完成,全部列名已替换为中文。

3)删除重复值

对两张表进行重复记录删除,通过数据-数据工具-删除重复值检验,并未发现重复记录。

购买商品数据重复值删除婴儿信息数据重复值删除

4)缺失值处理

对两张表进行查找-定位条件-空值,未发现缺失值(表一存在的缺失值在“商品属性”列,不在数据分析范围内,忽略)。

一般缺失值的处理有4种方法:

① 通过人工手动补全(适用于缺失值比较少时);

此种情况下,使用Ctrl+Enter快捷键,处理在不连续的单元格中同时输入同一个数据或公式时很好用。

② 删除缺失的数据(无法判断缺失值或者删除数据对分析无大的影响);

③ 用平均值代替缺失值;

④ 用统计模型计算出的值去代替缺失值。

5)一致化处理

这里需分别对购买日期、出生日期通过数据-分列方法实现日期格式的一致化处理。

处理前的购买日期数值型转日期型处理后的购买日期

用同样的方法对婴儿出生日期进行处理。

处理后的婴儿出生日期

检验日期格式后,若还有格式不统一,可通过设置单元格格式-自定义-yyyy/m/d来处理。

另一处需要处理的就是婴儿表中的性别字段,为了更加清晰直观,现对表格中出现的性别(0女性;1男性;2未知的性别)进行查找-替换处理:

处理后的婴儿性别

6)数据排序

对表1中的 购买时间 进行升序排列:

升序排列后的购买日期

对表2中的 婴儿出生日期 进行升序排列:

升序排列后的婴儿出生日期

7)异常值处理

在上一步排序后,婴儿出生日期一列中,1984/06/16是明显的异常值,对这个字段做删除处理。

异常值处理后的婴儿表

利用vlookup函数实现跨表匹配:

这里通过vlookup函数实现跨表的字段匹配,将表1购买信息和表2婴儿信息通过 用户id 这一桥梁搭建起联系。

在表2中添加 购买日期,年龄 列,利用vlookup函数计算婴儿的年龄。

“购买日期”列匹配的注意点:

之前有几个同学私我关于这个“购买日期”这列vlookup后的问题(如下图),为什么这个显示的结果不是日期,而是一串数字?

某同学遇到的问题

统一作下解答:本身你应用vlookup函数没有问题,只是这一列的时间格式需要调整,目前是数字型。在设置单元格格式里面,分类改为日期型即可。别忘了刷新下数据~

“年龄”、“性别”列匹配的函数应用注意点:DATEDIF(start_date,end_date,unit)——计算年龄(购买日期-婴儿出生日期)IFERROR——处理#NUM!和#N/A异常值,将其中异常的单元格值替换为“未出生”(适用于处理日期相减为负,原因是购买日期可能早于婴儿出生日期)利用DATEDIF函数计算年龄

应用函数后得到的年龄:

用同样的方法在表1中新增 性别,年龄 列:

进一步对年龄进行分组,在表1中继续增加 年龄分组 列。

步骤:

1.建立数据分组

年龄分组

2.应用函数

'年龄分组' 列函数插入

3.组合结果

年龄分组组合结果

Step4:数据分析或者构建模型

-如何使用数据透视表处理数据,得到我们想要解决的业务问题?

Q1:此次数据分析的数据集的时间范围?

利用数据-数据分析,对表1 购买日期 这一列进行描述统计,得到如下结果:

结论:通过上描述统计,我们可以知道我们用来数据分析的数据集包含的所有数据是用户在2012/7/2-2015/2/5期间的消费记录。

Q2:各类商品的销售情况?哪种商品最热销?哪种商品相对冷门?

以 商品类别 为行标签,购买数量 为列标签,降序排列,数据透视可得:

结论:上数据透视分析可知,商品品类为50008168的销售量最高,最热销;商品类为38的销售量最少,相对冷门。

Q3: 商品销售量是否随年份/季度/月份/节日等因素变化?变化情况是如何?

以购买日期 为行标签,购买数量 为计数项以及以购买日期 为行标签,月 为列标签 ,购买数量 为计数项,数据透视分别可得:

结论:上第一张数据透视表分析可知,每年的商品销售量随季度呈现递增趋势,第四季度销售量最高;在第二张数据透视表中可知,在统计时间范围内,除去15年,总销售量逐年在增加,14年整年的销售量是最高的。且对比每年的月份销售量,发现每年11月销售量稳居最高,可结合其他因素考虑是双十一的缘故,节日促销等策略促进了销售量的提升。

Q4: 用户的忠诚度是怎样的?

以 商品类别 为行标签,购买日期 为列标签,用户ID 为计数项,数据透视可得:

结论:从上数据透视分析知,大多数用户是一次性购买。降序排序后可看出,最高纪录的购买次数4只出现在一位用户身上,且该用户购买记录集中在13年这一年中,此后几年中无记录。针对这种情况,商家需制定新的营销策略,提高顾客的回购率和购买数量。

Q5: 婴幼儿性别在商品需求中的影响?

以性别 为行标签,购买数量为计数项,降序排列可得:

结论:从上数据透视分析知,除去未知性别的数据,购买女婴商品的数量高于男婴商品数量,女婴商品相对更热销,需求更大一些,商家可继续深入挖掘这一块的营销方案。

Q6: 不同性别的婴儿对不同商品种类的需求又各自是怎样的?

以 性别 为行标签,商品类别 为列标签,购买数量 为计数项,数据透视后可得:

结论:上数据透视分析知,除去未知性别的数据,女婴和男婴商品中,两者对商品类别为50008168的购买需求最大,对38类别商品需求最少,也可见50008168类别商品更受用户喜爱,最热销。

Q7: 不同年龄段的婴儿对不同商品种类的需求是怎样的?

以 商品类别为行标签,年龄分组 为列标签,购买数量 为计数项,数据透析可得:

结论:上数据透视分析可知,从购买数量看,婴儿期(0岁)的需求量最大。另外,从各类别具体可看出,50008168类别商品受各个年龄段的婴幼儿喜爱。

Step5:数据可视化

-数据可视化是与他人交流自己的研究成果时最好的展现方式,利用图表进行直观明了的展示。

这部分内容不做详细描述,最终可视化结果见下面的分析报告展示~

附可视化总结:

图表绘制的几个原则:1.数据标记一般不用 2.注意标签不要使用斜体,倾斜字体会使阅读速度变慢 3.删除不必要的网格、图例、按钮等 4.保持颜色一致(首选蓝色) 5.元素要对齐(按左上对齐)绘制图表的一般步骤:1.选中数据透视表中数据,在插入一栏中“推荐的图表”选择合适的图表类型; 2.将数据与图表分开:新建一工作表,选中上生成的图表-右击剪切粘贴至新工作表中; 3.按照上图表绘制原则对图表进行简化; 4.进而对图表进行优化,选中图表-右击选择“设置图表区域格式”-填充“无填充”-线条“无线条”; 5.全选图表-填充背景色“白色”(不建议使用其他颜色); 6.进而对图表配色进行优化(会首选蓝色,注意使用颜色需克制因为丰富多彩而窜则多种颜色的冲动); 7.再最上方添加标题、对字体(中文:微软雅黑 英文和数字:Arial)和元素对齐方式(按左上)设置; 8.在图表下方添加数据来源。

此案例分析最终输出的分析报告:

P:在学习用Excel进行数据分析,尤其是清洗过程中,肯定会遇到不熟悉的操作,比如函数的使用,记得要善用搜索功能~

搜索