新闻中心

数据分析——描述统计分析(描述数据分析类型有哪些?)

2023-05-18
浏览次数:
返回列表

搞定数据分析的必会技能之一,就是统计学中的描述统计分析。一起来学习下吧!

希望通过以下内容的学习,知晓描述统计分析是什么(What)?怎么用(How)?有什么意义(Why)?

一、描述统计分析概述

1、含义

【来自度娘的解释】

描述性统计:是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。

描述性统计分析:是对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。

数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。

【我的理解】

描述统计分析是一种了解数据整体情况的工具。运用相关指标公式可了解数据的集中趋势、波动程度以及分布情况。最终通过图表的方式实现数据可视化,便于直观感受数据分析结果,为后续业务决策提供数据依据。

2、描述统计分析涉及的指标

众数(M):数据中出现次数最多的数字,即频数最大的数值。众数可能不止一个,众数不仅能用于数值型数据,还可用于非数值型数据,不受极值影响。

极差(R):极差=最大值-最小值,又称全距、误差,极差描述了数据的波动范围,但无法比较,且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。

平均值(μ):均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。

中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此对极值缺乏敏感性。

四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值即为四分位数。

第一四分位数 (Q1),又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数 (Q3),又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

四分位数可用于识别异常值。(一般通过箱线图表示数据更直观)

标准差(σ):也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。标准差越大,波动越大,平均数相同的,标准差未必相同。

标准分:又叫标准差的标准化值,每个数据距离平均值多少个标准差。标准分是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。一般结合正态分布使用。

切比雪夫定理2.0正态分布中,至少有68%的数据,位于平均数1个标准差范围内。正态分布中,至少有95%的数据,位于平均数2个标准差范围内。正态分布中,至少有99.8%的数据,位于平均数3个标准差范围内。

3、常用的数据指标公式及应用

二、数据分析-案例初试

拿到数据,如何进行业务问题分析? (学前思考,仅供参考)

明确数据来源(时间、地点、数据来源),判断数据的准确性;明确数据集各字段含义; 理解业务指标含义;明确业务问题,对问题进行拆解;基于业务问题建立指标体系;出具数据分析报告,提出问题解决建议。

1、获取数据集

基于电商淘宝和天猫购买婴儿用品数据集(表1 购买商品 & 表2 婴儿信息)进行业务问题分析。

注:数据来源阿里巴巴天池(https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

2、理解/明确数据集各字段含义(含义对应的取值范围唯一)

【表1 购买商品】

用户ID:APP注册后自动生成的数字编码,用于区分购买用户,一户一码,不重复。商品编号:用于区分售卖商品,一个商品编号对应同类同款商品。商品一级分类:商品大类,例如辅食、玩具、服装等。商品二级分类:大类下的细分商品,例如,辅食—奶粉、玩具-布偶玩具、服装-睡衣等。商品属性:商品的全方位信息(参数规格),例如奶粉的品牌、产地等购买数量:商品购买数量。购买时间:下单时间。

【表2 婴儿信息】

用户ID:同上,可与上表进行数据匹配,合并。出生日期:baby出生时间。可用于分析baby年龄对不同商品的需求程度。性别:0男性;1女性。可用于分析婴儿性别对不同商品的需求程度。

3、描述统计分析的应用

4、运用数据集字段可以反映哪些业务问题?能否通过统计指标实现图表可视化数据结果?

【思考】

数据分析的核心是解决业务问题,那么如何确定业务问题?如何有逻辑的分析业务问题?如何建立业务指标体系?让我们带着这些疑问继续学习吧。

搜索