新闻中心
探索性数据分析
探索性数据数据,英文全称是Exploratory data analysis,英文简称是EDA。探索性数据分析究竟是什么,它又在数据分析中扮演什么样的地位呢?
在正式讲解探索性数据分析之前,我们首先需要了解一下数据分析的分类。数据分析按照不同的标准,可以有不同的分类。如果按照数据分析的思维模式或者目的,我们可以将数据分析划分为描述性分析、预测性分析和指导性分析。如果我们按照数据分析采用的方法或者说是数据分析的步骤,我们可以将其分为描述性数据分析、探索性数据分析和验证性数据分析。
描述性数据分析应该是最简单的一种数据分析了。描述性数据分析是采用计算统计值、绘制图表等方法,来发现数据表层的规律!预测性数据分析是采用因果分析、回归分析、相关分析等方法,在基于过去已发生的事情的基础上对未来进行预测。指导性数据分析,英文名称是prescriptive analysis,又被译为规范性数据分析,主要运用运筹科学的方法,对企业的最优行动给出建议。例如,如何实现网页广告的最优布局、如何实现企业的生产最优等问题,就属于规范性数据分析。验证性数据分析是在提出假设的基础之上,根据一些统计推断的原理,来去验证提出的假设是否正确。验证性分析中常用的方法是参数估计、假设检验与方差分析。
好了,终于回到了我们的正题——探索性数据分析了。那么,探索性数据分析究竟是个什么东西呢?探索性数据分析,是由统计学家图基提出的一个概念,指的是在没有先验的假设或者很少的假设的情况下,通过数据的描述性统计、可视化、特征计算、方程拟合等手段,去发现数据的结构和规律的一种方法。在传统的统计分析中,统计学家总是会对数据的分布特征做出先验地判断,然后统计学家会根据样本的一些特征,进而去估计总体的特征。但是,在日常生活中,数据的分布往往并不是完美地符合统计学的要求的。这就会给我们的应用带来一定的偏差!探索性数据分析,要求的是让数据自身说话,从而避免了传统统计分析的弊端!
探索性数据分析出现以后,数据分析的过程便就分成了两个阶段:一是探索阶段,二是验证阶段!在探索阶段,我们侧重于去发现数据背后隐藏的模型或规律;而在验证阶段,我们侧重于去验证我们在数据探索阶段发现的模型是否正确。探索性数据分析,可以帮助我们发现隐藏在数据背后的一些特征,从而帮助我们更好地建模。探索性分析的运用需要我们掌握比较丰富的业务知识与其他领域的知识。
探索性数据分析与传统的验证性数据分析,在以下三点存在不同:
探索性数据分析通常不需要做出先验的假设,而验证性数据分析则通常需要做出先验的假设。探索性数据分析采用的方法通常比验证性数据分析简单。探索性数据分析采用的方法通常有基本统计量的计算、可视化、数据转换、中位数平滑等。特别声明一下,探索性数据分析,EDA,应该是不包括假设检验,假设检验应该属于验证性数据分析。在《利用Python进行数据清洗与预处理(4)》中,将假设检验归到了EDA里面应该是错误的。在一般的数据分析过程中,探索性分析通常在前,而验证性分析通常在后!好了,有关于探索性数据分析的内容就介绍到这里了!
参考资料:
《数据科学》朝乐门著 清华大学出版社 2016年版《Python数据分析》江雪松、邹静著 清华大学出版社 2020年版