新闻中心
CPDA数据分析师学习之传统数据分析方法
在谈论大数据分析之前,让我们回顾一下那些传统的数据分析方法。传统的数据分析是利用统计方法对数据进行分析;集中、提取和细化隐藏在一批原始数据集中的有用数据;并找出研究对象的内在规律,使数据价值最大化。这对于制定国家发展计划、预测商业客户需求、了解企业的市场趋势都起到了重要作用。大数据分析是一种数据量更大的特殊数据分析。因此,许多传统的数据分析方法在大数据分析中仍然适用。下面将分析几种具有代表性的传统数据分析方法,其中许多方法来自统计学和计算机科学。
因素分析的目的是用少数几个因素来解释许多因素之间的关系。该方法将几个密切相关的特征组合成一个因子,然后利用其中的几个因子来揭示原始数据的大部分信息。
聚类分析是一种根据某些特征对对象进行分类的统计方法,使同一类别的对象之间具有较高的相似性。这是一种无监督的研究方法。
相关分析是一种识别所记录现象之间关系规律的方法,如相关、相关依赖和相互制约。根据研究结果,决策者可以计划进行相应的预测和控制。一般来说,这种关系可以分为两种类型,即功能关系和相关性关系。函数反映了现象之间的严格依赖关系,也称为确定依赖关系。相比较而言,相关性是指一些不确定或不精确的依赖关系。一个变量的数值可能与其他几个变量的数值相对应,这个数值在其平均值周围呈现有规律的波动。
回归分析是一种揭示一个变量和其他一些变量之间相关性的数学工具。回归分析确定了被随机性或噪声所隐藏的变量之间的依赖关系,从而将变量之间复杂的、不确定的相关性转化为简单的、规则的相关性。
A/B测试也称为桶测试。它是一种方法,旨在确定一种方法,以提高目标变量的比较测试组。但是,在大数据场景中,需要执行和检查大量的测试。
统计分析是以统计理论为基础的,即应用数学的一个分支。在统计理论中,基于概率论建立随机性和不确定性模型,为大数据提供描述和推断。目前,统计分析被广泛应用于许多领域,包括经济学和医疗保健。
数据挖掘是指从大量的、不完整的、有噪声的和随机的数据中提取隐藏的、未知的、但可能有价值的信息。2006年IEEE数据挖掘系列国际会议选出了10个最具影响力的数据挖掘算法。它们包括C4.5、k-means、SVM、Apriori、EM、Naïve Bayes和Cart。这些算法主要来自于机器学习,涵盖了分类、聚类、回归、统计学习等。