新闻中心

毕业论文怎么做数据分析(一)(论文数据如何处理)

2023-05-01
浏览次数:
返回列表

本节对数据分析常用的统计术语进行说明,比如P值、量表、非量表、数据类型、样本等基本的统计术语总结归纳如表1-1所示。

表1-1常用的统计术语

编 号术 语相关名词1P值显著性、显著性差异、0.01水平显著、0.05水平显著2量表李克特量表、定量数据3非量表分类数据、多选题4数据类型定量数据、分类数据5样本样本量、无效样本

P值,也称显著性值或者Sig值,用于描述某件事情发生的概率情况,其取值范围介于0~1, 通常情况下P值有三个判断标准,分别是0.01 0.05和O.l.在绝大多数情况下, 如果P值小于0.01,则说明某件事情的发生至少有99%的把握;如果P值小于0.05 (并且大于 0.01 ),则说明某件事情的发生至少有95%的把握;如果P值小于0.1,则说明某件事情的发生至少 有90%的把握。0.01或者0.05这两个标准的使用频率最高,0.1这个标准则很少使用。

在统计语言表达上,如果P小于0.01,则称作在0.01水平上显著。例如研究人员分析X对丫 是否存在影响时,如果x对应的户P为0.00 (由于小数位精度的要求,因而为0.00),则说明x对y 有影响关系这件事情至少有99%的把握,统计语言描述为X在0.01水平上呈现出显著性。

例如研究人员想研究不同性别人群的购买意愿是否有明显的差异,如果对应的P值为0.01,则 说明呈现出0.05水平的显著性差异,即说明不同性别人群的购买意愿有着明显的差异,而且对此类 差异至少有95%的把握。绝大多数研究均希望P值小于0.05,即说明研究对象之间有影响、有关系 或者有差异等,.但个别地方需要P值大于0.05,比如方差齐性检验时需要P值大于0.05 (此处P值 大于0.05说明方差不相等)。

(2)量表,通常是指李克特量表,其用于测量样本人群对于某件事情的态度或者看法情况。通 常量表会由很多题项构成,并且类似于“非常同意”、“同意”、“不一定”、“不同意”、“非常不同意”, 或者“非常满意”、“比较满意”、“中立”、“比较不满意”、“非常不满意”等。量表被广泛使用于学 术研究的各个领域,并且大多数统计方法均只适用于量表,比如信度分析、效度分析、探索性因子 分析、结构方程模型等。量表的尺度形式有多种,常见是五级量表,即有五个答项,另外还会有四 级量表、七级量表或者九级量表等,四级量表或者九级量表的使用频率相对较少。

(3 )非量表,本此名词为除量表(或者类似量表)外的题项,比如多选题项或者基本事 实现状题项等。非量表题项更多地用于了解基本事实现状,研究人员可以通过此类题项分析研究当 前现状情况,并且提出相关建议措施。

(4)数据类型的分类标准并不统一,将数据分为两类,分别是定量数据和分类数据,如 表1-2所示。

表1-2定量数据和分类数据

术 语说 明举 例定量数据数字大小具有比较意义你对天猫的满意度情况如何?(非常不满意、比较不满意、 中立、比较满意、非常满意)分类数据数字大小代表分类性别(男和女).专业(文科、理科、工科)

定量数据和分类数据的区别在于数字大小是否具有比较意义,具体针对问卷来讲,定量数据在 大多数情况下指量表数据,即类似于非常不满意、非常满意、非常同意、非常不同意等题项数据。 通常1代表非常不满意,2代表比较不满意,3代表中立,4代表比较满意,5代表非常满意。数值 大小具有比较意义,数值越高,代表样本的满意度越高。

分类数据,此名词代表类别数据,对应非量表数据,其特点为数值大小基本没有比较 意义,或者比较意义不大或很小。例如1代表男性,2代表女性,数值大小仅为区分类别,而不能理 解为“数值越大越女性”。对于收入、年龄等数据,比如收入共有四个选项,分别是1为5000元以 下,2为5000-1万元,3为1万~2万元,4为2万元以上。此类数据虽然是数值越高代表收入水平 越高,但更多时候会将其看作分类数据,相当于将样本人群分成四个不同的类别。

(5)样本,通俗地讲即为填写问卷的人,对于样本的数量,统计上并没有统一标准,通常情况 下为量表题项的5倍或者10倍即可。有时研究人员需要的样本比较特殊,例如需要样本具有企业高 管背景,此时样本量要求会较少。从经验上看,如果要求样本的学历为硕士研究生,那么多数情况 下样本量需要大于200个,如果要求样本的学历为本科生,那么样本量需要高于100个。样本常见 要求说明如表1-3所示。

表1-3样本常见要求说明

问卷/学历样本量的要求量表类问卷量表题项的5倍或者10倍非量表类问卷常见100个以上(最好200个以上)本科常见10()个以上硕士常见200个以上企业常见200个以上

如果样本中有大篇幅题项没有填写、多数题项均填写为同样一个答案、样本本身并不具有研究 的背景性质(比如研究对象为"90后”,但部分样本为"80后”,则“80后”为无效样本)、研究人 员认为某部分样本的填写存在逻辑问题等,均被称作无效样本,在分析问卷之前需要将无效样本进 行删除或者筛选。

下面介绍问卷研究涉及的描述分析方法及名词术语。描述分析通常分为频数分析和描述性分析, 相关术语名词解释如表1-4所示。

表1-4频数分析和描述性分析

编 号方 法名词术语(1)频数分析有效样本、频数、百分比、累积百分比(2)描述性分析平均值、标准差、中位数

(1 )样本的基本特征描述(频数分析)通常会涉及样本、有效样本、频数、百分比、累积百分 比、有效百分比等术语。样本,简单来讲即回答问卷的人;有效样本指筛选掉无效样本(比如随意 填写问卷或者没有资格填写问卷等)后剩下的样本;频数指某选项选择的个数,比如男性人数为200 个;累积百分比是指多项百分比累积相加,比如男性和女性加起来的百分比为100%。如果问卷里面 有个别样本没有填写,那么会涉及问卷的有效百分比,比如总共有400份问卷,其中有200名男性 和199名女性,还有一个样本没有填写,那么这里男性的有效百分比就应该等于200+399X100%。

(2)描述性分析通常会涉及平均值、标准差、中位数等术语名词。平均值通常用于描述样本的 整体态度情况;而标准差用于判断样本的态度波动情况;中位数指样本的中间态度情况。平均值与 中位数是不同的概念,中位数是指所有的选择答案按升序排序后处于中间的那个值,如果数据中有 异常值,那么使用中位数来描述整体水平更为合理。例如填写样本的收入时,有个别样本收入非常 高,此时平均值就有可能失去意义,原因在于平均值很可能受个别样本的干扰,而此时使用中位数 表示所有样本收入的整体水平更为合理。分析问卷数据时,通常不会涉及异常值,因而平均值的使 用频率会更高。

信度和效度分析

下面对问卷信度分析和效度分析涉及的名词术语进行阐述,如表1-5所示。

表1-5信度分析和效度分析涉及的名词术语

编 号方 法名词术语1信度分析克隆巴赫系数、信度系数、a系数、项删除后的克隆巴赫系数、项删除后 的a系数、校正的项总计相关性(CITC)、预测试2效度分析内容效度、结构效度、探索性因子分析、验证性因子分析

(I )信度分析在于研究数据是否真实可靠,通俗地讲,即研究样本是否真实回答了问题。通常 情况下,信度分析只能分析量表题项。信度分析涉及的相关名词术语包括克隆巴赫系数、项删除后的克隆巴赫系数、校正的项总计相关性,针对信度分析涉及的名词术语归纳如表1-6所示.

表1-6信度分析涉及的名词术语

名词术语说 明克隆巴赫系数用于测量信度水平,常见标准是髙于0,7项删除后的克隆巴赫系数删除某题项后的信度系数.常用于预测试校正的项总计相关性(CITC值)题项之间的相关关系,常用于预测试

克隆巴赫系数,也称信度系数、内部一致性系数、Cronbach a系数或者a系数,此值一般大于 0.7即可。对于项删除后的克隆巴赫系数,如果某个维度或变量对应着5个题项,那么删除某题项后 余下的4个题项的信度系数值即被称作“项删除后的克隆巴赫系数”,通常此指标用于预测试。预测 试指在初步设计问卷之后,收集小量样本(通常在100个以内)进行信度分析或者效度分析,以便 发现题项可能存在的问题,并且对问卷进行修正处理,得到正式问卷。校正的项总计相关性,也称 CITC值,例如某变量对应5个题项,那么这5个题项之间的相关关系情况可以使用此指标进行表示, 通常此值大于0.4即说明某题项与另外的题项之间有着较高的相关性,预测试时通常会使用校正的项 总计相关性这一指标。

(2)效度分析用于研究题项是否有效地表达研究变量或者维度的概念信息,通俗地讲,即研究 题项设计是否合理,或者题项表示某个变量是否合适。通常情况下,效度分析只能分析量表题 针 对效度分析,通常会使用内容效度、结构效度(探索性因子分析)和结构效度(验证性因子分析) 进行效度验证。效度分析类型总结如表1-7所示,

表1-7效度分析类型

效度分析类型说 明内容效度使用文字描述量表设计的合理性结构效度(探索性因子分析)探索性因子分析结果.与专业预期进行对比结构效度(验证性因子分析)验证性因子分析判断量表是否合理

内容效度即使用文字叙述形式对问卷的合理性、科学性进行说明。结构效度通常使用探索性因 子分析(EFA )进行验证,即通过探索性因子分析对题项进行分析,如果输出结果显示题项与变量 对应关系基本与预期一致,

搜索