新闻中心

小卫智库|SAS一学就废?手把手教你SAS结果解读,不看后悔系列!(sast检验怎么分析结果)

2023-08-09
浏览次数:
返回列表

小卫提醒

卫灿公卫研习社

备考干货持续更新中

23备考群

--不定期分享院校干货

--备考经验交流

--择校顾问老师在线答疑

本期主要内容:SAS统计方法解读--卡方检验、秩和检验

大数据时代,我们淹没在了数据的海洋中,获取大量数据已经变得十分容易,谁掌握了数据,谁就掌握了未来,要挖掘出这些数据背后的信息,数据分析工作尤为重要,因此我们可以利用SAS进行数据分析工作。

SAS简介

SAS的全称是Statistical Analysis System(统计分析系统,官网:http//:www.sas.com)。

1966年,美国农业部收集了大量的农业数据,因此需要一种在计算机上能够快速进行分析的统计程序,美国国立卫生研究院(NIH)资助的八所大学联合会为了解决这个问题研发了统计分析系统SAS,SAS就此诞生,这时的SAS系统仅有一般线性模型分析法,也只适用于IBM大型主机。

1972年,SAS软件及其使用手册首次对外公开租赁。1976年,SAS公司成立,总部位于美国北卡罗来纳州,开始从事SAS系统的开发、维护、销售和培训工作。80年代,SAS以多元架构为重点,使其可以运行在不同的操作系统。随后,SAS功能不断增强,版本不断更新,还打造了全新开放云平台SAS Viya云平台[1]。

40多年来,SAS一直占据着统计软件的高端市场,用户遍及金融、医药卫生、防御安全、政府和教育科研等领域。SAS功能强大,运行稳定,是最常用的统计分析软件之一,被誉为国际标准软件。

SAS系统的特点

(1)产品多元化;

(2)功能模块化;

(3)良好的可移植性——广泛用于各种操作环境;

(4)无论何种版本,何种界面,何种操作系统,SAS编程语言是一样的;

(5)采用输出交付系统(Output Delivery System,ODS)增强输出。

SAS统计方法解读--卡方检验

(1)卡方检验的三种类型

独立样本列联表资料的X2检验

例1:某研究者欲比较膳食干预(试验组)和普通健康教育(对照组)对糖尿病患者血糖的控制达标情况,将171例糖尿病患者随机分为两组,干预6个月后结果如下表。问两组控制空腹血糖的总体达标率有无差别?

表1 两组糖尿病患者空腹血糖达标率比较

解析:

两组或多组率之间比较常用的检验方法为卡方检验,本题属于两独立样本率的比较,在SAS中输入代码后,输出结果如下:

图1 2×2四格表数据

图2 2×2四格表检验统计量

图3 Fisher确切概率法结果

图1为2×2独立四格表资料的基本描述,每个格子中有3个数字,以第一个格子为例,“30”表示实际频数、“36.713”表示理论频数(计算公式为86×73÷171),“34.88”表示行所占百分比(计算公式为30÷86)。

图2为2×2独立四格表资料的各种统计量,包括卡方、似然比卡方检验、连续调整卡方、Mantel-Haenszel卡方、Phi系数、列联系数和Cramer V,我们主要关注第一个统计量卡方和第三个统计量连续调整卡方:

当样本量n≥40,且每个格子的理论频数T≥5,采用第一个统计量卡方;

当样本量n≥40,但有1≤T<5时,采用第三个统计量连续调整卡方;

当样本量n<40,或有T<1时,用四格表资料的Fisher确切概率法。

图3为Fisher确切概率法的结果。当需要采用Fisher确切概率法时选择该表。

本题中,从第一个表中可以看出本例n>40,理论频数T>5,所以采用第一个统计量卡方,从表中可得P=0.0379,按α=0.05的水准,差异具有统计学意义,可以认为两种方法的有效率不同。

配对设计资料的χ2检验

例2:某实验室分别用乳胶凝集法和免疫荧光法对58例可疑系统性红斑狼疮患者血清中抗核抗体进行测定结果见下表。问两种方法的检测结果有无差别?

表2 乳胶凝集和免疫荧光血清抗核抗体

检测结果表

解析:

两组或多组率之间比较常用的检验方法为卡方检验,本例为配对设计的计数资料,计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较,因此本例采用配对设计资料的卡方检验。SAS结果如下:

图4 配对设计卡方检验结果

b+c<40,所以应该用配对四格表校正公式。SAS输出结果表明:校正X2=5.78571,P=0.016157,差异具有统计学意义,可以认为两种方法的检测结果不同。

四格表资料的Fisher确切概率法

例3:某医师为研究乙型肝炎(乙肝)免疫球蛋白预防胎儿宫内感染HBV的效果,将33例乙型肝炎表面抗原(HBsAg)阳性孕妇随机分为预防注射组和非预防组,结果见下表。问两组新生儿的HBV总体感染率有无差别?

表3 两组新生儿HBV感染率的比较

解析:

当四格表资料中出现n<40或T<1,或得到的概率P≈α,需改用四格表资料的Fisher确切概率法。本题n<40,因此采用Fisher确切概率法。SAS输出结果如下:

图5 Fisher确切概率法结果

本题比较两组新生儿的HBV总体感染率有无差别,故应采用双侧检验,选择双侧检验结果。当需要进行单侧检验时,选择上面的单侧检验结果。由表可知,P=0.1210,差异没有统计学意义,尚不能认为预防注射与非预防的新生儿HBV的感染率不同。

SAS统计方法解读--秩和检验

例1:采用配对设计,用两种饲料喂8对大鼠后,测得其肝中维生素A的含量(IU/mg)如下表。问不同饲料大鼠肝中维生素A的含量有无差别?

表4 不同饲料组肝中维生素A的含量

解析:

SAS结果如下:

图6 正态性检验结果

图7 秩和检验统计量结果

图6是正态性检验的结果,因为该资料属于小样本数据,所以在正态性检验中我们读取Shapiro-Wilk的结果,P=0.0370,故资料不服从正态分布。

图7的检验结果给出了t检验、符号检验和符号秩检验,因为本例属于配对设计,并且不服从正态分布,所以我们主要关注符号秩检验的结果,P=0.0156,差异有统计学意义,可认为两种饲料大鼠肝中维生素A的含量不同。

例2:在某小学随机采集12岁男童和女童各10名的头发样品,检测发样中钙(Ca)含量(ug/g),数据如下表。男童与女童头发中Ca含量有无差异?

表5 12岁男童与女童发样中

Ca含量(ug/g)的比较

解析:

SAS结果如下:

图8 正态性检验结果

图9 正态性检验结果

图10 Wilcoxon秩和检验结果

图11 Kruskal-Wallis检验结果

图8为男童发样中Ca(µg/g)的含量的正态性检验结果,P=0.0002,故不服从正态分布。

图9为女童发样中Ca(µg/g)的含量的正态性检验结果,P=0.0088,故不服从正态分布。因此本例采用秩和检验。

图10为双样本检验结果,本题探讨男童与女童头发中Ca含量有无差异,应选择双侧检验结果,P=0.0376,差异具有统计学意义,可以认为12岁男童和女童头发中Ca(µg/g)的含量不同。如果组别数多于两组时,我们选择图11中的Kruskal-Wallis检验的结果进行分析。

例题来源:

医学统计学第5版、卫生统计学第8版

参考文献:

[1] 胡良平. SAS实验设计与统计分析[M].北京:人民卫生出版社,2010:45-170,565-573.

合作作者

晚晚老师

中国医科大学 公卫硕士

公卫研习社 教研组组员

搜索