新闻中心
属性数据分析 | 第二章-列联表-01-列联表的概率结构&2*2表比例的比较(列联表分析是什么)
第一章我们还是在讨论一元的情况,现在我们开始讨论Multi-variate的情形了。这里我们将研究两个属性变量之间关联性分析的问题。我们将介绍描述关联性的参数,以及这些参数的推断方法。
关于列联表,高中的时候我们就已经学过。现在我们假设有两个属性变量,分别用XX 和 YY 表示。我们令 II 表示 XX 的类别数,用 JJ 表示 YY 的类别数,我们把 IJIJ 种可能出现的结果放到 II 行 JJ列的长方形表中。于是,表的行代表着XX 的 II 种不同水平,列代表着 YY 的 JJ 种不同水平, IJIJ 个单元代表了 IJIJ 种可能出现的结果。

这样,在每个单元里填写相应结果计数的表叫做列联表。
交叉划分两个属性变量的列联表叫做双向列联表。
列联表的概率结构
1 联合概率,边缘概率以及条件概率
联合分布: πij=P(X=i,Y=j)\pi_{ij}=P(X=i,Y=j) 代表了 (X,Y)(X,Y) 落入第 ii 行第 jj 列的概率。 概率 πij\pi_{ij} 构成了 XX 与 YY 的联合分布,满足 ∑i,jπij=1\sum_{i,j}\pi_{ij}=1 。边缘分布:指联合概率按行或者列取和。行变量的分布,我们记为 {πi+}\{\pi_{i+}\} ,列变量的分布,我们记为 {π+j}\{\pi_{+j}\} 。样本联合分布的单元比例:我们之前用 π\pi 来表示总体的概率情况,对于样本,我们使用 pp 作为记号。 {pij}\{p_{ij}\}代表样本联合分布的单元比例。如果我们用{nij}\{n_{ij}\} 来表示单元的观测频数,那么单元比例与单元观测频数之间的关系为: pij=nij/np_{ij}=n_{ij}/n。条件概率:我们可以研究给定某一个变量时,另一个变量的分布情况。那么这个时候由于给定了其中一个变量,另一个变量的概率分布就是条件分布。例如,XX 是餐厅, YY 是早餐种类,给定了 X=X=南光,那么我们在南光选择不同早餐的概率构成的分布即条件分布。2 诊断检验 (Diagnostic Tests) 的敏感度 (sensitivity) 和特异度 (specificity)
我们去医院看病的时候,经常会得到“阳性”或者“阴性”的答复,这俩其实就是诊断检验的结果。可是,“阳性”就表明一定患病吗?“阴性”就表明一定平安无事吗?
为了评估诊断检验的精确性,我们需要用到条件概率。
敏感度(sensitivity):个体确实发病(上帝视角),诊断结果为阳性的概率。
特异度 (specificity):个体未患病(上帝视角),诊断结果为阴性的概率。为了用数学语言表达,我们先记 XX(类别1=患病,类别2=未患病) 代表个体的真实状态(即上帝视角),记YY (类别1=阳性,类别2=阴性)代表诊断检验的结果。
于是,敏感度= P(Y=1|X=1)P(Y=1|X=1) ,特异度= P(Y=2|X=2)P(Y=2|X=2) 。
令 πi=P(Y=1|X=i),i=1,2\pi_i=P(Y=1|X=i),i=1,2 ,那么就有敏感度为 π1\pi_1 ,特异度为 1−π21-\pi_2。其实这个有点像我们分类中的混淆矩阵的对角元。敏感度和特异度越高,那么诊断检验的效果就越好。
说到诊断检验,肯定就要召唤出我们的老朋友贝叶斯公式了。我们不可能拥有上帝视角,我们只能根据诊断检验的结果来反推自己确实患病的概率。倘若我去医院查出来自己 AA 呈阳性,可是现实中真正患病 AA的人非常少,这个时候,即使敏感度很高,确实患病的概率也会比较低。
我们可以来举一个例子。承接上边的记号 π1,π2\pi_1,\pi_2 ,现在令 γ\gamma 为现实生活中某种疾病 DD的个体患病概率。有一个人跑去诊断自己是否得了DD ,结果为阳性,那么这个个体从上帝视角看确实患病的概率 π∗\pi^*为多少呢?
根据贝叶斯公式,我们有: P(X=1|Y=1)=P(Y=1|X=1)P(X=1)P(Y=1)P(X=1|Y=1)=\frac{P(Y=1|X=1)P(X=1)}{P(Y=1)} ,于是 π∗=π1γπ1γ+π2(1−γ)\pi^*=\frac{\pi_1\gamma}{\pi_1\gamma+\pi_2(1-\gamma)}所以,当我们的 γ\gamma 很小的时候, π∗=π1π1+π2(1/γ−1)\pi^*=\frac{\pi_1}{\pi_1+\pi_2(1/\gamma-1)}会很小。由于绝大部分的人都没有这种病,那么这大部分正常人中的诊断失误π2\pi_2 便掩盖了极小部分真正患者中的正确诊断 π1\pi_1 ,这里我愿意把 (1/γ−1)(1/\gamma-1) 理解成对于误诊为阳性的加权。关于贝叶斯定理,这里还有两个经典的例子:
Monty Hall ProblemThree Prisoners Problem3 独立性
统计独立:如果对于 XX 的每一个水平, YY 的条件分布是相同的,那么我们说 XX 与 YY是独立的。当两个变量都是响应变量 (response variable) 的时候,我们可以用它们的联合分布来描述它们之间的关系,当然我们也可以用给定 XX 时候 YY 的条件分布来描述两者之间的关系。我们有 πij=πi+π+j\pi_{ij}=\pi_{i+}\pi_{+j} , i=1,...,I,j=1,...,Ji=1,...,I,j=1,...,J 。
2×22\times 2 表比例的比较
1 比例差
我们考虑两个变量:XX 与 YY ,每一个变量都有两种属性,我们不妨都用“成功”与“失败”来代表每一个变量的两种属性。其中,对于 XX ,其成功的概率我们记为 π1\pi_1 ,失败的概率我们记为 1−π11-\pi_1 ;对于 YY ,其成功的概率我们记为 π2\pi_2 ,失败的概率记为 1−π21-\pi_2 。
比例差:我们称 XX 与 YY 成功概率之差 π1−π2\pi_1-\pi_2 为比例差。由于 π1\pi_1 与 π2\pi_2都是概率,比例差落在−1-1 和 11 之间。当比例差为 00 的时候,表明成功与否与是 XX 还是 YY 独立。我们上边说的都是总体的情况,我们通常让 p1p_1 、 p2p_2 分别代表成功的样本比例,用 p1−p2p_1-p_2去估计π1−π2\pi_1-\pi_2 。我们将 XX 的样本量记为 n1n_1 ,将 YY 的样本量记为 n2n_2 ,倘若我们的 XX 与 YY 是独立的,那么 p1−p2p_1-p_2 的标准误的估计为 SE=p1(1−p1)n1+p2(1−p2)n2SE=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} 。
【Recall: Var[p1−p2]=Var[p1]+Var[p2]+2Cov[p1,p2]Var[p_1-p_2]=Var[p_1]+Var[p_2]+2Cov[p_1,p_2] ,由于 XX 与 YY 独立, Cov[p1,p2]Cov[p_1,p_2] 为 00 , p1=n11n1p_1=\frac{n_{11}}{n_1} ,于是 Var[p1]=π1(1−π1)n1Var[p_1]=\frac{\pi_1(1-\pi_1)}{n_1} ,同理有 Var[p2]=π2(1−π2)n2Var[p_2]=\frac{\pi_2(1-\pi_2)}{n_2} ,由于这里的 π1,π2\pi_1,\pi_2 都是上帝视角的,在大样本情况下我们用 p1p_1 代替 π1\pi_1 ,用 p2p_2 代替 π2\pi_2 ,于是就有了上边这个估计。】
[其实我们在数统中学习 π1−π2\pi_1-\pi_2 是否等于 00 的test的时候,选取的统计量是:Z=p1−p2pe(1−pe)/n1+pe(1−pe)/n2Z=\frac{p_1-p_2}{\sqrt{p_e(1-p_e)/n_1+p_e(1-p_e)/n_2}} ,这里 pe=n11+n12n1+n2p_e=\frac{n_{11}+n_{12}}{n_1+n_2} ,利用 zobservedz_{observed} 与 zα/2z_{\alpha/2} 进行对比,或者P-value来判断是否拒绝原假设。]
当然,我们还有一个大样本情况下的定理:
Theorem: LetXX follow Binomial (n1,π1)(n_1,\pi_1) , YY follow Binomial (n2,π2)(n_2,\pi_2) and XX and YYare independent. Whenn1n_1 and n2n_2 are sufficiently large, we have p1−p2−(π1−π2)π1(1−π1)/n1+π2(1−π2)/n2∼N(0,1)\frac{p_1-p_2-(\pi_1-\pi_2)}{\sqrt{\pi_1(1-\pi_1)/n_1+\pi_2(1-\pi_2)/n_2}} \sim N(0,1)在大样本情况下,我们用频率估计概率,于是我们选用的近似的π1−π2\pi_1-\pi_2 的100(1−α)%100(1-\alpha)\% Wald置信区间为 (p1−p2)±zα/2SE(p_1-p_2)\pm z_{\alpha/2}SE。一般来说,如果这个置信区间并没有包含00 ,那么就意味着我们会在 α%\alpha\% 的显著性水平下拒绝原假设。
2 相对风险
当我们固定样本量大小的时候,趋近于 00 或者 11 的两组比例的比例差通常比在 [0,1][0,1] 中间的两组比例的比例差更有意义。
相对风险: 2×22\times 2 表中,相对风险就是比率 π1/π2\pi_1/\pi_2 ,这是一个非负的实值。当 π1=π2\pi_1=\pi_2 的时候,比值是 11 。对于这个相对风险的解释,我们可以这样进行:假如 π1/π2=1.82\pi_1/\pi_2=1.82 ,我们就可以说 XX 成功的概率比 YY 成功的概率要高 82%82\%。(如果是具体情境的话,把名词替换一下就可以了。)当两个组的比例均靠近00 的时候,仅仅通过比例差来比较两个组可能会误导我们,这个时候相对风险就会好用一些。
对数相对风险的大样本置信区间为: log(p1/p2)±zα/21−p1n1p1+1−p2n2p2\log(p_1/p_2)\pm z_{\alpha/2}\sqrt{\frac{1-p_1}{n_1p_1}+\frac{1-p_2}{n_2p_2}},利用反对数变换就可以得到相对风险的真实区间。除非样本量非常大,样本相对风险的抽样分布具有强烈的偏倚。