秩和检验

来自决策链云智库
Wilcoxon Test.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
秩和检验Wilcoxon Test.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Wilcoxon Test
功能主类别数据分析
英文缩写WilcTest
功能亚类别非参数检验
节点类型数据挖掘
开发语言R
节点简介

秩和检验是一种非参数检验。目的是推断两个总体分布的位置是否有差别。检验是通过将所有观察值(或每对观察值差的绝对值)按照从小到大的次序排列,每一观察值(或每对观察值差的绝对值)按照次序编号,称为秩(或秩次)。对两组观察值(配对设计下根据观察值差的正负分为两组)分别计算秩和进行检验。

秩和检验的条件需要样本互相独立,但样本总体不受分布限制,可以不满足正态分布。

用途:非参数的统计方法,用于比较两个独立样本的中位数。数据不满足正态分布或方差齐性假设。

参数:选择连续型数值因变量,和分组变量

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点Friedman检验
下一节点Ridit分析



威尔科克森符号秩检验是一种非参数统计假设检验,用于检验基于数据样本的人口位置,或使用两个匹配样本比较两个人口的位置。[1] 单样本版本的目的与学生t检验的单样本版本类似。[2] 对于两个匹配的样本,它是一种配对差异检验,类似于配对的学生t检验(也称为“匹配对t检验”或“依赖样本t检验”)。当人口均值不是关注的重点时,例如当人们希望检验一个人口的中位数是否为非零,或者一个人口的样本大于另一个人口的样本的概率是否超过50%时,威尔科克森检验可以是t检验的一个好的替代。

历史

这项检验以Frank Wilcoxon(1892-1965)的名字命名,他在一篇论文中提出了它和独立样本的秩和检验[3] Sidney Siegel(1956)在他的有影响力的非参数统计教科书中推广了这个测试。[4] Siegel使用符号T表示测试统计量,因此,这个测试有时被称为威尔科克森T检验

测试程序

符号秩检验有两种变体。从理论上看,单样本测试更为基础,因为通过将数据转换为单样本测试的情况来进行配对样本测试。然而,符号秩检验的大多数实际应用来自配对数据。

对于配对样本测试,数据由样本[math](X_1, Y_1), \dots, (X_n, Y_n)[/math]组成。每个样本是一对测量值。在最简单的情况下,测量值是在区间尺度上的。然后它们可以被转换为实数,并且通过用它们的差[math]X_i - Y_i[/math]替换每对数字[math](X_i, Y_i)[/math]将配对样本测试转换为单样本测试。[5] 一般来说,必须能够对这些对之间的差异进行排名。这要求数据必须在一个有序度量尺度上,这种尺度比序数尺度携带更多信息,但可能比区间尺度少。[6]

单样本测试的数据是一组实数样本[math]X_1, \dots, X_n[/math]。为简单起见,假设样本具有不同的绝对值,并且没有样本等于零。(零和平局引入了几个复杂情况;见下文。)按以下方式进行测试:[7][8]

1. 计算[math]|X_1|, \dots, |X_n|[/math]。 2. 排序[math]|X_1|, \dots, |X_n|[/math],并使用这个排序列表分配排名[math]R_1, \dots, R_n[/math]:最小观测值的排名为一,下一个最小的排名为二,依此类推。 3. 让[math]\operatorname{sgn}[/math]表示符号函数:[math]\operatorname{sgn}(x) = 1[/math]如果[math]x > 0[/math],[math]\operatorname{sgn}(x) = -1[/math]如果[math]x < 0[/math]。检验统计量符号秩和[math]T[/math]:[math]T = \sum_{i=1}^N \operatorname{sgn}(X_i)R_i.[/math] 4. 通过将[math]T[/math]与其在零假设下的分布进行比较,产生一个[math]p[/math]值。

排名的定义是这样的:[math]R_i[/math]是[math]j[/math]的数量,对于这些[math]j[/math],[math]|X_j| \le |X_i|[/math]。此外,如果[math]\sigma \colon \{1, \dots, n\} \to \{1, \dots, n\}[/math]是这样的:[math]|X_{\sigma(1)}| < \dots < |X_{\sigma(n)}|[/math],那么[math]R_{\sigma(i)} = i[/math]对所有[math]i[/math]都是如此。

符号秩和[math]T[/math]与其他两个检验统计量密切相关。正秩和[math]T^+[/math]和负秩和[math]T^-[/math]由以下定义:[9] [math]\begin{align} T^+ &= \sum_{1 \le i \le n,\ X_i > 0} R_i, \\ T^- &= \sum_{1 \le i \le n,\ X_i < 0} R_i. \end{align}[/math] 由于[math]T^+ + T^-[/math]等于所有排名的和,即[math]1 + 2 + \dots + n = n(n + 1)/2[/math],这三个统计量之间的关系如下:[10] [math]\begin{align} T^+ &= \frac{n(n + 1)}{2} - T^- = \frac{n(n + 1)}{4} + \frac{T}{2}, \\ T^- &= \frac{n(n + 1)}{2} - T^+ = \frac{n(n + 1)}{4} - \frac{T}{2}, \\ T &= T^+ - T^- = 2T^+ - \frac{n(n + 1)}{2} = \frac{n(n + 1)}{2} - 2T^-. \end{align}[/math] 因为[math]T[/math]、[math]T^+[/math]和[math]T^-[/math]携带相同的信息,任何一个都可以用作检验统计量。

正秩和和负秩和有助于测试背后理论的其他解释。定义“沃尔什平均”[math]W_{ij}[/math]为[math]\tfrac12(X_i + X_j)[/math]。那么:[11] [math]\begin{align} T^+ = \#\{W_{ij} > 0 \colon 1 \le i \le j \le n\}, \\ T^- = \#\{W_{ij} < 0 \colon 1 \le i \le j \le n\}. \end{align}[/math]

零假设和备选假设

单样本检验

单样本威尔科克森符号秩检验可用于检验数据是否来自具有特定中位数的对称总体。[12] 如果已知总体中位数,则可以用它来检验数据是否关于其中心对称。[13]

为正式解释零假设和备选假设,假设数据由来自分布[math]F[/math]的独立同分布样本组成。如果[math]X_1[/math]和[math]X_2[/math]是IID[math]F[/math]-分布的随机变量,定义[math]F^{(2)}[/math]为[math]\tfrac12(X_1 + X_2)[/math]的累积分布函数。设置 [math]p_2 = \Pr(\tfrac12(X_1 + X_2) > 0) = 1 - F^{(2)}(0).[/math] 假设[math]F[/math]是连续的。单样本威尔科克森符号秩和检验是针对以下零假设对一下其中一个备选假设的检验:[14]

零假设[math]H[/math]0:[math]p_2 = \tfrac12[/math]
单边备选假设[math]H[/math]1:[math]p_2 > \tfrac12[/math]。
单边备选假设[math]H[/math]2:[math]p_2 < \tfrac12[/math]。
双边备选假设[math]H[/math]3:[math]p_2 \neq \tfrac12[/math]。

正在测试的备选假设取决于检验统计量是用来计算单边还是双边的[math]p[/math]-值(如果是单边的,哪一边)。如果[math]\mu[/math]是固定的、预先确定的量,那么该检验也可以用作测试[math]\Pr(\tfrac12(X_1 + X_2) > \mu)[/math]的值,通过从每个数据点减去[math]\mu[/math]。

上述零假设和备选假设是基于[math]2T^+ / n^2[/math]是[math]p_2[/math]的一致估计量这一事实而得出的。[15] 它也可以从[math]T^+[/math]和[math]T^-[/math]的沃尔什平均描述中得出,因为该描述表明威尔科克森检验与应用于沃尔什平均集的符号检验相同。[16]

限制感兴趣的分布可以导致更易于解释的零假设和备选假设。一个较温和的限制性假设是[math]F^{(2)}[/math]具有唯一的中位数。这个中位数被称为[math]F[/math]的伪中位数;一般来说,即使三者都存在,它也不同于均值和中位数。如果可以在零假设和备选假设下都假设存在唯一的伪中位数,那么这些假设可以重新陈述为:

零假设[math]H[/math]0:[math]F[/math]的伪中位数位于零点。
单边备选假设[math]H[/math]1:[math]F[/math]的伪中位数位于[math]\mu < 0[/math]。
单边备选假设[math]H[/math]2:[math]F[/math]的伪中位数位于[math]\mu > 0[/math]。
双边备选假设[math]H[/math]3:[math]F[/math]的伪中位数位于[math]\mu \neq 0[/math]。

最常见的,零假设和备选假设是在对称性假设下陈述的。固定一个实数[math]\mu[/math]。定义[math]F[/math]为“关于[math]\mu[/math]对称”,如果一个具有[math]F[/math]分布的随机变量[math]X[/math]满足对所有[math]x[/math]有[math]\Pr(X \le \mu - x) = \Pr(X \ge \mu + x)[/math]。如果[math]F[/math]有密度函数[math]f[/math],那么[math]F[/math]关于[math]\mu[/math]对称当且仅当对每个[math]x[/math]有[math]f(\mu + x) = f(\mu - x)[/math]。[17]


如果可以假定[math]F[/math]的零假设和备择假设分布是对称的,那么零假设和备择假设简化为以下形式:[18]

零假设 [math]H[/math]0
[math]F[/math] 关于 [math]\mu = 0[/math] 对称。
单侧备择假设 [math]H[/math]1
[math]F[/math] 关于 [math]\mu < 0[/math] 对称。
单侧备择假设 [math]H[/math]2
[math]F[/math] 关于 [math]\mu > 0[/math] 对称。
双侧备择假设 [math]H[/math]3
[math]F[/math] 关于 [math]\mu \neq 0[/math] 对称。

如果此外 [math]\Pr(X = \mu) = 0[/math],那么 [math]\mu[/math] 是 [math]F[/math] 的中位数。如果这个中位数是唯一的,那么威尔科克森符号秩和检验成为中位数位置的检验。[19] 当 [math]F[/math] 的均值被定义时,均值是 [math]\mu[/math],并且该检验也是均值位置的检验。[20]

备择分布是对称的限制非常严格,但对于单侧检验,这一限制可以放宽。如果一个服从 [math]F[/math] 分布的随机变量 [math]X[/math] 满足对于所有 [math]x \ge 0[/math],[math]\Pr(X < -x) \ge \Pr(X > x)[/math],那么可以说 [math]F[/math] 是“相对于零对称分布的随机较小”。类似地,如果对于所有 [math]x \ge 0[/math],[math]\Pr(X < -x) \le \Pr(X > x)[/math],那么 [math]F[/math] 是“相对于零对称分布的随机较大”。然后威尔科克森符号秩和检验也可以用于以下零假设和备择假设:[21][22]

零假设 [math]H[/math]0
[math]F[/math] 关于 [math]\mu = 0[/math] 对称。
单侧备择假设 [math]H[/math]1
[math]F[/math] 是相对于零对称分布的随机较小。
单侧备择假设 [math]H[/math]2
[math]F[/math] 是相对于零对称分布的随机较大。

可以放宽数据为独立同分布(IID)的假设。每个数据点可以来自不同的分布,只要所有分布被假定为连续并且关于一个共同点 [math]\mu_0[/math] 对称。只要给定其他观测值的条件分布关于 [math]\mu_0[/math] 对称,数据点就不需要是独立的。[23]

成对数据检验

由于成对数据检验源于成对差异的计算,其零假设和备择假设可以从单样本检验中导出。在每种情况下,它们成为关于差异 [math]X_i - Y_i[/math] 行为的断言。

设 [math]F(x, y)[/math] 是对 [math](X_i, Y_i)[/math] 成对的联合累积分布。如果 [math]F[/math] 是连续的,那么最一般的零假设和备择假设用以下方式表达: [math]p_2 = \Pr(\tfrac12(X_i - Y_i + X_j - Y_j) > 0)[/math] 并且与单样本情况相同:

零假设 [math]H[/math]0
[math]p_2 = \tfrac12[/math]
单侧备择假设 [math]H[/math]1
[math]p_2 > \tfrac12[/math]。
单侧备择假设 [math]H[/math]2
[math]p_2 < \tfrac12[/math]。
双侧备择假设 [math]H[/math]3
[math]p_2 \neq \tfrac12[/math]。

像单样本情况一样,在某些限制下,检验可以解释为伪中位数的差异是否位于零的检验。

一种常见的限制是对差异的对称分布。在这种情况下,零假设和备选假设是:[24][25]

零假设 [math]H[/math]0:观测值 [math]X_i - Y_i[/math] 关于 [math]\mu = 0[/math] 对称。
单侧备选假设 [math]H[/math]1:观测值 [math]X_i - Y_i[/math] 关于 [math]\mu < 0[/math] 对称。
单侧备选假设 [math]H[/math]2:观测值 [math]X_i - Y_i[/math] 关于 [math]\mu > 0[/math] 对称。
双侧备选假设 [math]H[/math]3:观测值 [math]X_i - Y_i[/math] 关于 [math]\mu \neq 0[/math] 对称。

这些也可以更直接地用原始对(X_i, Y_i)来表达:[26]

零假设 [math]H[/math]0:观测对 [math](X_i, Y_i)[/math] 是“可交换的”,意味着 [math](X_i, Y_i)[/math] 和 [math](Y_i, X_i)[/math] 有相同的分布。等效地,[math]F(x, y) = F(y, x)[/math]。
单侧备选假设 [math]H[/math]1:对于某些 [math]\mu < 0[/math],对 [math](X_i, Y_i)[/math] 和 [math](Y_i + \mu, X_i - \mu)[/math] 有相同的分布。
单侧备选假设 [math]H[/math]2:对于某些 [math]\mu > 0[/math],对 [math](X_i, Y_i)[/math] 和 [math](Y_i + \mu, X_i - \mu)[/math] 有相同的分布。
双侧备选假设 [math]H[/math]3:对于某些 [math]\mu \neq 0[/math],对 [math](X_i, Y_i)[/math] 和 [math](Y_i + \mu, X_i - \mu)[/math] 有相同的分布。

零假设的可交换性可以源于一个对照组和处理组的配对实验。在每对内随机分配处理和对照,使得观测值可交换。对于可交换分布,[math]X_i - Y_i[/math] 与 [math]Y_i - X_i[/math] 有相同的分布,因此,在零假设下,分布关于零对称。[27]

由于单样本检验可以作为单侧随机优势检验,因此配对差异的Wilcoxon检验可以用来比较以下假设:[28]

零假设 [math]H[/math]0:观测对 [math](X_i, Y_i)[/math] 是可交换的。
单侧备选假设 [math]H[/math]1:差异 [math]X_i - Y_i[/math] 在随机上小于关于零对称的分布,即对于每个 [math]x \ge 0[/math],[math]Pr(X_i < Y_i - x) \ge \Pr(X_i > Y_i + x)[/math]。
单侧备选假设 [math]H[/math]2:差异 [math]X_i - Y_i[/math] 在随机上大于关于零对称的分布,即对于每个 [math]x \ge 0[/math],[math]Pr(X_i < Y_i - x) \le \Pr(X_i > Y_i + x)[/math]。

零值和平局

在真实数据中,有时会出现样本 [math]X_i[/math] 等于零或一对 [math](X_i, Y_i)[/math] 中 [math]X_i = Y_i[/math]。也可能出现平局样本。这意味着对于某些 [math]i \neq j[/math],我们有 [math]X_i = X_j[/math](在单样本情况下)或 [math]X_i - Y_i = X_j - Y_j[/math](在配对样本情况下)。这在离散数据中尤为常见。当这种情况发生时,上述定义的检验程序通常是未定义的,因为无法唯一排列数据。(唯一的例外是如果有一个样本 [math]X_i[/math] 为零且没有其他零或平局。)因此,需要修改检验统计量。

零值

Wilcoxon最初的论文并没有讨论观测值(或在配对样本情况下的差异)等于零的问题。然而,在后来的调查中,他建议从样本中去除零值。[29] 然后可以对结果数据应用标准的符号秩检验,只要没有平局。这现在被称为“缩减样本程序”。

Pratt[30] 观察到,缩减样本程序可能会导致悖论行为。他给出了以下示例。假设我们处于单样本情况,并有以下十三个观测值:

0, 2, 3, 4, 6, 7, 8, 9, 11, 14, 15, 17, −18。

缩减样本程序移除了零。对剩余数据,它分配了符号秩:

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, −12。

这有一个单侧 [math]p[/math]-值 [math]55/2^{12}[/math],因此样本在任何显著性水平 [math]\alpha < 55/2^{12} \approx 0.0134[/math] 下都不显著为正。Pratt认为,减少观测值当然不应该使数据看起来更正。然而,如果零观测值减少不到2,或者所有观测值减少不到1,那么符号秩变为:

−1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, −13。

此段落拥有单边的‘[math]’p‘[/math]’值为 [math]109/2^{13}[/math]。因此,在任何显著性水平 [math]\alpha > 109/2^{13} \approx 0.0133[/math] 下,样本将被判断为显著正向。悖论在于,如果 [math]\alpha[/math] 在 [math]109/2^{13}[/math] 和 [math]55/2^{12}[/math] 之间,则‘[math]’减少‘[/math]’一个不显著的样本会使其显得显著‘[math]’正向‘[/math]’。

因此,Pratt 提出了‘[math]’零值符号秩程序‘[/math]’。这一程序在对样本进行排名时包括零值。然而,它在测试统计量中排除了零值,或等同于定义 [math]\operatorname{sgn}(0) = 0[/math]。Pratt 证明,与减少样本程序不同,零值符号秩程序具有几种理想行为:[31] 1. 增加观察值不会使显著正向的样本变得不显著,也不会使不显著的样本变得显著负向。 2. 如果观察值的分布是对称的,那么测试不拒绝的 [math]\mu[/math] 值将形成一个区间。 3. 一个样本是显著正向、不显著或显著负向的,当且仅当在零值被赋予任意非零符号时是这样,如果且仅如果零值被替换为绝对值小于任何非零观察值的非零值时是这样。 4. 对于固定的显著性阈值 [math]\alpha[/math],以及随机化以恰好达到 [math]\alpha[/math] 水平的测试,判断一组观察值显著正向(或显著负向)的概率是观察值的非减少(或非增加)函数。 Pratt 指出,当零值符号秩程序与平均排名程序结合用于解决平局时,得到的测试是针对替代假设的一致测试,即对于所有 [math]i \neq j[/math],[math]\Pr(X_i + X_j > 0)[/math] 和 [math]\Pr(X_i + X_j < 0)[/math] 至少相差一个固定常数,且该常数与 [math]i[/math] 和 [math]j[/math] 无关。[32]

零值符号秩程序的缺点是,当出现零值时,测试统计量的零假设分布会发生变化,因此无法再使用‘[math]’p‘[/math]’值表。

当数据位于等距的Likert scale上时,零值符号秩程序比减少样本程序更有可能保持第一类错误率。[33]

从统计效率的角度看,处理零值没有完美的规则。Conover 找到了一些反例,显示 Wilcoxon 和 Pratt 的方法都不是绝对优于对方的。在比较一个离散均匀分布与一个从左到右概率线性增加的分布时,Pratt 的方法优于 Wilcoxon 的。在测试以零为中心的二项分布,以查看每次伯努利试验的参数是否小于 [math]\tfrac12[/math] 时,Wilcoxon 的方法优于 Pratt 的。[34]

平局

当数据没有平局时,使用排名 [math]R_i[/math] 来计算测试统计量。在存在平局时,排名没有定义。解决这一问题有两种主要方法。

处理平局的最常见程序,也是 Wilcoxon 最初推荐的,被称为‘[math]’平均排名‘[/math]’或‘[math]’中位排名程序‘[/math]’。这个程序为观察值分配 1 到 ‘[math]’n‘[/math]’ 之间的数字,只有当两个观察值的绝对值相同时,才会分配相同的数字。即使这些数字的集合不等于 [math]\{1, \dots, n\}[/math](除非没有平局),这些数字通常被称为排名。分配给一个观察值的排名是它在所有可能的方式中打破平局时可能的排名的平均值。一旦分配了排名,就像通常一样计算测试统计量。[35][36]

例如,假设观测值满足 [math] |X_3|< |X_2|= |X_5|< |X_6|< |X_1|= |X_4|= |X_7|. [/math] 在这种情况下,[math]X_3[/math] 被赋予排名 1,[math]X_2[/math] 和 [math]X_5[/math] 被赋予排名 [math](2 + 3) / 2 = 2.5[/math],[math]X_6[/math] 被赋予排名 4,[math]X_1[/math]、[math]X_4[/math] 和 [math]X_7[/math] 被赋予排名 [math](5 + 6 + 7) / 3 = 6[/math]。正式地,假设存在一组观测值,它们都具有相同的绝对值 [math]v[/math],[math]k - 1[/math] 个观测值的绝对值小于 [math]v[/math],而 [math]\ell[/math] 个观测值的绝对值小于或等于 [math]v[/math]。如果打破了具有绝对值 [math]v[/math] 的观测值之间的平局,那么这些观测值将占据 [math]k[/math] 到 [math]\ell[/math] 的排名。因此,平均排名程序将为它们赋予排名 [math](k + \ell) / 2[/math]。

在平均排名程序下,存在平局时的零分布(null distribution)是不同的。[37][38] 平均排名程序也有一些类似于对零值的简化样本程序的缺点。平均排名程序可能判断一个样本显著为正;但是增加某些值以打破平局,或以任何方式打破平局,会导致测试判断样本不显著。[39][40] 然而,将所有观测值增加相同的量不能将显著为正的结果变成不显著的结果,也不能将不显著的结果变成显著为负的结果。此外,如果观测值分布对称,则测试不拒绝的 [math]\mu[/math] 值形成一个区间。[41][42]

处理平局的另一种常见选择是打破平局的程序。在打破平局的程序中,观测值在集合 [math]\{1, \dots, n\}[/math] 中被赋予不同的排名。观测值被赋予的排名取决于其绝对值和打破平局的规则。绝对值较小的观测值总是被赋予较小的排名,就像在标准的秩和检验中一样。打破平局的规则用于为具有相同绝对值的观测值分配排名。打破平局规则的一个优点是它们允许使用标准表格来计算‘[math]p[/math]’值。[43]

‘随机打破平局’[math]’[/math]随机打破平局。在随机打破平局下,没有平局时的零分布是相同的,但是测试的结果不仅取决于数据,还取决于额外的随机选择。通过可能的随机选择平均排名得到平均排名程序。[44] 也可以报告所有随机选择中拒绝的概率。[45] 随机打破平局的优点是,当一些观测值增加时,样本被判断为显著为正的概率不会减少。[46] ‘保守打破平局’[math]’[/math]有利于零假设打破平局。在执行单边检验时,[math]T[/math] 的负值趋向于更显著,平局通过赋予负观测值较低的排名和正观测值较高的排名来打破。当测试使 [math]T[/math] 的正值显著时,平局以相反的方式打破,当 [math]T[/math] 的大绝对值显著时,平局被打破以使 [math]|T|[/math] 尽可能小。Pratt 观察到,当平局可能时,保守打破平局程序“大概是低功效的,因为它相当于有利于零假设打破所有平局。”[47]

平均排名程序可能与打破平局程序不一致。Pratt 给出了以下示例。[48] 假设观测值为:

1, 1, 1, 1, 2, 3, −4。

平均排名程序为这些赋予有符号排名

2.5, 2.5, 2.5, 2.5, 5, 6, −7。

这个样本在单边水平 [math]\alpha = 14 / 2^7[/math] 下显著为正。另一方面,任何打破平局的规则都会赋予排名

1, 2, 3, 4, 5, 6, −7。

在相同的单边水平 [math]\alpha = 14 / 2^7[/math] 下,这不显著。

处理平局的另外两种选择是基于平均打破平局的结果。在‘平均统计量’[math]’[/math]方法中,测试统计量 [math]T[/math] 是为打破平局的每一种可能方式计算的,最终统计量是打破平局的统计量的平均值。在‘平均概率’[math]’[/math]方法中,‘[math]p[/math]’值是为打破平局的每一种可能方式计算的,最终的‘[math]p[/math]’值是打破平局的‘[math]p[/math]’值的平均值。[49]

计算零假设下的分布

计算p值需要知道在零假设下[math]T[/math]的分布。这个分布没有封闭式公式。[50] 但是,对于小的[math]n[/math]值,可以精确计算这个分布。在假设数据关于零对称的零假设下,每个[math]X_i[/math]为正的可能性与为负的可能性一样大。因此,在零假设下[math]T = t[/math]的概率等于产生[math]T = t[/math]的符号组合数除以可能的符号组合数[math]2^n[/math]。这可以用来计算在零假设下[math]T[/math]的精确分布。[51]

通过考虑所有可能性来计算[math]T[/math]的分布需要计算[math]2^n[/math]个和,这对于除了最小的[math]n[/math]之外的所有情况都是不可行的。然而,存在一个有效的递归公式用于计算[math]T^+[/math]的分布。[52][53] 定义[math]u_n(t^+)[/math]为使得[math]T^+ = t^+[/math]的符号组合数。这等于和为[math]t^+[/math]的[math]\{1, \dots, n\}[/math]子集数。递归的基础情况是[math]u_0(0) = 1[/math],对于所有的[math]t^+ \neq 0[/math],[math]u_0(t^+) = 0[/math],以及对于所有的[math]t < 0[/math]或[math]t > n(n + 1)/2[/math],[math]u_n(t^+) = 0[/math]。递归公式为 [math]u_n(t^+) = u_{n - 1}(t^+) + u_{n - 1}(t^+ - n)[/math]。 这个公式成立是因为和为[math]t^+[/math]的[math]\{1, \dots, n\}[/math]子集要么不包含[math]n[/math],在这种情况下它也是[math]\{1, \dots, n - 1\}[/math]的子集,要么它确实包含[math]n[/math],在这种情况下从子集中移除[math]n[/math]会产生一个和为[math]t^+ - n[/math]的[math]\{1, \dots, n - 1\}[/math]子集。在零假设下,[math]T^+[/math]的概率质量函数满足[math]\Pr(T^+ = t^+) = u_n(t^+) / 2^n[/math]。函数[math]u_n[/math]与整数划分函数密切相关。[54]

如果[math]p_n(t^+)[/math]是在有[math]n[/math]个样本时,在零假设下[math]T^+ = t^+[/math]的概率,则[math]p_n(t^+)[/math]满足一个类似的递归:[55] [math]2p_n(t^+) = p_{n-1}(t^+) + p_{n-1}(t^+ - n)[/math] 具有类似的边界条件。累积分布函数[math]\Pr(T^+ \le t^+)[/math]也有一个递归公式。[56]

对于非常大的[math]n[/math],即使上述递归也太慢了。在这种情况下,可以近似零假设下的分布。[math]T[/math]、[math]T^+[/math]和[math]T^-[/math]的零分布是渐近正态的,其均值和方差为:[57] [math]\begin{align} \mathbf{E}[T^+] &= \mathbf{E}[T^-] = \frac{n(n + 1)}{4}, \\ \mathbf{E}[T] &= 0, \\ \operatorname{Var}(T^+) &= \operatorname{Var}(T^-) = \frac{n(n + 1)(2n + 1)}{24}, \\ \operatorname{Var}(T) &= \frac{n(n + 1)(2n + 1)}{6}. \end{align}[/math]

可以使用埃奇沃斯展开得到更好的近似。使用四阶埃奇沃斯展开表明:[58][59] [math]\Pr(T^+ \le k) \approx \Phi(t) + \phi(t)\Big(\frac{3n^2 + 3n - 1}{10n(n + 1)(2n + 1)}\Big)(t^3 - 3t),[/math] 其中 [math]t = \frac{k + \tfrac12 - \frac{n(n + 1)}{4}}{\sqrt{\frac{n(n + 1)(2n + 1)}{24}}}[/math]。 这些展开的技术基础相当复杂,因为传统的埃奇沃斯展开适用于IID连续随机变量的和,而[math]T^+[/math]是非同分布离散随机变量的和。然而,最终结果是,上述展开的误差为[math]O(n^{-3/2})[/math],就像传统的四阶埃奇沃斯展开一样。[58]

[math]T[/math]的矩生成函数有精确公式:[60] [math]M(t) = \frac{1}{2^n}\prod_{j=1}^n (1 + e^{jt})[/math]。

当存在零值并使用带符号等级零处理程序,或者当存在关系并使用平均等级处理程序时,[math]T[/math]的零分布会改变。Cureton 为这种情况导出了一个正态近似。[61][62] 假设原始观察数为[math]n[/math],零的数量为[math]z[/math]。平局修正是 [math]c = \sum t^3 - t[/math], 其中求和是关于每一组关系观察的大小[math]t[/math]。[math]T[/math]的期望仍然是零,而[math]T^+[/math]的期望是 [math]\mathbf{E}[T^+] = \frac{n(n + 1)}{4} - \frac{z(z + 1)}{4}[/math]。 如果 [math]\sigma^2 = \frac{n(n + 1)(2n + 1) - z(z + 1)(2z + 1) - c/2}{6}[/math], 那么 [math]\begin{align} \operatorname{Var}(T) &= \sigma^2, \\ \operatorname{Var}(T^+) &= \sigma^2 / 4. \end{align}[/math]

替代统计量

Wilcoxon[63]最初定义了Wilcoxon秩和统计量为[math]\min(T^+, T^-)[/math]。早期的作者如Siegel[64]遵循了Wilcoxon的定义。这适用于双边假设检验,但不能用于单边检验。

除了将秩赋予1至[math]n[/math]之间,还可以将秩赋予0至[math]n - 1[/math]之间。这些被称为[math]修改秩[/math]。[65] 修改后的带符号秩和[math]T_0[/math]、修改后的正秩和[math]T_0^+[/math]和修改后的负秩和[math]T_0^-[/math],与[math]T[/math]、[math]T^+[/math]和[math]T^-[/math]类似地定义,但使用修改秩代替普通秩。两个独立的[math]F[/math]分布随机变量之和为正的概率可以估计为[math]2T_0^+/(n(n - 1))[/math]。[66] 当仅考虑连续分布时,这是[math]p_2[/math]的最小方差无偏估计。[67]

示例

[math]i[/math] [math]x_{2,i}[/math] [math]x_{1,i}[/math] [math]x_{2,i} - x_{1,i}[/math]
[math]\operatorname{sgn}[/math] [math]\text{abs}[/math]
1 125 110 1 15
2 115 122  –1 7
3 130 125 1 5
4 140 120 1 20
5 140 140   0
6 115 124  –1 9
7 140 123 1 17
8 125 137  –1 12
9 140 135 1 5
10 135 145  –1 10
按绝对差值排序
[math]i[/math] [math]x_{2,i}[/math] [math]x_{1,i}[/math] [math]x_{2,i} - x_{1,i}[/math]
[math]\operatorname{sgn}[/math] [math]\text{abs}[/math] [math]R_i[/math] [math]\operatorname{sgn} \cdot R_i[/math]
5 140 140   0    
3 130 125 1 5 1.5 1.5
9 140 135 1 5 1.5 1.5
2 115 122  –1 7 3  –3
6 115 124  –1 9 4  –4
10 135 145  –1 10 5  –5
8 125 137  –1 12 6  –6
1 125 110 1 15 7 7
7 140 123 1 17 8 8
4 140 120 1 20 9 9

[math]\operatorname{sgn}[/math]是符号函数,[math]\text{abs}[/math]是绝对值,[math]R_i[/math]是排名。注意,对3和9的绝对值是平等的。它们会被排名为1和2,因此每个都得到这些排名的平均值,1.5。

[math]W = 1.5+1.5-3-4-5-6+7+8+9=9 [/math]
[math]|W| < W_{\operatorname{crit}(\alpha = 0.05,\ 9 \text{, 双边})} = 15 [/math]
[math] \therefore \text{未能拒绝 } H_0[/math],即成对差异的中位数与零不同。
这个结果的[math]p[/math]-值是[math]0.6113[/math]

效应量

为了计算带符号秩检验的效应量,可以使用秩-双列相关

如果报告了检验统计量[math]T[/math],则秩相关[math]r[/math]等于检验统计量[math]T[/math]除以总秩和[math]S[/math],即[math]r = T/S[/math]。 [68] 使用上述示例,检验统计量是[math]T = 9[/math]。样本大小为9的总秩和是[math]S = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9) = 45[/math]。因此,秩相关是9/45,所以[math]r = 0.20[/math]。

如果报告了检验统计量[math]T[/math],计算秩相关的另一种等效方法是用两个秩和之间的比例差异,即Kerby(2014)的简单差异公式。[68] 继续当前示例,样本大小为9,所以总秩和是45。[math]T[/math]是两个秩和中较小的一个,因此[math]T[/math]是3 + 4 + 5 + 6 = 18。仅从这些信息中,就可以计算出剩余的秩和,因为它是总和[math]S[/math]减去[math]T[/math],在这种情况下是45 − 18 = 27。接下来,两个秩和的比例是27/45 = 60%和18/45 = 40%。

节点使用的R语言示例代码

秩和检验

wilcox.test(x, ...)
kruskal.test(x, ...)


节点使用指南

  • 非参数统计检验方法
  • 用于比较两组或多组数据的中心趋势,通常是中位数
  • 不假定数据来自特定分布(如正态分布)
  • 在数据不满足参数检验的正态分布假设时非常有用

方法选择

  • Mann-Whitney检验:用于比较两个独立样本的中位数是否相等
  • Wilcoxon配对样本检验:用于配对样本或重复测量数据
  • Kruskal-Wallis检验:比较三个或多个独立样本组的中心趋势

参数配置

  • 分组变量:Mann-Whitney检验选择二分类变量。Wilcoxon配对检验选择二分类变量,而且两组之间是配对的,数量一样。Kruskal-Wallis检验选择多分类变量
  • 统计变量:选择连续型数值变量,每个变量会做一次秩和检验
  • 检验方法:Mann-Whitney检验,Wilcoxon配对样本检验,Kruskal-Wallis检验
  • 置信区间百分比:输入百分比,95%置信区间就是0.95
  • 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 分组变量和统计变量要规避复用
  • 此算法兼容空值

注意事项

  • 当样本量很大时,Mann-Whitney U检验的结果更加可靠。
  • Mann-Whitney检验分组变量必须是二分类
  • Wilcoxon配对样本检验分组变量必须是二分类,而且两组变量数量必须一致

引用

  1. Conover, W. J. (1999). Practical nonparametric statistics (3rd ed.). John Wiley & Sons, Inc. ISBN 0-471-16068-7., p. 350
  2. "Wilcoxon signed-rank test - Handbook of Biological Statistics". www.biostathandbook.com. Retrieved 2021-09-02.
  3. Wilcoxon, Frank (Dec 1945). "Individual comparisons by ranking methods" (PDF). Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.
  4. Siegel, Sidney (1956). Non-parametric statistics for the behavioral sciences. New York: McGraw-Hill. pp. 75–83. ISBN 9780070573482.
  5. Conover, p. 352
  6. Siegel, p. 76
  7. Conover, p. 353
  8. Pratt, John W.; Gibbons, Jean D. (1981). Concepts of Nonparametric Theory. Springer-Verlag. ISBN 978-1-4612-5933-6., p. 148
  9. Pratt and Gibbons, p. 148
  10. Pratt and Gibbons, p. 148
  11. Pratt and Gibbons, p. 150
  12. Conover, pp. 352–357
  13. Hettmansperger, Thomas P. (1984). Statistical Inference Based on Ranks. John Wiley & Sons. ISBN 0-471-88474-X., pp. 32, 50
  14. Pratt and Gibbons, p. 153
  15. Pratt and Gibbons, pp. 153–154
  16. Hettmansperger, pp. 38–39
  17. Pratt and Gibbons, pp. 146–147
  18. Pratt and Gibbons, pp. 146–147
  19. Hettmansperger, pp. 30–31
  20. Conover, p. 353
  21. Pratt and Gibbons, pp. 155–156
  22. Hettmansperger, pp. 49–50
  23. Pratt and Gibbons, p. 155
  24. Conover, p. 354
  25. Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (2014). Nonparametric Statistical Methods (Third ed.). John Wiley & Sons, Inc. ISBN 978-0-470-38737-5., pp. 39–41
  26. Pratt and Gibbons, p. 147
  27. Pratt and Gibbons, p. 147
  28. Hettmansperger, pp. 49–50
  29. Wilcoxon, Frank (1949). Some Rapid Approximate Statistical Procedures. American Cynamic Co.
  30. Pratt, J. (1959). "Remarks on zeros and ties in the Wilcoxon signed rank procedures". Journal of the American Statistical Association. 54 (287): 655–667. doi:10.1080/01621459.1959.10501526.
  31. Pratt, p. 659
  32. Pratt, p. 663
  33. Derrick, B; White, P (2017). "Comparing Two Samples from an Individual Likert Question". International Journal of Mathematics and Statistics. 18 (3): 1–13.
  34. Conover, William Jay (1973). "On Methods of Handling Ties in the Wilcoxon Signed-Rank Test". Journal of the American Statistical Association. 68 (344): 985–988. doi:10.1080/01621459.1973.10481460.
  35. Pratt and Gibbons, p. 162
  36. Conover, pp. 352–353
  37. Pratt and Gibbons, p. 164
  38. Conover, pp. 358–359
  39. Pratt, p. 660
  40. Pratt and Gibbons, pp. 168–169
  41. Pratt, pp. 661–662
  42. Pratt and Gibbons, p. 170
  43. Pratt and Gibbons, pp. 163, 166
  44. Pratt, p. 660
  45. Pratt and Gibbons, p. 166
  46. Pratt and Gibbons, p. 171
  47. Pratt, p. 661
  48. Pratt, p. 660
  49. Gibbons, Jean D.; Chakraborti, Subhabrata (2011). Nonparametric Statistical Inference (Fifth ed.). Chapman & Hall/CRC. ISBN 978-1-4200-7762-9., p. 194
  50. Hettmansperger, p. 34
  51. Pratt and Gibbons, pp. 148–149
  52. Pratt and Gibbons, pp. 148–149, pp. 186–187
  53. Hettmansperger, p. 171
  54. Pratt and Gibbons, p. 187
  55. Pratt and Gibbons, p. 187
  56. Pratt and Gibbons, p. 187
  57. Pratt and Gibbons, p. 149
  58. 58.0 58.1 Kolassa, John E. (1995). "Edgeworth approximations for rank sum test statistics". Statistics and Probability Letters. 24 (2): 169–171. doi:10.1016/0167-7152(95)00164-H.
  59. Hettmansperger, p. 37
  60. Hettmansperger, p. 35
  61. Cureton, Edward E. (1967). "The normal approximation to the signed-rank sampling distribution when zero differences are present". Journal of the American Statistical Association. 62 (319): 1068–1069. doi:10.1080/01621459.1967.10500917.
  62. Pratt and Gibbons, p. 193
  63. Wilcoxon, p. 82
  64. Siegel, p. 76
  65. Pratt and Gibbons, p. 158
  66. Pratt and Gibbons, p. 159
  67. Pratt and Gibbons, p. 191
  68. 68.0 68.1 Kerby, Dave S. (2014), "The simple difference formula: An approach to teaching nonparametric correlation.", Comprehensive Psychology, 3: 11.IT.3.1, doi:10.2466/11.IT.3.1

查找其他类别的节点,请参考以下列表