Mantel-Haenszel检验

Mantel-Haenszel检验
节点状态	/ Win10及以上可用在V1.0部署
Mantel-Haenszel检验
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Mantel_Haenszel Test
功能主类别	数据分析
英文缩写	MHTest
功能亚类别	频数表检验
节点类型	数据挖掘
开发语言	R
节点简介
	Mantel-Haenszel检验和Fisher检验一样，行列总和固定，都是两分类变量组成的四格列联表。然后有k个二维列联表，相当于将数据从二维扩展到三维。适合三变量的交互，检验变量的独立性和关联性。三变量之间是否互相独立或者有显著的影响。用途：用于检验两个分类变量在控制一个或多个混淆因素后是否独立，评估在控制一个或多个其他变量后，两个分类变量是否独立。参数：选择多分类混杂变量和两个分类变量
端口数量与逻辑控制(PC)
Input-入口	5个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）不支持连接制图节点; 可生成数据表类型（推荐） ; P值 (P-Value); 自由度; 可配置参数例型变量列表; 下拉菜单; 文本输入; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■;
相关节点
上一节点	卡方检验
下一节点	McNemar检验
相关网站 ;

在统计学中，Cochran–Mantel–Haenszel检验（CMH）是一种用于分析分层或匹配的分类数据的测试方法。它使研究者能够在考虑分层的同时，检验二元预测因子或治疗与二元结果（如病例或对照状态）之间的关联。^[1] 与只能处理成对数据的McNemar检验不同，CMH检验可以处理任意大小的分层。这种检验是以William G. Cochran、Nathan Mantel和William Haenszel的名字命名的。^[2]^[3] 这个测试扩展到对分类响应和/或多个群体的研究，通常被称为Cochran–Mantel–Haenszel统计量。^[4] 它经常用于观察性研究中，其中无法控制对象随机分配到不同的治疗中，但可以测量混杂协变量。

定义

我们考虑一个二元结果变量，如病例状态（例如肺癌）和一个二元预测因子，如治疗状态（例如吸烟）。观察结果按分层分组。分层数据汇总为一系列2 × 2列联表，每个分层一个。第i个这样的列联表是：

	治疗	无治疗	行总计
病例	A_i	B_i	N_1i
对照组	C_i	D_i	N_2i
列总计	M_1i	M_2i	T_i

K个列联表的共同几率比定义为：

[math] R = {{\sum_{i=1}^K \frac{A_i D_i}{T_i}} \over {\sum_{i=1}^K {B_i C_i \over T_i}}},[/math]

零假设是治疗和结果之间没有关联。更确切地说，零假设是 [math]H_0: R=1[/math]，备择假设是 [math]H_1: R\ne 1[/math]。检验统计量是：

[math] \xi_\text{CMH} = \frac{ \left[ \sum_{i=1}^K \left(A_i - \frac{N_{1i} M_{1i}}{T_i}\right) \right]^2}{\sum_{i=1}^K {N_{1i}N_{2i}M_{1i}M_{2i} \over T_i^2(T_i-1)}}.[/math]

它在零假设下渐近地遵循一个具有1个自由度的 [math]\chi^2[/math] 分布。^[1]

子集稳定性

所有分层的标准赔率或风险比可以计算出来，得到风险比 [math]r_1, r_2, \dots, r_n[/math]，其中 [math]n[/math] 是分层的数量。如果去除了分层，就会有一个合并表的总体风险比；设这个为 [math]R[/math]。, May 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)^{[citation needed]}

人们通常期望，在不考虑分层条件下的事件风险被限制在分层中的最高和最低风险之间（或与赔率比相同）。很容易构造出这种情况不成立的例子，其中 [math]R[/math] 大于或小于所有的 [math]r_i[/math]，对于 [math]i\in 1,\dots, n[/math]。这与辛普森悖论相似但不完全相同，与辛普森悖论一样，很难解释这一统计量并据此决定政策。

Klemens^[5] 定义了一个统计量是子集稳定的，当且仅当 [math]R[/math] 被限制在 [math]\min(r_i)[/math] 和 [math]\max(r_i)[/math] 之间，并且一个表现良好的统计量被定义为是无限可微的且不依赖于分层的顺序。然后，CMH 统计量是满足子集稳定性的唯一表现良好的统计量。, May 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)^{[citation needed]}

节点使用的R语言示例代码