Mantel-Haenszel检验：修订间差异

Mantel-Haenszel检验
节点状态	/ Win10及以上可用在V1.0部署
Mantel-Haenszel检验
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Mantel_Haenszel Test
功能主类别	数据分析
英文缩写	MHTest
功能亚类别	频数表检验
节点类型	数据挖掘
开发语言	R
节点简介
	Mantel-Haenszel检验和Fisher检验一样，行列总和固定，都是两分类变量组成的四格列联表。然后有k个二维列联表，相当于将数据从二维扩展到三维。适合三变量的交互，检验变量的独立性和关联性。三变量之间是否互相独立或者有显著的影响。用途：用于检验两个分类变量在控制一个或多个混淆因素后是否独立，评估在控制一个或多个其他变量后，两个分类变量是否独立。参数：选择多分类混杂变量和两个分类变量
端口数量与逻辑控制(PC)
Input-入口	5个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
	可生成图片类型（推荐）不支持连接制图节点; 可生成数据表类型（推荐） ; P值 (P-Value); 自由度; 可配置参数例型变量列表; 下拉菜单; 文本输入; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■;
相关节点
上一节点	卡方检验
下一节点	McNemar检验
相关网站 ;

2024年1月24日 (三) 16:05的最新版本

在统计学中，Cochran–Mantel–Haenszel检验（CMH）是一种用于分析分层或匹配的分类数据的测试方法。它使研究者能够在考虑分层的同时，检验二元预测因子或治疗与二元结果（如病例或对照状态）之间的关联。^[1] 与只能处理成对数据的McNemar检验不同，CMH检验可以处理任意大小的分层。这种检验是以William G. Cochran、Nathan Mantel和William Haenszel的名字命名的。^[2]^[3] 这个测试扩展到对分类响应和/或多个群体的研究，通常被称为Cochran–Mantel–Haenszel统计量。^[4] 它经常用于观察性研究中，其中无法控制对象随机分配到不同的治疗中，但可以测量混杂协变量。

定义

我们考虑一个二元结果变量，如病例状态（例如肺癌）和一个二元预测因子，如治疗状态（例如吸烟）。观察结果按分层分组。分层数据汇总为一系列2 × 2列联表，每个分层一个。第i个这样的列联表是：

	治疗	无治疗	行总计
病例	A_i	B_i	N_1i
对照组	C_i	D_i	N_2i
列总计	M_1i	M_2i	T_i

K个列联表的共同几率比定义为：

[math] R = {{\sum_{i=1}^K \frac{A_i D_i}{T_i}} \over {\sum_{i=1}^K {B_i C_i \over T_i}}},[/math]

零假设是治疗和结果之间没有关联。更确切地说，零假设是 [math]H_0: R=1[/math]，备择假设是 [math]H_1: R\ne 1[/math]。检验统计量是：

[math] \xi_\text{CMH} = \frac{ \left[ \sum_{i=1}^K \left(A_i - \frac{N_{1i} M_{1i}}{T_i}\right) \right]^2}{\sum_{i=1}^K {N_{1i}N_{2i}M_{1i}M_{2i} \over T_i^2(T_i-1)}}.[/math]

它在零假设下渐近地遵循一个具有1个自由度的 [math]\chi^2[/math] 分布。^[1]

子集稳定性

所有分层的标准赔率或风险比可以计算出来，得到风险比 [math]r_1, r_2, \dots, r_n[/math]，其中 [math]n[/math] 是分层的数量。如果去除了分层，就会有一个合并表的总体风险比；设这个为 [math]R[/math]。, May 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)^{[citation needed]}

人们通常期望，在不考虑分层条件下的事件风险被限制在分层中的最高和最低风险之间（或与赔率比相同）。很容易构造出这种情况不成立的例子，其中 [math]R[/math] 大于或小于所有的 [math]r_i[/math]，对于 [math]i\in 1,\dots, n[/math]。这与辛普森悖论相似但不完全相同，与辛普森悖论一样，很难解释这一统计量并据此决定政策。

Klemens^[5] 定义了一个统计量是子集稳定的，当且仅当 [math]R[/math] 被限制在 [math]\min(r_i)[/math] 和 [math]\max(r_i)[/math] 之间，并且一个表现良好的统计量被定义为是无限可微的且不依赖于分层的顺序。然后，CMH 统计量是满足子集稳定性的唯一表现良好的统计量。, May 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)^{[citation needed]}

节点使用的R语言示例代码

Mantel-Haenszel检验

mantelhaen.test(x, y = NULL, z = NULL,
                alternative = c("two.sided", "less", "greater"),
                correct = TRUE, exact = FALSE, conf.level = 0.95)

节点使用指南

用于评估分层分类数据中变量之间的关联是否一致
用于研究结果可能由混杂因素影响的情况
以控制一个或多个层次变量，通常是混杂变量

方法选择

无方法选择

参数配置

混杂变量：选择分类变量
统计变量1：选择分类变量
统计变量2：选择一个或多个分类变量，每个变量将与变量1做一次Mantel Haenszel检验
置信区间百分比:输入百分比，95%置信区间就是0.95
检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
混杂变量，统计变量1和统计变量2要规避复用
此算法兼容空值

注意事项

确保每一层的样本量足够大，以便比值比的估计是稳健的
当层内数据稀疏时，Mantel-Haenszel方法可能不适用

引用

↑ ^1.0 ^1.1 Agresti, Alan (2002). 分类数据分析. 新泽西州霍博肯: John Wiley & Sons, Inc. pp. 231–232. ISBN 0-471-36093-7.
↑ William G. Cochran (1954年12月). "加强通用χ2检验的一些方法". Biometrics. 10 (4): 417–451. doi:10.2307/3001616. JSTOR 3001616. {{cite journal}}: Check date values in: |date= (help)
↑ Nathan Mantel 和 William Haenszel (1959年4月). "数据回顾性研究分析的统计方面". 国家癌症研究院杂志. 22 (4): 719–748. doi:10.1093/jnci/22.4.719. PMID 13655060. {{cite journal}}: Check date values in: |date= (help)
↑ Nathan Mantel (1963年9月). "自由度为一的卡方检验，Mantel–Haenszel程序的扩展". 美国统计协会杂志. 58 (303): 690–700. doi:10.1080/01621459.1963.10500879. JSTOR 2282717. {{cite journal}}: Check date values in: |date= (help)
↑ Ben Klemens (June 2021). "An Analysis of U.S. Domestic Migration via Subset-stable Measures of Administrative Data". Journal of Computational Social Science. 5: 351–382. doi:10.1007/s42001-021-00124-w. S2CID 236308711.
↑ Agresti, Alan (2002). Categorical Data Analysis. Hoboken, New Jersey: John Wiley & Sons, Inc. p. 413. ISBN 0-471-36093-7.
↑ Day N.E., Byar D.P. (September 1979). "Testing hypotheses in case-control studies-equivalence of Mantel–Haenszel statistics and logit score tests". Biometrics. 35 (3): 623–630. doi:10.2307/2530253. JSTOR 2530253. PMID 497345.

查找其他类别的节点，请参考以下列表

数据输入

多CSV表合并读取多Excel表合并读取导入CSV数据导入Excel数据导入SAV数据导入TSV数据

变量处理

中文变量名替换更新变量名标准化变量名转换变量类型

行列处理

行处理

去重样本样本量计数筛选样本筛选行空值过滤表格

矩阵处理

矩阵变换聚合表格

表格处理

分层变量循环转列表多表数据连接抽样数据合并数据连接

描述性统计

描述统计

数据分析描述统计

统计检验

正态性检验

单因素正态性检验多因素正态性检验

参数检验

Friedman检验两样本配对T检验两独立样本T检验单样本T检验

非参数检验

Ridit分析游程检验秩和检验符号检验

频数表检验

Fisher精确检验G检验Mantel-Haenszel检验McNemar检验卡方检验

方差分析

F检验One Way ANCOVAOne Way ANOVATwo Way ANCOVATwo Way ANOVAWelch检验多元方差分析多重比较方差分析方差齐性检验球形检验

相关分析

一般线性相关分析典型相关分析组内相关系数混合效应组内相关系数随机效应

回归分析

时序分析

时序平稳性检验时间序列聚类时间序列预测正弦曲线回归趋势检验

潜变量分析

潜类别模型

潜类别分析潜类别增长模型潜类别混合增长模型验证性因子分析

生存分析

IDI和NRIKM生存曲线单因素COX回归多因素COX回归多因素竞争风险模型智能筛选限制性立方样条节点竞争风险模型限制性平均生存时间限制性立方样条

多元分析

中介效应主成分分析(PCA)信度分析倾向性评分匹配双重差分模型多重对应分析孟德尔随机化异常值分析拉格朗日乘数检验最大似然因子分析碎石检验筛查自变量共线性聚类分析调节效应豪斯曼检验面板数据效应模型

综合分析

多重插补

数据集操作

数据集拆分

拆分训练测试集

数据集导入导出

导入测试集导入训练集导出测试集导出训练集

数据集整理

数据集整合

分类器

分类训练器

AdaBoostCatBoostLightGBMLogistic分类器XGBoost决策树支持向量机朴素贝叶斯梯度提升树采样方法随机森林

分类预测器

通用预测模块

交叉验证与模型评估

模型评估

PR曲线ROC曲线SHAP交叉熵交叉验证交叉验证结果整合基础评估节点多模型评估节点平均类准确率拟合优度机器学习基础绘图节点混淆矩阵

神经网络

数据神经网络

环境检测

运行环境检测

深度学习环境检测

图像处理

图像I/O

图像读取成对图像读取

图像格式处理

医学图像格式转换图像格式转换

图像滤波和平滑

低通滤波图像平滑图像模糊小波变换带通滤波高通滤波

几何变换

仿射变换分段仿射变换图像剪裁图像旋转图像缩放图像翻转

颜色空间转换

RGB2HSV图像明暗图像灰化图像色度图像饱和度

图像直方图

图像信号直方图局部直方图均衡化直方图均衡化

图像运算处理

图像算术

图像锐化处理

傅里叶变换图像对比度增强图像锐化快速傅里叶变换

图像形态学

边缘检测

图文处理

特征检测

图像分割

图像识别

[agresti-1] 1.0 ^1.1 Agresti, Alan (2002). 分类数据分析. 新泽西州霍博肯: John Wiley & Sons, Inc. pp. 231–232. ISBN 0-471-36093-7.

[2] William G. Cochran (1954年12月). "加强通用χ2检验的一些方法". Biometrics. 10 (4): 417–451. doi:10.2307/3001616. JSTOR 3001616. {{cite journal}}: Check date values in: |date= (help)

[3] Nathan Mantel 和 William Haenszel (1959年4月). "数据回顾性研究分析的统计方面". 国家癌症研究院杂志. 22 (4): 719–748. doi:10.1093/jnci/22.4.719. PMID 13655060. {{cite journal}}: Check date values in: |date= (help)

[4] Nathan Mantel (1963年9月). "自由度为一的卡方检验，Mantel–Haenszel程序的扩展". 美国统计协会杂志. 58 (303): 690–700. doi:10.1080/01621459.1963.10500879. JSTOR 2282717. {{cite journal}}: Check date values in: |date= (help)

[5] Ben Klemens (June 2021). "An Analysis of U.S. Domestic Migration via Subset-stable Measures of Administrative Data". Journal of Computational Social Science. 5: 351–382. doi:10.1007/s42001-021-00124-w. S2CID 236308711.

[6] Agresti, Alan (2002). Categorical Data Analysis. Hoboken, New Jersey: John Wiley & Sons, Inc. p. 413. ISBN 0-471-36093-7.

[7] Day N.E., Byar D.P. (September 1979). "Testing hypotheses in case-control studies-equivalence of Mantel–Haenszel statistics and logit score tests". Biometrics. 35 (3): 623–630. doi:10.2307/2530253. JSTOR 2530253. PMID 497345.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ 第5行： / 第5行： @@
 |simpleicon=Mantel_Haenszel Test_Pure.svg
 |developer=Dev.Team-DPS
-|productionstate=PC可用
+|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
-|productionstatedesc=在[[DecisionLinnc | V1.0]]部署
+|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
-|nodeenglishname=[[Has english name::Mantel_Haenszel Test]]
+|nodeenglishname=Mantel_Haenszel Test
-|abbreviation=[[Has abbreviation::MH_Test]]
+|abbreviation=MHTest
 |funcmaincategory=数据分析
 |funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
@@ 第19行： / 第19行： @@
 |nodeifswitchsupport=否
 |nodeavailableplotlist=nodenoplotoutput
-|nodeavailabletablelist=Table_For_Downstream
+|nodeavailabletablelist=Chi-Value;P-Value;df
-|nodeconfiguration=VariableList;DropManu;Text
+|nodeconfiguration=VariableList;DropMenu;Text
 |nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
 |nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
@@ 第28行： / 第28行： @@
 }}
+在[[统计学]]中，'''Cochran–Mantel–Haenszel检验'''（'''CMH'''）是一种用于分析[[分层（临床试验）|分层]]或[[匹配（统计学）|匹配]]的[[分类数据]]的测试方法。它使研究者能够在考虑分层的同时，检验二元预测因子或治疗与二元结果（如病例或对照状态）之间的关联。<ref name="agresti">{{cite book |last=Agresti |first=Alan |date=2002 |title=分类数据分析 |location=新泽西州霍博肯 |publisher= John Wiley & Sons, Inc. |pages=231–232 |isbn=0-471-36093-7}}</ref> 与只能处理成对数据的[[McNemar检验]]不同，CMH检验可以处理任意大小的分层。这种检验是以[[William G. Cochran]]、[[Nathan Mantel]]和[[William Haenszel]]的名字命名的。<ref>{{cite journal | author = William G. Cochran| title = 加强通用χ2检验的一些方法 | journal = Biometrics | date = 1954年12月 | volume = 10 | issue = 4 | pages = 417–451 | jstor = 3001616  | doi=10.2307/3001616}}</ref><ref>{{cite journal | author = Nathan Mantel 和 William Haenszel | title = 数据回顾性研究分析的统计方面 | journal = 国家癌症研究院杂志 | date = 1959年4月 | volume = 22| issue = 4 | pages = 719–748 | pmid = 13655060 | doi = 10.1093/jnci/22.4.719 }}</ref> 这个测试扩展到对分类响应和/或多个群体的研究，通常被称为Cochran–Mantel–Haenszel统计量。<ref>{{cite journal | author = Nathan Mantel | title = 自由度为一的卡方检验，Mantel–Haenszel程序的扩展 | journal = 美国统计协会杂志 | date = 1963年9月 | volume = 58 | number = 303 | pages = 690–700 | jstor = 2282717 | doi=10.1080/01621459.1963.10500879}}</ref> 它经常用于[[观察性研究]]中，其中无法控制对象随机分配到不同的治疗中，但可以测量[[混杂]]协变量。
+=='''定义'''==
+我们考虑一个二元结果变量，如病例状态（例如肺癌）和一个二元预测因子，如治疗状态（例如吸烟）。观察结果按分层分组。分层数据汇总为一系列2&nbsp;×&nbsp;2列联表，每个分层一个。第''i''个这样的列联表是：
+{| class="wikitable" style="margin:1em auto; text-align:center;"
+|-
+|         || 治疗 || 无治疗  || 行总计
+|-
+| 病例 || ''A<sub>i</sub>'' || ''B<sub>i</sub>'' || ''N''<sub>1''i''</sub>
+|-
+| 对照组 || ''C<sub>i</sub>'' || ''D<sub>i</sub>'' || ''N''<sub>2''i''</sub>
+|-
+| 列总计 || ''M''<sub>1''i''</sub> || ''M''<sub>2''i''</sub> || ''T<sub>i</sub>''
+|}
+''K''个列联表的共同[[几率比]]定义为：
+:[math] R = {{\sum_{i=1}^K \frac{A_i D_i}{T_i}} \over {\sum_{i=1}^K {B_i C_i \over T_i}}},[/math]
+零假设是治疗和结果之间没有关联。更确切地说，零假设是 [math]H_0: R=1[/math]，备择假设是 [math]H_1: R\ne 1[/math]。检验统计量是：
+:[math] \xi_\text{CMH} = \frac{ \left[ \sum_{i=1}^K \left(A_i - \frac{N_{1i} M_{1i}}{T_i}\right) \right]^2}{\sum_{i=1}^K {N_{1i}N_{2i}M_{1i}M_{2i} \over T_i^2(T_i-1)}}.[/math]
+它在零假设下渐近地遵循一个具有1个自由度的 [math]\chi^2[/math] 分布。<ref name="agresti" />
+=='''子集稳定性'''==
+所有分层的标准赔率或[[风险比]]可以计算出来，得到风险比 [math]r_1, r_2, \dots, r_n[/math]，其中 [math]n[/math] 是分层的数量。如果去除了分层，就会有一个合并表的总体风险比；设这个为 [math]R[/math]。{{cn|date=May 2023}}
+人们通常期望，在不考虑分层条件下的事件风险被限制在分层中的最高和最低风险之间（或与赔率比相同）。
+很容易构造出这种情况不成立的例子，其中 [math]R[/math] 大于或小于所有的 [math]r_i[/math]，对于 [math]i\in 1,\dots, n[/math]。
+这与[[辛普森悖论]]相似但不完全相同，与辛普森悖论一样，很难解释这一统计量并据此决定政策。
+Klemens<ref>{{cite journal|title=An Analysis of U.S. Domestic Migration via Subset-stable Measures of Administrative Data |author= [[Ben Klemens]]|journal = Journal of Computational Social Science |date= June 2021 |volume= 5|pages= 351–382|url=https://link.springer.com/epdf/10.1007/s42001-021-00124-w?sharing_token=IGAQk09pHKk8YvIi97_SK_e4RwlQNchNByi7wbcMAY4zLayUIu-8FSW4vyZTBOZvyAhQOpth9vYXF44PjsOrfh30WGnmA3rRghmBnED3wyaag-5XvPuPL22WC1hY7iQfICD4UzM7MOQbTz8s3RKO5-EhxMZQJe-VEQEdotRfaMA%3D|doi=10.1007/s42001-021-00124-w|s2cid= 236308711|url-access= subscription}}</ref>
+定义了一个统计量是''子集稳定''的，当且仅当 [math]R[/math] 被限制在 [math]\min(r_i)[/math] 和 [math]\max(r_i)[/math] 之间，并且一个''表现良好''的统计量被定义为是[[平滑函数|无限可微]]的且不依赖于分层的顺序。
+然后，CMH 统计量是满足子集稳定性的唯一表现良好的统计量。{{cn|date=May 2023}}
+=='''相关测试'''==
+* [[McNemar 测试]]只能处理成对数据。CMH 测试是 [[McNemar 测试]]的推广，因为当每个层次呈现一对时，它们的测试统计量是相同的。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |location=Hoboken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=0-471-36093-7}}</ref>
+* [[条件逻辑回归]]比 CMH 测试更为通用，因为它可以处理连续变量并执行多变量分析。当可以应用 CMH 测试时，CMH 测试统计量和 [[条件逻辑回归]]的[[得分测试]]统计量是相同的。<ref>{{cite journal|title=Testing hypotheses in case-control studies-equivalence of Mantel–Haenszel statistics and logit score tests.|author= Day N.E., Byar D.P.|journal = Biometrics | volume = 35 | issue = 3 | pages = 623–630 |date= September 1979 |jstor=2530253|doi=10.2307/2530253|pmid= 497345}}</ref>
+* [[Breslow–Day 测试]]用于检验关联的均质性。CMH 测试假设所有层次中的治疗效果是均匀的。Breslow-Day 测试允许测试这一假设。如果分层很小，例如成对，这就不是一个问题。
+== '''节点使用的R语言示例代码''' ==
+=== Mantel-Haenszel检验 ===
+<syntaxhighlight lang="R">
+mantelhaen.test(x, y = NULL, z = NULL,
+                alternative = c("two.sided", "less", "greater"),
+                correct = TRUE, exact = FALSE, conf.level = 0.95)
+</syntaxhighlight>
+== '''节点使用指南''' ==
+* 用于评估分层分类数据中变量之间的关联是否一致
+* 用于研究结果可能由混杂因素影响的情况
+* 以控制一个或多个层次变量，通常是混杂变量
+=== 方法选择 ===
+* 无方法选择
+=== 参数配置 ===
+* 混杂变量：选择分类变量
+* 统计变量1：选择分类变量
+* 统计变量2：选择一个或多个分类变量，每个变量将与变量1做一次Mantel Haenszel检验
+* 置信区间百分比:输入百分比，95%置信区间就是0.95
+* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
+* 筛选阈值：选择需要的P值阈值，节点会自动将满足阈值的变量筛选出，数据集也会同步筛选出满足的变量。
+* 混杂变量，统计变量1和统计变量2要规避复用
+* 此算法兼容空值
+=== 注意事项 ===
+* 确保每一层的样本量足够大，以便比值比的估计是稳健的
+* 当层内数据稀疏时，Mantel-Haenszel方法可能不适用
+== '''引用''' ==
+{{Reflist}}
 {{Navplate AlgorithmNodeList}}
 [[Category:频数表检验]]

Mantel-Haenszel检验

节点状态	/ Win10及以上可用在V1.0部署
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	Mantel_Haenszel Test
功能主类别	数据分析
英文缩写	MHTest
功能亚类别	频数表检验
节点类型	数据挖掘
开发语言	R
节点简介
Mantel-Haenszel检验和Fisher检验一样，行列总和固定，都是两分类变量组成的四格列联表。然后有k个二维列联表，相当于将数据从二维扩展到三维。适合三变量的交互，检验变量的独立性和关联性。三变量之间是否互相独立或者有显著的影响。用途：用于检验两个分类变量在控制一个或多个混淆因素后是否独立，评估在控制一个或多个其他变量后，两个分类变量是否独立。参数：选择多分类混杂变量和两个分类变量
端口数量与逻辑控制(PC)
Input-入口	5个
Output-出口	3个
Loop-支持循环	是
If/Switch-支持逻辑判断	否
输入输出
可生成图片类型（推荐）不支持连接制图节点可生成数据表类型（推荐） P值 (P-Value) 自由度可配置参数例型变量列表下拉菜单文本输入入口类型控制流程 ➤ 传输变量 ◆ 传输源数据表 ■ 出口类型控制流程 ➤ 传输变量 ◆ 传输源数据表 ■
相关节点
上一节点	卡方检验
下一节点	McNemar检验
相关网站