Mantel-Haenszel检验:修订间差异

来自决策链云智库
无编辑摘要
无编辑摘要
 
(未显示1个用户的2个中间版本)
第5行: 第5行:
|simpleicon=Mantel_Haenszel Test_Pure.svg
|simpleicon=Mantel_Haenszel Test_Pure.svg
|developer=Dev.Team-DPS
|developer=Dev.Team-DPS
|productionstate=PC可用
|productionstate={{图标文件|Win}} / {{图标文件|W10}} Win10及以上可用
|productionstatedesc=在[[DecisionLinnc | V1.0]]部署
|productionstatedesc=在[[Update:DecisionLinnc 1.0.0.8|V1.0]]部署
|nodeenglishname=[[Has english name::Mantel_Haenszel Test]]
|nodeenglishname=Mantel_Haenszel Test
|abbreviation=[[Has abbreviation::MH_Test]]
|abbreviation=MHTest
|funcmaincategory=数据分析
|funcmaincategory=数据分析
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
|funcsubcategory=[[DataAGM Lv1 Cat::频数表检验]]
第19行: 第19行:
|nodeifswitchsupport=否
|nodeifswitchsupport=否
|nodeavailableplotlist=nodenoplotoutput
|nodeavailableplotlist=nodenoplotoutput
|nodeavailabletablelist=Table_For_Downstream
|nodeavailabletablelist=Chi-Value;P-Value;df
|nodeconfiguration=VariableList;DropManu;Text
|nodeconfiguration=VariableList;DropMenu;Text
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeinputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
|nodeoutputports=WorkFlow-Control ➤;Transfer-Variable ◆;Transfer-Table ■
第28行: 第28行:
}}
}}


在[[统计学]]中,'''Cochran–Mantel–Haenszel检验'''('''CMH''')是一种用于分析[[分层(临床试验)|分层]]或[[匹配(统计学)|匹配]]的[[分类数据]]的测试方法。它使研究者能够在考虑分层的同时,检验二元预测因子或治疗与二元结果(如病例或对照状态)之间的关联。<ref name="agresti">{{cite book |last=Agresti |first=Alan |date=2002 |title=分类数据分析 |location=新泽西州霍博肯 |publisher= John Wiley & Sons, Inc. |pages=231–232 |isbn=0-471-36093-7}}</ref> 与只能处理成对数据的[[McNemar检验]]不同,CMH检验可以处理任意大小的分层。这种检验是以[[William G. Cochran]]、[[Nathan Mantel]]和[[William Haenszel]]的名字命名的。<ref>{{cite journal | author = William G. Cochran| title = 加强通用χ2检验的一些方法 | journal = Biometrics | date = 1954年12月 | volume = 10 | issue = 4 | pages = 417–451 | jstor = 3001616  | doi=10.2307/3001616}}</ref><ref>{{cite journal | author = Nathan Mantel 和 William Haenszel | title = 数据回顾性研究分析的统计方面 | journal = 国家癌症研究院杂志 | date = 1959年4月 | volume = 22| issue = 4 | pages = 719–748 | pmid = 13655060 | doi = 10.1093/jnci/22.4.719 }}</ref> 这个测试扩展到对分类响应和/或多个群体的研究,通常被称为Cochran–Mantel–Haenszel统计量。<ref>{{cite journal | author = Nathan Mantel | title = 自由度为一的卡方检验,Mantel–Haenszel程序的扩展 | journal = 美国统计协会杂志 | date = 1963年9月 | volume = 58 | number = 303 | pages = 690–700 | jstor = 2282717 | doi=10.1080/01621459.1963.10500879}}</ref> 它经常用于[[观察性研究]]中,其中无法控制对象随机分配到不同的治疗中,但可以测量[[混杂]]协变量。


=='''定义'''==
我们考虑一个二元结果变量,如病例状态(例如肺癌)和一个二元预测因子,如治疗状态(例如吸烟)。观察结果按分层分组。分层数据汇总为一系列2&nbsp;×&nbsp;2列联表,每个分层一个。第''i''个这样的列联表是:
{| class="wikitable" style="margin:1em auto; text-align:center;"
|-
|        || 治疗 || 无治疗  || 行总计
|-
| 病例 || ''A<sub>i</sub>'' || ''B<sub>i</sub>'' || ''N''<sub>1''i''</sub>
|-
| 对照组 || ''C<sub>i</sub>'' || ''D<sub>i</sub>'' || ''N''<sub>2''i''</sub>
|-
| 列总计 || ''M''<sub>1''i''</sub> || ''M''<sub>2''i''</sub> || ''T<sub>i</sub>''
|}
''K''个列联表的共同[[几率比]]定义为:
:[math] R = {{\sum_{i=1}^K \frac{A_i D_i}{T_i}} \over {\sum_{i=1}^K {B_i C_i \over T_i}}},[/math]
零假设是治疗和结果之间没有关联。更确切地说,零假设是 [math]H_0: R=1[/math],备择假设是 [math]H_1: R\ne 1[/math]。检验统计量是:
:[math] \xi_\text{CMH} = \frac{ \left[ \sum_{i=1}^K \left(A_i - \frac{N_{1i} M_{1i}}{T_i}\right) \right]^2}{\sum_{i=1}^K {N_{1i}N_{2i}M_{1i}M_{2i} \over T_i^2(T_i-1)}}.[/math]
它在零假设下渐近地遵循一个具有1个自由度的 [math]\chi^2[/math] 分布。<ref name="agresti" />
=='''子集稳定性'''==
所有分层的标准赔率或[[风险比]]可以计算出来,得到风险比 [math]r_1, r_2, \dots, r_n[/math],其中 [math]n[/math] 是分层的数量。如果去除了分层,就会有一个合并表的总体风险比;设这个为 [math]R[/math]。{{cn|date=May 2023}}
人们通常期望,在不考虑分层条件下的事件风险被限制在分层中的最高和最低风险之间(或与赔率比相同)。
很容易构造出这种情况不成立的例子,其中 [math]R[/math] 大于或小于所有的 [math]r_i[/math],对于 [math]i\in 1,\dots, n[/math]。
这与[[辛普森悖论]]相似但不完全相同,与辛普森悖论一样,很难解释这一统计量并据此决定政策。
Klemens<ref>{{cite journal|title=An Analysis of U.S. Domestic Migration via Subset-stable Measures of Administrative Data |author= [[Ben Klemens]]|journal = Journal of Computational Social Science |date= June 2021 |volume= 5|pages= 351–382|url=https://link.springer.com/epdf/10.1007/s42001-021-00124-w?sharing_token=IGAQk09pHKk8YvIi97_SK_e4RwlQNchNByi7wbcMAY4zLayUIu-8FSW4vyZTBOZvyAhQOpth9vYXF44PjsOrfh30WGnmA3rRghmBnED3wyaag-5XvPuPL22WC1hY7iQfICD4UzM7MOQbTz8s3RKO5-EhxMZQJe-VEQEdotRfaMA%3D|doi=10.1007/s42001-021-00124-w|s2cid= 236308711|url-access= subscription}}</ref>
定义了一个统计量是''子集稳定''的,当且仅当 [math]R[/math] 被限制在 [math]\min(r_i)[/math] 和 [math]\max(r_i)[/math] 之间,并且一个''表现良好''的统计量被定义为是[[平滑函数|无限可微]]的且不依赖于分层的顺序。
然后,CMH 统计量是满足子集稳定性的唯一表现良好的统计量。{{cn|date=May 2023}}
=='''相关测试'''==
* [[McNemar 测试]]只能处理成对数据。CMH 测试是 [[McNemar 测试]]的推广,因为当每个层次呈现一对时,它们的测试统计量是相同的。<ref>{{cite book |last=Agresti |first=Alan |date=2002 |title=Categorical Data Analysis |location=Hoboken, New Jersey |publisher= John Wiley & Sons, Inc. |page=413 |isbn=0-471-36093-7}}</ref>
* [[条件逻辑回归]]比 CMH 测试更为通用,因为它可以处理连续变量并执行多变量分析。当可以应用 CMH 测试时,CMH 测试统计量和 [[条件逻辑回归]]的[[得分测试]]统计量是相同的。<ref>{{cite journal|title=Testing hypotheses in case-control studies-equivalence of Mantel–Haenszel statistics and logit score tests.|author= Day N.E., Byar D.P.|journal = Biometrics | volume = 35 | issue = 3 | pages = 623–630 |date= September 1979 |jstor=2530253|doi=10.2307/2530253|pmid= 497345}}</ref>
* [[Breslow–Day 测试]]用于检验关联的均质性。CMH 测试假设所有层次中的治疗效果是均匀的。Breslow-Day 测试允许测试这一假设。如果分层很小,例如成对,这就不是一个问题。
== '''节点使用的R语言示例代码''' ==
=== Mantel-Haenszel检验 ===
<syntaxhighlight lang="R">
mantelhaen.test(x, y = NULL, z = NULL,
                alternative = c("two.sided", "less", "greater"),
                correct = TRUE, exact = FALSE, conf.level = 0.95)
</syntaxhighlight>
== '''节点使用指南''' ==
* 用于评估分层分类数据中变量之间的关联是否一致
* 用于研究结果可能由混杂因素影响的情况
* 以控制一个或多个层次变量,通常是混杂变量
=== 方法选择 ===
* 无方法选择
=== 参数配置 ===
* 混杂变量:选择分类变量
* 统计变量1:选择分类变量
* 统计变量2:选择一个或多个分类变量,每个变量将与变量1做一次Mantel Haenszel检验
* 置信区间百分比:输入百分比,95%置信区间就是0.95
* 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
* 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
* 混杂变量,统计变量1和统计变量2要规避复用
* 此算法兼容空值
=== 注意事项 ===
* 确保每一层的样本量足够大,以便比值比的估计是稳健的
* 当层内数据稀疏时,Mantel-Haenszel方法可能不适用
== '''引用''' ==
{{Reflist}}


{{Navplate AlgorithmNodeList}}
{{Navplate AlgorithmNodeList}}


[[Category:频数表检验]]
[[Category:频数表检验]]

2024年1月24日 (三) 16:05的最新版本

Mantel Haenszel Test.png
节点状态
Windows / Windows 10 Win10及以上可用
V1.0部署
Mantel-Haenszel检验Mantel Haenszel Test.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名Mantel_Haenszel Test
功能主类别数据分析
英文缩写MHTest
功能亚类别频数表检验
节点类型数据挖掘
开发语言R
节点简介

Mantel-Haenszel检验和Fisher检验一样,行列总和固定,都是两分类变量组成的四格列联表。然后有k个二维列联表,相当于将数据从二维扩展到三维。适合三变量的交互,检验变量的独立性和关联性。三变量之间是否互相独立或者有显著的影响。

用途:用于检验两个分类变量在控制一个或多个混淆因素后是否独立,评估在控制一个或多个其他变量后,两个分类变量是否独立。

参数:选择多分类混杂变量和两个分类变量

端口数量与逻辑控制(PC)
Input-入口5个
Output-出口3个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点卡方检验
下一节点McNemar检验



统计学中,Cochran–Mantel–Haenszel检验CMH)是一种用于分析分层匹配分类数据的测试方法。它使研究者能够在考虑分层的同时,检验二元预测因子或治疗与二元结果(如病例或对照状态)之间的关联。[1] 与只能处理成对数据的McNemar检验不同,CMH检验可以处理任意大小的分层。这种检验是以William G. CochranNathan MantelWilliam Haenszel的名字命名的。[2][3] 这个测试扩展到对分类响应和/或多个群体的研究,通常被称为Cochran–Mantel–Haenszel统计量。[4] 它经常用于观察性研究中,其中无法控制对象随机分配到不同的治疗中,但可以测量混杂协变量。

定义

我们考虑一个二元结果变量,如病例状态(例如肺癌)和一个二元预测因子,如治疗状态(例如吸烟)。观察结果按分层分组。分层数据汇总为一系列2 × 2列联表,每个分层一个。第i个这样的列联表是:

治疗 无治疗 行总计
病例 Ai Bi N1i
对照组 Ci Di N2i
列总计 M1i M2i Ti

K个列联表的共同几率比定义为:

[math] R = {{\sum_{i=1}^K \frac{A_i D_i}{T_i}} \over {\sum_{i=1}^K {B_i C_i \over T_i}}},[/math]

零假设是治疗和结果之间没有关联。更确切地说,零假设是 [math]H_0: R=1[/math],备择假设是 [math]H_1: R\ne 1[/math]。检验统计量是:

[math] \xi_\text{CMH} = \frac{ \left[ \sum_{i=1}^K \left(A_i - \frac{N_{1i} M_{1i}}{T_i}\right) \right]^2}{\sum_{i=1}^K {N_{1i}N_{2i}M_{1i}M_{2i} \over T_i^2(T_i-1)}}.[/math]

它在零假设下渐近地遵循一个具有1个自由度的 [math]\chi^2[/math] 分布。[1]

子集稳定性

所有分层的标准赔率或风险比可以计算出来,得到风险比 [math]r_1, r_2, \dots, r_n[/math],其中 [math]n[/math] 是分层的数量。如果去除了分层,就会有一个合并表的总体风险比;设这个为 [math]R[/math]。, May 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)[citation needed]

人们通常期望,在不考虑分层条件下的事件风险被限制在分层中的最高和最低风险之间(或与赔率比相同)。 很容易构造出这种情况不成立的例子,其中 [math]R[/math] 大于或小于所有的 [math]r_i[/math],对于 [math]i\in 1,\dots, n[/math]。 这与辛普森悖论相似但不完全相同,与辛普森悖论一样,很难解释这一统计量并据此决定政策。

Klemens[5] 定义了一个统计量是子集稳定的,当且仅当 [math]R[/math] 被限制在 [math]\min(r_i)[/math] 和 [math]\max(r_i)[/math] 之间,并且一个表现良好的统计量被定义为是无限可微的且不依赖于分层的顺序。 然后,CMH 统计量是满足子集稳定性的唯一表现良好的统计量。, May 2023 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help); Unknown parameter |cat= ignored (help)[citation needed]

相关测试

  • McNemar 测试只能处理成对数据。CMH 测试是 McNemar 测试的推广,因为当每个层次呈现一对时,它们的测试统计量是相同的。[6]
  • 条件逻辑回归比 CMH 测试更为通用,因为它可以处理连续变量并执行多变量分析。当可以应用 CMH 测试时,CMH 测试统计量和 条件逻辑回归得分测试统计量是相同的。[7]
  • Breslow–Day 测试用于检验关联的均质性。CMH 测试假设所有层次中的治疗效果是均匀的。Breslow-Day 测试允许测试这一假设。如果分层很小,例如成对,这就不是一个问题。

节点使用的R语言示例代码

Mantel-Haenszel检验

mantelhaen.test(x, y = NULL, z = NULL,
                alternative = c("two.sided", "less", "greater"),
                correct = TRUE, exact = FALSE, conf.level = 0.95)

节点使用指南

  • 用于评估分层分类数据中变量之间的关联是否一致
  • 用于研究结果可能由混杂因素影响的情况
  • 以控制一个或多个层次变量,通常是混杂变量

方法选择

  • 无方法选择

参数配置

  • 混杂变量:选择分类变量
  • 统计变量1:选择分类变量
  • 统计变量2:选择一个或多个分类变量,每个变量将与变量1做一次Mantel Haenszel检验
  • 置信区间百分比:输入百分比,95%置信区间就是0.95
  • 检验方向: 双侧检验和单侧检验。单侧检验又分为左侧检验和右侧检验
  • 筛选阈值:选择需要的P值阈值,节点会自动将满足阈值的变量筛选出,数据集也会同步筛选出满足的变量。
  • 混杂变量,统计变量1和统计变量2要规避复用
  • 此算法兼容空值

注意事项

  • 确保每一层的样本量足够大,以便比值比的估计是稳健的
  • 当层内数据稀疏时,Mantel-Haenszel方法可能不适用

引用

  1. 1.0 1.1 Agresti, Alan (2002). 分类数据分析. 新泽西州霍博肯: John Wiley & Sons, Inc. pp. 231–232. ISBN 0-471-36093-7.
  2. William G. Cochran (1954年12月). "加强通用χ2检验的一些方法". Biometrics. 10 (4): 417–451. doi:10.2307/3001616. JSTOR 3001616. {{cite journal}}: Check date values in: |date= (help)
  3. Nathan Mantel 和 William Haenszel (1959年4月). "数据回顾性研究分析的统计方面". 国家癌症研究院杂志. 22 (4): 719–748. doi:10.1093/jnci/22.4.719. PMID 13655060. {{cite journal}}: Check date values in: |date= (help)
  4. Nathan Mantel (1963年9月). "自由度为一的卡方检验,Mantel–Haenszel程序的扩展". 美国统计协会杂志. 58 (303): 690–700. doi:10.1080/01621459.1963.10500879. JSTOR 2282717. {{cite journal}}: Check date values in: |date= (help)
  5. Ben Klemens (June 2021). "An Analysis of U.S. Domestic Migration via Subset-stable Measures of Administrative Data". Journal of Computational Social Science. 5: 351–382. doi:10.1007/s42001-021-00124-w. S2CID 236308711.
  6. Agresti, Alan (2002). Categorical Data Analysis. Hoboken, New Jersey: John Wiley & Sons, Inc. p. 413. ISBN 0-471-36093-7.
  7. Day N.E., Byar D.P. (September 1979). "Testing hypotheses in case-control studies-equivalence of Mantel–Haenszel statistics and logit score tests". Biometrics. 35 (3): 623–630. doi:10.2307/2530253. JSTOR 2530253. PMID 497345.

查找其他类别的节点,请参考以下列表