节点状态 | PC可用
在 V1.0部署
|
---|---|
F检验 | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | F检验 |
功能主类别 | 数据分析 |
英文缩写 | F检验 |
功能亚类别 | 方差分析 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
F检验也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。主要通过比较两组数据的方差, 以确定两者密度是否有显著性差异, 也是检查多组均值之间的差异。 用途:用于比较两个或多个样本或群体的方差是否显著不同。F检验常常用在方差分析中,以确定不同组别之间是否存在显著差异。 参数:选择连续型数值变量 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 4个 |
Output-出口 | 3个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 否 |
输入输出 | |
相关节点 | |
上一节点 | McNemar检验 |
下一节点 | One_Way_ANOVA |
F 检验 是用来比较两个样本的方差或者多个样本间方差比的任何 统计检验。检验统计量,随机变量 F,被用来确定在真实的 零假设下,以及对误差项(ε)的真实惯常假设下,被检验的数据是否具有 F 分布。[1] 它最常用于 比较统计模型,这些模型已被拟合到一个 数据 集上,以确定哪个模型最适合从中抽样得到数据的 群体。当模型使用 最小二乘法拟合到数据上时,精确的 "F 检验" 主要出现。这个名称由 乔治·W·斯内德科创造,以纪念 罗纳德·费希尔。费希尔最初在20世纪20年代将该统计量发展为方差比。[2]
常见例子
F 检验的常见例子包括研究以下情况
假设一组给定的 正态分布群体的 均值都相等,且都具有相同的 标准差。这可能是最著名的 F 检验,并且在 方差分析 (ANOVA) 中扮演重要角色。 ** 方差分析 (ANOVA) 的 F 检验遵循三个假设 **# 正态性 **# 方差齐性 **# 误差独立性 和 随机抽样
- F 检验
F 检验是统计中用于比较两个样本方差或多个样本方差比的一种检验方法。它涉及到的检验统计量是 F 分布,该分布可用于在零假设成立的情况下,以及误差项符合特定假设的前提下,判断数据是否符合预期分布。F 检验通常用于模型选择,帮助决定哪个统计模型最适合描述数据集。当通过最小二乘法拟合数据时,F 检验尤为重要。这个检验是以统计学家罗纳德·费希尔的名字命名的,他在20世纪20年代提出了这种检验方法。
- 常见例子
F 检验的应用包括:
- 方差分析(ANOVA),它用于假设所有正态分布的群体均值相等且具有相同的标准差。ANOVA 中的 F 检验基于三个假设:
1. 数据呈正态分布 2. 各组数据方差相等(方差齐性) 3. 误差项独立且来自随机抽样
- 回归分析中的 F 检验,用于假设提出的回归模型与数据拟合良好。
- 线性模型比较,用于确定两个提出的线性模型中哪一个更适合数据集,通常比较一个更为复杂的模型和一个简单模型。
![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/3e/F-test_plot.svg/220px-F-test_plot.svg.png)
- 图示:自由度为 d1 和 d2 等于 10,显著性水平为 0.05 的 F 检验概率密度函数图。红色阴影区域表示临界区域。*
- 图示:使用 Matlab 生成的单因素方差分析表,包含 3 个组,每组 30 个观察值。F 值在表中倒数第二列给出。*
单因素方差分析的F检验统计量公式是:
- [math]F = \frac{ ext{解释的方差}}{ ext{未解释的方差}} ,[math]
或
- [math]F = \frac{ ext{组间变异性}}{ ext{组内变异性}}.[math]
所谓的"解释的方差",或"组间变异性"是
- [math] \sum_{i=1}^{K} n_i(\bar{Y}_{i\cdot} - \bar{Y})^2/(K-1) [math]
其中,[math]\bar{Y}_{i\cdot}[math] 表示第i组中的样本均值,[math]n_i[math] 是第i组中的观测数量,[math]\bar{Y}[math] 表示数据的总体平均值,[math]K[math] 表示组数。
所谓的"未解释的方差",或"组内变异性"是
- [math] \sum_{i=1}^{K}\sum_{j=1}^{n_{i}} \left( Y_{ij}-\bar{Y}_{i\cdot} \right)^2/(N-K), [math]
其中,[math]Y_{ij}[math] 是第i组中第jth个观测值,[math]K[math] 为组数,而[math]N[math] 为总样本量。这个F统计量遵循自由度为 [math]d_1=K-1[math] 和 [math]d_2=N-K[math] 的F分布,假设零假设成立。如果组间变异性相对于组内变异性较大,这个统计量将会很大,这在所有群体均值都相同时不太可能发生。
通过将计算出的F值与特定显著性水平(例如5%)的临界F值进行比较,可以确定F检验的结果。F表作为一个参考指南,包含了在真实零假设假设下F统计量分布的临界F值。它旨在帮助确定F统计量超出控制百分比(例如,5%)的阈值,当零假设准确时。要在F表中找到临界F值,需要使用相应的自由度。这涉及到在F表中识别对应于正在测试的显著性水平(例如,5%)的适当行和列。Siegel, Andrew F. (2016-01-01), Siegel, Andrew F. (ed.), "Chapter 15 - ANOVA: Testing for Differences Among Many Samples and Much More", Practical Business Statistics (Seventh Edition), Academic Press, pp. 469–492, doi:10.1016/b978-0-12-804250-2.00015-8, ISBN 978-0-12-804250-2, retrieved 2023-12-10
如何使用临界F值:
如果 F 统计量 < 临界F值
不拒绝零假设 拒绝备择假设 样本均值之间没有显著差异 样本均值之间的观察差异可能合理地由随机机会本身引起 结果统计上不显著
如果 F 统计量 > 临界F值
接受备择假设 拒绝零假设 样本均值之间存在显著差异 样本均值之间的观察差异不可能合理地由随机机会本身引起 结果统计上显著
注意,当单因素方差分析的F检验只有两组时,[math]F = t^{2}[math],其中t 是 Student's [math]t[math] 统计量。
查找其他类别的节点,请参考以下列表