频数表检验

实验或研究中的发生次数
Zeroclanzhang讨论 | 贡献2024年1月20日 (六) 02:44的版本


统计学中,一个事件 [math]i[/math] 的频率绝对频率是该事件在一个实验或研究中发生/记录的次数 [math]n_i[/math]。[1]: 12–19  这些频率通常以图形或表格形式展示。

类型

累积频率是有序事件列表中某一点或以下所有事件的绝对频率总和。[1]: 17–19 

事件的相对频率(或经验概率)是绝对频率除以事件总数而标准化的结果:

[math] f_i = \frac{n_i}{N} = \frac{n_i}{\sum_j n_j}. [/math]

所有事件 [math]i[/math] 的 [math]f_i[/math] 值可以绘制成频率分布图。

在 [math]n_i = 0[/math] 的特定 [math]i[/math] 的情况下,可以添加伪计数

描述频率分布

直方图,展示美国2000年人口普查的上班旅行时间
描述频率分布的不同方式

频率分布展示了将数据分为互斥类别并统计每个类别中的发生次数的汇总。它是展示非组织化数据的一种方式,特别是用于显示选举结果、某个地区人民的收入、某个时期内产品的销售额、毕业生的学生贷款金额等。一些可用于频率分布的图表包括直方图折线图条形图饼图。频率分布用于定性和定量数据。

构建

  1. 决定类别的数量。类别太多或太少可能无法揭示数据集的基本形态,解释这样的频率分布也将变得困难。理想的类别数量可以通过公式确定或估计:[math]\text{类别数量} = C = 1 + 3.3 \log n[/math](以10为底的对数),或者通过平方根选择公式 [math] C = \sqrt {n}[/math] 确定,其中n是数据中的观测总数。(后者对于大型数据集,如人口统计数据,将会过大。)然而,这些公式并非硬性规则,公式确定的类别数量可能并不总是与处理的数据完全适合。
  2. 计算数据范围 (范围 = 最大值 – 最小值)模板:Nowrap end,通过找出数据的最小值和最大值来实现。范围将用于确定类间隔或类宽。
  3. 决定类的宽度,用h表示,并由[math]h = \frac{\text{范围}}{\text{类的数量}}[/math]计算得出(假设所有类的类间隔相同)。

通常,所有类的类间隔或类宽是相同的。所有类的总和至少应覆盖数据中的最低值(最小值)到最高值(最大值)的距离。在频率分布中,相等的类间隔是首选,而不等的类间隔(例如对数间隔)在某些情况下可能是必要的,以在各个类之间产生良好的观察分布,并避免大量空的或几乎空的类。[2]

  1. 决定各个类的极限并选择第一个类的合适起点,这个起点是任意的;它可能小于或等于最小值。通常,它是在最小值之前开始的,以便第一个类的中点(第一个类的下限和上限的平均值)被合适地, September 2019 {{citation}}: Cite has empty unknown parameters: |cat2=, |cat-date2=, |cat3=, |cat=, and |cat-date3= (help); Missing or empty |title= (help); Unknown parameter |cat-date= ignored (help)[clarification needed]放置。
  2. 对一个观察对象进行标记,并为其所属的类标记一个垂直条(|)。直到最后一个观察对象,保持连续计数。
  3. 根据需要找出频数、相对频率、累积频率等。

以下是一些常用的频率描述方法:[3]

直方图

直方图是表格频率的一种表示形式,显示为相邻的矩形方形(在某些情况下),竖立在离散间隔(箱)上,其面积与间隔内观察值的频率成正比。矩形的高度也等于间隔的频率密度,即频率除以间隔的宽度。直方图的总面积等于数据的数量。直方图也可以是标准化的,显示相对频率。然后,它显示落入几个类别中的案例比例,总面积等于1。这些类别通常指定为连续的、不重叠的间隔。类别(间隔)必须是相邻的,并且通常选择大小相同。[4] 直方图的矩形绘制时彼此接触,以表明原始变量是连续的。[5]

条形图

条形图条形图是一种图表,其矩形条的长度与它们所代表的值成比例。条形可以垂直或水平绘制。垂直条形图有时被称为柱状条形图。

频率分布表

一个频率分布表是一种安排一个或多个变量在样本中取值的方法。表中的每个条目都包含特定组或区间内值出现的频率或次数,从而总结了样本中值的分布

这是一个单变量(=单个变量)频率表的例子。调查问题的每个回应的频率都被描述了。

排名 同意程度 数量
1 非常同意 22
2 稍微同意 30
3 不确定 20
4 稍微不同意 15
5 非常不同意 15

另一种制表方案将值聚合到箱子中,每个箱子包含一定范围的值。例如,一个班级中学生的身高可以组织成以下频率表。

身高范围 学生人数 累计数量
低于5.0英尺 25 25
5.0–5.5英尺 35 60
5.5–6.0英尺 20 80
6.0–6.5英尺 20 100

联合频率分布

双变量联合频率分布通常呈现为(双向)列联表

具有边际频率的双向列联表
舞蹈 运动 电视 总计
男性 2 10 8 20
女性 16 6 8 30
总计 18 16 16 50

总行和总列报告了边际频率或边际分布,而表格的主体报告了联合频率。[6]

应用

管理和操作频率制表数据比操作原始数据要简单得多。有简单的算法可以从这些表中计算出中位数、平均数、标准差等。

统计假设检验建立在评估频率分布之间的差异和相似性之上。这种评估涉及到中心趋势平均值的度量,例如平均数中位数,以及变异性或统计离散性的度量,如标准差方差

当一个频率分布的平均数和中位数有显著不同,或者更一般地说,当它是不对称的时候,就被称为偏斜。频率分布的峰度是一种衡量极端值(异常值)比例的度量,这些异常值出现在直方图的两端。如果分布比正态分布更容易出现异常值,则被称为尖峰态;如果较少出现异常值,则被称为平峰态。

字母频率分布也用于频率分析来破解密码,并用于比较不同语言中字母的相对频率,其他语言如希腊语、拉丁语等也常被使用。

引用

  1. 1.0 1.1 Kenney, J. F.; Keeping, E. S. (1962). Mathematics of Statistics, Part 1 (3rd ed.). Princeton, NJ: Van Nostrand Reinhold.
  2. Manikandan, S (1 January 2011). "频率分布". 药理学与药物治疗学杂志. 2 (1): 54–55. doi:10.4103/0976-500X.77120. ISSN 0976-500X. PMC 3117575. PMID 21701652.
  3. Carlson, K. 和 Winquist, J. (2014) 统计学简介。SAGE Publications, Inc. 第1章:统计学和频率分布简介
  4. Howitt, D. 和 Cramer, D. (2008) 心理学统计。Prentice Hall
  5. Charles Stangor (2011) "行为科学研究方法"。Wadsworth, Cengage Learning. ISBN 9780840031976.
  6. Stat Trek, Statistics and Probability Glossary, s.v. 联合频率