数据分析描述统计

来自决策链云智库
RainW讨论 | 贡献2024年1月18日 (四) 17:21的版本
Statistical Descriptive Analysis.png
节点状态
PC可用
V1.0部署
数据分析描述统计Statistical Descriptive Analysis.svg
节点开发者决策链算法研发部 (Dev.Team-DPS)
节点英文名数据分析描述统计
功能主类别数据分析
英文缩写Sttt_DA
功能亚类别描述统计
节点类型数据挖掘
开发语言R
节点简介

在数据分析开始前,我们通常需要对数据进行统计描述。该功能会对数据特征进行描述性统计并生成三线表,用于快速查看数据的分布、趋势等特征。该模块需要首先选择一个二分类或多分类变量作为自变量,再选择其他需要进行统计描述的变量进行分析。

用途:对大量数据进行快速理解和摘要的重要工具。

参数:选择一个分组变量,和多个连续型数值变量或分类变量

端口数量与逻辑控制(PC)
Input-入口4个
Output-出口2个
Loop-支持循环
If/Switch-支持逻辑判断
输入输出
可生成图片类型(推荐)
可生成数据表类型(推荐)
相关节点
上一节点分层变量循环转列表
下一节点单因素正态性检验



一项描述性统计(在计数名词的意义上)是一种汇总统计,它从一系列信息中定量描述或总结特征,[1]描述性统计(在集合名词的意义上)则是使用和分析这些统计数据的过程。描述性统计与推断统计(或归纳统计)的区别在于,其目的是总结一个样本,而不是使用数据来了解样本数据所代表的总体[2] 这通常意味着,与推断统计不同,描述性统计并不是基于概率论发展的,而且常常是非参数统计[3] 即使数据分析主要结论使用推断统计,描述性统计通常也会被呈现出来。[4] 例如,在报告人类受试者的论文中,通常会包含一个表格,给出整体样本量、重要子组的样本量(例如,每个治疗或暴露组),以及平均年龄、各性别受试者的比例、相关合并症人口统计学或临床特征。

一些常用于描述数据集的度量包括中心趋势的度量和变异性或分散的度量。中心趋势的度量包括平均数中位数众数,而变异性的度量包括标准差(或方差)、变量的最小和最大值、峰度偏度[5]

在统计分析中的使用

描述性统计提供关于样本和所做观察的简单概括。这些概括可能是定量的,即汇总统计,或者是视觉的,即简单易懂的图形。这些概括可能构成数据的初始描述的基础,作为更广泛统计分析的一部分,或者它们本身对于特定调查就足够了。

例如,在篮球中的投篮百分比是一种描述性统计数据,它总结了一名球员或一支球队的表现。这个数字是命中投篮数除以投篮尝试数。例如,命中率为33%的球员大约每三次投篮命中一球。这个百分比总结或描述了多个离散事件。同样也要考虑平均成绩点。这个单一数字描述了学生在其课程经历范围内的整体表现。Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.

描述性统计和总结性统计的使用有着悠久的历史,事实上,人口和经济数据的简单制表是统计学这一话题首次出现的方式。最近,一系列总结技术已经在探索性数据分析的标题下被制定出来:这种技术的一个例子是箱形图

在商业领域中,描述性统计提供了对多种类型数据的有用总结。例如,投资者和经纪人可能通过对其投资进行经验性和分析性分析,使用历史回报行为的账目,以便在未来做出更好的投资决策。

单变量分析

单变量分析 涉及描述单个变量的分布,包括其集中趋势(包括平均数中位数众数)和离散程度(包括数据集的范围四分位数,以及像方差标准差这样的离散程度度量)。分布的形状也可以通过诸如偏态峰度等指标来描述。变量分布的特征也可以通过图形或表格格式展示,包括直方图茎叶图

双变量和多变量分析

当样本包含不止一个变量时,描述性统计可以用来描述变量对之间的关系。在这种情况下,描述性统计包括:

区分单变量和双变量分析的主要原因是,双变量分析不仅仅是简单的描述性分析,它还描述了两个不同变量之间的关系。[6] 依赖性的定量度量包括相关性(例如当两个变量都是连续的时使用皮尔逊相关系数,或者如果一个或两个变量不是连续的时使用斯皮尔曼等级相关系数)和协方差(反映变量测量的尺度)。在回归分析中,斜率也反映了变量之间的关系。非标准化斜率指出在预测变量发生一个单位变化时,标准变量的单位变化。标准化斜率则指出这种变化以标准化(z-分数)单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称,看起来更像正态分布,从而使其更直观易解。 [7]: 47 

节点使用的R语言示例代码

描述统计

library(tableone)
  
CreateTableOne(
  vars,
  strata,
  data,
  factorVars,
  includeNA = FALSE,
  test = TRUE,
  testApprox = chisq.test,
  argsApprox = list(correct = TRUE),
  testExact = fisher.test,
  argsExact = list(workspace = 2 * 10^5),
  testNormal = oneway.test,
  argsNormal = list(var.equal = TRUE),
  testNonNormal = kruskal.test,
  argsNonNormal = list(NULL),
  smd = TRUE,
  addOverall = FALSE
)

方法参见R package: tableone的官方文档


节点使用指南

  • 快速的了解当前数据集
  • 做一些描述统计的分析

方法选择

  • 无方法选择

参数配置

  • 分组变量:选择分类变量进行分组,不需要可以不填。统计变量:选择所有需要分析的连续和分类变量
  • 分组变量和统计变量要规避复用
  • 选择输出数值的格式:Mean(SD),Mean ± SD,Median (Min-Max),Median (Q1-Q3),Mean (95% CI) 只针对与连续型数值变量输出
  • 保留小数位数: 选择有1到4位,如果更多,可以直接输入位数数字
  • 此算法兼容空值

注意事项

  • 如果选择分组变量,则会计算P值和SMD。根据统计变量的类型和分布计算对应的P值,有卡方检验,t检验,秩和检验,ANOVA,Fisher精确检验和Z检验
  • 如果不选择分组变量,则不会计算P值和SMD


引用

  1. Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
  2. "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
  3. Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
  4. "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
  5. Investopedia, 描述性统计术语
  6. Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1.
  7. Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. 分子生物学方法. Vol. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.


查找其他类别的节点,请参考以下列表