数据分析描述统计：修订间差异

数据分析描述统计
节点状态	PC可用在 V1.0部署
数据分析描述统计
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	数据分析描述统计
功能主类别	数据分析
英文缩写	Sttt_DA
功能亚类别	描述统计
节点类型	数据挖掘
开发语言	R
节点简介
	在数据分析开始前，我们通常需要对数据进行统计描述。该功能会对数据特征进行描述性统计并生成三线表，用于快速查看数据的分布、趋势等特征。该模块需要首先选择一个二分类或多分类变量作为自变量，再选择其他需要进行统计描述的变量进行分析。用途：对大量数据进行快速理解和摘要的重要工具。参数：选择一个分组变量，和多个连续型数值变量或分类变量
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	2个
Loop-支持循环	是
If/Switch-支持逻辑判断	是
输入输出
	可生成图片类型（推荐）不支持连接制图节点; 可生成数据表类型（推荐）由节点生成的数据源; 可配置参数例型变量列表; ; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输源数据表 ■;
相关节点
上一节点	分层变量循环转列表
下一节点	单因素正态性检验
相关网站 ;

2024年1月17日 (三) 15:06的版本

一项描述性统计（在计数名词的意义上）是一种汇总统计，它从一系列信息中定量描述或总结特征，^[1]而描述性统计（在集合名词的意义上）则是使用和分析这些统计数据的过程。描述性统计与推断统计（或归纳统计）的区别在于，其目的是总结一个样本，而不是使用数据来了解样本数据所代表的总体。^[2] 这通常意味着，与推断统计不同，描述性统计并不是基于概率论发展的，而且常常是非参数统计。^[3] 即使数据分析主要结论使用推断统计，描述性统计通常也会被呈现出来。^[4] 例如，在报告人类受试者的论文中，通常会包含一个表格，给出整体样本量、重要子组的样本量（例如，每个治疗或暴露组），以及平均年龄、各性别受试者的比例、相关合并症等人口统计学或临床特征。

一些常用于描述数据集的度量包括中心趋势的度量和变异性或分散的度量。中心趋势的度量包括平均数、中位数和众数，而变异性的度量包括标准差（或方差）、变量的最小和最大值、峰度和偏度。^[5]

在统计分析中的使用

描述性统计提供关于样本和所做观察的简单概括。这些概括可能是定量的，即汇总统计，或者是视觉的，即简单易懂的图形。这些概括可能构成数据的初始描述的基础，作为更广泛统计分析的一部分，或者它们本身对于特定调查就足够了。

例如，在篮球中的投篮百分比是一种描述性统计数据，它总结了一名球员或一支球队的表现。这个数字是命中投篮数除以投篮尝试数。例如，命中率为33%的球员大约每三次投篮命中一球。这个百分比总结或描述了多个离散事件。同样也要考虑平均成绩点。这个单一数字描述了学生在其课程经历范围内的整体表现。Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.

描述性统计和总结性统计的使用有着悠久的历史，事实上，人口和经济数据的简单制表是统计学这一话题首次出现的方式。最近，一系列总结技术已经在探索性数据分析的标题下被制定出来：这种技术的一个例子是箱形图。

在商业领域中，描述性统计提供了对多种类型数据的有用总结。例如，投资者和经纪人可能通过对其投资进行经验性和分析性分析，使用历史回报行为的账目，以便在未来做出更好的投资决策。

单变量分析

单变量分析涉及描述单个变量的分布，包括其集中趋势（包括平均数、中位数和众数）和离散程度（包括数据集的范围和四分位数，以及像方差和标准差这样的离散程度度量）。分布的形状也可以通过诸如偏态和峰度等指标来描述。变量分布的特征也可以通过图形或表格格式展示，包括直方图和茎叶图。

双变量和多变量分析

当样本包含不止一个变量时，描述性统计可以用来描述变量对之间的关系。在这种情况下，描述性统计包括：

交叉表和列联表
通过散点图的图形表示
依赖性的定量度量
条件分布的描述

区分单变量和双变量分析的主要原因是，双变量分析不仅仅是简单的描述性分析，它还描述了两个不同变量之间的关系。^[6] 依赖性的定量度量包括相关性（例如当两个变量都是连续的时使用皮尔逊相关系数，或者如果一个或两个变量不是连续的时使用斯皮尔曼等级相关系数）和协方差（反映变量测量的尺度）。在回归分析中，斜率也反映了变量之间的关系。非标准化斜率指出在预测变量发生一个单位变化时，标准变量的单位变化。标准化斜率则指出这种变化以标准化（z-分数）单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称，看起来更像正态分布，从而使其更直观易解。 ^[7]^: 47

节点使用的R语言示例代码

描述统计

library(tableone)
  
CreateTableOne(
  vars,
  strata,
  data,
  factorVars,
  includeNA = FALSE,
  test = TRUE,
  testApprox = chisq.test,
  argsApprox = list(correct = TRUE),
  testExact = fisher.test,
  argsExact = list(workspace = 2 * 10^5),
  testNormal = oneway.test,
  argsNormal = list(var.equal = TRUE),
  testNonNormal = kruskal.test,
  argsNonNormal = list(NULL),
  smd = TRUE,
  addOverall = FALSE
)

方法参见R package: tableone的官方文档

节点使用指南

最适用的使用场景，通常用于解决哪些问题
节点通常用于处理哪些类型的数据

方法选择

对方法选择要点和关键事项进行表述。重点在于实用性。

参数配置

对参数配置中的一些关键点进行表述（比如变量类型、是否兼容空值、是否要规避复用等，比如立方条样变量不能和自变量重复等）。

注意事项

对注意事项进行表述。例如：

是否支持带空值的运算。如果不支持，提示用A、B方法插补等等。
节点内部出图量如果较大（比如多一个自变量就多一张图，例如多重插补），建议先关闭自动绘图。
连接其他节点是否有一些特殊之处，告知

引用

↑ Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
↑ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
↑ Investopedia, 描述性统计术语
↑ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1.
↑ Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. 分子生物学方法. Vol. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.

查找其他类别的节点，请参考以下列表

数据输入

多CSV表合并读取多Excel表合并读取导入CSV数据导入Excel数据导入SAV数据导入TSV数据

变量处理

中文变量名替换更新变量名标准化变量名转换变量类型

行列处理

行处理

去重样本样本量计数筛选样本筛选行空值过滤表格

矩阵处理

矩阵变换聚合表格

表格处理

分层变量循环转列表多表数据连接抽样数据合并数据连接

描述性统计

描述统计

数据分析描述统计

统计检验

正态性检验

单因素正态性检验多因素正态性检验

参数检验

Friedman检验两样本配对T检验两独立样本T检验单样本T检验

非参数检验

Ridit分析游程检验秩和检验符号检验

频数表检验

Fisher精确检验G检验Mantel-Haenszel检验McNemar检验卡方检验

方差分析

F检验One Way ANCOVAOne Way ANOVATwo Way ANCOVATwo Way ANOVAWelch检验多元方差分析多重比较方差分析方差齐性检验球形检验

相关分析

一般线性相关分析典型相关分析组内相关系数混合效应组内相关系数随机效应

回归分析

时序分析

时序平稳性检验时间序列聚类时间序列预测正弦曲线回归趋势检验

潜变量分析

潜类别模型

潜类别分析潜类别增长模型潜类别混合增长模型验证性因子分析

生存分析

IDI和NRIKM生存曲线单因素COX回归多因素COX回归多因素竞争风险模型智能筛选限制性立方样条节点竞争风险模型限制性平均生存时间限制性立方样条

多元分析

中介效应主成分分析(PCA)信度分析倾向性评分匹配双重差分模型多重对应分析孟德尔随机化异常值分析拉格朗日乘数检验最大似然因子分析碎石检验筛查自变量共线性聚类分析调节效应豪斯曼检验面板数据效应模型

综合分析

多重插补

数据集操作

数据集拆分

拆分训练测试集

数据集导入导出

导入测试集导入训练集导出测试集导出训练集

数据集整理

数据集整合

分类器

分类训练器

AdaBoostCatBoostLightGBMLogistic分类器XGBoost决策树支持向量机朴素贝叶斯梯度提升树采样方法随机森林

分类预测器

通用预测模块

交叉验证与模型评估

模型评估

PR曲线ROC曲线SHAP交叉熵交叉验证交叉验证结果整合基础评估节点多模型评估节点平均类准确率拟合优度机器学习基础绘图节点混淆矩阵

神经网络

数据神经网络

环境检测

运行环境检测

深度学习环境检测

图像处理

图像I/O

图像读取成对图像读取

图像格式处理

医学图像格式转换图像格式转换

图像滤波和平滑

低通滤波图像平滑图像模糊小波变换带通滤波高通滤波

几何变换

仿射变换分段仿射变换图像剪裁图像旋转图像缩放图像翻转

颜色空间转换

RGB2HSV图像明暗图像灰化图像色度图像饱和度

图像直方图

图像信号直方图局部直方图均衡化直方图均衡化

图像运算处理

图像算术

图像锐化处理

傅里叶变换图像对比度增强图像锐化快速傅里叶变换

图像形态学

边缘检测

图文处理

特征检测

图像分割

图像识别

[1] Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.

[2] "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01

[3] Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.

[4] "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01

[Inv-5] Investopedia, 描述性统计术语

[6] Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1.

[7] Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. 分子生物学方法. Vol. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ 第55行： / 第55行： @@
 区分单变量和双变量分析的主要原因是，双变量分析不仅仅是简单的描述性分析，它还描述了两个不同变量之间的关系。<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440] }}</ref> 依赖性的定量度量包括相关性（例如当两个变量都是连续的时使用[[皮尔逊相关系数]]，或者如果一个或两个变量不是连续的时使用[[斯皮尔曼等级相关系数]]）和[[协方差]]（反映变量测量的尺度）。在回归分析中，斜率也反映了变量之间的关系。非标准化斜率指出在[[预测|预测变量]]发生一个单位变化时，标准变量的单位变化。标准化斜率则指出这种变化以标准化（[[z-分数]]）单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称，看起来更像[[正态分布]]，从而使其更直观易解。 <ref>{{cite book |first=Todd G. |last=Nick |chapter=Descriptive Statistics |title=Topics in Biostatistics |series=[[分子生物学方法]] |volume=404 |location=New York |publisher=Springer |year=2007 |pages=33–52 |isbn=978-1-58829-531-6 |doi=10.1007/978-1-59745-530-5_3 |pmid=18450044 }}</ref>{{rp|47}}
-在商业领域中，描述性统计提供了对多种类型数据的有用总结。例如，投资者和经纪人可能通过对其投资进行经验性和分析性分析，使用历史回报行为的账目，以便在未来做出更好的投资决策。
+== '''节点使用的R语言示例代码''' ==
+=== '''描述统计''' ===
+<syntaxhighlight lang="R">
+library(tableone)
+CreateTableOne(
+  vars,
+  strata,
+  data,
+  factorVars,
+  includeNA = FALSE,
+  test = TRUE,
+  testApprox = chisq.test,
+  argsApprox = list(correct = TRUE),
+  testExact = fisher.test,
+  argsExact = list(workspace = 2 * 10^5),
+  testNormal = oneway.test,
+  argsNormal = list(var.equal = TRUE),
+  testNonNormal = kruskal.test,
+  argsNonNormal = list(NULL),
+  smd = TRUE,
+  addOverall = FALSE
+)
-=== 单变量分析 ===
+</syntaxhighlight>
-[[单变量分析]] 涉及描述单个变量的[[频率分布|分布]]，包括其集中趋势（包括[[平均数]]、[[中位数]]和[[众数（统计学）|众数]]）和离散程度（包括数据集的[[范围（统计学）|范围]]和[[四分位数]]，以及像[[方差]]和[[标准差]]这样的离散程度度量）。分布的形状也可以通过诸如[[偏态]]和[[峰度]]等指标来描述。变量分布的特征也可以通过图形或表格格式展示，包括[[直方图]]和[[茎叶图]]。
+方法参见'''R package: tableone'''的官方文档
-=== 双变量和多变量分析 ===
-当样本包含不止一个变量时，描述性统计可以用来描述变量对之间的关系。在这种情况下，描述性统计包括：
+== '''节点使用指南''' ==
+* 最适用的使用场景，通常用于解决哪些问题
+* 节点通常用于处理哪些类型的数据
+=== '''方法选择''' ===
+对方法选择要点和关键事项进行表述。重点在于实用性。
-* [[列联表|交叉表]] 和 [[列联表]]
+=== '''参数配置''' ===
-* 通过[[散点图]]的图形表示
+对参数配置中的一些关键点进行表述（比如变量类型、是否兼容空值、是否要规避复用等，比如立方条样变量不能和自变量重复等）。
-* [[相关性和依赖性|依赖性]]的定量度量
-* [[条件分布]]的描述
+=== '''注意事项''' ===
+对注意事项进行表述。例如：
+* 是否支持带空值的运算。如果不支持，提示用A、B方法插补等等。
+* 节点内部出图量如果较大（比如多一个自变量就多一张图，例如多重插补），建议先关闭自动绘图。
+* 连接其他节点是否有一些特殊之处，告知
-区分单变量和双变量分析的主要原因是，双变量分析不仅仅是简单的描述性分析，它还描述了两个不同变量之间的关系。<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440] }}</ref> 依赖性的定量度量包括相关性（例如当两个变量都是连续的时使用[[皮尔逊相关系数]]，或者如果一个或两个变量不是连续的时使用[[斯皮尔曼等级相关系数]]）和[[协方差]]（反映变量测量的尺度）。在回归分析中，斜率也反映了变量之间的关系。非标准化斜率指出在[[预测|预测变量]]发生一个单位变化时，标准变量的单位变化。标准化斜率则指出这种变化以标准化（[[z-分数]]）单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称，看起来更像[[正态分布]]，从而使其更直观易解。 <ref>{{cite book |first=Todd G. |last=Nick |chapter=Descriptive Statistics |title=Topics in Biostatistics |series=[[分子生物学方法]] |volume=404 |location=New York |publisher=Springer |year=2007 |pages=33–52 |isbn=978-1-58829-531-6 |doi=10.1007/978-1-59745-530-5_3 |pmid=18450044 }}</ref>{{rp|47}}
 == 引用 ==

数据分析描述统计

节点状态	PC可用在 V1.0部署
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	数据分析描述统计
功能主类别	数据分析
英文缩写	Sttt_DA
功能亚类别	描述统计
节点类型	数据挖掘
开发语言	R
节点简介
在数据分析开始前，我们通常需要对数据进行统计描述。该功能会对数据特征进行描述性统计并生成三线表，用于快速查看数据的分布、趋势等特征。该模块需要首先选择一个二分类或多分类变量作为自变量，再选择其他需要进行统计描述的变量进行分析。用途：对大量数据进行快速理解和摘要的重要工具。参数：选择一个分组变量，和多个连续型数值变量或分类变量
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	2个
Loop-支持循环	是
If/Switch-支持逻辑判断	是
输入输出
可生成图片类型（推荐）不支持连接制图节点可生成数据表类型（推荐）由节点生成的数据源可配置参数例型变量列表入口类型控制流程 ➤ 传输变量 ◆ 传输源数据表 ■ 出口类型控制流程 ➤ 传输源数据表 ■
相关节点
上一节点	分层变量循环转列表
下一节点	单因素正态性检验
相关网站