数据分析描述统计

数据分析描述统计
节点状态	PC可用在 V1.0部署
数据分析描述统计
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	数据分析描述统计
功能主类别	数据分析
英文缩写	Sttt_DA
功能亚类别	描述统计
节点类型	数据挖掘
开发语言	R
节点简介
	在数据分析开始前，我们通常需要对数据进行统计描述。该功能会对数据特征进行描述性统计并生成三线表，用于快速查看数据的分布、趋势等特征。该模块需要首先选择一个二分类或多分类变量作为自变量，再选择其他需要进行统计描述的变量进行分析。用途：对大量数据进行快速理解和摘要的重要工具。参数：选择一个分组变量，和多个连续型数值变量或分类变量
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	2个
Loop-支持循环	是
If/Switch-支持逻辑判断	是
输入输出
	可生成图片类型（推荐）不支持连接制图节点; 可生成数据表类型（推荐）由节点生成的数据源; 可配置参数例型变量列表; ; 入口类型控制流程 ➤; 传输变量 ◆; 传输源数据表 ■; 出口类型控制流程 ➤; 传输源数据表 ■;
相关节点
上一节点	分层变量循环转列表
下一节点	单因素正态性检验
相关网站 ;

一项描述性统计（在计数名词的意义上）是一种汇总统计，它从一系列信息中定量描述或总结特征，^[1]而描述性统计（在集合名词的意义上）则是使用和分析这些统计数据的过程。描述性统计与推断统计（或归纳统计）的区别在于，其目的是总结一个样本，而不是使用数据来了解样本数据所代表的总体。^[2] 这通常意味着，与推断统计不同，描述性统计并不是基于概率论发展的，而且常常是非参数统计。^[3] 即使数据分析主要结论使用推断统计，描述性统计通常也会被呈现出来。^[4] 例如，在报告人类受试者的论文中，通常会包含一个表格，给出整体样本量、重要子组的样本量（例如，每个治疗或暴露组），以及平均年龄、各性别受试者的比例、相关合并症等人口统计学或临床特征。

一些常用于描述数据集的度量包括中心趋势的度量和变异性或分散的度量。中心趋势的度量包括平均数、中位数和众数，而变异性的度量包括标准差（或方差）、变量的最小和最大值、峰度和偏度。^[5]

在统计分析中的使用

描述性统计提供关于样本和所做观察的简单概括。这些概括可能是定量的，即汇总统计，或者是视觉的，即简单易懂的图形。这些概括可能构成数据的初始描述的基础，作为更广泛统计分析的一部分，或者它们本身对于特定调查就足够了。

例如，在篮球中的投篮百分比是一种描述性统计数据，它总结了一名球员或一支球队的表现。这个数字是命中投篮数除以投篮尝试数。例如，命中率为33%的球员大约每三次投篮命中一球。这个百分比总结或描述了多个离散事件。同样也要考虑平均成绩点。这个单一数字描述了学生在其课程经历范围内的整体表现。Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.

描述性统计和总结性统计的使用有着悠久的历史，事实上，人口和经济数据的简单制表是统计学这一话题首次出现的方式。最近，一系列总结技术已经在探索性数据分析的标题下被制定出来：这种技术的一个例子是箱形图。

在商业领域中，描述性统计提供了对多种类型数据的有用总结。例如，投资者和经纪人可能通过对其投资进行经验性和分析性分析，使用历史回报行为的账目，以便在未来做出更好的投资决策。

单变量分析

单变量分析涉及描述单个变量的分布，包括其集中趋势（包括平均数、中位数和众数）和离散程度（包括数据集的范围和四分位数，以及像方差和标准差这样的离散程度度量）。分布的形状也可以通过诸如偏态和峰度等指标来描述。变量分布的特征也可以通过图形或表格格式展示，包括直方图和茎叶图。

双变量和多变量分析

当样本包含不止一个变量时，描述性统计可以用来描述变量对之间的关系。在这种情况下，描述性统计包括：

交叉表和列联表
通过散点图的图形表示
依赖性的定量度量
条件分布的描述

区分单变量和双变量分析的主要原因是，双变量分析不仅仅是简单的描述性分析，它还描述了两个不同变量之间的关系。^[6] 依赖性的定量度量包括相关性（例如当两个变量都是连续的时使用皮尔逊相关系数，或者如果一个或两个变量不是连续的时使用斯皮尔曼等级相关系数）和协方差（反映变量测量的尺度）。在回归分析中，斜率也反映了变量之间的关系。非标准化斜率指出在预测变量发生一个单位变化时，标准变量的单位变化。标准化斜率则指出这种变化以标准化（z-分数）单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称，看起来更像正态分布，从而使其更直观易解。 ^[7]^: 47

在商业领域中，描述性统计提供了对多种类型数据的有用总结。例如，投资者和经纪人可能通过对其投资进行经验性和分析性分析，使用历史回报行为的账目，以便在未来做出更好的投资决策。

单变量分析

单变量分析涉及描述单个变量的分布，包括其集中趋势（包括平均数、中位数和众数）和离散程度（包括数据集的范围和四分位数，以及像方差和标准差这样的离散程度度量）。分布的形状也可以通过诸如偏态和峰度等指标来描述。变量分布的特征也可以通过图形或表格格式展示，包括直方图和茎叶图。

双变量和多变量分析

当样本包含不止一个变量时，描述性统计可以用来描述变量对之间的关系。在这种情况下，描述性统计包括：

交叉表和列联表
通过散点图的图形表示
依赖性的定量度量
条件分布的描述

区分单变量和双变量分析的主要原因是，双变量分析不仅仅是简单的描述性分析，它还描述了两个不同变量之间的关系。^[8] 依赖性的定量度量包括相关性（例如当两个变量都是连续的时使用皮尔逊相关系数，或者如果一个或两个变量不是连续的时使用斯皮尔曼等级相关系数）和协方差（反映变量测量的尺度）。在回归分析中，斜率也反映了变量之间的关系。非标准化斜率指出在预测变量发生一个单位变化时，标准变量的单位变化。标准化斜率则指出这种变化以标准化（z-分数）单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称，看起来更像正态分布，从而使其更直观易解。 ^[9]^: 47

引用

↑ Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
↑ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
↑ Investopedia, 描述性统计术语
↑ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1.
↑ Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. 分子生物学方法. Vol. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.
↑ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1.
↑ Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. 分子生物学方法. Vol. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.

查找其他类别的节点，请参考以下列表

数据输入

多CSV表合并读取多Excel表合并读取导入CSV数据导入Excel数据导入SAV数据导入TSV数据

变量处理

中文变量名替换更新变量名标准化变量名转换变量类型

行列处理

行处理

去重样本样本量计数筛选样本筛选行空值过滤表格

矩阵处理

矩阵变换聚合表格

表格处理

分层变量循环转列表多表数据连接抽样数据合并数据连接

描述性统计

描述统计

数据分析描述统计

统计检验

正态性检验

单因素正态性检验多因素正态性检验

参数检验

Friedman检验两样本配对T检验两独立样本T检验单样本T检验

非参数检验

Ridit分析游程检验秩和检验符号检验

频数表检验

Fisher精确检验G检验Mantel-Haenszel检验McNemar检验卡方检验

方差分析

F检验One Way ANCOVAOne Way ANOVATwo Way ANCOVATwo Way ANOVAWelch检验多元方差分析多重比较方差分析方差齐性检验球形检验

数据分析描述统计

节点状态	PC可用在 V1.0部署
节点开发者	决策链算法研发部 (Dev.Team-DPS)
节点英文名	数据分析描述统计
功能主类别	数据分析
英文缩写	Sttt_DA
功能亚类别	描述统计
节点类型	数据挖掘
开发语言	R
节点简介
在数据分析开始前，我们通常需要对数据进行统计描述。该功能会对数据特征进行描述性统计并生成三线表，用于快速查看数据的分布、趋势等特征。该模块需要首先选择一个二分类或多分类变量作为自变量，再选择其他需要进行统计描述的变量进行分析。用途：对大量数据进行快速理解和摘要的重要工具。参数：选择一个分组变量，和多个连续型数值变量或分类变量
端口数量与逻辑控制(PC)
Input-入口	4个
Output-出口	2个
Loop-支持循环	是
If/Switch-支持逻辑判断	是
输入输出
可生成图片类型（推荐）不支持连接制图节点可生成数据表类型（推荐）由节点生成的数据源可配置参数例型变量列表入口类型控制流程 ➤ 传输变量 ◆ 传输源数据表 ■ 出口类型控制流程 ➤ 传输源数据表 ■
相关节点
上一节点	分层变量循环转列表
下一节点	单因素正态性检验
相关网站