无编辑摘要 |
无编辑摘要 |
||
第55行: | 第55行: | ||
区分单变量和双变量分析的主要原因是,双变量分析不仅仅是简单的描述性分析,它还描述了两个不同变量之间的关系。<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440] }}</ref> 依赖性的定量度量包括相关性(例如当两个变量都是连续的时使用[[皮尔逊相关系数]],或者如果一个或两个变量不是连续的时使用[[斯皮尔曼等级相关系数]])和[[协方差]](反映变量测量的尺度)。在回归分析中,斜率也反映了变量之间的关系。非标准化斜率指出在[[预测|预测变量]]发生一个单位变化时,标准变量的单位变化。标准化斜率则指出这种变化以标准化([[z-分数]])单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称,看起来更像[[正态分布]],从而使其更直观易解。 <ref>{{cite book |first=Todd G. |last=Nick |chapter=Descriptive Statistics |title=Topics in Biostatistics |series=[[分子生物学方法]] |volume=404 |location=New York |publisher=Springer |year=2007 |pages=33–52 |isbn=978-1-58829-531-6 |doi=10.1007/978-1-59745-530-5_3 |pmid=18450044 }}</ref>{{rp|47}} | 区分单变量和双变量分析的主要原因是,双变量分析不仅仅是简单的描述性分析,它还描述了两个不同变量之间的关系。<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440] }}</ref> 依赖性的定量度量包括相关性(例如当两个变量都是连续的时使用[[皮尔逊相关系数]],或者如果一个或两个变量不是连续的时使用[[斯皮尔曼等级相关系数]])和[[协方差]](反映变量测量的尺度)。在回归分析中,斜率也反映了变量之间的关系。非标准化斜率指出在[[预测|预测变量]]发生一个单位变化时,标准变量的单位变化。标准化斜率则指出这种变化以标准化([[z-分数]])单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称,看起来更像[[正态分布]],从而使其更直观易解。 <ref>{{cite book |first=Todd G. |last=Nick |chapter=Descriptive Statistics |title=Topics in Biostatistics |series=[[分子生物学方法]] |volume=404 |location=New York |publisher=Springer |year=2007 |pages=33–52 |isbn=978-1-58829-531-6 |doi=10.1007/978-1-59745-530-5_3 |pmid=18450044 }}</ref>{{rp|47}} | ||
== '''节点使用的R语言示例代码''' == | |||
=== '''描述统计''' === | |||
<syntaxhighlight lang="R"> | |||
library(tableone) | |||
CreateTableOne( | |||
vars, | |||
strata, | |||
data, | |||
factorVars, | |||
includeNA = FALSE, | |||
test = TRUE, | |||
testApprox = chisq.test, | |||
argsApprox = list(correct = TRUE), | |||
testExact = fisher.test, | |||
argsExact = list(workspace = 2 * 10^5), | |||
testNormal = oneway.test, | |||
argsNormal = list(var.equal = TRUE), | |||
testNonNormal = kruskal.test, | |||
argsNonNormal = list(NULL), | |||
smd = TRUE, | |||
addOverall = FALSE | |||
) | |||
</syntaxhighlight> | |||
方法参见'''R package: tableone'''的官方文档 | |||
== '''节点使用指南''' == | |||
* 最适用的使用场景,通常用于解决哪些问题 | |||
* 节点通常用于处理哪些类型的数据 | |||
=== '''方法选择''' === | |||
对方法选择要点和关键事项进行表述。重点在于实用性。 | |||
=== '''参数配置''' === | |||
* | 对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。 | ||
* | |||
* | === '''注意事项''' === | ||
对注意事项进行表述。例如: | |||
* 是否支持带空值的运算。如果不支持,提示用A、B方法插补等等。 | |||
* 节点内部出图量如果较大(比如多一个自变量就多一张图,例如多重插补),建议先关闭自动绘图。 | |||
* 连接其他节点是否有一些特殊之处,告知 | |||
== 引用 == | == 引用 == |
2024年1月17日 (三) 15:06的版本
节点状态 | PC可用
在 V1.0部署
|
---|---|
数据分析描述统计 | |
节点开发者 | 决策链算法研发部 (Dev.Team-DPS) |
节点英文名 | 数据分析描述统计 |
功能主类别 | 数据分析 |
英文缩写 | Sttt_DA |
功能亚类别 | 描述统计 |
节点类型 | 数据挖掘 |
开发语言 | R |
节点简介 | |
在数据分析开始前,我们通常需要对数据进行统计描述。该功能会对数据特征进行描述性统计并生成三线表,用于快速查看数据的分布、趋势等特征。该模块需要首先选择一个二分类或多分类变量作为自变量,再选择其他需要进行统计描述的变量进行分析。 用途:对大量数据进行快速理解和摘要的重要工具。 参数:选择一个分组变量,和多个连续型数值变量或分类变量 | |
端口数量与逻辑控制(PC) | |
Input-入口 | 4个 |
Output-出口 | 2个 |
Loop-支持循环 | 是 |
If/Switch-支持逻辑判断 | 是 |
输入输出 | |
相关节点 | |
上一节点 | 分层变量循环转列表 |
下一节点 | 单因素正态性检验 |
一项描述性统计(在计数名词的意义上)是一种汇总统计,它从一系列信息中定量描述或总结特征,[1]而描述性统计(在集合名词的意义上)则是使用和分析这些统计数据的过程。描述性统计与推断统计(或归纳统计)的区别在于,其目的是总结一个样本,而不是使用数据来了解样本数据所代表的总体。[2] 这通常意味着,与推断统计不同,描述性统计并不是基于概率论发展的,而且常常是非参数统计。[3] 即使数据分析主要结论使用推断统计,描述性统计通常也会被呈现出来。[4] 例如,在报告人类受试者的论文中,通常会包含一个表格,给出整体样本量、重要子组的样本量(例如,每个治疗或暴露组),以及平均年龄、各性别受试者的比例、相关合并症等人口统计学或临床特征。
一些常用于描述数据集的度量包括中心趋势的度量和变异性或分散的度量。中心趋势的度量包括平均数、中位数和众数,而变异性的度量包括标准差(或方差)、变量的最小和最大值、峰度和偏度。[5]
在统计分析中的使用
描述性统计提供关于样本和所做观察的简单概括。这些概括可能是定量的,即汇总统计,或者是视觉的,即简单易懂的图形。这些概括可能构成数据的初始描述的基础,作为更广泛统计分析的一部分,或者它们本身对于特定调查就足够了。
例如,在篮球中的投篮百分比是一种描述性统计数据,它总结了一名球员或一支球队的表现。这个数字是命中投篮数除以投篮尝试数。例如,命中率为33%的球员大约每三次投篮命中一球。这个百分比总结或描述了多个离散事件。同样也要考虑平均成绩点。这个单一数字描述了学生在其课程经历范围内的整体表现。Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.
描述性统计和总结性统计的使用有着悠久的历史,事实上,人口和经济数据的简单制表是统计学这一话题首次出现的方式。最近,一系列总结技术已经在探索性数据分析的标题下被制定出来:这种技术的一个例子是箱形图。
在商业领域中,描述性统计提供了对多种类型数据的有用总结。例如,投资者和经纪人可能通过对其投资进行经验性和分析性分析,使用历史回报行为的账目,以便在未来做出更好的投资决策。
单变量分析
单变量分析 涉及描述单个变量的分布,包括其集中趋势(包括平均数、中位数和众数)和离散程度(包括数据集的范围和四分位数,以及像方差和标准差这样的离散程度度量)。分布的形状也可以通过诸如偏态和峰度等指标来描述。变量分布的特征也可以通过图形或表格格式展示,包括直方图和茎叶图。
双变量和多变量分析
当样本包含不止一个变量时,描述性统计可以用来描述变量对之间的关系。在这种情况下,描述性统计包括:
区分单变量和双变量分析的主要原因是,双变量分析不仅仅是简单的描述性分析,它还描述了两个不同变量之间的关系。[6] 依赖性的定量度量包括相关性(例如当两个变量都是连续的时使用皮尔逊相关系数,或者如果一个或两个变量不是连续的时使用斯皮尔曼等级相关系数)和协方差(反映变量测量的尺度)。在回归分析中,斜率也反映了变量之间的关系。非标准化斜率指出在预测变量发生一个单位变化时,标准变量的单位变化。标准化斜率则指出这种变化以标准化(z-分数)单位表示。高度偏斜的数据通常通过取对数来转换。使用对数可以使图形更对称,看起来更像正态分布,从而使其更直观易解。 [7]: 47
节点使用的R语言示例代码
描述统计
library(tableone)
CreateTableOne(
vars,
strata,
data,
factorVars,
includeNA = FALSE,
test = TRUE,
testApprox = chisq.test,
argsApprox = list(correct = TRUE),
testExact = fisher.test,
argsExact = list(workspace = 2 * 10^5),
testNormal = oneway.test,
argsNormal = list(var.equal = TRUE),
testNonNormal = kruskal.test,
argsNonNormal = list(NULL),
smd = TRUE,
addOverall = FALSE
)
方法参见R package: tableone的官方文档
节点使用指南
- 最适用的使用场景,通常用于解决哪些问题
- 节点通常用于处理哪些类型的数据
方法选择
对方法选择要点和关键事项进行表述。重点在于实用性。
参数配置
对参数配置中的一些关键点进行表述(比如变量类型、是否兼容空值、是否要规避复用等,比如立方条样变量不能和自变量重复等)。
注意事项
对注意事项进行表述。例如:
- 是否支持带空值的运算。如果不支持,提示用A、B方法插补等等。
- 节点内部出图量如果较大(比如多一个自变量就多一张图,例如多重插补),建议先关闭自动绘图。
- 连接其他节点是否有一些特殊之处,告知
引用
- ↑ Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
- ↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
- ↑ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
- ↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
- ↑ Investopedia, 描述性统计术语
- ↑ Babbie, Earl R. (2009). The Practice of Social Research (12th ed.). Wadsworth. pp. 436–440. ISBN 978-0-495-59841-1.
- ↑ Nick, Todd G. (2007). "Descriptive Statistics". Topics in Biostatistics. 分子生物学方法. Vol. 404. New York: Springer. pp. 33–52. doi:10.1007/978-1-59745-530-5_3. ISBN 978-1-58829-531-6. PMID 18450044.
查找其他类别的节点,请参考以下列表