Zeroclanzhang(讨论 | 贡献) (创建页面,内容为“Category:数据挖掘”) |
Zeroclanzhang(讨论 | 贡献) 无编辑摘要 |
||
(未显示同一用户的1个中间版本) | |||
第1行: | 第1行: | ||
{{short description|统计学类型}} | |||
'''描述性统计量'''(在[[count noun]]意义上)是一种[[summary statistic]],用于定量描述或概括来自信息集合的特征,<ref>{{cite book |last=Mann |first=Prem S. |year=1995 |title=Introductory Statistics |edition=2nd |publisher=Wiley |isbn=0-471-31009-3 }}</ref> 而'''描述性统计学'''(在[[mass noun]]意义上)则是使用和分析这些统计数据的过程。描述性统计学与[[statistical inference|推理统计学]](或归纳统计学)的区别在于,其目的是总结一个[[Sample (statistics)|样本]],而不是用数据来了解样本数据所代表的[[statistical population|总体]]。<ref>{{Citation|title=Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing|date=2017|url=http://dx.doi.org/10.4135/9781506304144.n6|work=Interpreting and Using Statistics in Psychological Research|pages=145–183|location=Thousand Oaks, CA|publisher=SAGE Publications, Inc|doi=10.4135/9781506304144.n6|isbn=978-1-5063-0416-8|access-date=2021-06-01}}</ref> 这通常意味着,与推理统计学不同,描述性统计学不是基于[[probability theory|概率理论]]发展起来的,并且通常是[[nonparametric statistics|非参数统计]]。<ref>{{cite book |last=Dodge |first=Y. |year=2003 |title=The Oxford Dictionary of Statistical Terms |publisher=OUP |isbn=0-19-850994-4 |url-access=registration |url=https://archive.org/details/oxforddictionary0000unse }}</ref> 即使数据分析主要使用推理统计学得出结论,描述性统计学通常也会被展示。<ref>{{Citation|title=Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing|date=2017|url=http://dx.doi.org/10.4135/9781506304144.n6|work=Interpreting and Using Statistics in Psychological Research|pages=145–183|location=Thousand Oaks, CA|publisher=SAGE Publications, Inc|doi=10.4135/9781506304144.n6|isbn=978-1-5063-0416-8|access-date=2021-06-01}}</ref> 例如,在关于人类研究对象的论文中,通常包括一个表格,显示整体[[sample size|样本量]]、重要子组的样本量(例如,每个治疗或暴露组的样本量),以及[[demographic|人口统计学]]或临床特征,如[[average|平均]]年龄、各性别受试者的比例、相关[[comorbidity|合并症]]的受试者比例等。 | |||
用来描述数据集的一些常见度量包括[[central tendency|集中趋势]]度量和[[Statistical dispersion|离散]]度量或可变性度量。集中趋势度量包括[[mean|均值]]、[[median|中位数]]和[[Mode (statistics)|众数]],而可变性度量包括[[standard deviation|标准差]](或[[variance|方差]])、变量的最小值和最大值、[[kurtosis|峰度]]和[[skewness|偏度]]。<ref name=Inv>Investopedia, [http://www.investopedia.com/terms/d/descriptive_statistics.asp#axzz2DxCoTnMM 描述性统计学术语]</ref> | |||
==统计分析中的应用== | |||
描述性统计 | |||
学提供关于样本和已进行观察的简单总结。这些总结可能是[[Quantitative research|定量]]的,即[[summary statistics|总结统计量]],或是视觉上的,即易于理解的图表。这些总结可能构成更广泛统计分析中数据初始描述的基础,或者对于特定调查本身就足够。 | |||
例如,[[basketball|篮球]]中的投篮[[percentage|百分比]]是一种描述性统计量,概括了球员或球队的表现。这个数字是投中的投篮数除以射门次数。例如,投篮命中率为33%的球员大约每三次射门中一球。这个百分比总结或描述了多个离散事件。还可以考虑[[grade point average|平均分数点]]。这个单一数字描述了学生在其课程经历范围内的整体表现。<ref name="trochim">{{cite web|last=Trochim|first=William M. K.|title=Descriptive statistics|url=http://www.socialresearchmethods.net/kb/statdesc.php|work=Research Methods Knowledge Base|access-date=14 March 2011|year=2006}}</ref> | |||
描述性和总结性统计学的使用有着悠久的历史,实际上,人口和经济数据的简单汇总是统计学主题首次出现的方式。最近,一系列总结技术在[[exploratory data analysis|探索性数据分析]]的标题下被制定:这类技术的一个例子是[[box plot|箱形图]]。 | |||
在商业领域,描述性统计学为许多类型的数据提供了有用的总结。例如,投资者和经纪人可能会通过对其投资进行实证和分析研究,使用历史回报行为,以便在未来做出更好的投资决策。 | |||
===单变量分析=== | |||
[[Univariate analysis|单变量分析]]涉及描述单个变量的[[Frequency distribution|分布]],包括其集中趋势(包括[[mean|均值]]、[[median|中位数]]和[[Mode (statistics)|众数]])和离散性(包括数据集的[[range (statistics)|范围]]和[[quartiles|四分位数]],以及像[[variance|方差]]和[[standard deviation|标准差]]这样的离散度量)。分布的形状也可以通过[[skewness|偏度]]和[[kurtosis|峰度]]等指数来描述。变量分布的特征也可以通过图形或表格格式来描述,包括[[histograms|直方图]]和[[stem-and-leaf display|茎叶图]]。 | |||
===双变量和多变量分析=== | |||
当样本包含不止一个变量时,描述性统计学可以用来描述变量对之间的关系。在这种情况下,描述性统计学包括: | |||
* [[Contingency table|交叉表]]和[[contingency tables|列联表]] | |||
* 通过[[scatterplot|散点图]]的图形表示 | |||
* [[Correlation and dependence|相关性]]的量化度量 | |||
* [[conditional distribution|条件分布]]的描述 | |||
区分单变量和双变量分析的主要原因是,双变量分析不仅仅是简单的描述性分析,它还描述了两个不同变量之间的关系。<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440 | |||
==引用== | |||
{{Reflist}} | |||
[[Category:数据挖掘]] | [[Category:数据挖掘]] |
2024年1月20日 (六) 00:59的最新版本
描述性统计量(在count noun意义上)是一种summary statistic,用于定量描述或概括来自信息集合的特征,[1] 而描述性统计学(在mass noun意义上)则是使用和分析这些统计数据的过程。描述性统计学与推理统计学(或归纳统计学)的区别在于,其目的是总结一个样本,而不是用数据来了解样本数据所代表的总体。[2] 这通常意味着,与推理统计学不同,描述性统计学不是基于概率理论发展起来的,并且通常是非参数统计。[3] 即使数据分析主要使用推理统计学得出结论,描述性统计学通常也会被展示。[4] 例如,在关于人类研究对象的论文中,通常包括一个表格,显示整体样本量、重要子组的样本量(例如,每个治疗或暴露组的样本量),以及人口统计学或临床特征,如平均年龄、各性别受试者的比例、相关合并症的受试者比例等。
用来描述数据集的一些常见度量包括集中趋势度量和离散度量或可变性度量。集中趋势度量包括均值、中位数和众数,而可变性度量包括标准差(或方差)、变量的最小值和最大值、峰度和偏度。[5]
统计分析中的应用
描述性统计
学提供关于样本和已进行观察的简单总结。这些总结可能是定量的,即总结统计量,或是视觉上的,即易于理解的图表。这些总结可能构成更广泛统计分析中数据初始描述的基础,或者对于特定调查本身就足够。
例如,篮球中的投篮百分比是一种描述性统计量,概括了球员或球队的表现。这个数字是投中的投篮数除以射门次数。例如,投篮命中率为33%的球员大约每三次射门中一球。这个百分比总结或描述了多个离散事件。还可以考虑平均分数点。这个单一数字描述了学生在其课程经历范围内的整体表现。[6]
描述性和总结性统计学的使用有着悠久的历史,实际上,人口和经济数据的简单汇总是统计学主题首次出现的方式。最近,一系列总结技术在探索性数据分析的标题下被制定:这类技术的一个例子是箱形图。
在商业领域,描述性统计学为许多类型的数据提供了有用的总结。例如,投资者和经纪人可能会通过对其投资进行实证和分析研究,使用历史回报行为,以便在未来做出更好的投资决策。
单变量分析
单变量分析涉及描述单个变量的分布,包括其集中趋势(包括均值、中位数和众数)和离散性(包括数据集的范围和四分位数,以及像方差和标准差这样的离散度量)。分布的形状也可以通过偏度和峰度等指数来描述。变量分布的特征也可以通过图形或表格格式来描述,包括直方图和茎叶图。
双变量和多变量分析
当样本包含不止一个变量时,描述性统计学可以用来描述变量对之间的关系。在这种情况下,描述性统计学包括:
区分单变量和双变量分析的主要原因是,双变量分析不仅仅是简单的描述性分析,它还描述了两个不同变量之间的关系。<ref>{{cite book |first=Earl R. |last=Babbie |title=The Practice of Social Research |url=https://archive.org/details/isbn_9780495598428 |url-access=registration |edition=12th |publisher=Wadsworth |year=2009 |isbn=978-0-495-59841-1 |pages=[https://archive.org/details/isbn_9780495598428/page/436 436–440
引用
- ↑ Mann, Prem S. (1995). Introductory Statistics (2nd ed.). Wiley. ISBN 0-471-31009-3.
- ↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
- ↑ Dodge, Y. (2003). The Oxford Dictionary of Statistical Terms. OUP. ISBN 0-19-850994-4.
- ↑ "Drawing Conclusions From Data: Descriptive Statistics, Inferential Statistics, and Hypothesis Testing", Interpreting and Using Statistics in Psychological Research, Thousand Oaks, CA: SAGE Publications, Inc, pp. 145–183, 2017, doi:10.4135/9781506304144.n6, ISBN 978-1-5063-0416-8, retrieved 2021-06-01
- ↑ Investopedia, 描述性统计学术语
- ↑ Trochim, William M. K. (2006). "Descriptive statistics". Research Methods Knowledge Base. Retrieved 14 March 2011.