潜类别模型

来自决策链云智库

statistics领域中,一个潜在类模型 (LCM) 将一组观察到的(通常是离散的)多变量变量与一组潜在变量相关联。它是一种潜在变量模型。之所以称之为潜在类模型,是因为潜在变量是离散的。一个类别由一系列条件概率的模式所定义,这些概率表示变量取某些值的几率。

潜在类分析 (LCA) 是结构方程建模的一个子集,用于在多变量分类数据中找到案例的群体或亚型。这些亚型被称为“潜在类”[1][2]

面对如下情况,研究者可能选择使用LCA来理解数据:想象一下,症状a-d已经在患有疾病X、Y和Z的一系列患者中进行了测量,疾病X与症状a、b和c的存在相关,疾病Y与症状b、c、d相关,疾病Z与症状a、c和d相关。

LCA将尝试检测潜在类(疾病实体)的存在,创造症状关联的模式。如同在因子分析中,LCA也可以用于根据其最大似然类别成员身份对案例进行分类。[1][3]

因为解决LCA的标准是达到潜在类内部不再存在一个症状与另一个症状的关联(因为是这个类别导致了它们的关联),以及患者所患疾病集合(或案例所属的类别)导致症状关联,所以症状将是“条件独立的”,即,基于类别成员身份,它们不再相关。[1]

模型

在每个潜在类别中,观察到的变量是统计独立的。这是一个重要的方面。通常,观察到的变量是统计相关的。通过引入潜在变量,独立性在类别内变量独立的意义上得以恢复(局部独立)。然后我们说,观察到的变量之间的关联是通过潜在变量的类别来解释的(McCutcheon, 1987)。

潜在类模型的一种形式可以写作

[math]p_{i_1, i_2, \ldots, i_N} \approx \sum_t^T p_t \, \prod_n^N p^n_{i_n, t},[/math]

其中[math]T[/math]是潜在类的数量,而[math]p_t[/math]是所谓的招募或无条件概率,应该总和为一。[math]p^n_{i_n, t}[/math]是边际或条件概率。

对于双向潜在类模型,其形式为

[math]p_{ij} \approx \sum_t^T p_t \, p_{it} \, p_{jt}.[/math]

这种双向模型与概率潜在语义分析非负矩阵分解有关。

LCA中使用的概率模型与朴素贝叶斯分类器密切相关。主要区别在于,在LCA中,个体的类别成员身份是一个潜在变量,而在朴素贝叶斯分类器中,类别成员身份是一个观察到的标签。

相关方法

存在许多具有不同名称和用途但共享共同关系的方法。聚类分析,与LCA一样,用于在数据中发现类似分类群体的案例。多变量混合估计(MME)适用于连续数据,并假设这些数据源自分布的混合:想象一组由男性和女性混合产生的身高。如果多变量混合估计被限制为在每个分布内度量必须不相关,则被称为潜在轮廓分析。修改为处理离散数据,这种受限分析被称为LCA。离散潜在特征模型进一步限制类别形成于单一维度的片段:本质上是根据该维度将成员分配到类别中:一个例子是根据能力或价值的维度将案例分配到社会阶层中。

作为一个实际例子,变量可能是政治问卷的多项选择题目。在这种情况下,数据包括一个N方向列联表,其中包含对多名受访者的项目答案。在这个例子中,潜在变量指的是政治观点,潜在类别指的是政治团体。给定团体成员身份,条件概率指定选择某些答案的几率。

应用领域

潜在类别分析(LCA)可用于许多领域,例如:协同过滤[4]行为遗传学[5]以及[诊断测试评估]。[6]

这段内容展示了潜在类别分析(LCA)在不同领域的应用。它被广泛应用于协同过滤、行为遗传学以及诊断测试的评估中。这一技术通过扩展的潜在类别模型,增强了协同推荐的效果,这在Cheung等人2004年的研究中得到了证实。在行为遗传学领域,LCA被用于分析双胞胎行为障碍症状的相似性,如Eaves等人1993年的研究所展示。此外,Bermingham等人在2015年的研究中提出了Hui和Walter的潜在类别模型的扩展应用,用于从监测数据中估计诊断测试的特性,展现了LCA在诊断测试评估领域的潜力。这些研究表明,潜在类别分析是一个多用途且有效的工具,可以在多个领域中找到应用。

引用

  1. 1.0 1.1 1.2 Lazarsfeld, P.F. and Henry, N.W. (1968) Latent structure analysis. Boston: Houghton Mifflin
  2. Formann, A. K. (1984). Latent Class Analyse: Einführung in die Theorie und Anwendung [Latent class analysis: Introduction to theory and application]. Weinheim: Beltz.
  3. Teichert, Thorsten (2000). "Das Latent-Ciass Verfahren zur Segmentierung von wahlbasierten Conjoint-Daten. Befunde einer empirischen Anwendung". Marketing ZFP. 22 (3): 227–240. doi:10.15358/0344-1369-2000-3-227. ISSN 0344-1369.
  4. Cheung, Kwok-Wai; Tsui, Kwok-Ching; Liu, Jiming (2004). "用于协同推荐的扩展潜在类别模型". IEEE系统、人类和网络安全交易 - 第A部分:系统与人类. 34 (1): 143–148. CiteSeerX 10.1.1.6.2234. doi:10.1109/TSMCA.2003.818877. S2CID 11628144.
  5. Eaves, L. J., Silberg, J. L., Hewitt, J. K., Rutter, M., Meyer, J. M., Neale, M. C., & Pickles, A (1993). "分析少年行为障碍症状的双胞胎相似性:潜在类别模型在遗传应用中的作用". 行为遗传学. 23 (1): 5–19. doi:10.1007/bf01067550. PMID 8476390. S2CID 40678009.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  6. Bermingham, M. L., Handel, I. G., Glass, E. J., Woolliams, J. A., de Clare Bronsvoort, B. M., McBride, S. H., Skuce, R. A., Allen, A . R., McDowell, S. W. J., & Bishop, S. C. (2015). "Hui和Walter的潜在类别模型扩展应用于从监测数据估计诊断测试特性:潜在数据的潜在模型". 科学报告. 5: 11861. Bibcode:2015NatSR...511861B. doi:10.1038/srep11861. PMC 4493568. PMID 26148538.{{cite journal}}: CS1 maint: multiple names: authors list (link)

External links

  • Statistical Innovations, Home Page, 2016. Website with latent class software (Latent GOLD 5.1), free demonstrations, tutorials, user guides, and publications for download. Also included: online courses, FAQs, and other related software.
  • The Methodology Center, Latent Class Analysis, a research center at Penn State, free software, FAQ
  • John Uebersax, Latent Class Analysis, 2006. A web-site with bibliography, software, links and FAQ for latent class analysis