论文标题

对多元序数数据的插定方法的比较研究

A Comparative Study of Imputation Methods for Multivariate Ordinal Data

论文作者

Wongkamthong, Chayut, Akande, Olanrewaju

论文摘要

在大型数据集中,缺失的数据仍然是一个非常普遍的问题,包括调查和普查数据,其中包含许多序数响应,例如政治民意调查和意见调查。多个插补(MI)通常是分析此类不完整数据集的首选方法,并且确实有多种MI实现,包括使用通用线性模型,基于树的模型和贝叶斯非参数模型的方法。但是,关于这些方法的多元序数数据的统计性能的研究有限。在本文中,我们对几种MI方法进行了经验评估,包括使用多数逻辑回归模型,使用分类和回归树的小鼠,使用随机森林,使用DIRICHLET进程(DP)使用多个差异DP混合使用DP和MI混合物的MI COMETTRES,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用随机森林,使用分类和MI混合MI混合DP。我们使用基于2018年美国社区调查(ACS)选择的序数变量的模拟研究评估方法。在我们的仿真设置下,结果表明,使用比例的差异回归模型,分类和回归树以及多项式分布的DP混合物通常优于其他方法。在某些设置中,使用多项式逻辑回归模型的MI能够实现可比的性能,具体取决于缺少的数据机制和缺少数据的数量。

Missing data remains a very common problem in large datasets, including survey and census data containing many ordinal responses, such as political polls and opinion surveys. Multiple imputation (MI) is usually the go-to approach for analyzing such incomplete datasets, and there are indeed several implementations of MI, including methods using generalized linear models, tree-based models, and Bayesian non-parametric models. However, there is limited research on the statistical performance of these methods for multivariate ordinal data. In this article, we perform an empirical evaluation of several MI methods, including MI by chained equations (MICE) using multinomial logistic regression models, MICE using proportional odds logistic regression models, MICE using classification and regression trees, MICE using random forest, MI using Dirichlet process (DP) mixtures of products of multinomial distributions, and MI using DP mixtures of multivariate normal distributions. We evaluate the methods using simulation studies based on ordinal variables selected from the 2018 American Community Survey (ACS). Under our simulation settings, the results suggest that MI using proportional odds logistic regression models, classification and regression trees and DP mixtures of multinomial distributions generally outperform the other methods. In certain settings, MI using multinomial logistic regression models is able to achieve comparable performance, depending on the missing data mechanism and amount of missing data.

扫码加入交流群

加入微信交流群

微信交流群二维码

扫码加入学术交流群,获取更多资源