Mots clés |
Données manquantes, MNAR, Non-aléatoirement manquant, MICE, Imputation Multiple par Équations Chaînées, Modèle d'Heckman, Sample selection |
Resumé |
En présence de données manquantes issues d'un mécanisme aléatoire (MAR), l'une des méthodes les plus utilisées est l'Imputation Multiple par Équations Chaînées (MICE). MICE requiert la spécification d'un modèle d'imputation conditionnel pour chaque variable présentant des données manquantes. Suivant ces modèles, les données manquantes sont imputées de manière itérative. Cependant, en présence de données manquantes avec un mécanisme non aléatoire (MNAR), il est habituel de considérer que cette méthode conduit à des estimations possiblement biaisées. En effet, en présence d'un mécanisme MNAR, la validité des inférences dépend de notre capacité à modéliser de manière jointe la variable d'intérêt et son indicatrice de données manquantes, ce qui n'est généralement pas fait dans une approche MICE. Issue de l'économétrie, la méthode d'Heckman, aussi appelée méthode "sample selection" traite un échantillon présentant un biais de sélection en modélisant deux équations de manière jointe. Ces deux équations sont l'équation modélisant la sélection et l'équation modélisant la variable d'intérêt. La méthode d'Heckman a été appliquée avec succès pour tenir compte des données manquantes MNAR sur la variable d'intérêt. Néanmoins, cette approche ne permet pas de gérer le problème des données manquantes de manière globale, i.e. sur la variable d'intérêt et sur les variables explicatives d'un modèle de régression, ce qui limite son utilisation en épidémiologie clinique. Au cours de cette thèse, nous avons d'abord développé un modèle d'imputation pour des données MNAR utilisant la méthode d'Heckman et son estimateur en deux étapes, pour une variable d'intérêt continue. Par la suite, nous avons développé des modèles d'imputation utilisant l'estimateur du modèle d'Heckman par maximisation directe de la vraisemblance du modèle joint, pour des variables d'intérêt aussi bien continues que binaires. L'inclusion de ces modèles d'imputation dans un processus d'imputation par équations chaînées permet de traiter simultanément les données manquantes MAR sur des covariables. Notre approche a été validée par simulation et illustrée sur les données d'un essai clinique, mené sur des patients traités contre le virus de la grippe saisonnière. |