Imputation multiple adaptée aux données non-aléatoirement manquantes (MNAR)
Multiple imputation approach adapted for missing not at random (MNAR) missing data
par Jacques-Emmanuel GALIMARD sous la direction de Matthieu RESCHE-RIGON
Thèse de doctorat en Santé publique. Biostatistique
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le lundi 29 octobre 2018 à Sorbonne Paris Cité

Sujets
  • Observations manquantes (statistique)
  • Santé publique
  • Statistique médicale

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Données manquantes, MNAR, Non-aléatoirement manquant, MICE, Imputation Multiple par Équations Chaînées, Modèle d'Heckman, Sample selection
Resumé
En présence de données manquantes issues d'un mécanisme aléatoire (MAR), l'une des méthodes les plus utilisées est l'Imputation Multiple par Équations Chaînées (MICE). MICE requiert la spécification d'un modèle d'imputation conditionnel pour chaque variable présentant des données manquantes. Suivant ces modèles, les données manquantes sont imputées de manière itérative. Cependant, en présence de données manquantes avec un mécanisme non aléatoire (MNAR), il est habituel de considérer que cette méthode conduit à des estimations possiblement biaisées. En effet, en présence d'un mécanisme MNAR, la validité des inférences dépend de notre capacité à modéliser de manière jointe la variable d'intérêt et son indicatrice de données manquantes, ce qui n'est généralement pas fait dans une approche MICE. Issue de l'économétrie, la méthode d'Heckman, aussi appelée méthode "sample selection" traite un échantillon présentant un biais de sélection en modélisant deux équations de manière jointe. Ces deux équations sont l'équation modélisant la sélection et l'équation modélisant la variable d'intérêt. La méthode d'Heckman a été appliquée avec succès pour tenir compte des données manquantes MNAR sur la variable d'intérêt. Néanmoins, cette approche ne permet pas de gérer le problème des données manquantes de manière globale, i.e. sur la variable d'intérêt et sur les variables explicatives d'un modèle de régression, ce qui limite son utilisation en épidémiologie clinique. Au cours de cette thèse, nous avons d'abord développé un modèle d'imputation pour des données MNAR utilisant la méthode d'Heckman et son estimateur en deux étapes, pour une variable d'intérêt continue. Par la suite, nous avons développé des modèles d'imputation utilisant l'estimateur du modèle d'Heckman par maximisation directe de la vraisemblance du modèle joint, pour des variables d'intérêt aussi bien continues que binaires. L'inclusion de ces modèles d'imputation dans un processus d'imputation par équations chaînées permet de traiter simultanément les données manquantes MAR sur des covariables. Notre approche a été validée par simulation et illustrée sur les données d'un essai clinique, mené sur des patients traités contre le virus de la grippe saisonnière.