Bayesian inference for infectious diseases : stochastic models, phylodynamics and data integration
Inférence bayésienne pour les maladies infectieuses : modèles stochastiques, phylodynamique et intégration de données
par Benjamin NGUYEN-VAN-YEN sous la direction de Bernard CAZELLES et de Richard PAUL
Thèse de doctorat en Mathématiques et sciences informatiques
ED 474 Frontières de l'Innovation en Recherche et Education

Soutenue le mardi 16 février 2021 à Université Paris Cité

Sujets
  • Maladies infectieuses
  • Statistique bayésienne

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

TEL (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Inférence bayésienne, Maladies infectieuses, MCMC, Processus stochastiques, Non-identifiabilité, Augmentation de données, Intégration de données
Resumé
L'année 2020 et la pandémie de COVID-19 ont à nouveau prouvé l'importance de mieux comprendre et contrôler la propagation des maladies infectieuses. L'épidémiologie des maladies infectieuses doit relever des défis difficiles : La dynamique des maladies infectieuses est à la fois non-linéaire et stochastique, et les données dont on dispose pour les étudier sont limitées, partielles, et biaisées de manière complexe. Ce manuscrit réunit trois projets distincts mais connectés, sur lesquels j'ai travaillé durant mes études doctorales dans le but d'avancer sur ces problèmes. Dans un premier chapitre, nous fournissons un panorama général de l'épidémiologie des maladies infectieuses. Nous abordons la modélisation des épidémies, les sources de données classiques et nouvelles les concernant, et l'inférence statistique bayésienne. Nous illustrons la manière dont ces différentes thématiques se rencontrent pour faire avancer nos connaissances sur l'exemple de la dengue. Dans le second chapitre, nous présentons un algorithme de Metropolis-Hastings novateur pour l'inférence bayésienne des processus de Markov de saut pur, par augmentation de données, en utilisant des mesures aléatoires de Poisson. Cet algorithme constitue une méthode efficace d'inférence des modèles épidémiques stochastiques par simulation, et fournit simultanément un diagnostic de la qualité de l'ajustement du modèle. Nous illustrons notre méthode en l'appliquant à l'épidémie de Zika de 2013 en Polynésie Française. Dans le troisième chapitre, nous adaptons la méthode précédente au contexte de l'inférence phylodynamique. Nous présentons un schéma d'augmentation de données non-centré original et démontrons comment l'intégrer à un algorithme de Metropolis-Hastings. Nous montrons comment le schéma choisi se prête à l'utilisation de distributions de proposition adaptatives, pour accélérer l'inférence par MCMC. Une comparaison de notre méthode avec une implémentation plus classique basée sur l'échantillonnage de phylogénies montre que notre algorithme est correct, mais également que sa vitesse et son efficacité statistique ne sont pas compétitives. Dans le quatrième et dernier chapitre, je discute du problème de la non-identifiabilité des modèles épidémiques. Même le modèle SIR le plus simple est non-identifiable quand l'inférence est faite à partir de données de comptage de cas seules, si l'on ne connait pas l'état initial du système. Nous montrons que la situation est la même à partir de données de séquences virales ou de séroprévalence prises seules. Nous établissons qu'utiliser ces sources de données complémentaires ensemble permet de résoudre le problème, avec des données simulées, et sur des données de dengue de Hô Chi Minh-Ville.