Deep learning from phylogenies
Apprentissage profond à partir des phylogénies
par Jakub VOZNICA sous la direction de Hélène MORLON
Thèse de doctorat en Mathématiques et sciences informatiques
ED 474 Frontières de l'Innovation en Recherche et Education

Soutenue le mardi 19 octobre 2021 à Université Paris Cité

Sujets
  • Apprentissage profond
  • Phylogénie
Le texte intégral n’est pas librement disponible sur le web
Vous pouvez accéder au texte intégral de la thèse en vous authentifiant à l’aide des identifiants ENT d’Université Paris Cité, si vous en êtes membre, ou en demandant un accès extérieur, si vous pouvez justifier de de votre appartenance à un établissement français chargé d’une mission d’enseignement supérieur ou de recherche

Se connecter ou demander un accès au texte intégral

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr

Description en anglais
Description en français
Mots clés
Apprentissage profond, Phylogénie, Épidémiologie moléculaire, Phylodynamique, Représentation des arbres phylogénétiques, Statistiques résumées, Inférence statistique, Simulation computationnelle, Modèles de naissance et de mort, Superpropagation, CNN, FFNN, VIH, SARS-CoV-2, COVID, Alignement, HMM, Bioinformatique
Resumé
La phylodynamique des pathogènes est un domaine transdisciplinaire, où les épidémies sont étudiées à partir des données génétiques des pathogènes. Ces données sont récoltées chez des patients infectés et peuvent être utilisées pour la reconstruction de phylogénies. Dans ces phylogénies, chaque feuille représente un patient et chaque nœud interne représente une transmission. Des modèles épidémiologiques simulant des phylogénies ont été développés et permettent d'en estimer les paramètres. Les méthodes standards d'estimation incluent le maximum de vraisemblance et les approches bayésiennes. Ces approches sont spécifiques du modèle, et elles reposent à la fois sur des formules mathématiques compliquées et sur des approximations qui passent difficilement à l'échelle. Néanmoins, des méthodes d'estimations génériques, précises et rapides sont nécessaires et permettrait de tirer parti des bases de données considérables collectées aujourd'hui dans le contexte de la surveillance épidémiologique. Les mêmes limitations s'appliquent au domaine de la phylogénétique comparative, un sous-domaine de la macroévolution, où on étudie la dynamique de la diversification à partir des données génétiques des espèces à l'aide des modèles et des méthodes d'inférence similaires. Dans cette thèse, nous apportons des solutions aux limites de ces méthodes. Nous avons développé la première méthode d'estimation basée sur l'apprentissage profond dans le domaine. Cette méthode n'utilise pas la vraisemblance, elle repose sur des simulations. Un algorithme d'apprentissage profond apprend la fonction qui relie les phylogénies simulées aux paramètres épidémiologiques. Nous avons développé une représentation compacte et bijective des phylogénies, qui conserve toute l'information contenue dans un arbre. Une telle représentation s'oppose à celle sous la forme de statistiques résumées : les statistiques résumées sont spécifiques au modèle, et de nouvelles statistiques doivent être conçues pour contenir l'information relative à un modèle différent. Nous avons entraîné des réseaux neuronaux à prédire les paramètres ou à sélectionner le modèle épidémiologique. Sur les simulations, notre approche est au moins aussi performante que les approches standards en termes de précision. Elle est également plus rapide de plusieurs ordres de grandeur. Nous avons ensuite reproduit des résultats attendus sur une base de données réelles, issues des patients de Zurich infectés par le VIH-1. Ensuite, nous nous sommes concentrés sur les données du Sars-Cov-2. Tandis que notre approche s'applique très bien sur des données riches en signal (où le pathogène mute plus rapidement qu'il n'est transmis), elle doit être adaptée aux pathogènes qui mutent lentement, comme le Sars-CoV-2. Nous démontrons que notre approche adaptée est à la fois précise et rapide sur des simulations. En analysant les données du Sars-CoV-2, nous devions surmonter des défis liés à leur abondance : en mars 2021, plus de 1,000,000 de génomes du Sars-CoV-2 ont été collectés et rendus disponibles. C'est pourquoi nous avons développé une méthode d'alignement de génomes du Sars-CoV-2 afin qu'elle soit rapide, précise et puisse passer à l'échelle. Pour finir, nous avons transféré cette technologie dans le domaine de la macroévolution où on estime les paramètres de diversification à partir des phylogénies d'espèces. Nous avons adapté la représentation des phylogénies, qui inclue éventuellement des données sur des traits. Nous avons testé la performance de notre algorithme d'apprentissage profond sur deux modèles macroévolutifs largement utilisés. Cette thèse apporte les premiers algorithmes d'apprentissage profond en épidémiologie moléculaire et en macroévolution. Puisque notre représentation est dépourvue de statistiques résumées et ne repose pas sur la vraisemblance, nous espérons qu'elle servira de base à de nouvelles approches innovantes dans les deux domaines.