Development of federated learning models for improved genetic variant assessment in a multi-site clinical setting
Développement de modèles d'apprentissage fédéré pour améliorer l'évaluation des variants génétiques dans un cadre clinique multi-sites
par Nigreisy MONTALVO ZULUETA sous la direction de Antonio RAUSELL
Thèse de doctorat en Génétique
ED 562 Bio Sorbonne Paris Cité

Soutenue le mardi 17 décembre 2024 à Université Paris Cité

Sujets
  • Apprentissage fédéré
  • Séquence nucléotidique
  • Variabilité génétique

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05029613 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Apprentissage fédéré, Variants génétiques humains, Variante nucléotidique simple, Variations du nombre de copies, Interprétation clinique
Resumé
L'apprentissage fédéré (FL) est une technique d'apprentissage automatique qui permet à plusieurs détenteurs de données d'entraîner un modèle de manière collaborative, sans partager les données brutes. Cette approche est particulièrement pertinente dans le domaine de la génétique, où les données sont souvent réparties entre plusieurs institutions, et où des contraintes réglementaires, telles que le Règlement Général sur la Protection des Données, limitent la centralisation des données. En plus d'améliorer la confidentialité et la sécurité des données, FL permet l'entraînement de modèles plus robustes en accédant à des ensembles de données plus vastes et plus diversifiés. FL a été proposé pour la première fois en 2016 comme approche pour entraîner des modèles d'apprentissage automatique sur une fédération d'appareils mobiles, coordonnée par un serveur central. Dans leur mise en œuvre, le serveur définissait un modèle global, et transmettait ses paramètres à un sous-ensemble de clients. Les clients optimisaient ensuite le modèle reçu, en effectuant une descente de gradient stochastique sur leurs données locales, puis renvoyaient les mises à jour locales au serveur. Le serveur créait un nouveau modèle global en agrégeant les mises à jour locales par moyenne pondérée. Ce processus était répété soit pendant un nombre prédéfini de tours, soit jusqu'à la convergence du modèle. FL a également été adapté aux environnements cross-silo, où les clients (généralement entre 2 et 50) sont des organisations telles que des hôpitaux et des instituts de recherche. L'objectif de cette thèse est d'étudier l'efficacité de FL cross-silo pour l'évaluation clinique des variantes génétiques humains. À cet effet, nous avons utilisé la base de données publique ClinVar pour simuler des collaborations multi-institutionnelles réalistes dans l'évaluation des variantes nucléotidiques simples, codantes et non codantes, ainsi que des variations du nombre de copies. Concrètement, nous avons évalué la performance de plusieurs modèles d'apprentissage automatique supervisé, entraînés de manière fédérée entre plusieurs institutions, pour classifier les variantes génétiques comme pathogènes ou non pathogènes. Nous avons ensuite comparé ces performances à celles de modèles centralisés et celles de modèles locaux propres à chaque institution. Pour ce qui est de la comparaison avec les performances de modèles centralisés, les performances de FL étaient équivalentes ou supérieures. Pour ce qui est de la comparaison avec les performances de modèles locaux, les performances de FL étaient dans la grande majorité des cas supérieures. Ces résultats démontrent les avantages à utiliser l'apprentissage fédéré dans la collaboration entre les institutions. Dans nos expériences, nous avons évalué plusieurs stratégies d'agrégation de FL, notamment FedProx, FedAdagrad, FedAdam et FedYogi, qui font référence aux méthodes utilisées par le serveur pour combiner les mises à jour locales en un nouveau modèle global. Nos résultats ont montré que FedProx offrait généralement les meilleures performances. De plus, nous avons analysé la dégradation des performances du modèle de FL et de son modèle centralisé équivalent lorsqu'une institution décidait de ne pas participer à l'entraînement collaboratif. Nous avons constaté que, dans la plupart des cas, le modèle de FL se montrait plus résilient que les approches centralisées, démontrant sa capacité à se généraliser de manière adéquate à des ensembles de données non vus, même avec des ensembles d'entraînement plus réduits. À notre connaissance, cette thèse présente la première étude simulée de FL pour la classification de la pathogénicité des variantes génétiques. Avec nos conclusions, nous espérons encourager l'adoption de FL pour établir des collaborations multi-institutionnelles sécurisées dans l'interprétation des variantes humains.