Étude de la flexibilité des protéines : analyse à grande échelle de simulations de dynamique moléculaire et prédiction par apprentissage profond
Study of protein flexibility : large-scale analysis of molecular dynamics simulations and prediction using deep learning
par Yann VANDER MEERSCHE sous la direction de Tatiana GALOCHKINA et de Jean-Christophe GELLY
Thèse de doctorat en Biologie cellulaire et moléculaire
ED 562 Bio Sorbonne Paris Cité

Soutenue le vendredi 06 décembre 2024 à Université Paris Cité

Sujets
  • Apprentissage profond
  • Dynamique moléculaire
  • Interactions protéine-protéine

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04969216 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Flexibilité protéique, Dynamique moléculaire, Apprentissage profond, Prédiction, AlphaFold, B-facteur, Modèles de langage protéique, Bioinformatique, Biologie structurale
Resumé
Les protéines sont essentielles aux processus biologiques. Comprendre leur dynamique est crucial pour élucider leurs fonctions biologiques et leurs interactions. Cependant, mesurer expérimentalement cette flexibilité reste un défi en raison des limitations techniques et des coûts associés. Cette thèse vise à approfondir la compréhension des propriétés dynamiques des protéines et à proposer des méthodes bioinformatique permettant de prédire leur flexibilité directement à partir de leur séquence. Ces travaux s'organisent en quatre axes principaux : 1) Prédiction de la flexibilité des protéines en termes de B-facteurs. Nous avons développé MEDUSA, une méthode de prédiction de la flexibilité basée sur l'apprentissage profond, qui exploite les informations physico-chimiques et évolutives des acides aminés pour prédire des classes de flexibilité expérimentale à partir des séquences protéiques. MEDUSA s'est révélé plus performant que les outils précédemment disponibles, mais présente des limitations en raison de la variabilité des données expérimentales. 2) Analyse à grande échelle de la dynamique protéique in silico. Nous avons mis à disposition ATLAS, une base de données de simulations de dynamique moléculaire tout-atome standardisées, fournissant des informations détaillées sur la flexibilité des protéines pour plus de 1500 structures représentatives. ATLAS permet une analyse interactive de la dynamique des protéines à différents niveaux et offre des informations précieuses sur les protéines présentant des comportements dynamiques atypiques, tels que les fragments à double personnalité. 3) Analyse approfondie du score pLDDT d'AlphaFold 2 et sa relation avec la flexibilité des protéines. Nous avons évalué la corrélation du pLDDT avec différents descripteurs de flexibilité dérivés de simulations de dynamique moléculaire et d'ensembles RMN, et démontré que la confiance dans la prédiction de la structure 3D ne reflète pas nécessairement la flexibilité attendue de la région protéique, en particulier pour les fragments protéiques impliqués dans des interactions moléculaires. 4) Prédiction des descripteurs de flexibilité dérivés de la dynamique moléculaire à partir des embeddings de langages protéiques. Nous présentons PEGASUS, un nouvel outil de prédiction de la flexibilité développé à partir de la base de données ATLAS. En utilisant l'encodage des séquences protéiques par des modèles de langage protéique et un modèle d'apprentissage profond simple, PEGASUS fournit des prédictions précises des métriques de flexibilité et capture efficacement l'impact des mutations sur la dynamique des protéines. Les perspectives de ce travail incluent l'enrichissement des simulations avec des environnements variés et l'intégration des protéines membranaires pour améliorer PEGASUS et réaliser de nouvelles analyses. Nous évoquons également l'émergence des méthodes capables de prédire des ensembles conformationnels, offrant des avancées prometteuses pour mieux capturer la dynamique des protéines. Cette thèse ouvre de nouvelles perspectives pour la prédiction et l'analyse de la flexibilité des protéines, ouvrant la voie à des avancées dans des domaines tels que la recherche biomédicale, l'étude des mutations et la conception de médicaments.