Développement de méthodes de priorisation de gènes pour les maladies génétiques rares grâce à un test paramétrique de statistique génétique et à l'annotation clinique
Development of gene-prioritising methods using statistical genetics and clinical annotation for rare genetic disorders
par Antoine FAVIER sous la direction de Antonio RAUSELL
Thèse de doctorat en Génétique, omiques, bioinformatique et biologie des systèmes
ED 474 Frontières de l'Innovation en Recherche et Education

Soutenue le jeudi 15 décembre 2022 à Université Paris Cité

Sujets
  • Bioinformatique
  • Biostatistiques
  • Médecine génomique

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04314676 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Bioinformatique, Génomique, Test paramétrique, Biostatistiques
Resumé
À ce jour, près de 70% des patients atteints de maladies mendéliennes demeurent sans diagnostic après séquençage de leur ADN. Il est nécessaire d'étudier les causes génétiques de ces maladies à l'aide des nouveaux outils génomiques et bio-informatiques pour mettre en place de potentielles stratégies thérapeutiques. Les nouvelles méthodes de séquençage d'exome et de génome ont grandement amélioré la précision des études cliniques sur les maladies rares. La médecine de précision et la génomique ont permis une meilleure compréhension du génome humain et en particulier des variants génétiques associés un grand nombre de maladies rares et communes. Cependant, le diagnostic et l'élaboration de stratégie thérapeutiques demeurent extrêmement compliqués du fait de l'hétérogénéité clinique et génétique, des défis statistiques associés et de la complexité de l'architecture génétique des maladies. L'ensemble des mécanismes génétiques et des artéfacts techniques peuvent brouiller le signal statistique, rendant le diagnostic et la recherche de médicament très compliqués. Les méthodes de priorisation de gène sont une solution pour simplifier ce problème. Une première stratégie consiste à agréger plusieurs variants d'intérêt dans une cohorte de patients et d'évaluer l'importance de leur accumulation grâce à une variable unique de type "burden" au sein d'une région spécifique par rapport à une cohorte contrôle plutôt que de tester chaque variant individuellement. Néanmoins, les individus contrôle sont rarement séquencés conjointement aux patients et cela peut conduire à des biais d'analyse. Pour contrer cet effet, j'ai développé une stratégie de test statistique de type "burden" sans contrôle en utilisant les données publiques de Genome Aggregation Database (gnomAD) comme paramètre. L'hypothèse de ma stratégie a été testée sur les données du projet 1000 Génomes et appliquées dans le cadre clinique d'une cohorte de patients souffrant de ciliopathies. La seconde stratégie est d'utiliser les données cliniques renseignées par les médecins dans les dossiers médicaux pour prioriser les gènes et gagner en puissance statistique lors de l'association au génotype. Des analyses guidées par le phénotype grâce à la nomenclature HPO pour définir de nouveaux diagnostics dans les maladies du développement ont déjà été menées et ont montré leur efficacité. J'ai travaillé sur la fiabilité des termes HPO pour construire des groupes de patients cliniquement similaires grâce à la similarité sémantique afin de prioriser les variants génétiques grâce aux exomes du projet Deciphering Developmental Disorders (DDD). J'ai montré que les termes HPO utilisés pour grouper des patients souffrant de des maladies hétérogènes telles que les maladies du développement sont aujourd'hui trop peu fiables à elles seules pour prioriser les variants exoniques et qu'une stratégie de type "burden" peut fonctionner dans un cadre clinique et identifier des variants causaux sans a priori dans une cohorte hétérogène. Mon travail sur la priorisation de variants guidée par la similarité clinique pourra servir à la communauté scientifique pour améliorer les méthodes existantes et la précision de l'ontologie. Le test de type "burden" sans contrôle appariés sera déployé comme software open-source et utilisable par la communauté scientifique.