Development of computational methods for the clinical interpretation of copy number variants in rare diseases patients
Développement de méthodes informatiques pour l'interprétation clinique des variantes du nombre de copies chez les patients atteints de maladies rares
par Francisco REQUENA SÁNCHEZ sous la direction de Antonio RAUSELL
Thèse de doctorat en Génétique
ED 562 Bio Sorbonne Paris Cité

Soutenue le vendredi 17 juin 2022 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Maladies rares

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-04691860 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Nombre de copies, Apprentissage automatique, Maladies rares, Interprétation clinique
Resumé
Les variations du nombre de copies (CNV) sont une cause majeure de maladies rares pédiatriques, avec un large spectre phénotypique, notamment les syndromes d'insuffisance médullaire héréditaires, les déficits immunitaires primaires et les troubles du neurodéveloppement. La détection actuelle des CNV par CGH (hybridation génomique comparative) permet d'obtenir un diagnostic chez ~12% des patients. De plus, la diffusion du Séquençage du Génome Entier (WGS) comme outil de diagnostic clinique permet l'identification d'un grand nombre de CNV de petite taille. Il existe donc un besoin d'interfaces informatiques interactives et de scores de pathogénicité pour améliorer la précision et la reproductibilité de l'évaluation des CNV. À cette fin, nous avons développé deux outils informatiques complémentaires pour faciliter l'interprétation clinique des CNV chez les patients atteints de maladies rares. Dans la première partie de cette thèse, nous avons développé CNVxplorer, une application web simple d'utilisation qui facilite l'interprétation clinique des CNV, quelle que soit la technologie utilisée pour les identifie. En plus du recoupement des informations contenues dans différentes bases de données de CNV (pathogènes et bénins), de SNV (Single Nucleotide Variant) ainsi que des gènes liés à des maladies, le résultat de CNVxplorer résume l'ensemble des caractéristiques associées aux CNV recherchés. Ces caractéristiques comprennent notamment (i) des scores de conservation de séquence, aussi bien chez différentes espèces que chez les Humains ; (ii) des estimations de sensibilité au dosage génique (par exemple: haploinsuffisance ou triplosensibilité) ; (iii) la présence de gènes non codants (lncRNA et miRNA), d'enhancers, de facteurs de transcription et de TAD (Topologically Associated Domain). Des gènes situés à distance de l'intervalle considéré mais dont l'expression peut être modulée en cis ou en trans par des régions régulatrices impactées par le CNV, peuvent également être incorporés dans l'analyse. Dans la deuxième partie, nous avons développé CNVscore, un système de scoring informatique pour CNV combinant des ensembles d'arbres de décision (Ensemble Trees) et un classificateur bayésien, qui a été entraîné sur des CNV pathogènes et non bénins provenant de bases de données publiques. La composante bayésienne de CNVscore fournit une probabilité a posteriori pour les scores de pathogénicité, qui peut être transformée en un score de fiabilité, indépendant de la prédiction et exprimant la certitude de cette dernière. Il permet de définir des sous-ensembles de CNV pour lesquels le score de pathogénicité peut être considéré comme "très fiable", "fiable" ou "peu fiable". Ce score de fiabilité est associé aux similarités entre les CNV étudiés et le set de données d'entrainement. Un benchmark comparatif complet par rapport aux méthodes de référence a montré que CNVscore a une excellente performance pour discriminer les CNV pathogènes et bénins. Enfin, nous avons montré que les outils de scoring actuels - y compris CNVscore - sont en difficulté lorsque l'on considère des ensembles de CNV enrichis en variants peu fiables et présentant des caractéristiques non conventionnelles, telles que la présence d'éléments non codants fonctionnellement pertinents ou la présence de gènes liés à des maladies non pertinentes pour les phénotypes cliniques étudiés. L'outil CNVscore fournit une approche objective pour tirer parti de l'incertitude des prédictions bioinformatiques afin d'améliorer l'évaluation de la pathogénicité des CNV. CNVxplorer et CNVscore sont tous deux des logiciels libres et intégrés dans le serveur web (http://cnvxplorer.com). Dans l'ensemble, cette thèse a contribué à une caractérisation plus complète des CNVs associés aux maladies humaines et a fourni des outils bioinformatiques pour faciliter l'évaluation de leur pathogénicité dans la pratique clinique.