These Descartes

Bioinformatics approaches application for disease understanding through genomics and transcriptomics data analysis

Application des approches bio-informatiques pour la compréhension des maladies par l'analyse des données génomiques et transcriptomiques

par Yufei LUO sous la direction de Antonio RAUSELL
Thèse de doctorat en Génétique
ED 562 Bio Sorbonne Paris Cité

Soutenue le mardi 09 juillet 2024 à Université Paris Cité

Sujets

Analyse en cellule unique
Homozygote
Lignées cellulaires

Texte integral en version complète PDF

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais

Description en français

Mots clés	Homozygotie, Variants prédits de perte de fonction, Gènes humains dispensables, ARN sur cellule unique, Transcriptomique spatiale, Lignée cellulaire, Type cellulaire, Annotation type cellulaire, Maladie rare, Oncologie
Resumé	Cette thèse, réalisée dans le cadre de la Validation des Acquis de l'Expérience (VAE), présente deux sujets distincts liés à l'application des approches bio-informatiques pour comprendre les maladies. Le premier sujet explore l'analyse des données génomiques, tandis que le second se concentre sur l'analyse des données transcriptomiques. Premier sujet : les gènes humains homozygotes pour des variants apparents de perte de fonction (LoF) sont de plus en plus signalés chez une proportion importante d'individus sans phénotypes cliniques évidents. Nous avons trouvé 166 gènes avec 179 variants LoF prédits pour lesquels la fréquence d'individus homozygotes dépasse 1 % dans au moins l'une des populations présentes dans les bases de données ExAC et gnomAD. Ces gènes potentiellement dispensables présentent un relâchement des contraintes sélectives, suggérant qu'une proportion importante de ces gènes pourrait être en train de subir une pseudogénisation. Huit de ces variants LoF ont affiché des signaux robustes de sélection positive, dont deux variants dans des gènes impliqués dans la résistance aux maladies infectieuses. L'identification de gènes dispensables facilitera la découverte de fonctions qui sont maintenant redondantes, voire même avantageuses, pour la survie humaine. Deuxième sujet : la technologie d'ARN monocellulaire (scRNA) a été développée pour atténuer les limitations de résolution de la séquence d'ARN en vrac en fournissant des profils d'expression génique au niveau de la cellule unique, révélant ainsi de nombreuses utilités dans le domaine de la recherche, telles que l'identification des populations cellulaires, la réponse de la résistance ou de la sensibilité cellulaire à un traitement, les trajectoires cellulaires et les interactions cellule-cellule. L'identification des populations cellulaires (annotation des types cellulaires) est le point clé de cette étude. J'ai utilisé des modèles de lignées cellulaires bien caractérisées, telles que Jurkat pour les lymphocytes T, SK-MEL-2 pour les cellules mélanome, Daudi et OCI-LY18 pour les cellules lymphocytes B, pour construire des échantillons de scRNA avec une proportion attendue de mélanges de populations cellulaires afin d'explorer les défis de l'annotation des types cellulaires. J'ai démontré que nous pouvons identifier des types cellulaires rares (< 2 %) dans ces données de scRNA en utilisant des méthodes bioinformatiques. Les données multiomiques au sein de plusieurs modalités omiques, telles que les données de transcriptomique spatiale (ST), se distinguent pour aider à comprendre l'hétérogénéité cellulaire avec plus de preuves biologiques. J'ai utilisé des données ST du cancer du pancréas adénocarcinome canalaire (PDAC) pour explorer la robustesse potentielle de l'identification des types cellulaires.

Mots clés

Homozygotie, Variants prédits de perte de fonction, Gènes humains dispensables, ARN sur cellule unique, Transcriptomique spatiale, Lignée cellulaire, Type cellulaire, Annotation type cellulaire, Maladie rare, Oncologie

Resumé

Cette thèse, réalisée dans le cadre de la Validation des Acquis de l'Expérience (VAE), présente deux sujets distincts liés à l'application des approches bio-informatiques pour comprendre les maladies. Le premier sujet explore l'analyse des données génomiques, tandis que le second se concentre sur l'analyse des données transcriptomiques. Premier sujet : les gènes humains homozygotes pour des variants apparents de perte de fonction (LoF) sont de plus en plus signalés chez une proportion importante d'individus sans phénotypes cliniques évidents. Nous avons trouvé 166 gènes avec 179 variants LoF prédits pour lesquels la fréquence d'individus homozygotes dépasse 1 % dans au moins l'une des populations présentes dans les bases de données ExAC et gnomAD. Ces gènes potentiellement dispensables présentent un relâchement des contraintes sélectives, suggérant qu'une proportion importante de ces gènes pourrait être en train de subir une pseudogénisation. Huit de ces variants LoF ont affiché des signaux robustes de sélection positive, dont deux variants dans des gènes impliqués dans la résistance aux maladies infectieuses. L'identification de gènes dispensables facilitera la découverte de fonctions qui sont maintenant redondantes, voire même avantageuses, pour la survie humaine. Deuxième sujet : la technologie d'ARN monocellulaire (scRNA) a été développée pour atténuer les limitations de résolution de la séquence d'ARN en vrac en fournissant des profils d'expression génique au niveau de la cellule unique, révélant ainsi de nombreuses utilités dans le domaine de la recherche, telles que l'identification des populations cellulaires, la réponse de la résistance ou de la sensibilité cellulaire à un traitement, les trajectoires cellulaires et les interactions cellule-cellule. L'identification des populations cellulaires (annotation des types cellulaires) est le point clé de cette étude. J'ai utilisé des modèles de lignées cellulaires bien caractérisées, telles que Jurkat pour les lymphocytes T, SK-MEL-2 pour les cellules mélanome, Daudi et OCI-LY18 pour les cellules lymphocytes B, pour construire des échantillons de scRNA avec une proportion attendue de mélanges de populations cellulaires afin d'explorer les défis de l'annotation des types cellulaires. J'ai démontré que nous pouvons identifier des types cellulaires rares (< 2 %) dans ces données de scRNA en utilisant des méthodes bioinformatiques. Les données multiomiques au sein de plusieurs modalités omiques, telles que les données de transcriptomique spatiale (ST), se distinguent pour aider à comprendre l'hétérogénéité cellulaire avec plus de preuves biologiques. J'ai utilisé des données ST du cancer du pancréas adénocarcinome canalaire (PDAC) pour explorer la robustesse potentielle de l'identification des types cellulaires.