Development of bioinformatics methods for high-dimensional single-cell data analysis and their application to the study of cell heterogeneity
Développement de méthodes bio-informatiques pour l'analyse des données de haute dimension sur cellules uniques et leur application à l'étude de l'hétérogénéité cellulaire
par Akira CORTAL sous la direction de Antonio RAUSELL
Thèse de doctorat en Immunologie
ED 562 Bio Sorbonne Paris Cité

Soutenue le mardi 08 décembre 2020 à Université Paris Cité

Sujets
  • Analyse sur cellule unique
  • Bioinformatique
  • Métaomique

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

TEL (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Omiques, Séquençage d'ARN sur cellule unique, Réduction de la dimensionalité, Fonction biologique, Signatures géniques
Resumé
La première découverte d'un micro-organisme et l'observation d'une cellule a été réalisée à l'aide de microscopes par Robert Hooke et Antoni van Leeuwenhoek à la fin du XVIIe siècle. Dès lors, de nombreux moyens ont été déployés pour caractériser les cellules et leur hétérogénéité dans les organismes multicellulaires. Les progrès technologiques récents permettent maintenant de caractériser les cellules grâce à différentes technologies de séquençage d'"omiques" sur cellule unique. Ainsi, les composants génomiques, épigénétiques, transcriptomiques, protéomiques et métaboliques peuvent maintenant être identifiés à grande échelle à la résolution unicellulaire afin de déchiffrer les modules moléculaires qui orchestrent les fonctions cellulaires. L'exploration de l'hétérogénéité cellulaire et de ses constituants moléculaires sous-jacents est essentielle à la compréhension des mécanismes biologiques complexes et à leur participation dans les maladies. Cette exploration exhaustive de l'hétérogénéité des cellules, nécessite une identification des signatures moléculaires de manière non biaisée, qui peuvent servir de cartes d'identité pour chaque cellule du corps. Cependant, la variabilité et les erreurs techniques associées au séquençage sur cellule unique a rendu nécessaire l'utilisation d'approches computationnelles basées sur le partitionnement de données dans lesquelles la caractérisation de l'hétérogénéité de type cellulaire est effectuée à un niveau de sous-population cellulaire plutôt qu'au niveau de la cellule unique. Dans cette thèse, j'ai développé une méthode statistique multivariée sans partitionnement de données, appelée Cell-ID, qui permet l'extraction robuste de signatures géniques, par cellule, à partir de données de séquençage sur cellule unique. Via de nombreuses évaluations effectués sur divers ensembles de données de séquençage unicellulaire, je démontre que les signatures extraites par Cell-ID permettent une reconnaissance impartiale de l'identité cellulaire entre différents donneurs, tissus d'origine, organismes et technologies "omiques" sur cellule unique. De plus, j'illustre par une analyse exploratoire que les signatures extraites par CellID englobent les signaux liés aux mécanismes biologiques complexes et peuvent être utilisées pour étudier les voies biologiques fonctionnelles. La méthode CellID a été implémentée en tant que package R open-source et peut être facilement intégrée dans les flux de travail existants d'analyse des données de séquençage sur cellule unique par la communauté de recherche. Dans l'ensemble, la méthode originale que j'ai développée tout au long de cette thèse aidera à capturer l'hétérogénéité cellulaire individuelle en fournissant des signatures robustes et non biaisées. CellID peut notamment être utilisé pour construire un catalogue complet d'identité cellulaire de référence en l'appliquant à des projets d'encyclopédie cellulaire à grande échelle tels que l'encyclopédie des cellules humaines (Human Cell Atlas) ou l'encyclopédie des cellules de souris (Mouse Cell Atlas), et aussi, entre autres, étudier les voies moléculaires associées aux maladies. Ce travail sera également très pertinent dans un avenir, proche avec l'avènement du séquençage multimodal à l'échelle de la cellule unique, où il sera nécessaire de caractériser les cellules par la combinaison de plusieurs "omiques".