Molecular profiling and machine learning risk stratification of graft rejection in kidney transplantation
Profilage moléculaire et stratification du risque de rejet par apprentissage automatique en transplantation rénale
par Esteban CORTES GARCIA sous la direction de Xavier JOUVEN
Thèse de doctorat en Bioinformatique
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le vendredi 29 novembre 2024 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Rein -- Transplantation
  • Rejet de greffe

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05042258 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Transplantation rénale, Apprentissage automatique, Histologie, Rejet
Resumé
La survie à long terme des allogreffes de rein est principalement limitée par la survenue de rejets. Afin d'améliorer le diagnostic de rejet et la caractérisation des lésions rénales, la classification de Banff est actuellement universellement utilisée en transplantation rénale. À partir de l'évaluation histologique des biopsies rénales, associée à des paramètres cliniques et immunologiques, la classification intègre désormais des biomarqueurs moléculaires. Notre objectif consiste à améliorer la caractérisation moléculaire du rejet et des lésions histologiques par étude du transcriptome entier afin d'améliorer les performances des classificateurs moléculaires déjà existants et utilisant d'autres outils. L'ARN total de 770 biopsies, issues de 540 patients recruté à partir des études cliniques KTD-Innov (NCT03582436) et EU-TRAIN (NCT03652402), a été extrait et séquencé en bulk par séquençage Illumina double brin. Les gènes associés au rejet médié par anticorps (AMR), au rejet cellulaire (TCMR) et à l'ensemble des lésions histologiques de la classification de Banff ont été déterminés par analyses différentielles, ainsi que leurs voies de signalisations associées. Une sélection de variables a été réalisée sur les signatures moléculaires afin d'entraîner 4 modèles d'apprentissages automatiques (Classificateur Bayesien Naïf, Séparateur à Vaste Marge Linéaire, Extreme Gradient Boosting, K-Voisins les Plus Proches). Une analyse archétypale a ensuite été réalisée sur les prédictions des meilleurs classificateurs histologiques afin d'obtenir des profils non supervisés d'échantillons. Enfin, une analyse d'inférence de fonction des ARNs longs non codants associés et prédictifs de l'AMR et du TCMR a été réalisée après inférence de réseaux de régulations. L'analyse différentielle a identifié 6141 et 8478 transcrits associés avec l'AMR et le TCMR, respectivement, dont 603 (9.8%) et 1186 (14%) sont décrits pour la première fois et absents des panels de gènes connus B-HOT et microarray. L'analyse des voies de signalisations a montré que le panel B-HOT était associé aux principaux processus immunologiques impliqués dans l'AMR et le TCMR alors que le microarray intègre spécifiquement les fonctions métaboliques et les processus de progression du cycle cellulaire. La sélection de variable a permis de réduire le nombre de gènes dans une fourchette comprise entre 52 et 867 prédicteurs. Les classificateurs basés sur le NGS ont démontré des performances robustes (PRAUC de 0,708 à 0,980) pour la prédiction des lésions de Banff et des rejets (AMR et TCMR). L'analyse des archétypes a révélé huit phénotypes distincts, chacun caractérisé par des caractéristiques cliniques, immunologiques et histologiques distincts. Les 8 archétypes basés sur le NGS présentaient des profils de survie des allogreffes distincts avec des taux de perte de greffon entre les archétypes, allant de 90% à 56% 7 ans après évaluation (p<0,0001). Les 27 cas AMR équivoques et les 49 cas borderline de la cohorte ont été classés dans différents archétypes, 5 (22) cas AMR équivoques et 30 (19) cas borderline ayant été reclassés dans les archétypes de rejet (non-rejet), ce qui a permis de stratifier le risque en fonction de leur signature moléculaire. Parmi les 105 prédicteur de l'AMR, 12 étaient spécifiques au NGS et représentaient des ARNs longs non codants dont 1 (5) a montré une association significative positive (ou négative) avec des fonctions immunologiques. Parmi les 94 prédicteurs du TCMR, 10 représentaient des ARNs longs non codants dont 2 (8) statistiquement positivement (ou négativement) associés à des fonctions immunologiques. De nouveaux transcrits spécifiques au NGS associés à l'AMR, au TCMR et à l'ensemble des lésions de la classification de Banff ont été découverts, représentant une nouvelle source de cibles thérapeutiques pour la conception ou le repositionnement de médicaments ainsi que pour la stratification du risque de rejet en transplantation rénale.