Strategies for selection and application conditions of machine learning algorithms applied to radiomics data
Stratégies de sélection et conditions d'application des algorithmes d'apprentissage automatique appliqués aux données de radiomique
par Antoine DECOUX sous la direction de Laure FOURNIER-DUJARDIN
Thèse de doctorat en Imageries
ED 563 Médicament, Toxicologie, Chimie, Imageries

Soutenue le lundi 04 décembre 2023 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Imagerie médicale
  • Imagerie par résonance magnétique
  • Intelligence artificielle
  • Marqueurs biologiques
  • Radiomique
Un embargo est demandé par le doctorant jusqu'au 31 janvier 2026
Vous pouvez accéder au texte intégral de la thèse en vous authentifiant à l’aide des identifiants ENT d’Université Paris Cité, si vous en êtes membre, ou en demandant un accès extérieur, si vous pouvez justifier de de votre appartenance à un établissement français chargé d’une mission d’enseignement supérieur ou de recherche

Se connecter ou demander un accès au texte intégral

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version partielle de la thèse pour sa diffusion sur Internet (pdf))

Description en anglais
Description en français
Mots clés
Radiomique, Texture, Biomarqueur, Imagerie, Apprentissage automatique, Intelligence Artificielle, Méthodologie, Reproductibilité, Classification, Sélection de variables
Resumé
La radiomique est une méthode haut débit d'extraction de paramètres quantitatifs des images médicales afin de découvrir des nouveaux biomarqueurs. Le processus comprend plusieurs étapes, mais différents choix méthodologiques peuvent être appliqués à chacune d'entre elles. Il n'existe pas de consensus sur la méthodologie qui doit être privilégiée, ou les critères de choix parmi les différentes méthodologies. Cette thèse avait pour objectif d'étudier les paramètres pouvant guider les choix méthodologiques à l'étape de modélisation par les algorithmes d'apprentissage machine et expliquer les performances des modèles. La première étude s'intéressait au choix des algorithmes de sélection de variables et de classification binaire, testés sur dix jeux de données de scanner et IRM. Elle a montré que les performances des algorithmes dépendaient des jeux de données sur lesquels ils étaient appliqués. Les modèles de sélection de variables issus de la théorie de l'information et les classifieurs basés sur des régressions linéaires obtenaient les meilleures performances globales. La seconde étude portait sur l'importance de la taille des jeux de données et sur la méthode de validation interne utilisée, appliqué à un jeu de données de scanner thoracique. Elle abordait aussi leur impact sur la capacité de généralisation des modèles. Les performances et la variance de performance des modèles se stabilisaient pour une taille d'environ 400 patients. Dans notre jeu de données, la validation croisée permettait d'obtenir une meilleure estimation de la capacité de généralisation des modèles que l'utilisation d'un jeu de test interne unique ou la validation croisée imbriquée. La dernière étude explorait les erreurs de classifications d'un modèle de classification binaire. La première étape a été de déterminer comment identifier ces erreurs, puis si et comment la stratégie d'apprentissage pouvait les intégrer pour améliorer leur classification. Dans le cadre de notre étude, nous n'avons pas pu améliorer la classification des données difficiles à classer. Au contraire, leur retrait des jeux d'entrainements permettait d'améliorer les performances sur les autres données.