Mots clés |
Radiomique, Texture, Biomarqueur, Imagerie, Apprentissage automatique, Intelligence Artificielle, Méthodologie, Reproductibilité, Classification, Sélection de variables |
Resumé |
La radiomique est une méthode haut débit d'extraction de paramètres quantitatifs des images médicales afin de découvrir des nouveaux biomarqueurs. Le processus comprend plusieurs étapes, mais différents choix méthodologiques peuvent être appliqués à chacune d'entre elles. Il n'existe pas de consensus sur la méthodologie qui doit être privilégiée, ou les critères de choix parmi les différentes méthodologies. Cette thèse avait pour objectif d'étudier les paramètres pouvant guider les choix méthodologiques à l'étape de modélisation par les algorithmes d'apprentissage machine et expliquer les performances des modèles. La première étude s'intéressait au choix des algorithmes de sélection de variables et de classification binaire, testés sur dix jeux de données de scanner et IRM. Elle a montré que les performances des algorithmes dépendaient des jeux de données sur lesquels ils étaient appliqués. Les modèles de sélection de variables issus de la théorie de l'information et les classifieurs basés sur des régressions linéaires obtenaient les meilleures performances globales. La seconde étude portait sur l'importance de la taille des jeux de données et sur la méthode de validation interne utilisée, appliqué à un jeu de données de scanner thoracique. Elle abordait aussi leur impact sur la capacité de généralisation des modèles. Les performances et la variance de performance des modèles se stabilisaient pour une taille d'environ 400 patients. Dans notre jeu de données, la validation croisée permettait d'obtenir une meilleure estimation de la capacité de généralisation des modèles que l'utilisation d'un jeu de test interne unique ou la validation croisée imbriquée. La dernière étude explorait les erreurs de classifications d'un modèle de classification binaire. La première étape a été de déterminer comment identifier ces erreurs, puis si et comment la stratégie d'apprentissage pouvait les intégrer pour améliorer leur classification. Dans le cadre de notre étude, nous n'avons pas pu améliorer la classification des données difficiles à classer. Au contraire, leur retrait des jeux d'entrainements permettait d'améliorer les performances sur les autres données. |