Sélection de modèles parcimonieux pour l'apprentissage statistique en grande dimension
Model selection for sparse high-dimensional learning
par Pierre-Alexandre MATTEI sous la direction de Charles BOUVEYRON
Thèse de doctorat en Mathématiques appliquées et sciences sociales
ED 386 Sciences Mathematiques de Paris Centre

Soutenue le jeudi 26 octobre 2017 à Sorbonne Paris Cité

Sujets
  • Statistique -- Informatique
  • Statistique bayésienne
  • Variables (mathématiques)

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Apprentissage statistique, Grande dimension, Parcimonie, Sélection de modèles, Statistique bayésienne
Resumé
Le déferlement numérique qui caractérise l'ère scientifique moderne a entraîné l'apparition de nouveaux types de données partageant une démesure commune : l'acquisition simultanée et rapide d'un très grand nombre de quantités observables. Qu'elles proviennent de puces ADN, de spectromètres de masse ou d'imagerie par résonance nucléaire, ces bases de données, qualifiées de données de grande dimension, sont désormais omniprésentes, tant dans le monde scientifique que technologique. Le traitement de ces données de grande dimension nécessite un renouvellement profond de l'arsenal statistique traditionnel, qui se trouve inadapté à ce nouveau cadre, notamment en raison du très grand nombre de variables impliquées. En effet, confrontée aux cas impliquant un plus grand nombre de variables que d'observations, une grande partie des techniques statistiques classiques est incapable de donner des résultats satisfaisants. Dans un premier temps, nous introduisons les problèmes statistiques inhérents aux modelés de données de grande dimension. Plusieurs solutions classiques sont détaillées et nous motivons le choix de l'approche empruntée au cours de cette thèse : le paradigme bayésien de sélection de modèles. Ce dernier fait ensuite l'objet d'une revue de littérature détaillée, en insistant sur plusieurs développements récents. Viennent ensuite trois chapitres de contributions nouvelles à la sélection de modèles en grande dimension. En premier lieu, nous présentons un nouvel algorithme pour la régression linéaire bayésienne parcimonieuse en grande dimension, dont les performances sont très bonnes, tant sur données réelles que simulées. Une nouvelle base de données de régression linéaire est également introduite : il s'agit de prédire la fréquentation du musée d'Orsay à l'aide de données vélibs. Ensuite, nous nous penchons sur le problème de la sélection de modelés pour l'analyse en composantes principales (ACP). En nous basant sur un résultat théorique nouveau, nous effectuons les premiers calculs exacts de vraisemblance marginale pour ce modelé. Cela nous permet de proposer deux nouveaux algorithmes pour l'ACP parcimonieuse, un premier, appelé GSPPCA, permettant d'effectuer de la sélection de variables, et un second, appelé NGPPCA, permettant d'estimer la dimension intrinsèque de données de grande dimension. Les performances empiriques de ces deux techniques sont extrêmement compétitives. Dans le cadre de données d'expression ADN notamment, l'approche de sélection de variables proposée permet de déceler sans supervision des ensembles de gènes particulièrement pertinents.