Matrix factorization framework for simultaneous data (co-)clustering and embedding
par Kais ALLAB sous la direction de Mohamed NADIF
Thèse de doctorat en Science de données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le mardi 15 novembre 2016 à Sorbonne Paris Cité

Sujets
  • Exploration de données
  • Gestion mémoire (informatique)

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Science de données
Resumé
Les progrès des technologies informatiques et l'augmentation continue des capacités de stockage ont permis de disposer de masses de données de trés grandes tailles et de grandes dimensions. Le volume et la nature même des données font qu'il est de plus en plus nécessaire de développer de nouvelles méthodes capables de traiter, résumer et d'extraire l'information contenue dans de tels types de données. D'un point de vue extraction des connaissances, la compréhension de la structure des grandes masses de données est d'une importance capitale dans l'apprentissage artificiel et la fouille de données. En outre, contrairement à l'apprentissage supervisé, l'apprentissage non supervisé peut fournir des outils pour l'analyse de ces ensembles de données en absence de groupes (classes). Dans cette thèse, nous nous concentrons sur des méthodes fondamentales en apprentissage non supervisé notamment les méthodes de réduction de la dimension, de classification simple (clustering) et de classification croisée (co-clustering). Notre contribution majeure est la proposition d'une nouvelle manière de traiter simultanément la classification et la réduction de dimension. L'idée principale s'appuie sur une fonction objective qui peut être décomposée en deux termes, le premier correspond à la réduction de la dimension des données, tandis que le second correspond à l'objectif du clustering et celui du co-clustering. En s'appuyant sur la factorisation matricielle, nous proposons une solution prenant en compte simultanément les deux objectifs: réduction de la dimension et classification. Nous avons en outre proposé des versions régularisées de nos approches basées sur la régularisation du Laplacien afin de mieux préserver la structure géométrique des données. Les résultats expérimentaux obtenus sur des données synthétiques ainsi que sur des données réelles montrent que les algorithmes proposés fournissent d'une part de bonnes représentations dans des espaces de dimension réduite et d'autre part permettent d'améliorer la qualité des clusters et des co-clusters. Motivés par les bons résultats obtenus par les méthodes du clustering et du co-clustering basés sur la régularisation du Laplacien, nous avons développé un nouvel algorithme basé sur l'apprentissage multi-variétés (multi-manifold) dans lequel une variété consensus est approximée par la combinaison d'un ensemble de variétés candidates reflétant au mieux la structure géométrique locale des données. Enfin, nous avons aussi étudié comment intégrer des contraintes dans les Laplaciens utilisés pour la régularisation à la fois dans l'espace des objets et l'espace des variables. De cette façon, nous montrons comment des connaissances a priori peuvent contribuer à l'amélioration de la qualité du co-clustering.