Data quality problems in data science pipelines
Problèmes de qualité des données dans les pipelines de science des données
par Sijie DONG sous la direction de Themis PALPANAS
Thèse de doctorat en Science des données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le vendredi 22 novembre 2024 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Contrôle de la qualité
  • Génie logiciel

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05295398 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Qualité des données, Apprentissage automatique, Gestion des données
Resumé
La qualité des données et la gestion de la dérive des données sont cruciales pour maintenir la performance des modèles d'apprentissage automatique (ML). Cette thèse examine des approches pour relever ces défis, en passant du traitement traditionnel des requêtes sensibles à la qualité (QAQP) sur de grands ensembles de données à des techniques avancées adaptées aux systèmes modernes de ML. D'abord, j'ai étudié le QAQP, en comparant les systèmes conventionnels et ceux de l'ère des grandes données. J'ai identifié des limites dans les approches existantes, notamment leur dépendance à des métriques statiques et à des contraintes définies par des experts, souvent incapables de détecter des incohérences subtiles. Ensuite, j'ai orienté ma recherche vers les problèmes de qualité des données dans les pipelines de ML. J'ai mené une enquête expérimentale sur les outils de validation de pointe, révélant des lacunes dans leur capacité à valider automatiquement et précisément la qualité des données. Pour combler ces lacunes, j'ai développé une nouvelle approche de validation de la qualité des données utilisant l'apprentissage par représentation de graphe. Cette méthode utilise des réseaux de neurones de graphe (GNN) pour générer des embeddings capturant les relations dans les données tabulaires. En intégrant ces embeddings dans un cadre d'autoencodeur variationnel (VAE), ma méthode détecte les problèmes de qualité via les erreurs de reconstruction, révélant des incohérences que les systèmes traditionnels ne peuvent identifier. Les résultats montrent l'efficacité de ce processus en deux phases. J'ai également étudié la dérive des données, un défi majeur pour les modèles de ML. Les solutions traditionnelles détectent la dérive et réentraînent les modèles, sans distinguer les dérives bénignes des nuisibles. Ma recherche propose une méthode pour identifier les distributions de données avec faible précision (DDLA), en se concentrant sur les dérives nuisibles. En utilisant des arbres de décision, cette approche identifie précisément les zones de faible précision dans les modèles boîte noire, permettant un réentraînement ciblé. Des évaluations exhaustives montrent que cette méthode améliore l'efficacité des coûts tout en maintenant la précision. En résumé, cette thèse propose des solutions innovantes pour la validation de la qualité des données et la détection des dérives nuisibles dans les pipelines de ML. En intégrant l'apprentissage par graphe et des techniques avancées d'analyse de dérive, ma recherche offre un cadre robuste pour améliorer la qualité des données et la performance des modèles dans des environnements de données dynamiques. Ces contributions ouvrent la voie à des applications de ML plus fiables et efficaces.