These Descartes

Data quality problems in data science pipelines

Problèmes de qualité des données dans les pipelines de science des données

par Sijie DONG sous la direction de Themis PALPANAS
Thèse de doctorat en Science des données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le vendredi 22 novembre 2024 à Université Paris Cité

Sujets

Apprentissage automatique
Contrôle de la qualité
Génie logiciel

Texte integral en version complète PDF

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05295398 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais

Description en français

Mots clés	Qualité des données, Apprentissage automatique, Gestion des données
Resumé	La qualité des données et la gestion de la dérive des données sont cruciales pour maintenir la performance des modèles d'apprentissage automatique (ML). Cette thèse examine des approches pour relever ces défis, en passant du traitement traditionnel des requêtes sensibles à la qualité (QAQP) sur de grands ensembles de données à des techniques avancées adaptées aux systèmes modernes de ML. D'abord, j'ai étudié le QAQP, en comparant les systèmes conventionnels et ceux de l'ère des grandes données. J'ai identifié des limites dans les approches existantes, notamment leur dépendance à des métriques statiques et à des contraintes définies par des experts, souvent incapables de détecter des incohérences subtiles. Ensuite, j'ai orienté ma recherche vers les problèmes de qualité des données dans les pipelines de ML. J'ai mené une enquête expérimentale sur les outils de validation de pointe, révélant des lacunes dans leur capacité à valider automatiquement et précisément la qualité des données. Pour combler ces lacunes, j'ai développé une nouvelle approche de validation de la qualité des données utilisant l'apprentissage par représentation de graphe. Cette méthode utilise des réseaux de neurones de graphe (GNN) pour générer des embeddings capturant les relations dans les données tabulaires. En intégrant ces embeddings dans un cadre d'autoencodeur variationnel (VAE), ma méthode détecte les problèmes de qualité via les erreurs de reconstruction, révélant des incohérences que les systèmes traditionnels ne peuvent identifier. Les résultats montrent l'efficacité de ce processus en deux phases. J'ai également étudié la dérive des données, un défi majeur pour les modèles de ML. Les solutions traditionnelles détectent la dérive et réentraînent les modèles, sans distinguer les dérives bénignes des nuisibles. Ma recherche propose une méthode pour identifier les distributions de données avec faible précision (DDLA), en se concentrant sur les dérives nuisibles. En utilisant des arbres de décision, cette approche identifie précisément les zones de faible précision dans les modèles boîte noire, permettant un réentraînement ciblé. Des évaluations exhaustives montrent que cette méthode améliore l'efficacité des coûts tout en maintenant la précision. En résumé, cette thèse propose des solutions innovantes pour la validation de la qualité des données et la détection des dérives nuisibles dans les pipelines de ML. En intégrant l'apprentissage par graphe et des techniques avancées d'analyse de dérive, ma recherche offre un cadre robuste pour améliorer la qualité des données et la performance des modèles dans des environnements de données dynamiques. Ces contributions ouvrent la voie à des applications de ML plus fiables et efficaces.

Mots clés

Qualité des données, Apprentissage automatique, Gestion des données

Resumé

La qualité des données et la gestion de la dérive des données sont cruciales pour maintenir la performance des modèles d'apprentissage automatique (ML). Cette thèse examine des approches pour relever ces défis, en passant du traitement traditionnel des requêtes sensibles à la qualité (QAQP) sur de grands ensembles de données à des techniques avancées adaptées aux systèmes modernes de ML. D'abord, j'ai étudié le QAQP, en comparant les systèmes conventionnels et ceux de l'ère des grandes données. J'ai identifié des limites dans les approches existantes, notamment leur dépendance à des métriques statiques et à des contraintes définies par des experts, souvent incapables de détecter des incohérences subtiles. Ensuite, j'ai orienté ma recherche vers les problèmes de qualité des données dans les pipelines de ML. J'ai mené une enquête expérimentale sur les outils de validation de pointe, révélant des lacunes dans leur capacité à valider automatiquement et précisément la qualité des données. Pour combler ces lacunes, j'ai développé une nouvelle approche de validation de la qualité des données utilisant l'apprentissage par représentation de graphe. Cette méthode utilise des réseaux de neurones de graphe (GNN) pour générer des embeddings capturant les relations dans les données tabulaires. En intégrant ces embeddings dans un cadre d'autoencodeur variationnel (VAE), ma méthode détecte les problèmes de qualité via les erreurs de reconstruction, révélant des incohérences que les systèmes traditionnels ne peuvent identifier. Les résultats montrent l'efficacité de ce processus en deux phases. J'ai également étudié la dérive des données, un défi majeur pour les modèles de ML. Les solutions traditionnelles détectent la dérive et réentraînent les modèles, sans distinguer les dérives bénignes des nuisibles. Ma recherche propose une méthode pour identifier les distributions de données avec faible précision (DDLA), en se concentrant sur les dérives nuisibles. En utilisant des arbres de décision, cette approche identifie précisément les zones de faible précision dans les modèles boîte noire, permettant un réentraînement ciblé. Des évaluations exhaustives montrent que cette méthode améliore l'efficacité des coûts tout en maintenant la précision. En résumé, cette thèse propose des solutions innovantes pour la validation de la qualité des données et la détection des dérives nuisibles dans les pipelines de ML. En intégrant l'apprentissage par graphe et des techniques avancées d'analyse de dérive, ma recherche offre un cadre robuste pour améliorer la qualité des données et la performance des modèles dans des environnements de données dynamiques. Ces contributions ouvrent la voie à des applications de ML plus fiables et efficaces.