Exploitation des graphes de connaissance pour automatiser l'ingénierie des fonctionnalités et améliorer l'interprétabilité des modèles d'apprentissage machine
Semantic-based approaches for automating feature engineering and enhancing machine learning interpretability
par Mohamed BOUADI sous la direction de Salima BENBERNOU et de Mourad OUZIRI
Thèse de doctorat en Science des données
ED 130 Informatique, Télécommunications et Electronique

Soutenue le lundi 25 novembre 2024 à Université Paris Cité

Sujets
  • Apprentissage automatique
  • Données massives
  • Web sémantique

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/{"duplicate-entry":{"tel-05308532":{"NNT":"1.0"}}} (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Ingénierie des fonctionnalités, Interprétabilité, Apprentissage Automatique, Graphe de connaissance, Logique de description
Resumé
Chaque jour, une quantité massive de données est générée et stockée dans des systèmes complexes. L'apprentissage automatique (ML) offre des outils puissants pour analyser ces données, mais son succès dépend largement de l'expertise des data scientists, notamment en ingénierie des caractéristiques (Feature Engineering - FE). Ce processus, qui nécessite une connaissance approfondie du domaine, reste un goulot d'étranglement important. Automatiser la FE pourrait ainsi réduire considérablement la charge des data scientists, leur permettant de prendre des décisions plus rapides et à moindre coût. Dans un contexte économique de plus en plus compétitif, l'automatisation des processus, grâce à l'intelligence artificielle (IA), devient cruciale pour les organisations cherchant à maximiser l'efficacité, réduire les coûts et augmenter la productivité. Par ailleurs, à mesure que les systèmes de ML se généralisent, l'interprétabilité des modèles devient essentielle, notamment pour que les experts métiers puissent comprendre et faire confiance aux prédictions des modèles. Automatiser la FE tout en garantissant la transparence et l'interprétabilité des modèles est donc crucial pour une adoption étendue de l'IA. Cette thèse explore l'utilisation des technologies du Web sémantique pour rendre l'ingén-ierie des caractéristiques en ML plus interprétable. Plus précisément, nous exploitons les graphes de connaissances pour automatiser le processus de FE, améliorant ainsi à la fois la performance et l'interprétabilité des modèles ML, ce qui conduit à des systèmes d'IA plus fiables et explicables. Nous avons commencé par formaliser l'interprétabilité des variables à l'aide de la logique de description, avant de définir l'ingénierie des caractéristiques comme un processus de décision markovien. À partir de là, nous avons proposé KRAFT, une approche qui combine l'apprentissage par renforcement profond et le raisonnement symbolique pour générer des variables interprétables. Nous avons également introduit une nouvelle métrique pour évaluer l'interprétabilité des caractéristiques basée sur un graphe de connaissances et proposé SMART, une méthode en deux étapes guidée par la sémantique pour générer des caractéristiques interprétables. La première étape consiste à déduire des caractéristiques spécifiques au domaine en exploitant le graphe de connaissances à l'aide d'un algorithme de raisonnement, tandis que la seconde utilise un Deep Q-Network pour explorer et découvrir de nouvelles variables. Enfin, nous avons exploré le potentiel des grands modèles de langage (LLM) pour la FE, introduisant ReaGen, une méthode qui combine l'exploitation des graphes de connaissances et les LLM pour générer des caractéristiques interprétables, offrant des explications similaires à celles fournies par les humains. Nous avons validé nos approches à travers des expériences approfondies, en évaluant tant la performance que l'interprétabilité, et en les comparant aux méthodes de pointe pour démontrer leur efficacité.