Extraction d'une image dans une vidéo en vue de la reconnaissance du visage
Extraction of an image in order to apply face recognition methods
par Nam Jun PYUN sous la direction de Nicole VINCENT
Thèse de doctorat en Informatique
ED 130 Informatique, Télécommunications et Electronique

Soutenue le lundi 09 novembre 2015 à Sorbonne Paris Cité

Sujets
  • Algorithmes bio-inspirés (intelligence artificielle)
  • Perception des visages
  • Système de Haar

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

TEL (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Extraction des yeux, Extraction du nez, Extraction de la bouche, Éléments anatomiques du visage, Filtre de Haar, Carte d'énergie locale, Carte d'énergie globale, Analyse multi-seuil, Estimation de pose, Roulis, Lacet, Tangage, Suivi du visage, Suivi des yeux
Resumé
Une vidéo est une source particulièrement riche en informations. Parmi tous les objets que nous pouvons y trouver, les visages humains sont assurément les plus saillants, ceux qui attirent le plus l'attention des spectateurs. Considérons une séquence vidéo dont chaque trame contient un ou plusieurs visages en mouvement. Ils peuvent appartenir à des personnes connues ou qui apparaissent de manière récurrente dans la vidéo Cette thèse a pour but de créer une méthodologie afin d'extraire une ou plusieurs images de visage en vue d'appliquer, par la suite, un algorithme de reconnaissance du visage. La principale hypothèse de cette thèse réside dans le fait que certains exemplaires d'un visage sont meilleurs que d'autres en vue de sa reconnaissance. Un visage est un objet 3D non rigide projeté sur un plan pour obtenir une image. Ainsi, en fonction de la position relative de l'objectif par rapport au visage, l'apparence de ce dernier change. Considérant les études sur la reconnaissance de visages, on peut supposer que les exemplaires d'un visage, les mieux reconnus sont ceux de face. Afin d'extraire les exemplaires les plus frontaux possibles, nous devons d'une part estimer la pose de ce visage. D'autre part, il est essentiel de pouvoir suivre le visage tout au long de la séquence. Faute de quoi, extraire des exemplaires représentatifs d'un visage perd tout son sens. Les travaux de cette thèse présentent trois parties majeures. Dans un premier temps, lorsqu'un visage est détecté dans une séquence, nous cherchons à extraire position et taille des yeux, du nez et de la bouche. Notre approche se base sur la création de cartes d'énergie locale principalement à direction horizontale. Dans un second temps, nous estimons la pose du visage en utilisant notamment les positions relatives des éléments que nous avons extraits. Un visage 3D a trois degrés de liberté : le roulis, le lacet et le tangage. Le roulis est estimé grâce à la maximisation d'une fonction d'énergie horizontale globale au visage. Il correspond à la rotation qui s'effectue parallèlement au plan de l'image. Il est donc possible de le corriger pour qu'il soit nul, contrairement aux autres rotations. Enfin, nous proposons un algorithme de suivi de visage basé sur le suivi des yeux dans une séquence vidéo. Ce suivi repose sur la maximisation de la corrélation des cartes d'énergie binarisées ainsi que sur le suivi des éléments connexes de cette carte binaire. L'ensemble de ces trois méthodes permet alors tout d'abord d'évaluer la pose d'un visage qui se trouve dans une trame donnée puis de lier tous les visages d'une même personne dans une séquence vidéo, pour finalement extraire plusieurs exemplaires de ce visage afin de les soumettre à un algorithme de reconnaissance du visage.