Problématique des entrepôts de données textuelles : dr Warehouse et la recherche translationnelle sur les maladies rares
Textual data Warehouse challenge : Dr. Warehouse and translational research on rare diseases
par Nicolas GARCELON sous la direction de Anita BURGUN et de Arnold MUNNICH
Thèse de doctorat en Informatique biomédicale
ED 393 École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale

Soutenue le mercredi 29 novembre 2017 à Sorbonne Paris Cité

Sujets
  • Bases de données
  • Maladies rares
  • Recherche de l'information

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

TEL (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Entrepôt de données, Fouille de données, Maladies rares, Phénotypage, Recherche d'information
Resumé
La réutilisation des données de soins pour la recherche s'est largement répandue avec le développement d'entrepôts de données cliniques. Ces entrepôts de données sont modélisés pour intégrer et explorer des données structurées liées à des thesaurus. Ces données proviennent principalement d'automates (biologie, génétique, cardiologie, etc) mais aussi de formulaires de données structurées saisies manuellement. La production de soins est aussi largement pourvoyeuse de données textuelles provenant des comptes rendus hospitaliers (hospitalisation, opératoire, imagerie, anatomopathologie etc.), des zones de texte libre dans les formulaires électroniques. Cette masse de données, peu ou pas utilisée par les entrepôts classiques, est une source d'information indispensable dans le contexte des maladies rares. En effet, le texte libre permet de décrire le tableau clinique d'un patient avec davantage de précisions et en exprimant l'absence de signes et l'incertitude. Particulièrement pour les patients encore non diagnostiqués, le médecin décrit l'histoire médicale du patient en dehors de tout cadre nosologique. Cette richesse d'information fait du texte clinique une source précieuse pour la recherche translationnelle. Cela nécessite toutefois des algorithmes et des outils adaptés pour en permettre une réutilisation optimisée par les médecins et les chercheurs. Nous présentons dans cette thèse l'entrepôt de données centré sur le document clinique, que nous avons modélisé, implémenté et évalué. À travers trois cas d'usage pour la recherche translationnelle dans le contexte des maladies rares, nous avons tenté d'adresser les problématiques inhérentes aux données textuelles: (i) le recrutement de patients à travers un moteur de recherche adapté aux données textuelles (traitement de la négation et des antécédents familiaux), (ii) le phénotypage automatisé à partir des données textuelles et (iii) l'aide au diagnostic par similarité entre patients basés sur le phénotypage. Nous avons pu évaluer ces méthodes sur l'entrepôt de données de Necker-Enfants Malades créé et alimenté pendant cette thèse, intégrant environ 490 000 patients et 4 millions de comptes rendus. Ces méthodes et algorithmes ont été intégrés dans le logiciel Dr Warehouse développé pendant la thèse et diffusé en Open source depuis septembre 2017.