Data preprocessing and machine learning in wearable data analysis : assessing efficacy and challenges for mental health monitoring of healthcare professionals
Prétraitement des données et apprentissage automatique dans l'analyse des données des dispositifs portables : évaluation de l'efficacité et des défis pour le suivi de la santé mentale des professionnels de la santé
par Saurabh ROY sous la direction de François TADDEI et de Harri KETAMO
Thèse de doctorat en Mathématiques et sciences informatiques
ED 474 Frontières de l'Innovation en Recherche et Education

Soutenue le mardi 17 décembre 2024 à Université Paris Cité

Sujets
  • Analyse des données
  • Apprentissage automatique
  • Efficacité
  • Informatique
  • Méthodologie
  • Personnel médical
  • Santé mentale
  • Surveillance

Les thèses de doctorat soutenues à Université Paris Cité sont déposées au format électronique

Consultation de la thèse sur d’autres sites :

https://theses.hal.science/tel-05417847 (Version intégrale de la thèse (pdf))
Theses.fr (Version intégrale de la thèse (pdf))

Description en anglais
Description en français
Mots clés
Prétraitement des données, Apprentissage automatique, Dispositifs portables, Suivi de la santé mentale, Professionnels de santé, Réseaux de neurones convolutifs, Gramian Angular Field, Covid-19, Stress, Confidentialité des données
Resumé
Contexte et Objectif : Cette thèse examine l'efficacité et les défis des méthodes de traitement des données et d'apprentissage automatique pour analyser les données provenant de dispositifs portables, en se concentrant spécifiquement sur le suivi de la santé mentale des professionnels de santé en première ligne. L'étude utilise des données collectées dans le cadre de l'étude "Stress and Recovery in Frontline COVID-19 Health Care Workers", qui visait à évaluer l'état de santé mentale des professionnels de la santé pendant la pandémie de COVID-19. Méthodes : La recherche a utilisé des données de l'ensemble de données Stress and Recovery, intégrant des questionnaires auto-évalués tels que le Patient Health Questionnaire (PHQ-9) et l'échelle de trouble anxieux généralisé (GAD-7), ainsi que des données physiologiques obtenues à partir de l'anneau Oura et de la montre Garmin. Les participants ayant des ensembles de données complets à travers tous les fichiers pertinents ont été inclus dans l'analyse. Des statistiques descriptives et des visualisations ont été utilisées pour résumer les caractéristiques de l'ensemble de données et identifier des motifs significatifs. Résultats : Une avancée méthodologique significative dans cette étude a été l'application de la transformation de Gramian Angular Field (GAF) pour encoder les données de séries temporelles provenant des dispositifs portables, facilitant ainsi le traitement par un modèle de réseau de neurones convolutifs (CNN) conçu pour détecter les risques de santé mentale sur la base de références cliniques établies. Le modèle CNN, utilisant des images GAF comme entrée, a atteint une précision de classification de 97,01 % dans la distinction entre les cas à risque (moyenne des scores PHQ-9 et GAD-7 >10) et les cas non à risque (scores <10) parmi les professionnels de santé, démontrant son efficacité à classifier précisément les conditions de santé mentale à partir des données brutes des dispositifs portables. L'évaluation de la performance du modèle a été exhaustive, utilisant des métriques telles que la précision, le rappel, le score F1 et la courbe caractéristique de fonctionnement du récepteur (ROC) pour évaluer son efficacité globale. Le score de l'aire sous la courbe (AUC) de 0,98 a indiqué la capacité élevée du modèle à différencier correctement les individus à risque et non à risque, ce qui est essentiel pour garantir que les interventions cliniques soient appropriées et ciblées. De plus, cette dissertation a abordé des questions liées à la minimisation des données, à l'intégrité et à la mise en oeuvre de techniques de calcul légères pour garantir la confidentialité des informations de santé sensibles. Malgré les avancées technologiques, l'étude a reconnu plusieurs limitations, notamment les exigences computationnelles élevées, les préoccupations concernant la qualité des données et la généralisabilité des résultats à travers divers environnements de soins de santé. Conclusions : Les résultats soulignent la nécessité de recherches continues pour surmonter ces défis et améliorer l'application de flux de travail avancés de traitement des données dans les environnements de soins de santé réels. Cette thèse vise à éclairer non seulement les méthodologies prometteuses, mais aussi les obstacles rencontrés lors de l'aborder de la question sensible de la santé mentale individuelle à l'aide de données dérivées de dispositifs portables, en particulier dans le contexte de conditions de travail stressantes auxquelles sont confrontés les professionnels de santé en première ligne pendant une pandémie mondiale.