Valid XHTML     Valid CSS2    

La joyeuse surabondance des données médicales

               gilles.hunault at univ-angers.fr

       non su

       non su

Tables des matières clicable

  1. Multiplicité des types de données médicales

  2. Problèmes posés par les données médicales

  3. Conclusion

1. Multiplicité des types de données médicales


Le plus surprenant avec les données médicales, et, au sens le plus large, avec les données de santé est leur incroyable diversité.

Il y a par exemple beaucoup de façons d'envisager et de classer ces données :
 

  - 1 -     on peut ainsi discriminer les données primaires (mesurées ou rapportées) des données calculées (résultats, scores...)

        $\rightarrow$  le poids (la masse), exprimé en kilos et la taille, exprimée en mètres sont des données primaires

               alors que l'indice de masse corporelle est une donnée calculée par $IMC=\dfrac{masse}{taille^2}$.

        $\rightarrow$  vos valeurs de transaminase (ASAT, ALAT) sont des données primaires

               alors que le rapport ASAT/ALAT est une donnée calculée.

                 non su

        $\rightarrow$  votre glycémie (taux de glucose dans le sang) en g/l est une donnée mesurée

               mais le nombre de verres de vin que vous déclarez boire par semaine est une donnée rapportée.

  - 2 -     mais aussi distinguer les données individuelles des données de population ou de cohortes

        $\rightarrow$   votre age, exprimé en années, est une donnée individuelle

                alors que le taux 2019 d'incidence (en cas pour 1000 000 habitants) des syndromes grippaux est une donnée de population.

        $\rightarrow$   si vous avez du diabète, votre type de diabète est une donnée individuelle

                mais un coefficient $\beta_i$ employé dans une formule de régression, logistique ou non, pour prédire l'évolution de votre diabète est une donnée de cohorte.

        

non su

non su

  - 3 -     il est d'usage de séparer les données en valeurs numériques, textuelles et binaires (images, vidéos...)

        $\rightarrow$  l'age est numérique, le code-sexe peut être numérique ou textuel.

        $\rightarrow$  une photo du fond de l'oeil est binaire

                 non su

        $\rightarrow$   une séquence d'IRM est binaire

                mais le compte-rendu de cette séquence IRM est textuel.

                 non su                 non su

        $\rightarrow$  une prise de sang et/ou de sérum, stockée dans une sérothèque n'est pas une donnée informatique.

  - 4 -     on a l'habitude de les représenter et de les analyser comme des variables qualitatives ou quantitatives

        $\rightarrow$   avoir un parent diabétique correspond à une variable qualitative binaire.

        $\rightarrow$   le score Metavir de fibrose est une variable qualitative ordinale.

        $\rightarrow$  la classification des virus grippaux correspond à une variable qualitative nominale.

        $\rightarrow$   l'age est une variable quantitative

                mais une classe d'age est une variable semi-quantitative.

                 non su

2. Problèmes posés par les données médicales

On peut globalement classer ces problèmes en trois types, ceux liés à la nature des données, ceux liés à leur gestion et ceux liés à leur exploitation.

2.1 Quelques problèmes inhérents aux données médicales

  • codage des données qualitatives : une donnée aussi simple que le sexe (Femme/Homme) pose déjà un problème de codage. En cas d'études multi-centriques, si les hopitaux ne codent pas de la même façon le sexe, on arrive très rapidement à des données inutilisables. Vouloir utiliser H/F plutôt que 1/2 ou 0/1 (avec la connotation péjorative contemporaine du 0) n'a aucun sens pour les études internationales (codes M/F, M/W, H/M ?!?, L/G...).

  • normalisation des unités pour les données quantitatives : le résultat du dosage de la créatinine et de la bilirubine ne s'exprime pas dans tous les pays de la même façon. En Europe, on utilise comme unités les μmol/L et les États-Unis utilisent les mg/dL. Et bien sûr le facteur de conversion n'est pas le même : 1 mg/dL de créatinine correspond à 88,4 μmol/L alors que 1 mg/dL de bilirubine correspond à 17,1 μmol/L. Voir la conversion en ligne.

  • diversité des marqueurs, des biomarqueurs et des gènes : avec 206 os, 78 organes et environ 21 000 gènes, les données liées au corps humain foisonnent. Du coup, les nombreuses listes de marqueurs (sériques ou non), biomarqueurs (génétiques ou non) empêchent d'avoir une vraie vision globale de l'ensemble et que dire des bactéries, heureusement pas toutes pathogènes pour l'homme, présentes dans les intestins ou non, et des virus qui sont aussi légion dans le corps humain : on estime à approximativement $10^{13}$ le nombre de cellules humaines, mais il y a sans doute 10 fois plus de bactéries et 100 fois plus de virus dans le corps... Mais pas de panique, tout n'est pas dangereux !

           non su       non su

  • valeurs « normales » et distinguo homme/femme/enfants : interpréter une valeur mesurée ou calculée ne se fait pas toujours de la même façon suivant le sexe, l'age ou l'ethnie. De plus, le montre l'article glycémie de Wikipedia, les valeurs dites « normales » ou « standard » ont évolué au cours des années, sans compter les précautions de mesure (postprandiale ou non ?). A l'intérieur d'une même ethnie, il peut y avoir plus de variabilité qu'entre différentes ethnies, par exemple pour le cytochrome P450 2D6 (?!?).

2.2 Quelques problèmes liés à la gestion des données médicales

Au niveau des données primaires

  • confidentialité :  n'importe qui ne doit pas avoir accès aux données ;

           non su

  • disponibilité et longévité :  le personnel médical impliqué dans un dossier doit pouvoir accèder à tous les éléments du dossier, même après plusieurs années et des déménagements ;

           non su

  • appréciation des données isolées :  une donnée extrême seule n'a pas la même importance qu'un ensemble de valeurs extrêmes concordantes ;

           non su

Au niveau des données résultats

  • temporalité et répétitivité :  analyser statistiquement des résultats au cours du temps n'est pas simple, surtout si les données sont censurées (perdus de vue, sorties du protocole...) ou irrégulières (délais non égaux entres résultats, décroissance normale liée à l'âge...) ;

           non su

  • fiabilité et reproductibilité :  l'utilisation de capteurs, de machines pour mesurer des phénomènes physiques ou chimiques dans le corps ne garantit pas la qualité du résultat ni son interprétabilité ;

           non su

  • multiplicité des scores  : il y a parfois cinq à six méthodes ou scores pour évaluer une même pathologie, parfois pour une même étiologie et avec des performances globales équivalentes et des couts similaires, ce qui pose un problème de choix pour un individu donné ;

           non su

  • technicité et volume des données produites :  l'ère de l'informatique ubiquitaire liée à la médecine personnalisée produit aussi son lot de Big Data avec des données parfois en surnombre, parfois ultra-spécialisées, parfois juste massives comme avec les montres et podomètres connectés...

                

           non su          non su             non su   
  • zone grise et appréciation des résultats  :  une méthode, un score, un résultat est parfois très significatif et parfois difficile à interpréter car près d'un seuil de prédiction ;

                

           non su          non su   
    F0 sans fibrose
    F1 fibrose portale sans septa
    F2 fibrose portale et quelques septa
    F3 fibrose septale pré-cirrhose
    F4 cirrhose

2.3 Quelques problèmes liés à l'exploitation des données médicales

Même si aujourd'hui les données médicales sont principalement exploitées en par des statisticiens et des statisticiennes, voire des biostatisticiens et des biostatisticiennes, leur traitement en data science pose quelques soucis :

  • la rareté de certaines pathologies (par exemple un cas sur mille) ou simplement une faible prévalence induisent un biais de distribution dans les phénomènes étudiés et ont des répercutions sur les calculs de valeurs diagnostiques ;

  • a contrario, la profusion de données génétiques, génomiques et métagénomiques induit un problème de de dimensionnalité résumé par la formule p»n et la formule small n and large p ;

  • les médecins ont besoin de modèles explicatifs plus que de modèles uniquement prédictifs ou de boites noires ;

  • pour qu'une aide à la décision, un score ou un calcul soit utilisable en pratique clinique, il doit être simple et facile à réaliser ce qui interdit l'utilisation de plus de 4 ou 5 variables au quotidien.

3. Conclusion

Les données médicales et plus généralement les données de santé sont un monde passionnant, extrêmement vivant, en constante évolution.

La multiplicité de ces données, leur accès et leur gestion sont des enjeux de société importants que compliquent encore le cout des soins, des médicaments et les aspects économiques de la santé.

Heureusement ou malheureusement, ni la médecine ni les statistiques ne sont une science et les aspects mercantiles liés aux données médicales, qui ne dépendent pas uniquement des médecins et des statisticien(ne)s poussent à toujours plus de données, plus de frais, plus de technologie...

       non su

Code-source de cette page.

 

 

retour gH    Retour à la page principale de   (gH)