Valid XHTML     Valid CSS2    

Analyses cliniques et tests statistiques

Table des matières cliquable

  1. Analyses cliniques

  2. Nature des donnnées et types de variables statistiques

  3. Calculs associés aux différents types

  4. Pratique des tests statistiques

  5. Rédaction et publication des résultats

1. Analyses cliniques

Réaliser une analyse statistique demande beaucoup de rigueur et de réflexion en amont des calculs. La partie calculs et tests et la partie rédaction demandent un certain niveau d'expertise. Elles doivent se faire de concert avec des spécialistes du domaine.

Que ce soit pour un article de recherche ou dans le simple but de rendre compte du travail effectué, deux domaines de compétence sont requis :

  • le calcul statistique avec ses méthodes, ses modèles, ses termes techniques et ses formules, leurs conditions d'applications, l'utilisation des logiciels ad hoc, les conclusions mathématiques licites auxquelles il aboutit.

  • l'écriture du rapport d'analyse via la présentation du protocole et des données (voire des hypothèses sous-jacentes), la mise en forme de tout ou partie des résultats et la rédaction des conclusions, interprétations et commentaires pour les spécialistes du domaine, pour l'équipe de recherche ou pour le grand public.

Une analyse statistique ne se réduit donc pas à une suite de calculs, même justes et justifiés. La rédaction est un art difficile. Elle est souvent bâclée par les pseudoscientifiques qui confondent phrases, littérature, verbiage et production littéraire. Or, la qualité d'un article de recherche, d'un rapport d'expérimentation transparait au fil des paragraphes. Le choix des termes employés renforce chez le lecteur ou le correcteur la conviction que le travail fait a été bien fait, que les méthodes statistiques sont maitrisées, que le passage des chiffres comme m = 12.3 jours aux lettres «une durée moyenne aussi faible qu'à l'habitude» est le fruit d'un mûre réflexion...

Il est d'usage de construire un PES (plan d'études statistiques) pour préciser les limites de l'étude, pour définir la cible principale, les variables d'intérêt secondaires. C'est souvent l'occasion d'effectuer une étude bibliographique sur le sujet.

Consulter par exemple le début de l'exercice 1 de notre page EDA6_diabete qui présente une étude et ses données ainsi que le PES associé à l'adresse EDA6_pes.

2. Nature des donnnées et types de variables statistiques

Les données, de natures multiples, correspondent à des variables statistiques qu'il convient d'identifier et de décrire précisément.

  - 1 -  

On peut discriminer les données primaires (mesurées ou rapportées) des données calculées (résultats, scores...).

  • le poids (la masse), exprimé en kilos et la taille, exprimée en mètres, sont des données primaires alors que le BMI ou indice de masse corporelle est une donnée calculée par IMC=masse/taille2.

  • des valeurs de transaminase (ASAT, ALAT) sont des données primaires alors que le rapport ASAT/ALAT est une donnée calculée.

  • la glycémie (taux de glucose dans le sang) en g/l est une donnée mesurée mais le nombre de verres de vin que l'on déclare boire par semaine est une donnée rapportée.

  - 2 -  

Mais on peut aussi distinguer les données individuelles des données de population ou de cohortes.

  • l'age, exprimé en années, est une donnée individuelle alors que le taux 2019 d'incidence (en cas pour 1000 000 habitants) des syndromes grippaux est une donnée de population.

  • pour quelqu'un qui a du diabète, son type de diabète est une donnée individuelle mais un coefficient β employé dans une formule de régression, logistique ou non, pour prédire l'évolution de ce diabète est une donnée de cohorte.

  - 3 -  

Il est d'usage de séparer les données en valeurs numériques, textuelles et binaires (images, vidéos...).

  • l'age est numérique, le code-sexe peut être numérique ou textuel.

  • une photo du fond de l'oeil est binaire, une séquence d'IRM est binaire mais le compte-rendu de cette séquence IRM est textuel.

  • une prise de sang et/ou de sérum, stockée dans une sérothèque n'est pas une donnée informatique.

  - 4 -  

On a l'habitude de les représenter et de les analyser comme des variables qualitatives ou quantitatives.

  • avoir un parent diabétique correspond à une variable qualitative binaire.

  • le score Metavir de fibrose est une variable qualitative ordinale.

  • la classification des virus grippaux correspond à une variable qualitative nominale.

  • l'age est une variable quantitative mais une classe d'age est une variable semi-quantitative.

3. Calculs associés aux différents types

Les statistiques ont pour buts de :

  • décrire et synthétiser des tableaux de données ;

  • tester et comparer ces données ou leurs résumés numériques ;

  • prédire et inférer des nouvelles valeurs à partir de ces données.

Les objets utilisés par les statistiques sont :

  • des populations complètes ou accessibles seulement via un ou plusieurs échantillons ;

  • des variables (colonnes homogènes de données), quantitatives, qualitatives ou textuelles, dont les définitions, codes et unités doivent être parfaitement recensés et connus avant le moindre calcul ;

  • des individus (lignes de données) éventuellement [dé]groupables en classes ou sous-populations selon des critères rigoureux soigneusement définis ;

  • des hypothèses probabilistes conduisant à des tests mathématiques précis et à des interprétations liées à des risques de première et deuxième espèce et à des p-values où le hasard est quantifié en termes de probabilités ;

  • des cadres généraux d'analyses s'exprimant sous forme de modèles, de méthodes et de lois théoriques liés à des situations typiques souvent trop "parfaites" pour pouvoir être appliqués telles quelles ;

  • des résumés numériques parfois sans dimension et parfois munis d'unités, liés à des formules mathématiques dont on doit valider le bien-fondé avant de les appliquer ;

  • des tableaux complets de résultats couplés à des graphiques standardisés qui fournissent des vues compactes et précises, parfois simplifiés en tableaux résumés et graphiques synthétiques ;

  • des interprétations soigneusement pensées et rédigées en fonction des destinataires avec le vocabulaire, la syntaxe et la sémantique adaptées via les termes-métier.

3.1 Variables quantitatives

Une donnée intrinséquement numérique est liée à la notion de quantité (absolue, relative...) et s'exprime à l'aide d'une unité bien définie. Lorsque les unités des variables sont sommables, les variables sont dites additives et sont nommées QT (quantitatives). Une variable QT continue correspond à un nombre potentiellement infini de valeurs comme par exemple la taille d'un individu en angstroem (!) alors qu'une variable QT discontinue (ou discrète) ne comporte qu'un petit nombre de valeurs comme par exemple le nombre d'enfants dans une famille exprimé en "enfants". Un poids en kilogrammes, avec des décimales éventuelles est aussi une telle variable.

Les variables numériques à unités non sommables sont appelées variables semi-quantitatives. Ainsi la densité géographique d'un pays (rapport du nombre d'habitants sur la surface) exprimée en h/km2, le taux de chomage d'un département en %, l'indice de Quetelet, sont des variables semi-quantitatives. C'est le cas d'un certain nombre d'indices, de ratio, de rapports, de taux, de concentrations, de fréquences relatives, de pourcentages, de rangs...

La population d'un pays est une variable quantitative que l'on peut exprimer par exemple en millions d'habitants. Si un pays compte 10 millions d'habitants et si un autre pays compte 20 millions d'habitants, la réunion des deux pays correspond à 30 millions d'habitants qui est bien la somme 10+20 donc la population est une "vraie" QT (additive).

Pour une variable QT, le calcul de moments comme la somme, la moyenne, la variance, l'écart-type...) et de quantiles, percentiles dont la médiane, les quartiles... est possible et souhaitable.

Attention : pour une variable semi-quantitative, seuls les quantiles sont calculables.

On passe aisément d'une variable QT à une semi-QT en utilisant non pas les valeurs mais leurs rangs quand on range les valeurs par ordre croissant. Seule la comparaison des rangs est possible, pas leur somme et encore moins leur moyenne.

3.2 Variables qualitatives

Les variables à codes numériques arbitraires sont nommées QL (qualitatives). Si les codes sont ordonnés, on parle de variables qualitatives ordinales. Sinon, on parle de variables qualitatives nominales. Le terme de variable catégorielle se rencontre aussi. Les codes servent à désigner des valeurs possibles qui sont nommées qualités, états, modalités, classes ou catégories. On associe aux qualités un label court et un libellé long de la même façon qu'on donne en général à une variable un nom long et un nom court (pour les tableaux et rapports).

Comme il y a une bijection entre tous les codages donnés pour une même variable, n'importe lequel de ces codages fera l'affaire. Le plus astucieux est sans doute de nommer 1, 2, 3... n les différentes valeurs possibles (et de réserver la valeur 0 pour l'absence de réponse en cas de non-réponse). Ainsi pour le code-sexe d'une personne, il y a plusieurs façons de coder en lettres ('H/F', 'M/L'...) comme en chiffres (0/1, 1/0, 1/2...) suivant le pays, les habitudes mais au bout du compte, on n'a toujours affaire qu'à deux "vraies" valeurs et il serait "déraisonnable" d'utiliser 0 pour homme (!) et 1 pour femme. Il vaut mieux choisir 1 pour homme et 2 pour femme, 0 pouvant alors servir pour les données manquantes.

   Variable TRAI (traitement) avec 2 modalités 

                 Valeur  Label   Libellé 
   Modalité 1 :      1   "Avec"  le traitement se fait avec des tubes en isopropylène 
   Modalité 2 :      2   "Sans"  le traitement se fait avec des tubes standard  


Variable ETU (niveaux d'études) avec 4 modalités 

                 Valeur   Label   Libellé 
    Modalité 1 :      0   "NR"    le sujet n'a pas répondu
    Modalité 2 :      1   "Bepc"  le niveau est celui du collège 
    Modalité 3 :      2   "Bac"   le niveau est celui du lycée 
    Modalité 4 :      3   "Sup"   le niveau est celui de l'enseignement supérieur 

Les seuls calculs possibles pour une variable QL sont le comptage relatif et le comptage absolu regroupés en un tableau d'effectifs (ou fréquences et pourcentages) nommé tri à plat. Pour deux variables, les comptages par couple de modalités (ou "croisement") des modalités sont regroupés en un tableau nommé tri croisé ou tableau de contingence qui peut contenir les effectifs absolus ou relatifs, par division en ligne, en colonne ou par le total général.

Il est possible mais pas toujours facile de passer d'une variable QT à une variable QL par discrétisation, qu'elle soit quantitative pure ou seulement semi-quantitative : il suffit de choisir un nombre de classes, des bornes de classe et de "découper en classes" la variable à l'aide des bornes de classe. Par exemple la variable QT nommée AGE exprimées en années peut être arbitrairement transformée en la variable QL nommée CL_AGE dont les 3 modalités sont :

  1   "Jeune"  
      si l'age est strictement inférieur à 20 ans 
  2   "Adulte"  
      si l'age est supérieur ou égal à  20 ans et strictement inférieur à 40 ans 
  3   "Vieux"  
      si l'age est supérieur ou égal à  40 ans 

Il va de soi que le choix du nombre de classes, des bornes de classes, des labels et libellés doit être mûrement réfléchi et justifié (par des tracés comme la courbe des valeurs triées, l'histogramme des fréquences par classe et par des méthodes comme l'équiréparition, l'équidistance, la méthode des m+/- k sigma etc.).

4. Pratique des tests statistiques

Les tests statistiques sont des procédures rigoureuses. Voici le rappel succinct des étapes d'un test statistique : à partir d'une hypothèse métier (biologique), on écrit une hypothèse statistique nulle et l'hypothèse alternative. On choisit alors un test adapté à la distribution des données et on en déduit la loi de la statistique de test. On décide ensuite du résultat du test à l'aide de la ou des valeurs critiques issues du niveau de confiance ou en utilisant l'intervalle de confiance de la statistique de test. Enfin, on rédige la conclusion en termes métier.

Un test statistique permet soit d'effectuer des comparaisons de résultats statistiques (moyennes, médianes, rangs, fréquences...) à des valeurs théoriques soit de les comparer entre-eux pour une ou plusieurs variables. En fonction du type des variables, les conditions d'application des tests sont plus ou moins faciles à vérifier...

On compare en général des séries de valeurs (bien que parfois on ne dispose plus des valeurs mais seulement des résumés statistiques) que ce soit des séries de valeurs correspondant à des sous-populations d'une même population donnée pour une même variable (comme l'age des hommes et l'age des femmes dans le cadre d'une enquête de satisfaction) ou des séries de valeurs pour une même variable sur deux populations distinctes (comme le taux de guérison pour des malades dans deux départements différents). C'est pourquoi on dit souvent qu'on ne compare pas directement les variables mais plutôt qu'on les compare à travers les [sous-]populations, bien qu'on puisse parler

On distingue les séries appariées dites aussi dépendantes (comme des mesures avant et après pour les individus d'une même population) des séries indépendantes (comme les rats jeunes et les rats agés). On pourra consulter l'article TVTCR (Thoracoscopie versus thoracotomie en chirurgie rachidienne) comme un exemple d'article qui décrit et utilise l'analyse de séries appariées.

Lorsque les variables sont quantitatives et qu'on a "suffisamment" de valeurs (c'est-à-dire par exemple au moins 50), lorsque l'hypothèse de normalité sous-jacente s'applique, etc. on utilise des tests paramétriques de comparaison de moyennes comme le test t, le test Z, l'anova à un ou plusieurs facteurs, la manova, l'anova sur valeurs répétées, la comparaison de variances, l'analyse de la corrélation au sens de Pearson, la régression -- linéaire ou non, logistique ou non, simple ou multiple...

Si par contre on dispose de peu de valeurs ou si les conditions d'application du test comme la normalité, l'hétéroscédasticité, l'homoscédasticité, la variégalité... ne sont pas respectées, on fait appel aux tests non paramétriques (ou plus exactement aux tests distribution free, comme ils disent... c'est à dire sans hypothèse sous-jacente de distribution paramétrique explicite de la variable) comme le test de Wilcoxon, de Mann-Whitney, de Kruskal-Wallis, de Friedman, l'analyse de corrélation au sens de Spearman, le test de Fisher, de Mac Nemar, de Cochrane... Notre page tests et comparaisons présente et détaille le choix des tests.

       non su

Il n'est pas toujours simple de savoir dans quelle situation on est avant de choisir le test à utiliser. C'est pourquoi de nombreux sites proposent des tableaux de synthèse. Par exemple nous conseillons de lire la page de graphpad ou cellle de l'UCLA/IDRE qui présente dans sa page whatstat l'utilisation de SPSS, SAS et R pour effectuer la plupart des tests traditionnels.

5. Rédaction et publication des résultats

Pour bien rédiger, l'adage à retenir est «l'usage fait loi». Cela signifie que selon la revue, le laboratoire, il y a des pratiques préférées, des façons traditionnelles de présenter les données, les tableaux de résultats, les graphiques.

Par exemple, il n'est pas évident de choisir entre médiane et moyenne. L'usage veut qu'on utilise plutôt la moyenne quand les données ne sont pas "trop loin" d'une répartition normale et qu'il n'y a pas trop de valeurs extrêmes ; ainsi avec 1 3 5 7 on utilisera la moyenne alors qu'avec 1 3 5 70 on préférera la médiane. Dans l'article de Brocchieri (2005), la médiane est toujours utilisée car on a "régulièrement" des très grandes longueurs de protéines. Le choix entre sd et se est souvent plus simple : en médecine on utilise volontiers se pour décrire l'échantillon et sd pour décrire la population.

Ainsi, dans le tableau 1 de l'article de Ratziu (2006), les résumés pour les QT sont nommés mean et se et présentés sous la forme mean (se). Mean est la moyenne et se l'erreur type (ou erreur standard). Voir le wiki anglais à ce sujet. Remarque : ce n'est jamais que l'écart-type de l'estimateur de la moyenne. On obtient se en divisant sd par la racine carrée de n, où n est la taille de l'échantillon. Pour plus de détails, consulter sd vs se (1), sd vs se (2) ou sd vs se (3).

Pour bien rédiger, il est donc important d'avoir des repères cuturels, de connaitre le méta-langage classique du domaine, de se familiariser avec le style de publication de la revue choisie, de lire des articles équivalents, de se faire relire par plusieurs personnes, surtout s'il faut rédiger en anglais...

       non su

 

 

retour gH    Retour à la page principale de   (gH)