le dossier LEA, un fichier de données réelles

Valid XHTML 1.0!                  

 
tigre     gilles.hunault@univ-angers.fr

Descriptif succint :

Les protéines LEA (Late Embryogenesis Abundant proteins) sont des protéines qui contribuent, principalement chez les végétaux, à l'acquisition de la tolérance à la dessiccation, en particulier dans le cas de déshydratation ou de stress induit par le froid. Elles sont assez mal connues et encore moins bien classifiées, même si des groupes de LEA sont souvent utilisés. Nous avons, avec Emmanuel JASPARD de l'Université d'Angers, sélectionné à partir des données disponibles au NCBI plusieurs centaines de protéines annotées LEA que nous avons ensuite complétées pour en faire la base de données LEAPDB. On pourra consulter le wiki français sur l'acclimatation des plantes au froid. Les données qui suivent ne sont qu'un extrait de la base, avec des colonnes "statisticables" et correspondent à une de nos premières extractions automatiques. Elles contiennent donc quelques valeurs "incorrectes" qu'il convient de repérer et de gérer.

Données (773x11) : lea.zip

Description des colonnes


  1 / ACCESSION    :  numéro d'accession au NCBI ;

  2 / LENGTH       :  longueur de la séquence (en acides aminés) ;

  3 / REIGN        :  règne associé ;

  4 / PFAM         :  numéro de famille des protéines (voir le site des PFAM) ;

  5 / CDD          :  numéro de domaine conservé (voir le site des CDD) ;

  6 / FOLDINDEX    :  indice de repliement (voir un site pour son calcul) ;

  7 / PI           :  point isoélectrique ou pHi (consultation du wiki français à ce sujet et d'un site de calcul) ;

  8 / MW           :  poids moléculaire (en g/mol et non pas en Dalton) ;

  9 / GRAVY        :  hydropathie moyenne, échelle de KD (voir un site  pour son calcul) ;

 10 / GENRE        :  taxonomie, partie 1 ;

 11 / ESPECE       :  taxonomie, partie 2 (voir le NCBI Taxonomy Browser).



Lecture avec le logiciel R

Si le logiciel R est installé, vous pouvez, si vous avez accès à Internet, utiliser le code suivant pour lire ces données :


     source("http://www.info.univ-angers.fr/~gh/statgh.r",encoding="latin1")
     lea <- lit.dar("http://www.info.univ-angers.fr/~gh/Datasets/lea.dar")

 

back