XML et bioinformatique
gilles.hunault "at" univ-angers.fr
(4 h pour l'Ecole doctorale STIM, juin 2011)
Présentation de l'exposé
La bioinformatique ne se réduit pas à quelques algorithmes ni à des programmes informatiques appliqués à des données biologiques, fussent-elles génomiques. Les données et leurs meta-informations -- sous forme d'annotation traditionnelle ou non -- font partie intégrante de la bioinformatique, avec comme corollaire leurs lots d'informations variées et parfois disparates. L'hétérogénéité informationnelle qui en résulte n'est pas une conséquence d'un manque initial de structure mais elle provient au contraire de la richesse des domaines de connaissance mis en présence et mis en cause. Seul un format de données hiérarchique modulable, transformable et riche sémantiquement est capable d'accueillir ces données et leur hétérogénéité intrinséque et c'est en ce sens que XML est forcément le seul format d'échange inter-opérable d'un serveur à l'autre, entre communautés de chercheurs en bioinformatique. XML n'exclut pas et ne remplace pas les bases de données traditionnelles (disons en SQL). XML permet de manipuler ces données, de les décrire, de les représenter automatiquement sous forme de graphiques SVG et, lorsque le Web sémantique tiendra toutes ses promesses, de les «comprendre» afin de pouvoir raisonner sur ces données. Au-delà des données (génes, protéines...), XML permet de stocker les résultats de programmes appliqués à ces données, que ce soit des alignements, des phylogénies, des annotations... et permet d'enchaîner les traitements, les sorties d'un programme devenant les entrées d'un autre programme via ce qu'on nomme un workflow.
Dans une première partie, nous tenterons de rappeller ce qu'est le vaste monde de la technologie XML et comment on sert de ses deux composantes XSD et XSL. Ensuite, dans la deuxième partie, nous passerons en revue quelques formats XML utilisés par les grands centres bioinformatiques internationaux et nous verrons comment ces formats s'intégrent dans des «workflows» avant de passer à quelques exemples simples d'extraction, conversion et manipulation de données XML via XSL. Tout à la fin de l'exposé, nous aborderons la problématique de l'exploitation sémantique des données...
1. Les trois sigles qui disent tout : XML, XSD et XSL
1.1 Le vaste monde de la technologie XML
1.2 Grammaires et transformations
1.3 Graphiques en XML : SVG pour la bioinformatique
Un exemple conséquent : 1752-0509-1-26-s11.svg (2,5 Mo !)
renommé en 1752-0509-1-26-s11.txt
références : BMC Systems Biology 2007, 1:26.
2. XML en action pour la bioinformatique PG refs
2.1 Exemple de la protéine A2ZDX4 (Dehydrin Rab16D) qui est une protéine LEA classe 1
UNIPROT interface texte XML RDF NCBI références Genpept Fasta Graphics Pour le NCBI, utiliser Send to: / File puis XML, INSDSeq ou TinySeq pour exporter en XML.
2.2 Grands centres et formats XML
2.3 Données élémentaires et résultats d'applications
Sans entrer dans le détail des séquences nucléotidiques d'ADN, d'ARN avec les introns, les exons, les gènes et autres EST ou STS, nous fournissons ici quelques liens sur le stockage XML de ces données en plus des standards présentés en 2.1 et 2.2 ; ce qu'on fait par programme de ces données est très vaste et nous avons simplifié en ne fournissant des liens que sur deux applications classiques : les alignements et les phylogénies, sans rentrer là-encore dans le détail des milliers d'applications liées à ces séquences ou portion de séquences.
Données (séquences et autres) SequenceML INDSC (voir hech pages 23-* ) SRA jbei-seq KGML (KEGG Language) Résultats (1) : Alignements kalign (macsims) PTC portal (parralel T-Coffee) Résultats (2) : Phylogénies phyloXML (wiki) phyloXML.org tol (détails) archaeopteryx 2.4 Webservices et Workflows
WSDL biodom XML schemas bioinfo BioXSD Embrace EDAM stylusstudio kepler conveyor Taverna (1) (2) (3) 2.5 Bioinformatique, sémantique et XML
GO PRO NCBO SPARQL (1) (2) (3) BAO (1) (2) (3)
Attention aux formats XML qui apparaissent un jour et n'existent plus un an plus tard :
Retour à la page principale de (gH)