Genomics informatics — Omics Markup Language (OML)

This document is applicable to the data exchange format that is designed to facilitate exchanging omics data around the world without forcing changes of any database schema. This document specifies the characteristics of OML from the following perspectives. From an informatics perspective, OML defines the data exchange format based on XML. This document gives guidelines for the specifications of the data exchange format, but this document excludes the database schema itself. From a molecular side of view, this document is applicable to all kinds of omics data, while this document excludes the details of the molecules (e.g., details of genomic sequence variations or whole genomic sequence). This document is also applicable to the molecular annotations including clinical concerns and relations with other omics concerns. From an application side of view, this document is applicable to the clinical field including clinical practice, preventive medicine, translational research, and clinical research including drug discovery. This document does not apply to basic research and other scientific fields. From a biological species side of view, this document is applicable to the human health-associated species as human, preclinical animals, and cell lines. This document does not apply to the other biological species.

Informatique génomique — Langage de balisage Omics (OML)

Le présent document est applicable au format d'échange de données qui est conçu pour faciliter l'échange de données omiques dans le monde entier sans imposer le moindre changement de schéma de base de données. Le présent document spécifie les caractéristiques de l'OML selon les perspectives suivantes. D'un point de vue informatique, OML définit le format d'échange de données basé sur XML. Le présent document établit des lignes directrices pour la spécification du format d'échange de données, mais il exclut le schéma de base de données proprement dit. Du point de vue moléculaire, le présent document est applicable à toutes les sortes de données omiques bien qu'il exclue les détails relatifs aux molécules (par exemple, les détails des variations de la séquence génomique ou la séquence génomique complète). Le présent document est également applicable aux annotations moléculaires, y compris les questions cliniques et les relations avec les autres questions omiques. Du point de vue de l'application, le présent document est applicable à la santé humaine, y compris les pratiques cliniques, la médecine préventive, la recherche translationnelle et la recherche clinique, notamment la découverte de médicaments. Le présent document ne s'applique pas à la recherche fondamentale et aux autres domaines scientifiques. Du point de vue des espèces biologiques, le présent document est applicable aux espèces associées à la santé humaine telles que l'homme, les animaux en préclinique et les lignées cellulaires. Le présent document ne s'applique pas aux autres espèces biologiques.

General Information

Status: Published
Publication Date: 29-Jul-2021

ICS: 35.240.80 - IT applications in health care technology

Technical Committee: ISO/TC 215/SC 1 - Genomics Informatics
Drafting Committee: ISO/TC 215/SC 1/WG 1 - Genomics data sharing

Current Stage: 6060 - International Standard published
Start Date: 30-Jul-2021
Due Date: 30-Apr-2020
Completion Date: 30-Jul-2021

Relations

Consolidates: EN ISO 21393:2021 - Genomics informatics - Omics Markup Language (OML) (ISO 21393:2021)
Effective Date: 12-Feb-2026

Overview

ISO 21393:2021 - Genomics informatics - Omics Markup Language (OML) defines an XML-based data exchange format to support interoperable sharing of clinical omics data across systems and organizations. The standard focuses on enabling global exchange of omics information (transcriptomics, proteomics, metabolomics, signalomics, etc.) without forcing changes to existing database schemas. It is scoped to human health–associated species (humans, preclinical animals, cell lines) and to clinical and translational applications (clinical practice, preventive medicine, translational research, clinical research and drug discovery). ISO 21393 explicitly excludes database schema definitions, detailed molecular sequence content (e.g., full genome sequences or individual sequence variation details), basic research outside clinical contexts, and other biological species.

Key topics and technical requirements

XML foundation: OML is specified as an XML-based markup language. The standard provides guidelines for OML structure and for formal definitions using DTD and XML Schema.
Specification requirements & positioning: Guidance on how OML sits within the genomics informatics ecosystem and how to specify exchange documents so they remain compatible with diverse source databases.
OML structure: High-level framing for a base OML that can be extended with add‑on components for specific omics categories (for example, whole genome sequence or sequence variation as add-ons).
Development process: Describes the recommended process for creating and maintaining OML specifications and components to ensure consistent evolution and international interoperability.
Molecular annotations & clinical context: Supports representation of molecular annotations, clinical concerns, and cross-omics relationships relevant to health applications.
Scope limitations: No database schema enforcement; excludes detailed molecular sequence content and basic research-only scenarios.

Practical applications and who uses it

ISO 21393 is designed for organizations and professionals working to exchange clinical omics data reliably:

Health informatics teams implementing data exchange between electronic health records (EHRs), clinical genomics platforms, biobanks, and research registries.
Clinical laboratories and diagnostic vendors standardizing omics result reporting for translational and clinical workflows.
Pharma and biotech groups integrating multi-omics datasets for drug discovery, pharmacogenomics, and clinical trials.
Standards bodies and implementers developing add-on modules (e.g., sequence variation or whole-genome components) that align with OML’s XML framework.

Related standards and interoperability

Complements domain-specific markup languages and standards (e.g., GSVML as a related sequence variation ML) and works in the wider health informatics ecosystem (HL7, ICD coding overlays). ISO 21393 positions OML as a base frame to be extended for specific omics use cases while promoting global data exchange, interoperability, and standardized clinical omics reporting.

Keywords: ISO 21393, Omics Markup Language, OML, genomics informatics, XML, data exchange, clinical omics, interoperability, health informatics, translational research, drug discovery.

ISO 21393:2021 - Genomics informatics -- Omics Markup Language (OML) - Page 1 preview

ISO 21393:2021 - Genomics informatics -- Omics Markup Language (OML) - Page 2 preview

ISO 21393:2021 - Genomics informatics -- Omics Markup Language (OML) - Page 3 preview

Standard

ISO 21393:2021 - Genomics informatics -- Omics Markup Language (OML)

English language

46 pages

sale 15% off

Preview

sale 15% off

Preview

ISO 21393:2021 - Genomics informatics — Omics Markup Language (OML)
Released:7/30/2021 - Page 3 preview

Standard

ISO 21393:2021 - Genomics informatics — Omics Markup Language (OML) Released:7/30/2021

English language

46 pages

sale 15% off

Preview

sale 15% off

Preview

ISO 21393:2021 - Informatique génomique -- Langage de balisage Omics (OML) - Page 3 preview

Standard

ISO 21393:2021 - Informatique génomique -- Langage de balisage Omics (OML)

French language

48 pages

sale 15% off

Preview

sale 15% off

Preview

ISO 21393:2021 - Informatique génomique — Langage de balisage Omics (OML)
Released:7/30/2021 - Page 3 preview

Standard

ISO 21393:2021 - Informatique génomique — Langage de balisage Omics (OML) Released:7/30/2021

French language

48 pages

sale 15% off

Preview

sale 15% off

Preview

Get Certified

Connect with accredited certification bodies for this standard

BSI Group

BSI (British Standards Institution) is the business standards company that helps organizations make excellence a habit.

UKAS United Kingdom Verified

Visit Website

NYCE

Mexican standards and certification body.

EMA Mexico Verified

Visit Website

Frequently Asked Questions

What is ISO 21393:2021?

ISO 21393:2021 is a standard published by the International Organization for Standardization (ISO). Its full title is "Genomics informatics — Omics Markup Language (OML)". This standard covers: This document is applicable to the data exchange format that is designed to facilitate exchanging omics data around the world without forcing changes of any database schema. This document specifies the characteristics of OML from the following perspectives. From an informatics perspective, OML defines the data exchange format based on XML. This document gives guidelines for the specifications of the data exchange format, but this document excludes the database schema itself. From a molecular side of view, this document is applicable to all kinds of omics data, while this document excludes the details of the molecules (e.g., details of genomic sequence variations or whole genomic sequence). This document is also applicable to the molecular annotations including clinical concerns and relations with other omics concerns. From an application side of view, this document is applicable to the clinical field including clinical practice, preventive medicine, translational research, and clinical research including drug discovery. This document does not apply to basic research and other scientific fields. From a biological species side of view, this document is applicable to the human health-associated species as human, preclinical animals, and cell lines. This document does not apply to the other biological species.

What is the scope of ISO 21393:2021?

What ICS categories does ISO 21393:2021 belong to?

ISO 21393:2021 is classified under the following ICS (International Classification for Standards) categories: 35.240.80 - IT applications in health care technology. The ICS classification helps identify the subject area and facilitates finding related standards.

What standards are related to ISO 21393:2021?

ISO 21393:2021 has the following relationships with other standards: It is inter standard links to EN ISO 21393:2021. Understanding these relationships helps ensure you are using the most current and applicable version of the standard.

How can I access ISO 21393:2021?

ISO 21393:2021 is available in PDF format for immediate download after purchase. The document can be added to your cart and obtained through the secure checkout process. Digital delivery ensures instant access to the complete standard document.

Standards Content (Sample)

INTERNATIONAL ISO
STANDARD 21393
First edition
2021-07
Genomics informatics — Omics
Markup Language (OML)
Informatique génomique — Langage de balisage Omics (OML)
Reference number
©
ISO 2021
© ISO 2021
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved

Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 OML specification . 6
4.1 Specification requirements and OML positioning . 6
4.2 OML Structure . 6
4.3 OML DTD and XML Schema. 7
5 OML development process . 7
6 Figures . 8
Annex A (informative) Reference works .28
Bibliography .45
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 215, Health informatics, Subcommittee
SC 1, Genomics informatics, in collaboration with the European Committee for Standardization (CEN)
Technical Committee CEN/TC 251, Health informatics, in accordance with the Agreement on technical
cooperation between ISO and CEN (Vienna Agreement).
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved

Introduction
In this post genomic era, the management of health-related data is becoming increasingly important
[1]
to both omics research and omics-based medicine. Informational approaches to the management of
clinical, image and omics data are beginning to have as much worth as basic, bench top research. In the
current electronic world, there are multiple different types of data for healthcare as shown in Figure 1.
Besides, nowadays there are many kinds of omics data around the world awaiting effective utilization
for human health. The development of data format and message standards to support the interchange
of clinical omics data is necessary. Omics data includes omics sequence, sequence variation and other
expression data, proteomics data, molecular network, etc. As an entry point, this document focuses on
the data exchange.
In the present circumstances, omics is expected to be a key to understand human response to external
[2]
stimuli such as any kinds of alien invasions, therapies, and the environmental interactions. Bacterial
infection is an example of alien invasion, and the responses to the infections are different among the
individuals. According to the therapy, the side effects to a drug are different among the patients. These
responses are also different in various environments. As a result of recent explosive amount of these
omics researches, the huge amounts of experimental data have been accumulating in many databases
in various types of data formats. These data are waiting to be used in drug discovery, clinical diagnosis,
and clinical researches.
The Markup Language is a set of symbols and rules for their use when doing a markup of a document.
[3] [4]
The first standardized markup language was ISO 8879 onGeneralized Markup Language (SGML)
which has strong similarities with troff and nroff text layout languages supplied with Unix systems.
[5]
Hypertext Markup Language (HTML) is based on SGML. Extensible Markup Language (XML) is
[6]
a pared-down version of SGML, designed especially for Web documents. XML acts as the basis for
[7] [8]
Extensible HTML (XHTML) and Wireless Markup Language (WML) and for standardized definitions
[9]
of system interaction such as Simple Object Access Protocol (SOAP). By contrast, text layout or
semantics are often defined in a purely machine-interpretable form, as in most word processor file
[10]
formats .
Markup Language for the biomedical field, based on XML, has been in development for several
decades to enhance the exchange data among researchers. Bioinformatic Sequence Markup Language
[11] [12] [13]
(BSML), Systems Biology Markup Language (SBML), Cell Markup Language (Cell ML), and
[14]
Neuro Markup Language (Neuro-ML) are examples of markup languages. Polymorphism Mining
[15]
and Annotation Programs (PolyMAPr) is centric on SNP and tries to achieve mining, annotation,
[16] [17] [18]
and functional analysis of public database as dbSNP, CGAP, and JSNP through programming.
ISO 25720 Genomic Sequence Variation Markup Language (GSVML) is the first standardized ML for
clinical genomic sequence variation data exchange.
The purpose of Omics Markup Language (OML) is to provide a standardized data exchange format for
omics in human health.
The recent expansion in omics research has produced large quantities of data held in many databases
with different formats. Standardization of data exchange is necessary for managing, analysing and
utilizing these data. Considering that omics, especially transcriptomics, proteomics, signalomics and
metabolomics, has significant meaning in molecular-based medicine and pharmacogenomics, the data
exchange format is key to enhancing omics-based clinical research and omics-based medicine.
Recently, informational approaches have become more important to both omics research and omics-
based medicine. The management of omics data is as critical as basic research data in this new era.
There are many kinds of omics data around the world, and the time has come to effectively use this
omics data for human health. To use this data effectively and efficiently, standards should be developed
to permit the interoperable interchange of omics data globally. These standards should define the data
format as well as the messages that would be used to interchange and share this data globally.
OML is a base frame of all kinds of clinical omics data. Each omics category will be introduced as a
specific add on component part. As an instance, Whole Genome sequence Markup Language will be
a specific add on component part for whole genome sequence data, and Genomic Sequence Variation
Markup Language will be a specific add on component part for genomic sequence variation data.
To utilize the internationally accumulated omics data, standards for the interchange of omics data
should be defined. These standards should define a data format and exchange messages. Markup
Language is a reasonable choice to address this need. As for omics data message handling, Health Level
1) [19]
Seven® Clinical Genomics Work Group has summarized clinical use cases for general omics data.
The OML project has contributed to these efforts. Additionally, this work incorporated use cases based
[20]
on the Japanese millennium project. Based on these contexts and investigations, this document
elucidates the needs and the requirements for OML and after then proposes the specification of OML for
the international standardization based on the elucidated needs and the requirements.
1) Health Level Seven (HL7) is the registered trademark of Health Level Seven International. This information is
given for the convenience of users of this document and does not constitute an endorsement by ISO of the product
named.
vi © ISO 2021 – All rights reserved

INTERNATIONAL STANDARD ISO 21393:2021(E)
Genomics informatics — Omics Markup Language (OML)
1 Scope
This document is applicable to the data exchange format that is designed to facilitate exchanging omics
data around the world without forcing changes of any database schema.
This document specifies the characteristics of OML from the following perspectives.
From an informatics perspective, OML defines the data exchange format based on XML. This document
gives guidelines for the specifications of the data exchange format, but this document excludes the
database schema itself.
From a molecular side of view, this document is applicable to all kinds of omics data, while this
document excludes the details of the molecules (e.g., details of genomic sequence variations or whole
genomic sequence). This document is also applicable to the molecular annotations including clinical
concerns and relations with other omics concerns.
From an application side of view, this document is applicable to the clinical field including clinical
practice, preventive medicine, translational research, and clinical research including drug discovery.
This document does not apply to basic research and other scientific fields.
From a biological species side of view, this document is applicable to the human health-associated
species as human, preclinical animals, and cell lines. This document does not apply to the other
biological species.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at http:// www .electropedia .org/
3.1
actor
something or someone who supplies a stimulus to the system
Note 1 to entry: Actors include both humans and other quasi-autonomous things, such as machines, computer
tasks and systems.
[SOURCE: ISO 25720:2009, 4.1]
3.2
allele
gene that is found in one of two or more different forms in the same position in a chromosome
3.3
bioinformatic sequence markup language
BSML
extensible language specification and container for bioinformatic data
[SOURCE: ISO 25720:2009, 4.2]
3.4
cancer genome anatomy project
CGAP
genomic expression data collected for various tumorigenic tissues in both humans and mice
Note 1 to entry: CGAP also provides information on methods and reagents used in deriving the genomic data
[SOURCE: ISO 25720:2009, 4.4, modified]
3.5
codon
sequence of three nucleotides which together form a unit of genetic code in a DNA or RNA molecule
3.6
dbSNP
database of single nucleotide polymorphisms (3.29) provided by the US National Center for Biotechnology
Information (NCBI)
Note 1 to entry: Available at https:// www .ncbi .nlm .nih .gov/ SNP/ .
[SOURCE: ISO/TS 20428:2017, 3.9]
3.7
digital imaging and communications in medicine
DICOM
standard in the field of medical informatics for exchanging digital information between medical
imaging equipment (such as radiological imaging) and other systems, ensuring interoperability
[SOURCE: ISO 25720:2009, 4.6]
3.8
DNA sequence variation
differences of DNA sequence among individuals in a population
Note 1 to entry: DNA sequence variation implies polymorphism 3.25.
[SOURCE: ISO 25720:2009, 4.8]
3.9
document type definition
DTD
document that contains formal definitions of all of the data elements in a particular type of hypertext
markup language 3.13, standard generalized markup language (3.29), or extensible markup language
(3.36) document
[SOURCE: ISO 25720:2009, 4.9]
3.10
entry point
reference point that designate the class(es) from which the messages begin for the domain
[SOURCE: ISO 25720:2009, 4.10, modified]
2 © ISO 2021 – All rights reserved

3.11
exon
part of a gene that will encode a part of the final mature RNA produced by that gene after introns (3.16)
have been removed by RNA splicing
3.12
genomic sequence variation markup language
GSVML
standard for data exchange of genomic sequence variation data
3.13
hypertext markup language
HTML
set of markup symbols or codes inserted in a file intended for display in a browser
[SOURCE: ISO 25720:2009, 4.12, modified]
3.14
international classification of diseases
ICD
diagnose coding system for epidemiology, health management and clinical purposes
Note 1 to entry: ICD-10 is the 10th revision and ICD-11th is the 11th revision.
Note 2 to entry: available at https:// icd .who .int/ .
3.15
clinical omics sub-information model for international classification of diseases
clinical omics sub-information model for ICD
iCOS
sub-information model aiming to enhance the representation ability of ICD-11 contents model with
covering omics information as an add-on part.
Note 1 to entry: Add-on sub-information model to enhance the representation ability of ICD-11 contents model to
cover omics information.
3.16
intron
nucleotide sequence within a gene that is removed by RNA splicing during maturation of the final RNA
product
3.17
joint photographic experts group
JPEG
compression technique for images
[SOURCE: ISO 25720:2009, 4.13]
3.18
markup language
ML
set of symbols and rules for their uses when doing a markup of a document
[SOURCE: ISO 25720:2009, 4.15]
3.19
microarray gene expression markup language
MAGE-ML
data format for describing information about DNA-array based experiments and gene expression data
3.20
neuro markup language
neuro-ML
markup language (3.18) for describing models of neurons and networks of neurons.
[SOURCE: ISO 25720:2009, 4.16]
3.21
nroff
unix text-formatting program that is a predecessor of the Unix troff (3.33) document processing system
[SOURCE: ISO 25720:2009, 4.17]
3.22
omics
field of study in biology ending in -omics
Note 1 to entry: It includes, but is not limited to, genomics, proteomics, and metabolomics.
3.23
pharmacogenomics
branch of pharmaceutics aiming to develop rational means to optimize drug therapy, with respect to
the patient's genotype
3.24
polymorphism mining and annotation programs
PolyMAPr
programs for polymorphism (3.25) database mining, annotation, and functional analysis
[SOURCE: ISO 25720:2009, 4.19]
3.25
polymorphism
variation in the sequence of DNA among individuals
Note 1 to entry: Polymorphism implies single nucleotide polymorphism (3.29) and short tandem repeat
polymorphism (3.32) .
[SOURCE: ISO 25720:2009, 4.20]
3.26
RNA markup language
RNAML
data format for exchanging RNA information
3.27
systems biology markup language
SBML
markup language (3.18) for simulations in systems biology
[SOURCE: ISO 25720:2009, 4.21]
3.28
standard generalized markup language
SGML
markup language (3.18) for document representation that formalizes markup and frees it of system and
processing dependencies
[SOURCE: ISO 8879:1986, 4.305, modified]
4 © ISO 2021 – All rights reserved

3.29
single nucleotide polymorphism
SNP
single nucleotide variation in a genetic sequence that occurs at appreciable frequency in the population
[SOURCE: ISO 25720:2009, 4.23]
3.30
2)
systematized nomenclature of medicine-clinical terms®
SNOMED-CT®
dynamic, scientifically validated clinical health care terminology and infrastructure
[SOURCE: ISO 25720:2009, 4.24]
3.31
simple object access protocol
SOAP
lightweight protocol for exchange of information in a decentralized, distributed environment
[SOURCE: ISO 25720:2009, 4.25]
3.32
short tandem repeat polymorphism
STRP
variable segments of DNA that are two to five bases long with numerous repeats
[SOURCE: ISO 25720:2009, 4.26]
3.33
troff
major component of a document processing system developed by AT&T for the Unix operating system
3.34
wireless markup language
WML
extensible markup language used to specify content and user interface for WAP (Wireless Application
Protocol) devices
[SOURCE: ISO 25720:2009, 4.29]
3.35
extensible HTML
XHTML
hybrid between hypertext markup language 3.13 and extensible markup language (3.36) specifically
designed for net device displays
[SOURCE: ISO 25720:2009, 4.30]
3.36
extensible markup language
XML
pared-down version of standard generalized markup language (3.29), designed especially for web
documents
[SOURCE: ISO 25720:2009, 4.31]
2) SNOMED CT is the registered trademark of International Health Terminology Standards Development
Organisation. This information is given for the convenience of users of this document and does not constitute an
endorsement by ISO of the product named.
3.37
XML schema
language for describing the structure and constraining the contents of extensible markup language
documents
[SOURCE: ISO 25720:2009, 4.32]
4 OML specification
4.1 Specification requirements and OML positioning
In the current context, annotative information about omics is increasing and that information is
embedding the information holes. The omics data itself is also increasing but is stored in various
databases. The pitfall of omics data handling is the lack of standardization of the data formats for
the organized omics. Historically, markup languages have been used, and programs are developed to
handle the omics information. However, there have been no omics centric markup languages so far.
OML is the first omics centric markup language and is human health centric. Considering that omics
has the great impact especially for human health and response, it can be said that OML has the greatest
potential to be the designated markup language for human healthcare. On the other hand, setting the
applications to practical human health means it shall handle direct or indirect annotations. Here the
direct annotation shall indicate general annotative information such as omics associated other omics
information and experimental preparations. The indirect annotation shall indicate all of omics data
and clinical data that result from omics data. To understand the omics based clinical situation of each
patient, these kinds of additional information is required. Considering the requirements to add many
kinds of additional information, the development and standardization of OML cannot stand alone and
shall need harmonization with the other documents from the other international standardization
organizations.
OML intends to be used in data exchange messages related to human health. In development and
standardization of OML in this application domain, keeping an eye on the patient safety, the clinical
efficiency, and the medical costs shall always be required. For the patient safety from an informational
side, the conservation and the protection of patient information shall be deemed important. For the
enhancement of the clinical efficiency, the simplicity and the easy understandability shall be deemed
important. For the medical cost reduction, the adaptation ability and installation ease shall be deemed
important.
OML tries to respond to these basic requirements by providing the sharable XML based data exchanging
format. OML can be used for the clinically omics data exchange among various types of data formats.
In the greater framework of clinical data standardization, OML shall play a part of describing the omics
data and its necessary information.
4.2 OML Structure
A valid OML expression shall be structured in accordance with the following, also see Figure 2:
— The outline structure of OML is shown in Figure 2.
OML shall consist of three data criteria:
— omics data;
— direct annotation;
— indirect annotation.
The omics data criterion shall describe, for each omics
the straight forward omics data as:
— type;
6 © ISO 2021 – All rights reserved

— position;
— length;
— region;
— etc.
The direct annotation criterion shall describe, for each omics
the attached data of omics data as:
— experiment analysis;
— epidemiology;
— associated omics;
— etc.
The indirect annotation criterion shall describe
the explanatory/higher-level information of omics data as:
— the clinical information;
— the environmental data.
These data criteria shall have relations to each other internally.
— The detailed structure of OML shall be given as in Figures 3 to 23.
4.3 OML DTD and XML Schema
The DTD of OML is available for information at https:// standards .iso .org/ iso/ 21393/ ed -1/ en.
The XML schema of OML used is available at https:// standards .iso .org/ iso/ 21393/ ed -1/ en.
5 OML development process
Step 1: Set the elements and needs according to the investigated use cases including use case with WHO
ICD-11 iCOS use.
Step 2: Construct the basic structure and DTD
Step 3: Investigate the existing biological ML, in particular GSVML (ISO 25720), and its applicability to
[21]
the needs. (Comparison with MAGE-ML, BSML, SBML, RNAML, ProML, CellML, PolyMAPr)
Step 4: Refine the basic structure and DTD, Construct the XML Schema (XSD)
Step 5: Investigate the existing format (their data format comparison).
Step 6: Check the interface ability to the Health Level Seven® Models.
Step 7: Redefine the needs to OML and its demanded elements.
Step 8: Refine the basic structure, DTD, and XML Schema
Figure 24 outlines of the process of the development. The design work was done in harmony with HL7®
Clinical Genomics WG, CDISC BRIDGE group, WHO FIC ITC group for both ISO 25720 (GSVML) and this
document. There were "to and fro" processes between design work and the standardization process.
Additionally, the interface between OML, ISO 13606 (all parts), and SNOMED-CT® is analyzed.
Additional informative input to the development of this document are included in Annex A.
6 Figures
Figure 1 — Major data types of health care
In the current electronic network world, there are multiple different types of data for healthcare
as shown in Figure 1. Besides clinical data and image data, as moving into this next generation post
genomic era, overwhelming amounts of omics data is creating internationally. Standards organizations
are developing standards for these data; Health Level Seven® (HL7®) develops standards for clinical
data, DICOM and JPEG develop standards for image data; and Omics Markup Language (OML) defines a
standard for omics data, especially human-related omics data. The core target for the OML is the data
exchange format.
8 © ISO 2021 – All rights reserved

Figure 2 — The outlined structure of OML
The overall structure of OML is centred on the OML (root) and the Omics data content – either Variation,
Proteomics, or other Omics data. Information related to omics processes, or otherwise not included
in Omics data are contained in Direct Annotations. Indirect Annotations permit related clinical,
phenotypic, environmental, and similar information to be included in the OML document.
Figure 3 — Detailed structure of OML: OML root (OML)
Figure 3 shows to overall structure of an OML document instance, where the OML root element (OML) is
composed of omics_data, direct_annotation, and indirect_annotation.
Further description of omics_data can be found in and following Figure 4.
Further description of direct_annotation can be found in and following Figure 11.
Further description of indirect_annotation can be found in and following Figure 18.
Figure 4 — Detailed structure of OML: Omics data (omics_data)
The core omics data structure (omics_data) allows one of variation (variation_data), transcription
(transcription_data), proteomics (proteomics_data), metabolomics (metabolomics_data), signalomics
(signalomics_data), organomics (organomics_data), or any other omics data (other_omics_data).
The structures of variation (variation_data), transcription (transcription_data), etc. are similar and
illustrated in Figure 5.
10 © ISO 2021 – All rights reserved

Figure 5 — Detailed structure of OML: Omics data sub-structures (variation_data,
transcription_data, etc.)
The omics data content elements - variation (variation_data), transcription (transcription_data),
proteomics (proteomics_data), metabolomics (metabolomics_data), signalomics (signalomics_data),
organomics (organomics_data), or any other omics data (other_omics_data) – share a similar structure.
All incorporate required attribute data (variation_att, transcription_att, proteomics_att, metabolomics_
att, organomics_att, other_omics_att), an optional source (source) and database reference(s) (variation_
dbref, transcription_dbref, proteomics_dbref)). Variation and transcription also include required type
(variation_type, transcription_type) and location (location, transcription_location) information. The
structure and content of the sub-elements is illustrated in Figure 6 for location, Figure 8 for attributes,
Figure 7 for source, and Figure 9 database reference.
Figure 6 — Detailed structure of OML: Location (location)
Location (location) is a general structure used throughout OML. Specific elements using this structure
include transcription_location, etc. This structure requires chromosome number (chromosome_
number), position (position), and orientation (orientation). Additional information can include
chromosome map (map), associated gene (ass_gene) (see Figure 10), or one or more database references
of the location (location_dbref).
Assigned gene (ass_gene) is further described in Figure 10.
Figure 7 — Detailed structure of OML: Source (source)
12 © ISO 2021 – All rights reserved

Source (source) is used to describe where the sequence variation information was obtained. This
structure is used in multiple locations in OML. Source (source) shall include a database reference
of the source (source_dbref) and can include the date released (source_release_date), one or more
modification date (source_modify_date), or multiple entries of raw data (source_rawdata).
Figure 8 — Detailed structure of OML: variation_att as a model for attribute
Variation attributes (variation_att) is presented as a model for all 'attribute' elements (e.g.,
transcription_att, proteomics_att). This structure requires the molecular type of the sequence
(molecular_type) (e.g., DNA, RNA) and the sequence length (length). Observed alleles (allele), 5' flanking
sequence (f5sequence), 3' flanking sequence (f3sequence), the validation status (validation_status), and
the certainty of the variation information (success_rate) may also be present.
Figure 9 — Detailed structure of OML: Database reference (dbref)
Database reference (dbref) is a generic structure use in multiple locations in OML (e.g. transcription_
dbref, ass_gene_dbref). This structure allows a identifier (data_id) from a given database (database_
name) to be associated with a given datum (e.g., transcription_dbref allows identifiers to be associated
with transcription_data). Typically, the point of association (transcription_deref in transcription_data)
repeats, allowing multiple identi
...

NORME ISO
INTERNATIONALE 21393
Première édition
2021-07
Informatique génomique — Langage
de balisage Omics (OML)
Genomics informatics — Omics Markup Language (OML)
Numéro de référence
©
ISO 2021
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2021
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2021 – Tous droits réservés

Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d'application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Spécifications de l'OML . 6
4.1 Exigences de spécification et positionnement de l'OML . 6
4.2 Structure de l'OML . 7
4.3 DTD de l'OML et schéma XML . 7
5 Processus de développement de l'OML . 8
6 Figures . 8
Annexe A (informative) Travaux de référence .29
Bibliographie .47
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes
nationaux de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est
en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.
L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de
brevets reçues par l'ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion
de l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir www .iso .org/ avant -propos.
Le présent document a été élaboré par le comité technique ISO/TC 215, Informatique de santé, sous-comité
SC 1, Informatique génomique, en collaboration avec le comité technique CEN/TC 251, Informatique de
santé, du Comité européen de normalisation (CEN) conformément à l’Accord de coopération technique
entre l’ISO et le CEN (Accord de Vienne).
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l’adresse www .iso .org/ fr/ members .html.
iv © ISO 2021 – Tous droits réservés

Introduction
Dans cette ère post-génomique, la gestion des données de santé devient de plus en plus importante
[1]
tant pour la recherche omique que pour la médecine basée sur les sciences omiques . Les approches
informationnelles de la gestion des données cliniques, d'images et d'omique commencent à avoir autant
de valeur que les recherches ordinaires en laboratoire. Le monde électronique actuel est marqué par de
nombreux types de données différents en matière de soins de santé, comme indiqué à la Figure 1. En
outre, il existe aujourd'hui de nombreux types de données omiques de par le monde qui attendent une
utilisation efficace dans le domaine de la santé humaine. Le développement d'un format de données et
de normes de message pour prendre en charge l'échange de données omiques cliniques est nécessaire.
Les données omiques comprennent la séquence omique, la variation de séquence et d'autres données
d'expression, les données protéomiques, le réseau moléculaire, etc. Comme point d'entrée, le présent
document se concentre sur l'échange de données.
Dans les circonstances actuelles, on s'attend à ce que l'omique soit une clé pour comprendre la réponse
humaine aux stimuli externes tels que n'importe quels types d'invasions étrangères, de thérapies, et
[2]
d'interactions environnementales . L'infection bactérienne est un exemple d'invasion étrangère et les
réponses aux infections diffèrent d'un individu à l'autre. Selon la thérapie utilisée, les effets secondaires
d'un médicament diffèrent d'un patient à l'autre. Ces réponses diffèrent également d'un environnement
à l'autre. Le nombre de ces recherches omiques ayant explosé récemment, les données expérimentales
s'accumulent en grande quantité dans de nombreuses bases de données sous différents types de formats
de données. Ces données attendent d'être utilisées dans la découverte de médicaments, le diagnostic
clinique et les recherches cliniques.
Le langage de balisage est un ensemble de symboles et de règles permettant de les utiliser dans le
[3]
balisage d'un document . Le premier langage de balisage normalisé a été le langage normalisé de
[4]
balisage généralisé (SGML) de l'ISO 8879, qui présente de fortes similitudes avec les langages de
présentation de texte troff et nroff qui accompagnent les systèmes Unix. Le langage HTML (langage
[5]
de balisage hypertexte) est basé sur SGML . XML (langage de balisage extensible) est une version
[6]
réduite du SGML, conçue particulièrement pour les documents Web . XML sert de base au XHTML
[7] [8]
(HTML extensible) et au WML (langage de balisage sans fil) ainsi qu'à des définitions normalisées
[9]
d'interaction système telles que SOAP (Simple Object Access Protocol) . Par contre, la présentation de
texte ou la sémantique est souvent définie sous une forme purement interprétable par machine, comme
[10]
dans la plupart des formats de fichiers de traitement de texte .
Le langage de balisage dans le domaine biomédical basé sur XML est en cours de développement depuis
plusieurs décennies dans le but d'améliorer l'échange de données entre chercheurs. Le BSML (langage
[11] [12]
de balisage de séquence bioinformatique) , le SBML (langage de balisage en biologie des systèmes) ,
[13] [14]
le Cell ML (langage de balisage de cellules) et le Neuro-ML (Langage de balisage neuronal) sont
des exemples de langages de balisage. Le Polymorphism Mining and Annotation Programs (PolyMAPr)
[15]
est centré sur le SNP et tente de réaliser l'exploration, l'annotation et l'analyse fonctionnelle des
[16] [17] [18]
bases de données publiques telles que dbSNP CGAP , et JSNP par le biais de la programmation.
Le langage de balisage de variation de la séquence génomique (GSVML) de l'ISO 25720 est le premier
langage de balisage normalisé pour l'échange de données relatives à la variation de la séquence
génomique dans un contexte clinique.
Le langage de balisage Omics (OML) vise à fournir le format normalisé d'échange de données pour les
sciences omiques dans le domaine de la santé humaine.
L'essor récent de la recherche omique a généré d'importantes quantités de données conservées dans
de nombreuses bases de données sous différents formats. La gestion, l'analyse et l'utilisation de ces
données exigent une normalisation de l'échange de données. Compte tenu de l'importance des sciences
omiques pour la médecine moléculaire et la pharmacogénomique, en particulier la transcriptomique, la
protéomique, la signalomique et la métabolomique, le format d'échange de données est essentiel pour
améliorer la recherche clinique et la médecine basées sur des approches omiques.
Les approches informationnelles ont récemment gagné en importance tant pour la recherche omique
que pour la médecine basée sur les sciences omiques. Dans cette nouvelle ère, la gestion des données
omiques est devenue aussi essentielle que celle des données de recherche fondamentale. Il existe de
nombreux types de données omiques dans le monde et le temps est venu d'utiliser efficacement ces
données pour la santé humaine. Pour utiliser ces données de manière efficace et efficiente, il convient
d'élaborer des normes pour permettre l'échange interopérable des données omiques dans le monde.
Il convient que ces normes définissent le format de données ainsi que les messages qui seront utilisés
pour échanger et partager ces données à l'échelle internationale.
OML est un cadre de base pour tous les types de données omiques cliniques. Chaque catégorie
du domaine omique sera présentée sous la forme d'une composante complémentaire spécifique.
Par exemple, le langage de balisage du séquençage de génome complet formera une composante
complémentaire spécifique pour des données de séquençage de génome complet, et le langage de
balisage de la variation de la séquence génomique formera une composante complémentaire spécifique
des données de variation de la séquence génomique.
Pour utiliser les données omiques cumulées à l'échelle internationale, il convient de définir des normes
autour de l'échange de données omiques. Il convient que ces normes définissent un format de données et
de messages d'échange. Le langage de balisage est un choix raisonnable pour répondre à ce besoin. Quant
[19]
à la gestion des messages de données omiques, le groupe de travail de génomique clinique au sein du
1)
Health Level Seven® a récapitulé les cas d'utilisation clinique pour les données omiques générales. Le
projet OML a contribué à ces efforts. En outre, ces travaux ont incorporé des cas d'utilisation basés sur
[20]
le «Millennium Project» japonais . Sur la base de ces contextes et investigations, le présent document
élucide les besoins et les exigences pour l'OML et propose ensuite la spécification de l'OML en vue de la
normalisation internationale.
1) Health Level Seven (HL7) est une marque déposée de Health Level Seven International. Cette information est
donnée à l'intention des utilisateurs du présent document et ne signifie nullement que l'IEC approuve l'emploi du
produit ainsi désigné.
vi © ISO 2021 – Tous droits réservés

NORME INTERNATIONALE ISO 21393:2021(F)
Informatique génomique — Langage de balisage Omics
(OML)
1 Domaine d'application
Le présent document est applicable au format d'échange de données qui est conçu pour faciliter
l'échange de données omiques dans le monde entier sans imposer le moindre changement de schéma de
base de données.
Le présent document spécifie les caractéristiques de l'OML selon les perspectives suivantes.
D'un point de vue informatique, OML définit le format d'échange de données basé sur XML. Le présent
document établit des lignes directrices pour la spécification du format d'échange de données, mais il
exclut le schéma de base de données proprement dit.
Du point de vue moléculaire, le présent document est applicable à toutes les sortes de données omiques
bien qu'il exclue les détails relatifs aux molécules (par exemple, les détails des variations de la séquence
génomique ou la séquence génomique complète). Le présent document est également applicable aux
annotations moléculaires, y compris les questions cliniques et les relations avec les autres questions
omiques.
Du point de vue de l'application, le présent document est applicable à la santé humaine, y compris les
pratiques cliniques, la médecine préventive, la recherche translationnelle et la recherche clinique,
notamment la découverte de médicaments. Le présent document ne s'applique pas à la recherche
fondamentale et aux autres domaines scientifiques.
Du point de vue des espèces biologiques, le présent document est applicable aux espèces associées à
la santé humaine telles que l'homme, les animaux en préclinique et les lignées cellulaires. Le présent
document ne s'applique pas aux autres espèces biologiques.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/
3.1
acteur
agent
entité qui fournit un stimulus au système
Note 1 à l'article: Les acteurs englobent tant les humains que d'autres entités quasi autonomes, telles que
machines, tâches informatiques et systèmes.
[SOURCE: ISO 25720:2009, 4.1]
3.2
allèle
gène trouvé dans différentes formes à la même position dans un chromosome
3.3
Bioinformatic Sequence Markup Language
BSML
spécification de langage extensible et conteneur pour données bioinformatiques
[SOURCE: ISO 25720:2009, 4.2]
3.4
Cancer Genome Anatomy Project
CGAP
données d'expression génomiques recueillies pour différents tissus tumorigènes chez l'homme et chez
la souris
Note 1 à l'article: Le projet CGAP fournit également des informations sur des méthodes et des réactifs utilisés
pour obtenir les données génomiques.
[SOURCE: ISO 25720:2009, 4.4, modifiée]
3.5
codon
séquence de trois nucléotides qui, ensemble, forment une unité de code génétique dans une molécule
d'ADN ou d'ARN
3.6
dbSNP
base de données sur les SNP (3.29) fournie par le National Center for Biotechnology Information (NCBI)
des États-Unis d'Amérique
Note 1 à l'article: Disponible à l'adresse https:// www .ncbi .nlm .nih .gov/ SNP/ .
[SOURCE: ISO/TS 20428:2017, 3.9]
3.7
Digital Imaging and Communications in Medicine
DICOM
norme dans le domaine de l'informatique médicale pour l'échange d'information numérique entre un
équipement d'imagerie médicale (tel qu'une imagerie radiologique) et d'autres systèmes, assurant
l'interopérabilité
[SOURCE: ISO 25720:2009, 4.6]
3.8
variation de la séquence d'ADN
différences de séquence d'ADN parmi des individus dans une population
Note 1 à l'article: La variation de la séquence d'ADN implique le polymorphisme (3.25).
[SOURCE: ISO 25720:2009, 4.8]
3.9
Document Type Definition
DTD
document qui contient les définitions formelles de tous les éléments de données dans un type particulier
de document HTML (3.13), SGML (3.29), ou XML (3.36)
[SOURCE: ISO 25720:2009, 4.9]
2 © ISO 2021 – Tous droits réservés

3.10
point d'entrée
point de référence qui indique la (les) classe(s) où les messages débutent pour le domaine
[SOURCE: ISO 25720:2009, 4.10, modifiée]
3.11
exon
partie d'un gène qui encode une partie de l'ARN mature final produit par ce gène après l'élimination des
introns (3.16) par épissage de l'ARN
3.12
Genomic Sequence Variation Markup Language
GSVML
norme pour l'échange de données de la variation de la séquence génomique
3.13
Hypertext Markup language
HTML
ensemble de symboles ou codes de balisage insérés dans un fichier destiné à l'affichage dans un
navigateur
[SOURCE: ISO 25720:2009, 4.12, modifiée]
3.14
classification internationale des maladies
CIM
système de codage de diagnostic normalisé pour l'épidémiologie, la gestion de la santé et les applications
cliniques
Note 1 à l'article: La CIM-10 est la dixième révision et la CIM-11 est la onzième révision.
Note 2 à l'article: disponible à l'adresse https:// icd .who .int/ .
3.15
sous-modèle d'informations omiques cliniques pour la classification internationale des maladies
sous-modèle d'informations omiques cliniques pour la CIM
iCOS
sous-modèle d'informations destiné à renforcer la capacité de représentation du modèle de contenu
CIM-11 afin de couvrir les informations omiques en tant que partie complémentaire
Note 1 à l'article: Modèle d'informations complémentaires pour renforcer la capacité de représentation du modèle
de contenu CIM-11 afin de couvrir les informations relatives aux domaines omiques.
3.16
intron
séquence nucléotidique dans un gène qui est éliminée par épissage de l'ARN pendant la maturation du
produit ARN final
3.17
Joint Photographic Experts Group
JPEG
technique de compression d'images
[SOURCE: ISO 25720:2009, 4.13]
3.18
langage de balisage
ML (markup language)
ensemble de symboles et règles pour leurs utilisations dans le balisage d'un document
[SOURCE: ISO 25720:2009, 4.15]
3.19
Microarray Gene Expression Markup Language
MAGE-ML
format de données pour décrire des informations sur des expérimentations basées sur le réseau d'ADN
et les données d'expression des gènes
3.20
Neuro Markup Language
Neuro-ML
langage de balisage (3.18) pour décrire des modèles de neurones et les réseaux de neurones
[SOURCE: ISO 25720:2009, 4.16]
3.21
nroff
programme de formatage de texte sous Unix qui est le prédécesseur du système de document troff
(3.33) sous Unix
[SOURCE: ISO 25720:2009, 4.17]
3.22
omique
«omics»
domaine d'étude biologique ayant le suffixe «omique»
Note 1 à l'article: Inclut, sans toutefois s'y limiter, la génomique, la protéomique et la métabolomique.
3.23
pharmacogénomique
branche de la pharmacie visant à développer un moyen rationnel permettant d'optimiser la
chimiothérapie, en fonction du génotype du patient
3.24
Polymorphism Mining and Annotation Programs
PolyMAPr
programmes pour l'exploration, l'annotation et l'analyse fonctionnelle de bases données du
polymorphisme (3.25)
[SOURCE: ISO 25720:2009, 4.19]
3.25
polymorphisme
variation de la séquence de l'ADN parmi les individus
Note 1 à l'article: Le polymorphisme implique le SNP (3.29) et le STRP (3.32).
[SOURCE: ISO 25720:2009, 4.20]
3.26
RNA Markup Language
RNAML
format de données pour l'échange d'informations ARN
3.27
Systems Biology Markup Language
SBML
langage de balisage (3.18) pour les simulations en biologie des systèmes
[SOURCE: ISO 25720:2009, 4.21]
4 © ISO 2021 – Tous droits réservés

3.28
Standard Generalized Markup Language
SGML
langage de balisage (3.18) pour la représentation de documents qui formalise le balisage et le rend
indépendant des systèmes et des traitements
[SOURCE: ISO 8879:1986, 4.305, modifiée]
3.29
Single Nucleotide Polymorphism
SNP
variation d'un seul nucléotide dans une séquence génétique qui apparaît à une fréquence appréciable
dans la population
[SOURCE: ISO 25720:2009, 4.23]
3.30
2)
Systematized Nomenclature of Medicine - Clinical Terms®
SNOMED-CT®
ensemble dynamique et validé scientifiquement d'infrastructure et de terminologie de soins de santé
cliniques
[SOURCE: ISO 25720:2009, 4.24]
3.31
Simple Object Access Protocol
SOAP
protocole léger pour l'échange d'informations dans un environnement réparti décentralisé
[SOURCE: ISO 25720:2009, 4.25]
3.32
Short Tandem Repeat Polymorphism
STRP
segments variables de l'ADN qui ont une longueur de deux bases à cinq bases avec de nombreuses
séquences répétées
[SOURCE: ISO 25720:2009, 4.26]
3.33
troff
composant principal d'un système de traitement de documents développé par AT&T pour le système
d'exploitation Unix
3.34
Wireless Markup Language
WML
langage de balisage extensible utilisé pour spécifier le contenu et l'interface utilisateur pour des
dispositifs WAP (protocole d'application sans fil)
[SOURCE: ISO 25720:2009, 4.29]
2) SNOMED CT est une marque déposée de l'International Health Terminology Standards Development Organisation.
Cette information est donnée à l'intention des utilisateurs du présent document et ne signifie nullement que l'IEC
approuve l'emploi du produit ainsi désigné.
3.35
eXtensible HTML
XHTML
hybride entre HTML (3.13) et XML (3.36) spécialement conçu pour les écrans d'affichage de dispositifs
Net
[SOURCE: ISO 25720:2009, 4.30]
3.36
eXtensible Markup Language
XML
version réduite du SGML (3.29), conçue pour les documents Web
[SOURCE: ISO 25720:2009, 4.31]
3.37
schéma XML
langage servant à décrire la structure et à contraindre le contenu de documents XML
[SOURCE: ISO 25720:2009, 4.32]
4 Spécifications de l'OML
4.1 Exigences de spécification et positionnement de l'OML
Dans le contexte actuel, les informations d'annotation relatives au domaine omique vont en augmentant
et ces informations tendent à incorporer les trous d'information. Les données omiques en tant que
telles augmentent également, mais sont stockées dans différentes bases de données. Le piège dans
le traitement des données omiques se situe dans l'absence de normalisation des formats de données
pour l'omique organisée. Historiquement, les langages de balisage ont été utilisés et des programmes
sont développés pour gérer l'information omique. Toutefois, il n'existait pas jusqu'ici de langages de
balisage centrés sur l'omique. L'OML est le premier langage de balisage centré sur l'omique et axé
sur la santé humaine. Compte tenu de l'impact considérable de l'omique notamment pour la santé et
la réponse humaines, on peut affirmer que l'OML a le plus grand potentiel pour devenir le langage de
balisage désigné pour les soins de santé humaine. D'autre part, la mise en place des applications à
la santé humaine dans la pratique signifie qu'il doit gérer les annotations directes ou indirectes. Ici,
l'annotation directe doit indiquer les informations d'annotation générales telles que l'omique associée
à d'autres informations omiques et à des préparations expérimentales. L'annotation indirecte doit
indiquer la totalité des données omiques et des données cliniques résultant des données omiques. Pour
comprendre la situation clinique omique de chaque patient, ces types d'informations supplémentaires
sont nécessaires. Eu égard à la nécessité d'ajouter de nombreux types d'informations supplémentaires, le
développement et la normalisation de l'OML ne peuvent pas être isolés et doivent donc faire l'objet d'une
harmonisation avec les différents documents des autres organismes internationaux de normalisation.
L'OML est destiné à être utilisé dans les messages d'échange de données liés à la santé humaine. Pour le
développement et la normalisation de l'OML dans ce domaine d'application, il est impératif de toujours
garder un œil sur la sécurité du patient, l'efficience clinique et les coûts médicaux. Pour la sécurité du
patient du point de vue informationnel, la conservation et la protection des informations relatives au
patient doivent être jugées importantes. Pour le renforcement de l'efficience clinique, la simplicité et
l'intelligibilité sans peine doivent être jugées importantes. Pour la réduction des coûts médicaux, la
capacité d'adaptation et la facilité d'installation doivent être jugées importantes.
L'OML tente de satisfaire à ces exigences fondamentales en fournissant le format partageable d'échange
de données basé sur XML. L'OML peut être utilisé pour l'échange de données omiques d'un point de
vue clinique parmi divers types de formats de données. Dans le cadre plus large de la normalisation
des données cliniques, l'OML doit jouer un rôle dans la description des données omiques et de leurs
informations requises.
6 © ISO 2021 – Tous droits réservés

4.2 Structure de l'OML
Une expression OML valide doit être structurée conformément aux éléments suivants, voir également
Figure 2:
— le contour de la structure de l'OML est illustré à la Figure 2.
L'OML doit être constitué de trois critères de données:
— données «omiques»;
— annotation directe;
— annotation indirecte.
Le critère de données omiques doit décrire, pour chaque domaine omique,
les données omiques simples telles que:
— le type;
— la position;
— la longueur;
— la région;
— etc.
Le critère d'annotation directe doit décrire, pour chaque domaine omique,
les données jointes des données omiques telles que:
— l'analyse d'expérimentations;
— l'épidémiologie;
— l'omique associée;
— etc.
Le critère d'annotation indirecte doit décrire
les informations explicatives/de niveau supérieur des données omiques, telles que:
— les informations cliniques;
— les données environnementales.
Ces critères de données doivent intérieurement avoir des relations les uns avec les autres.
— La structure détaillée de l'OML doit être fournie telle qu'illustrée aux Figures 3 à 23.
4.3 DTD de l'OML et schéma XML
La définition de type de document (DTD) de l'OML est disponible pour information à l'adresse https://
standards .iso .org/ iso/ 21393/ ed -1/ en.
Le schéma XML de l'OML utilisé est disponible à l'adresse https:// standards .iso .org/ iso/ 21393/ ed -1/ en.
5 Processus de développement de l'OML
Étape 1: établir les éléments et les besoins selon les cas d'utilisation étudiés à l'aide de l'iCOS CIM-11 de
l'OMS.
Étape 2: construire la structure de base et la DTD.
Étape 3: étudier le langage de balisage biologique existant, en particulier le GSVML (ISO 25720), et son
[21]
applicabilité aux besoins. (Comparaison avec les langages MAGE-ML, BSML, SBML, RNAML , ProML,
CellML, PolyMAPr)
Étape 4: affiner la structure de base et la DTD, construire le schéma XML (XSD).
Étape 5: étudier le format existant (comparaison de leurs formats de données).
Étape 6: vérifier la capacité d'interface au modèle de génotype du Health Level Seven®.
Étape 7: redéfinir les besoins par rapport à l'OML et ses éléments exigés.
Étape 8: affiner la structure de base, la DTD et le schéma XML.
La Figure 24 montre le contour du processus de développement. Le projet a été élaboré en harmonie
avec le GT génomie clinique de HL7®, le groupe CDISC BRIDGE, le groupe FIC ITC de l'OMS aussi
bien pour l'ISO 25720 (GSVML) que pour le présent document. Il y a eu des «allers et retours» entre
l'élaboration du projet et le processus de normalisation.
En outre, l'interface entre l'OML, l'ISO 13606 (toutes les parties), et la SNOMED-CT® a été analysée.
L'Annexe A fournit des informations supplémentaires ayant contribué à l'élaboration du présent
document.
6 Figures
Figure 1 — Types de donnée de soins de santé les plus importants
8 © ISO 2021 – Tous droits réservés

Le monde de réseau électronique actuel est marqué par de nombreux types de données différents en
matière de soins de santé, comme indiqués à la Figure 1. Au-delà des données cliniques et des données
d'image, à l'heure où nous entrons dans cette nouvelle ère post-génomique, d'immenses quantités de
données omiques sont créées à l'échelle internationale. Des normes applicables à ces données sont en
cours d'élaboration chez les organismes de normalisation; le Health Level Seven® (HL7®) élabore des
normes pour les données cliniques, DICOM et JPEG élaborent des normes pour les données d'image;
et l'Omics Markup Language (OML) définit une norme pour les données omiques, en particulier des
données omiques en lien avec l'homme. L'OML cible essentiellement le format d'échange de données.
Figure 2 — Contour de la structure de l'OML
La structure globale de l'OML est centrée sur l'OML (racine) et sur le contenu des données omiques,
à savoir les données de variation, les données protéomiques ou d'autres données omiques. Les
informations relatives aux processus omiques ou qui ne sont autrement pas incluses dans les données
omiques sont contenues dans des annotations directes. Les annotations indirectes permettent d'inclure
dans le document OML des informations cliniques, phénotypiques, environnementales et autres
données similaires.
Figure 3 — Structure détaillée de l'OML: racine OML (OML)
La Figure 3 montre la structure globale d'une instance de document OML, où l'élément racine OML
(OML) est composé des éléments omics_data, direct_annotation et indirect_annotation.
Une description complémentaire de l'élément omics_data est fournie à la Figure 4 et dans les figures
suivantes.
Une description complémentaire de l'élément direct_annotation est fournie à la Figure 11 et dans les
figures suivantes.
Une description complémentaire de l'élément indirect_annotation est fournie à la Figure 18 et dans les
figures suivantes.
Figure 4 — Structure détaillée de l'OML: données omiques (omics_data)
La structure fondamentale des données d'omique (omics_data) autorise des données de variation
(variation_data), des données de transcription (transcription_data), des données protéomiques
(proteomics_data), des données métabolomiques (metabolomics_data), des données signalomiques
(signalomics_data), des données organomiques (organomics_data) ou toute autre donnée d'omique
(other_omics_data). Les structures des données de variation (variation_data), de transcription
(transcription_data), etc., sont similaires et illustrées à la Figure 5.
10 © ISO 2021 – Tous droits réservés

Figure 5 — Structure détaillée de l'OML: sous-structures de données omiques
(variation_data, transcription_data, etc.)
Les éléments de contenu de données d'omique, à savoir les données de variation (variation_data),
les données de transcription (transcription_data), les données protéomiques (proteomics_data),
les données métabolomiques (metabolomics_data), les données signalomiques (signalomics_data),
les données organomiques (organomics_data) ou toute autre donnée d'omique (other_omics_data),
partagent une structure similaire. Tous intègrent les données d'attribut exigées (variation_att,
transcription_att, proteomics_att, metabolomics_att, organomics_att, other_omics_att), une source
facultative (source) et une ou plusieurs référence(s) de base de données (variation_dbref, transcription_
dbref, proteomics_dbref)). La variation et la transcription incluent également les informations requises
de type (variation_type, transcription_type) et d'emplacement (location, transcription_location). La
structure et le contenu des sous-éléments sont illustrés à la Figure 6 pour l'emplacement, à la Figure 8
pour les attributs, à la Figure 7 pour la source et à la Figure 9 pour la référence de base de données.
Figure 6 — Structure détaillée de l'OML: emplacement (location)
L'emplacement (location) désigne une structure générale utilisée dans l'ensemble du protocole OML.
Les éléments de type transcription_location, etc., sont des éléments spécifiques qui utilisent cette
structure. Cette structure exige un numéro de chromosome (chromosome_number), une position
(position) et une orientation (orientation). La carte de chromosome (map), le gène associé (ass_gene)
(voir Figure 10), ou une ou plusieurs références de base de données de l'emplacement (location_dbref)
peuvent être utilisés comme informations supplémentaires.
Le gène assigné (ass_gene) est décrit plus en détail à la Figure 10.
12 © ISO 2021 – Tous droits réservés

Figure 7 — Structure détaillée de l'OML: Source (source)
La source (source) est utilisée pour décrire à quel emplacement les informations relatives à la
variation de séquence ont été obtenues. Dans le protocole OML, cette structure est utilisée dans
plusieurs emplacements. La source (source) doit inclure une référence de base de données de la source
(source_dbref) et peut inclure la date de publication (source_release_date), une ou plusieurs dates de
modification (source_modify_date) ou plusieurs entrées de données brutes (source_rawdata).
Figure 8 — Structure détaillée de l'OML: variation_att en tant que modèle pour attribute
Les attributs de variation (variation_att) sont présentés sous la forme d'un modèle pour tous les
éléments «attribute» (par exemple, transcription_att, proteomics_att). Cette structure nécessite le type
moléculaire de la séquence (molecular_type) (par exemple, ADN, ARN) et la longueur de la séquence
(length). Les allèles observés (allele), la séquence flanquante 5' (f5sequence), la séquence flanquante
3' (f3sequence), l'état de validation (validation_status) et la certitude des informations de variation
(success_rate) peuvent également être présents.
14 © ISO 2021 – Tous droits réservés

Figure 9 — Structure détaillée de l'OML: référence de base de données (dbref)
Dans le protocole OML, la référence de base de données (dbref) est une structure générique utilisée dans
plusieurs emplacements (par exemple, transcription_dbref, ass_gene_dbref). Cette structure permet
d'associer un identifiant (data_id) issu d'une certaine base de données (database_name) à une donnée
particulière (par exemple, transcription_dbref permet d'associer des identifiants à transcription_data).
En général, le point d'association (transcription_deref dans transcription_data) se répète, ce qui permet
de générer de multiples identifiants à partir de plusieurs bases de données.
La référence de base de données (dbref) peut également contenir un identifiant (database_id) et une
URL (link_url) pour la base de données, une version de base de données (version), ainsi que des attributs
supplémentaires pour la base de données (database_attbt) et la donnée (data_attbt).
Figure 10 — Structure détaillée de l'OML: gène associé (ass_gene)
Le gène associé (ass_gene) est utilisé à plusieurs emplacements dans OML pour décrire le ou les gène(s)
associé(s) aux informations de séquence décrites. Le nom du gène associé (ass_gene_name) doit au
moins être spécifié. Les informations supplémentaires incluent la catégorie de la structure du gène (par
exemple, exon, intron) (ass_gene_structure), la substitution des acides aminés (aminoacid_substitution),
la substitution des codons (codon_substitution), la position des codons (codon_position), le symbole
du gène (ass_gene_symbol), le nom d'alias (ass_gene_alias), le produit génique (ass_gene_product),
un ou plusieurs types de preuves (par exemple, gène fonctionnel, EST prédite, gène computationnel,
pseudogène) (ass_gene_evidence_type), un(e) ou plusieurs existence(s) et nom(s) de changement de
16 © ISO 2021 – Tous droits réservés

motif (change_motif) (changed_motif_name), un ou plusieurs site(s) d'épissure (changed_splice_site) et
une ou plusieurs références de base de données pour le gène associé (ass_gene_dbref).
Figure 11 — Structure détaillée de l'OML: annotation directe (direct_annotation)
L'annotation directe (direct_annotation) permet d'associer des informations supplémentaires (des
«attributs ») aux données omiques fondamentales spécifiques dans l'instance OML. Chaque type
d'omique possède une structure d'annotation spécifique liée aux données omiques. Par exemple, si les
données omiques fondamentales présentent des informations protéomiques (si omics_data contient
proteomics_data), alors la structure d'annotation directe (direct_annotation) contiendra la structure
d'annotation protéomique (proteomics_annotation)
Figure 12 — Structure détaillée de l'OML: variation_identify (experiment_analysis)
18 © ISO 2021 – Tous droits réservés

Figure 13 — Structure détaillée de l'OML: publication et submitter
Figure 14 — Structure détaillée de l'OML: variation_characterize
20 © ISO 2021 – Tous droits réservés

Figure 15 — Structure détaillée de l'OML: epidemiology (données statistiques)
Figure 16 — Structure détaillée de l'OML: disease_epidemiology
22 © ISO 2021 – Tous droits réservés

Figure 17 — Structure détaillée de l'OML: indirect_annotation
Figure 18 — Structure détaillée de l'OML: annotations indirectes (indirect_annotation)
Les annotations indirectes (indirect_annotation) fournissent un moyen d'associer des données
relatives au personnel/patient (personal_info), des données phénotypiques (phenotype), des données
environnementales (environmental_condition), des données de CIM (ICD_Classification_Annotation)
et des données cliniques (clinical_annotation) aux données omiques (omics_data) contenues dans
l'instance OML. Plusieurs annotations indirectes peuvent être présentes et les interrelations entre les
annotations peuvent être notées dans inter_relation_of_omics_annotations.
Les annotations cliniques (clinical_annotation) sont décrites plus en détail à la Figure 19.
Les informations phénotypiques (phenotype) sont décrites plus en détail à la Figure 17.
Les informations CIM (ICD_Classification_Annotation) sont décrites plus en détail à la Figure 17.
24 © ISO 2021 – Tous droits réservés

Figure 19 — Structure détaillée de l'OML: clinical_annotation
Figure 20 — Structure détaillée de l'OML: disease_description
Figure 21 — Structure détaillée de l'OML: disease_description_details
26 © ISO 2021 – Tous droits réservés

Figure 22 — Structure détaillée de l'OML: family_history
Figure 23 — Structure détaillée de l'OML: therapy
Figure 24 — Processus de développement de l'OML
28 © ISO 2021 – Tous droits réservés

Annexe A
(informative)
Travaux de référence
A.1 Introduction
La présente annexe donne les travaux de référence pour le développement de l'OML (voir Article 5)
et une liste non exhaustive des travaux de référence de base les plus généralement applicables. Pour
des sujets spécifiques, les dispositions d'autres documents, d'applicabilité moins générale, seront
appropriées.
A.2 Analyse de cas d'utilisation
A.2.1 Généralités
Nous avons récapitulé des cas types d'utilisation de l'échange de données omiques dans le domaine de
la santé humaine (voir Tableau A.1). Six cas d'utilisation de trois types de critères relatifs à l'échange de
données OMICS sont récapitulés comme suit.
a) Type I: Utilisation en exercice clinique
Le premier type de cas d'utilisation est l'exercice clinique. Dans ce cas d'utilisation, les données OMICS
sont échangées entre les entités et les spécialistes cliniques.
Diagnostic génétique ou conseil génétique:
Pour le diagnostic génétique ou le conseil génétique, les données OMICS sont échangées parmi les
médecins, les techniciens de laboratoires et les conseillers. Dans ce cas, les données OMICS individuelles
sont envoyées/reçues avec les données cliniques individuelles. Pour un diagnostic plus avancé, des
données omiques individuelles comportant des données omiques sont exigées.
Prescription dérivée de la pharmacogénomique:
Pour la prescription dérivée de la pharmacogénomique, les données OMICS ne seront pas échangées dans
la plupart des cas. Les données d'échange seront la prescription, les raisons et leurs annotations. Dans
ce cas, les données OMICS individuelles ne sont pas envoyées/reçues avec le résultat de prescription
individuelle.
Thérapie omique:
Pour la thérapie omique, les données OMICS sont échangées parmi les hôpitaux, d'autres entités, les
médecins et le patient. Dans ce cas, les données OMICS individuelles sont envoyées/reçues avec les
données cliniques individuelles et les données omiques individuelles.
Prévention des maladies basée sur le polymorphisme individuel:
Pour la prévention des maladie
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...

Genomics informatics — Omics Markup Language (OML)

Informatique génomique — Langage de balisage Omics (OML)

General Information

Relations

Overview

Key topics and technical requirements

Practical applications and who uses it

Related standards and interoperability

ISO 21393:2021 - Genomics informatics -- Omics Markup Language (OML)

ISO 21393:2021 - Genomics informatics — Omics Markup Language (OML) Released:7/30/2021

ISO 21393:2021 - Informatique génomique -- Langage de balisage Omics (OML)

ISO 21393:2021 - Informatique génomique — Langage de balisage Omics (OML) Released:7/30/2021

Get Certified

BSI Group

NYCE

Frequently Asked Questions

Standards Content (Sample)

Questions, Comments and Discussion

This May Also Interest You