ISO 20397-2:2021
(Main)Biotechnology — Massively parallel sequencing — Part 2: Quality evaluation of sequencing data
Biotechnology — Massively parallel sequencing — Part 2: Quality evaluation of sequencing data
This document specifies general requirements and recommendations for quality assessments and control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures, sequencing alignments, and variant calling. This document also gives general guidelines for validation and documentation of MPS data. This document does not apply to any processes related to de novo assembly.
Biotechnologie — Séquençage massivement parallèle — Partie 2: Évaluation de la qualité des données de séquençage
Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes opératoires faisant suite à la production des données brutes, en incluant la génération des alignements de séquences et la détection des variants. Le présent document fournit également des lignes directrices générales applicables à la validation et à la documentation des données SMP. Le présent document ne s'applique pas aux processus relatifs à l'assemblage de novo.
General Information
Relations
Buy Standard
Standards Content (Sample)
INTERNATIONAL ISO
STANDARD 20397-2
First edition
2021-02
Biotechnology — Massively parallel
sequencing —
Part 2:
Quality evaluation of sequencing data
Biotechnologie — Séquençage massivement parallèle —
Partie 2: Évaluation de la qualité des données de séquençage
Reference number
ISO 20397-2:2021(E)
©
ISO 2021
---------------------- Page: 1 ----------------------
ISO 20397-2:2021(E)
COPYRIGHT PROTECTED DOCUMENT
© ISO 2021
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2021 – All rights reserved
---------------------- Page: 2 ----------------------
ISO 20397-2:2021(E)
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Raw data . 6
4.1 General . 6
4.2 Raw data file . 6
4.3 Quality assessment of raw data . 6
4.3.1 General. 6
4.3.2 Basic statistics . 7
4.3.3 Quality metrics . 7
4.4 Raw data pre-processing . 8
5 Sequence alignment and mapping . 8
5.1 General . 8
5.2 Alignment and mapping file format . 9
5.3 Quality control of sequencing alignment and mapping . 9
5.3.1 Basic alignment statistics . 9
5.3.2 Quality indicators .10
5.3.3 Methods for alignment and mapping quality assessment .11
5.4 Alignment post-processing .11
6 Variant calling .11
6.1 General .11
6.2 Data file for variant calling .11
6.3 Quality metrics in the variant calling .12
6.4 Processing of false positive variants .12
6.5 Sequence annotation .12
7 Validation .12
7.1 General .12
7.2 Validation of quality metrics .13
8 Documentation .14
Annex A (informative) Quality metrics for specific example MPS platforms .15
Annex B (informative) Coverage and read recommendations by applications .16
Annex C (informative) Software for sequence alignment and mapping .18
Bibliography .19
© ISO 2021 – All rights reserved iii
---------------------- Page: 3 ----------------------
ISO 20397-2:2021(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 276, Biotechnology
A list of all parts in the ISO 20397 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2021 – All rights reserved
---------------------- Page: 4 ----------------------
ISO 20397-2:2021(E)
Introduction
Massively parallel sequencing (MPS) is a high-throughput analytical approach to nucleic acid sequencing
utilizing massively parallel processing, that allows whole genomes, transcriptomes and specific nucleic
acid targets from different organisms to be investigated in a relatively short time.
MPS is used in many life science disciplines permitting determination and high throughput analysis of
millions and thousands of millions of nucleotide bases. The biological variability of deoxyribonucleic
and ribonucleic acid polymers from living organisms results in challenges in accurately determining
their sequences. The quality of sequence determination by MPS depends on many factors including but
not limited to sample quality, library preparation, platform selection, and sequencing data quality.
The analysis of sequencing data poses significant bioinformatics challenges in various areas such as
data storage, computation time and variant detection accuracy. One of the major challenges associated
with sequencing data that is sometimes easily overlooked is monitoring quality control metrics over
all stages of the data processing pipeline. Knowledge of data quality is essential for downstream
analysis of sequences. Quality control for nucleic acid sequencing data handling and analysis can be
separated into three stages: raw data, alignment and variant calling. This document provides a list of
considerations for quality evaluation of MPS sequencing data, and the specific recommendations for
different MPS platforms.
© ISO 2021 – All rights reserved v
---------------------- Page: 5 ----------------------
INTERNATIONAL STANDARD ISO 20397-2:2021(E)
Biotechnology — Massively parallel sequencing —
Part 2:
Quality evaluation of sequencing data
1 Scope
This document specifies general requirements and recommendations for quality assessments and
control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures,
sequencing alignments, and variant calling.
This document also gives general guidelines for validation and documentation of MPS data.
This document does not apply to any processes related to de novo assembly.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at http:// www .electropedia .org/
3.1
adapter sequence
adapter
artificial oligonucleotide of a known sequence that can be added to the 3’ or 5’ ends of a nucleic acid
fragment
Note 1 to entry: It provides the primer site as well as other necessary sequences for sequencing the insert.
3.2
algorithm
completely determined finite sequence of instructions by which the values of the output variables may
be calculated from the values of the input variables
[SOURCE: IEC 60050-351:2013, 351-42-27, modified — The notes were deleted.]
3.3
base calling
computational process in massively parallel sequencing of translating raw electrical signals to
nucleotide sequence
Note 1 to entry: Base calling application and algorithm performance is characteristically defined by read and
consensus accuracy.
© ISO 2021 – All rights reserved 1
---------------------- Page: 6 ----------------------
ISO 20397-2:2021(E)
3.4
bioinformatics pipeline
individual programs, scripts, or pieces of software linked together, where raw data or output from one
program is used as input for the next step in data processing
EXAMPLE The output from a base quality trimming program may be used as input to a de-novo assembler.
3.5
capture efficiency
percent of all sequenced or mapped reads that overlap the targeted regions
3.6
coverage
coverage depth
number of times that a given base position is read in a sequencing run
Note 1 to entry: The number of reads that cover a particular position.
3.7
coverage breadth
fraction of the genome in assembled/target genome size in sequencing runs
3.8
cluster density
number of clusters for each tile
Note 1 to entry: The cluster density applied to the MPS (3.30) platforms requires an amplification step.
Note 2 to entry: The density of individual sequence clusters, each arising from a single molecule on some
sequencing platforms.
2
Note 3 to entry: Cluster density is usually expressed in thousands per mm .
3.9
CCS
circular consensus sequencing
sequencing mode where the insert size is sequenced multiple times in a rolling circle amplification type
reaction, leading to high accuracy
Note 1 to entry: In this mode, multiple passes from the same molecule can be used to achieve higher single
molecule accuracy.
3.10
coverage range
range of coverage depth across a genome for sequencing runs
3.11
CNV
copy number variation
copy number variant
variation of the number of copies of one or more sections of the DNA present in the genome of an
organism
Note 1 to entry: CNVs are insertions, deletions, inversions and duplications containing at least 1 000 bases in length.
3.12
DNA
deoxyribonucleic acid
polymer of deoxyribonucleotides occurring in a double-stranded (dsDNA) or single-stranded (ssDNA)
form
[SOURCE: ISO 22174:2005, 3.1.2]
2 © ISO 2021 – All rights reserved
---------------------- Page: 7 ----------------------
ISO 20397-2:2021(E)
3.13
deletion
loss of one (or more) nucleotide base pair(s) from a nucleic acid sequence compared to its reference
sequence
3.14
duplication level
number of identical repeats for every sequence in a library
Note 1 to entry: The duplication level is usually displayed in a plot showing the relative number of sequences
with different degrees of duplication.
3.15
GC content
percentage of guanine and cytosine in one or more nucleic acid sequence(s)
Note 1 to entry: The amount of guanine and cytosine in a polynucleic acid, is usually expressed in mole fraction
(or percentage) of total nitrogenous bases. Total nitrogenous bases comprise the total number of nucleotide
bases of reads from one or more MPS run.
3.16
gene
sequence of nucleotides in DNA or RNA encoding either an RNA or a protein product
Note 1 to entry: Genes are recognized as the basic unit of heredity.
Note 2 to entry: A gene can consist of non-contiguous nucleic acid segments that are rearranged through a
nuclear processing step.
Note 3 to entry: A gene may include or be part of an operon that includes elements for gene expression.
3.17
indel
insertion (3.18) or /and deletion (3.13) of nucleotides in genomic DNA
Note 1 to entry: Indels are less than 1 000 bases in length.
3.18
insertion
addition of one (or more) nucleotide base pair(s) into a nucleic acid sequence
[SOURCE: ISO/TS 20428: 2017, 3.19, modified — DNA was replaced by nucleic acid.]
3.19
sequencing
determining the order and the content of nucleotide bases (adenine, guanine, cytosine, thymine, and
uracil) of a nucleic acid molecule
Note 1 to entry: A sequence is generally described from the 5’ to 3’ end.
[SOURCE: ISO/TS 17822-1:2020, 3.19, modified — DNA was deleted in the term; DNA was replaced by
nucleic acid, and uracil was added in the definition.]
3.20
sequence alignment
arrangement of nucleic acid sequences according to regions of similarity
Note 1 to entry: Sequence alignment may not require a reference genome /reference targeted nucleic acid region
and its aim might not produce an assembly.
© ISO 2021 – All rights reserved 3
---------------------- Page: 8 ----------------------
ISO 20397-2:2021(E)
3.21
raw data
primary sequencing data produced by a sequencer without involving any software-based pre-filtering
for analysis purpose
3.22
RNA
ribonucleic acid
polymer of ribonucleotides occurring in a double-stranded or single-stranded form
Note 1 to entry: Synthesis of proteins in cells is directed by genetic information carried in the sequence of
nucleotides in a class of RNA known as messenger RNA (mRNA).
3.23
ribonucleotide
nucleotide containing ribose as its pentose component forming the basic building blocks for RNA
Note 1 to entry: The ribonucleotides consist of adenylate (AMP), guanylate (GMP), cytidylate (CMP), or
uridylate (UMP).
3.24
read
sequence read
nucleotide sequence generated by a sequencing device
Note 1 to entry: A read is a deduced sequence of nucleic acid base pairs (or base pairs probabilities) corresponding
to all (or part of) a single nucleic acid fragment. Read can be used to refer to as those sequences obtained from
MPS experiments.
3.25
read type
category of sequence that depends on how the sequence reading experiment is designed and conducted
EXAMPLE Read type can be single-end, paired-end, mate-paired end, continuous long read, circular
consensus.
3.26
reference sequence
nucleic acid sequence used either to align by mapping sequence reads or as the basis for annotations
such as genes and sequence variations
3.27
demultiplexing
computational reverse of multiplexing process, mixing two or more samples together such that they
can be sequenced in a single run on an MPS instrument
Note 1 to entry: Samples that are to be combined need to be barcoded/indexed prior to being mixed together.
Note 2 to entry: Demultiplexing is a computational algorithm that separates a pool of reads according to their
original sample based on the barcode.
3.28
mapping
assembling nucleic acid sequences against an existing backbone (reference) sequence, in order to build
a consensus sequence
3.29
mate pairs
mate pair reads
paired-end read which correspond to the ends of a long nucleic acid sequence fragment obtained by
shrinking the sample into large chunks (larger than 2 kb or at least 2 kb)
4 © ISO 2021 – All rights reserved
---------------------- Page: 9 ----------------------
ISO 20397-2:2021(E)
3.30
MPS
massively parallel sequencing
sequencing technique based on the determination of incremental template based polymerization of
many independent DNA molecules simultaneously
Note 1 to entry: Massively parallel sequencing technology can provide millions or billions of short reads per run.
3.31
paired-end reads
sequencing reads from both ends of a DNA fragment
Note 1 to entry: In paired-end sequencing, the instrument sequences both ends of short inserts typically ranging
from 200 bps to 800 bps.
3.32
quality score
Q score
Phred quality score
measure of the sequencing quality of a given nucleotide base
Note 1 to entry: Q is defined by the following formula:
Qp=−10log10()
where p is the estimated probability of the base call being wrong.
Note 2 to entry: A quality score of 20 represents an error rate of 1 in 100, with a corresponding call accuracy
of 99 %.
Note 3 to entry: Higher quality scores indicate a smaller probability of error. Lower quality scores can result in a
significant portion of the reads being unusable. Low quality scores can also indicate false-positive variant calls,
resulting in inaccurate conclusions.
3.33
run
single process cycle of the sequencer from initiation until the raw data is obtained
3.34
sequence annotation
process of adding a note of explanation, comment or reference about specific features in a DNA, RNA or
protein sequence with descriptive information about structure or function
Note 1 to entry: The process of sequence annotation can be regarded as assigning metadata to the sequence.
3.35
single-end read
sequence read obtained by reading a DNA fragment from one end to the other
3.36
SNV
single nucleotide variant
variation in a single nucleotide of a nucleic acid molecule
3.37
SV
structural variation
region of DNA approximately 1 000 bases or larger in size which can include inversions and balanced
translocations or genomic imbalances
Note 1 to entry: Common types of structural variants include copy number variants (deletions, insertions,
amplifications, duplications), copy number neutral deletions (loss of heterozygosity), inversions, segmental
duplications, and translocations (balanced or imbalanced).
© ISO 2021 – All rights reserved 5
---------------------- Page: 10 ----------------------
ISO 20397-2:2021(E)
3.38
subread
fraction of the read that is present in between hairpin adapters
3.39
trimming of raw reads
procedure aimed at removing low quality portions or sequence contaminations while preserving the
longest high-quality part of an MPS read
3.40
variation
differences of one or more nucleic acid bases in a sequence with respect to the expected one(s)
3.41
variant calling
process of accurately identifying the variations from sequence data with respect to a reference sequence
3.42
ZMW
zero mode waveguide
optical waveguide that guides light energy into a volume that is small in all dimensions compared to the
wavelength of the light
Note 1 to entry: A polymerase is anchored at the bottom of that ZMW and the incorporation of nucleotides
is measured by the increase of fluorescence during binding followed by the subsequent reduction after
incorporation.
4 Raw data
4.1 General
Each nucleotide in a sequence should be assigned a numerical value (base quality score) that correlates
to the inferred accuracy of the base calling process, if applicable.
4.2 Raw data file
Generation of sequence read files should use instrument-specific software and/or instrument-specific
pipelines. Monitored physical parameters such as signal to noise ratio shall be documented. These
physical parameters should be monitored of during each sequencing experiment.
Sequence read files should be configured in the appropriate file format, containing the compilation of
individual sequence reads, each with its own identifier, and an associated base quality score for each
nucleotide.
NOTE FASTQ format (or convertible to FASTQ format) can be used as a de facto standard format for
downstream analysis of the quality of MPS data sets. FASTQ is widely accepted as a cross platform interchange
file format.
The output files generated after a sequencing run, and associated quality metrics should be analysed in
the downstream bioinformatics pipeline using appropriate software.
4.3 Quality assessment of raw data
4.3.1 General
Quality control indicators can differ depending on the MPS platform, library preparation method, and
intended use of the analysis.
6 © ISO 2021 – All rights reserved
---------------------- Page: 11 ----------------------
ISO 20397-2:2021(E)
Sequence results should be interpreted by competent staff. The interpretation should be performed to
meet the quality level fitting the intended purpose of the analysis considering a statistically reliable
repeat number of reads.
Read processing tools should be applied with consideration for quality assessment and trimming of
raw reads.
4.3.2 Basic statistics
Basic statistics shall be recorded, including but not limited to:
a) type of platform;
b) type of read;
c) library preparation kit;
d) read length;
e) number of reads;
f) overall GC content;
g) total sequence length.
4.3.3 Quality metrics
The quality control metrics for raw data assessment can refer to but are not limited to:
a) sequence length distribution;
b) per sequence GC content;
c) quality score;
1) per base sequence quality;
2) per sequence quality score;
NOTE 1 Low-quality scores can indicate increased false-positive variant calls.
3) all sequences should be flagged as either ‘warn’ or ‘pass’ for per base sequence quality.
d) per base sequence content;
e) acceptability of signal/noise ratio;
f) sequence duplication levels;
g) overrepresented level;
h) cluster density;
i) transition/transversion ratio for whole-exome or whole-genome sequencing or large amplicons
sequencing;
g) adaptor rate/adaptor sequence contamination;
k) contaminants (identification, quantification);
l) error rate;
NOTE 2 This includes homopolymer errors: errors in the number of bases called when a single nucleotide
occurs more than once in consecutive order in a sequence.
© ISO 2021 – All rights reserved 7
---------------------- Page: 12 ----------------------
ISO 20397-2:2021(E)
m) k-mer analysis;
NOTE 3 In computational genomics, k-mers refer to all the possible subsequences (of length k) from a
nucleic acid sequence. Overrepresentation of k-mers can be analysed to detect potential genome mis-
assembly where repeated DNA sequences have possibly been combined.
n) N fragment;
NOTE 4 Number and/or percentage of ambiguous calls.
o) repeat stretch and repeat sequence;
p) nucleotide distribution across cycles.
4.4 Raw data pre-processing
Raw data pre-processing may include but is not limited to the following computational steps, if
applicable:
a) removal/trimming of low-quality sequences/bases;
b) demultiplexing;
c) removal of adapters/primers and contamination;
d) error correction;
e) filtration of duplicated read;
f) trimming of reads to fixed length;
g) calling the CCS reads.
When CCS data are being used, the CCS reads should be obtained and filtered prior to downstream
analysis.
5 Sequence alignment and mapping
5.1 General
Sequence alignment and mapping strategy should be chosen based on the application.
EXAMPLE There is spliced mapping for RNA and un-spliced mapping for the mapping strategy of RNA
sequencing.
Alignment and mapping software and tools can be used for alignment.
Alignment quality can be assessed visually using proper alignment views, and using the information
provided in the alignment file.
Examples of the software for sequence alignment and mapping of different applications are described
in Annex C.
Reference genomes/reference targeted nucleic acid regions shall be used for mapping and should be
carefully chosen depending on experimental design.
NOTE 1 Considerations include the version of the reference genome/reference targeted nucleic acid region,
choice of different strains in one organism, and choice of masked, soft-masked or unmasked genomes.
NOTE 2 Open source sequencing alignment and mapping software is available online.
8 © ISO 2021 – All rights reserved
---------------------- Page: 13 ----------------------
ISO 20397-2:2021(E)
5.2 Alignment and mapping file format
Alignments are always stored in the following file formats.
[17][24]
a) Sequence alignment format (SAM) .
NOTE 1 SAM is a TAB-delimited text format consisting of a header section, which is optional, and an
alignment section. Each alignment line has 11 mandatory fields for essential alignment information such as
mapping position and variable number of optional fields for flexible or aligner specific information.
[15][17]
b) Binary alignment format (BAM) .
NOTE 2 It is the compressed format analogous to the SAM format in binary form.
[16]
c) Compressed reference-oriented alignment map (CRAM) .
NOTE 3 CRAM is a sequencing read file format that is space efficient by using reference-based compression
of sequence data and offers both lossless and lossy modes of compression.
[3][4][5][6][7][8]
d) Moving pictures experts group for genomics (MPEG-G) .
NOTE 4 MPEG-G is a genomics representation format based on the concept of a Genomic Record, a data
structure consisting of either a single sequence read, or a paired sequence read, and its associated sequencing
and alignment information; it can contain detailed mapping and alignment data, a single or paired read
identifier (read name) and quality values. Genomic Records are aggregated and encoded in structures called
Access Units. These structures are units of coded genomic information that can be separately accessed and
inspected.
NOT
...
NORME ISO
INTERNATIONALE 20397-2
Première édition
2021-02
Biotechnologie — Séquençage
massivement parallèle —
Partie 2:
Évaluation de la qualité des données
de séquençage
Biotechnology — Massively parallel sequencing —
Part 2: Quality evaluation of sequencing data
Numéro de référence
ISO 20397-2:2021(F)
©
ISO 2021
---------------------- Page: 1 ----------------------
ISO 20397-2:2021(F)
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2021
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2021 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO 20397-2:2021(F)
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Données brutes . 6
4.1 Généralités . 6
4.2 Fichier de données brutes . 7
4.3 Évaluation de la qualité des données brutes . 7
4.3.1 Généralités . 7
4.3.2 Statistiques élémentaires . 7
4.3.3 Mesures de qualité . 7
4.4 Prétraitement des données brutes . 8
5 Alignement et cartographie des séquences . 9
5.1 Généralités . 9
5.2 Format des fichiers d’alignement et de cartographie . 9
5.3 Contrôle qualité de l’alignement et de la cartographie des séquences .10
5.3.1 Statistiques sur les alignements de base .10
5.3.2 Indicateurs de qualité .11
5.3.3 Méthodes d’évaluation de la qualité d’alignement et de cartographie .12
5.4 Post-traitement de l’alignement .12
6 Détection de variants .12
6.1 Généralités .12
6.2 Fichier de données pour la détection de variants .12
6.3 Mesures de qualité lors de la détection de variants . .12
6.4 Traitement des variants faux-positifs .13
6.5 Annotation de séquences .13
7 Validation .13
7.1 Généralités .13
7.2 Validation des mesures de qualité .14
8 Documentation .15
Annexe A (informative) Mesures de qualité applicables aux plateformes SMP .16
Annexe B (informative) Recommandations applicables à la couverture et aux lectures en
fonction des applications .17
Annexe C (informative) Logiciel d’alignement et de cartographie des séquences .19
Bibliographie .20
© ISO 2021 – Tous droits réservés iii
---------------------- Page: 3 ----------------------
ISO 20397-2:2021(F)
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes
nationaux de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est
en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.
L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L'attention est attirée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de
brevets reçues par l'ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion
de l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir www .iso .org/ avant -propos.
Le présent document a été élaboré par le Comité technique ISO/TC 276, Biotechnologie.
Une liste de toutes les parties de la série ISO 20397 se trouve sur le site web de l'ISO.
Il convient que l'utilisateur adresse tout retour d'information ou toute question concernant le présent
document à l'organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l'adresse www .iso .org/ members .html.
iv © ISO 2021 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO 20397-2:2021(F)
Introduction
Le séquençage massivement parallèle (SMP) est une approche analytique de séquençage de l’acide
nucléique à haut débit qui utilise un traitement massivement parallèle pour étudier des génomes
entiers, des transcriptomes et des séquences ciblées d’acides nucléiques de différentes origines, en un
laps de temps relativement court.
Le SMP est utilisé dans de nombreux domaines des sciences de la vie. Il permet une détermination et
une analyse à haut débit de milliards de nucléotides. Du fait de la variabilité biologique des polymères
d’acide désoxyribonucléique et d’acide ribonucléique à travers le vivant, la détermination précise de
leurs séquences constitue un véritable défi. La qualité des séquences générées par SMP dépend de
nombreux facteurs, notamment, entre autres, la qualité de l’échantillon, la préparation de la banque, le
choix de la plateforme de lecture et la qualité des données de séquençage.
L’analyse des données de séquençage peut représenter de véritables défis bio-informatiques liés
au stockage des données, au temps de calcul et à la précision de détection des variants. L’une des
principales difficultés associées aux données de séquençage, trop souvent négligée, porte sur les
mesures de contrôle qualité à tous les stades du pipeline de traitement des données, alors mêmes qu’ils
sont essentiels à toute l’analyse en aval des données de séquences. Le contrôle qualité applicable au
traitement et à l’analyse des données de séquençage de l’acide nucléique concerne trois niveaux distincts:
données brutes, alignement et détection des variants. Le présent document fournit une liste d’éléments
à prendre en compte lors de l'évaluation de la qualité des données de séquençage massivement parallèle,
ainsi que les recommandations spécifiques à différentes plateformes SMP.
© ISO 2021 – Tous droits réservés v
---------------------- Page: 5 ----------------------
NORME INTERNATIONALE ISO 20397-2:2021(F)
Biotechnologie — Séquençage massivement parallèle —
Partie 2:
Évaluation de la qualité des données de séquençage
1 Domaine d’application
Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation
et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes
opératoires faisant suite à la production des données brutes, en incluant la génération des alignements
de séquences et la détection des variants.
Le présent document fournit également des lignes directrices générales applicables à la validation et à
la documentation des données SMP.
Le présent document ne s’applique pas aux processus relatifs à l’assemblage de novo.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/
3.1
séquence d’adaptateur
adaptateur
oligonucléotide artificiel d’une séquence connue qui peut être ajouté aux extrémités 3’ ou 5’ d’un
fragment d’acide nucléique
Note 1 à l'article: Il fournit le site d’amorçage ainsi que les autres séquences nécessaires au séquençage de l’insert.
3.2
algorithme
séquence finie d'instructions complètement déterminée par laquelle les valeurs des variables de sortie
peuvent être calculées à partir des valeurs des variables d’entrée
[SOURCE: IEC 60050-351:2013, 351-42-27, modifiée — Les notes ont été supprimées.]
3.3
détection de bases
lors du séquençage massivement parallèle, processus de calcul consistant à traduire les signaux
électriques bruts en séquence nucléotidique
Note 1 à l'article: La performance de l’application de détection de bases et de l’algorithme est caractéristiquement
définie par une précision de lecture et un consensus.
© ISO 2021 – Tous droits réservés 1
---------------------- Page: 6 ----------------------
ISO 20397-2:2021(F)
3.4
pipeline bio-informatique
suite de programmes individuels, scripts ou briques logicielles liés entre eux, dans lesquels les données
brutes ou les résultats d’un programme sont utilisés comme données d’entrée dans l'étape suivante du
traitement des données
EXEMPLE Les résultats d’un programme de découpage (trimming) peuvent être utilisés comme données
d’entrée pour un assembleur de novo.
3.5
efficacité de capture
pourcentage de l’ensemble des lectures séquencées ou cartographiées qui chevauchent les régions ciblées
3.6
couverture
profondeur de couverture
nombre de fois qu’une position de base donnée est lue dans un cycle de séquençage
Note 1 à l'article: Nombre de lectures qui couvrent une position particulière.
3.7
largeur de couverture
fraction du génome cible qui est identifiée lors des cycles de séquençage
3.8
densité de clusters
nombre de clusters pour chaque flow cell de séquençage
Note 1 à l'article: La densité de clusters s’applique aux plateformes SMP (3.30) nécessitant une étape
d’amplification.
Note 2 à l'article: La densité de clusters de séquence individuels, provenant chacun d’une seule molécule sur
certaines plateformes de séquençage.
2
Note 3 à l'article: La densité de clusters est généralement exprimée en milliers par mm .
3.9
CCS
séquençage consensus sur séquences circulaires
mode de séquençage où la taille de l’insert est séquencée plusieurs fois lors d’une réaction de type
amplification par cercle roulant, ce qui permet d’obtenir une haute précision.
Note 1 à l'article: Dans ce mode, plusieurs lectures de la même molécule peuvent être utilisées pour atteindre une
précision moléculaire individuelle supérieure.
3.10
étendue de couverture
étendue de la profondeur de couverture d’un génome à l’issue des cycles de séquençage
3.11
CNV
variation du nombre de copies
variation du nombre de copies sur un segment d’ADN génomique d’un organisme
Note 1 à l'article: Les CNV sont des insertions, délétions, inversions et duplications contenant au moins
1 000 bases en longueur.
2 © ISO 2021 – Tous droits réservés
---------------------- Page: 7 ----------------------
ISO 20397-2:2021(F)
3.12
ADN
acide désoxyribonucléique
polymère de désoxyribonucléotides se présentant sous la forme de double brin (ADNdb) ou de brin
simple (ADNsb)
[SOURCE: ISO 22174:2005, 3.1.2]
3.13
délétion
perte d’une (ou de plusieurs) paire(s) de bases nucléotidiques d’une séquence d’acide nucléique par
rapport à sa séquence de référence
3.14
niveau de duplication
nombre de répétitions identiques pour chaque séquence d’une banque
Note 1 à l'article: Le niveau de duplication apparaît généralement sous la forme d’un graphique représentant le
nombre relatif de séquences à différents degrés de duplication.
3.15
taux de GC
pourcentage de guanine et cytosine dans une ou plusieurs séquence(s) d’acide nucléique
Note 1 à l'article: La quantité de guanine et de cytosine dans un acide nucléique est généralement exprimée en
fraction molaire (ou pourcentage) de bases azotées totales. Les bases azotées totales comprennent le nombre
total de bases nucléotidiques lues après un ou plusieurs cycle(s) de SMP.
3.16
gène
séquence de nucléotides dans l’ADN ou l’ARN codant soit pour un ARN soit pour un produit protéique
Note 1 à l'article: Les gènes sont reconnus comme étant l’unité de base de l’hérédité.
Note 2 à l'article: Un gène peut comprendre des segments d’acide nucléique non contigus qui sont remaniés à
l’occasion d’un processus nucléaire.
Note 3 à l'article: Un gène peut comprendre ou faire partie d’un opéron qui inclut des éléments de l’expression
génétique.
3.17
indel
insertion (3.18) ou/et délétion (3.13) de nucléotides dans l’ADN génomique
Note 1 à l'article: Les indels ont des longueurs inférieures à 1 000 bases.
3.18
insertion
ajout d’une (ou de plusieurs) bases nucléotidiques dans une séquence d’acide nucléique
[SOURCE: ISO/TS 20428: 2017, 3.19, modifiée — Le terme «ADN» a été remplacé par «acide nucléique».]
3.19
séquençage
détermination de l’ordre et de la concentration des bases nucléotidiques (adénine, guanine, cytosine,
thymine et uracile) d’une molécule d’acide nucléique
Note 1 à l'article: Une séquence est généralement décrite de l’extrémité 5’ à l’extrémité 3’.
[SOURCE: ISO/TS 17822-1:2020, 3.19, modifiée — «ADN» a été supprimé dans le terme; «ADN» a été
remplacé par acide nucléique, et «uracile» a été ajouté dans la définition.]
© ISO 2021 – Tous droits réservés 3
---------------------- Page: 8 ----------------------
ISO 20397-2:2021(F)
3.20
alignement de séquences
agencement de plusieurs séquences d’acides nucléiques en fonction de leurs régions de similarité
Note 1 à l'article: L’alignement de séquences ne nécessite pas forcément un génome de référence/une région
d’acide nucléique cible de référence et son objectif n’est pas nécessairement de produire un assemblage.
3.21
données brutes
données de séquençage primaires produites par un séquenceur sans avoir recours à un pré-filtrage
informatique pour l’analyse
3.22
ARN
acide ribonucléique
polymère de ribonucléotides se présentant sous la forme de double brin ou de brin simple
Note 1 à l'article: La synthèse des protéines dans les cellules est régie par les informations génétiques contenues
dans la séquence de nucléotides d’une classe d’ARN connue sous le nom d’ARN messager (ARNm).
3.23
ribonucléotide
nucléotide contenant de la ribose comme composant pentosique formant le bloc élémentaire de
construction de l’ARN
Note 1 à l'article: Les ribonucléotides comprennent l’adénylate (AMP), le guanylate (GMP), le cytidylate (CMP) ou
l’uridylate (UMP).
3.24
lecture
séquence
séquence nucléotidique générée par un séquenceur
Note 1 à l'article: Une lecture (read) est une séquence déduite de paires de bases d’acide nucléique (ou de
probabilités de paires de bases) correspondant à tout (ou partie) d’un fragment d’acide nucléique. La lecture peut
être utilisée pour désigner les séquences obtenues par SMP.
3.25
type de lecture
catégorie de séquence qui dépend de la façon dont l’expérience de lecture des séquences est conçue et
réalisée
EXEMPLE Le type de lecture peut être la lecture sur une seule extrémité (single-end), la lecture d’extrémités
appariées (paired-end), la lecture d’extrémités appariées de plus grandes longueurs (mate-paired end), la lecture
longue continue (long read) ou la lecture consensus sur séquences circulaires.
3.26
séquence de référence
séquence d’acide nucléique servant soit à aligner les lectures de séquençage, soit de référence pour des
annotations telles que les gènes et les variations de séquence
3.27
démultiplexage
opération informatique inverse du processus de multiplexage, au cours de laquelle deux ou plusieurs
échantillons sont mélangés afin de pouvoir les séquencer en une seule fois sur un instrument SMP
Note 1 à l'article: Les échantillons qui doivent être combinés doivent être munis d'un code-barres/indexés avant
d’être mélangés.
Note 2 à l'article: Le démultiplexage est un algorithme de calcul qui sépare un groupe de lectures en fonction de
leur échantillon d’origine d’après le code-barres.
4 © ISO 2021 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO 20397-2:2021(F)
3.28
cartographie
assemblage de séquences d’acides nucléiques en fonction d’une séquence de référence existante, servant
à construire une séquence consensus
3.29
lecture d’extrémités appariées de fragments de grandes longueurs
lecture des deux extrémités appariées situées aux deux extrémités d’un fragment de séquence d’acide
nucléique long de plusieurs kilobases (plus de 2 kb ou au moins 2 kb)
3.30
SMP
séquençage massivement parallèle
technique de séquençage permettant la détermination simultanée de la séquence de multiples molécules
d’acides nucléiques indépendantes basée sur le modèle incrémentiel
Note 1 à l'article: La technologie de séquençage massivement parallèle permet d’obtenir plusieurs millions ou
milliards de lectures courtes par cycle.
3.31
lecture d’extrémités appariées
lecture par SMP des deux extrémités appariées situées aux deux extrémités d’un fragment d’ADN
Note 1 à l'article: Dans le séquençage d’extrémités appariées, l’instrument séquence les deux extrémités de courts
fragments d’une longueur généralement comprise entre 200 pb et 800 pb.
3.32
score de qualité
score Q
score de qualité Phred
mesure de la qualité de séquençage d’une base nucléotidique donnée
Note 1 à l'article: Q est défini par la formule suivante:
Qp=−10log10()
où p est la probabilité estimée pour que la détection de bases soit erronée.
Note 2 à l'article: Un score de qualité de 20 représente un rapport d’erreur de 1 sur 100, avec une précision de
détection correspondante de 99 %.
Note 3 à l'article: Des scores de qualité élevés indiquent une plus faible probabilité d’erreur de séquençage. Des
scores de qualité faibles peuvent rendre inutilisables les lectures correspondantes. Des scores de qualité faibles
peuvent également conduire à des appels de variants faux-positifs, aboutissant à des conclusions inexactes.
3.33
run
processus complet de réalisation de l’opération de séquençage, de la charge des échantillons jusqu’à
l’obtention des données brutes
3.34
annotation de séquences
processus consistant à ajouter une note d’explication, un commentaire ou une référence sur les
caractéristiques spécifiques présentes dans une séquence d’ADN, d’ARN ou de protéines, grâce à des
informations descriptives sur la structure ou la fonction
Note 1 à l'article: Le processus d’annotation de séquences peut être considéré comme une assignation de données
à la séquence.
© ISO 2021 – Tous droits réservés 5
---------------------- Page: 10 ----------------------
ISO 20397-2:2021(F)
3.35
lecture d’extrémité simple
lecture de séquence obtenue en lisant un seul des deux brins d’un fragment d’ADN à partir d’une des
deux extrémités
3.36
SNV
variant nucléotidique unique
variation sur un seul nucléotide d’une molécule d’acide nucléique
3.37
SV
variation structurale
région d’ADN d’environ 1 000 bases ou de taille supérieure, pouvant inclure des inversions et des
translocations équilibrées ou des déséquilibres génomiques
Note 1 à l'article: Il existe plusieurs types fréquents de variants structurels: variants du nombre de
copies (délétions, insertions, amplifications, duplications), délétions neutres du nombre de copies (perte
d’hétérozygosité), inversions, duplications segmentaires et translocations (équilibrées ou déséquilibrées).
3.38
sous-séquence
fraction d’une séquence présente entre des adaptateurs en épingle à cheveux
3.39
découpage (trimming) des lectures brutes
opération visant à supprimer les parties de faible qualité ou les séquences contaminantes tout en
préservant la partie de haute qualité d’une lecture SMP la plus longue possible
3.40
variation
différences d’une ou de plusieurs bases d’acides nucléiques dans une séquence par rapport à la base/aux
bases prévue(s)
3.41
détection de variants
processus d'identification précise des variations des données de séquence par rapport à une séquence
de référence
3.42
ZMW
guide d’onde mode zéro
guide d’onde optique qui guide l’énergie lumineuse dans un volume de petite dimension relativement à
la longueur d'onde de la lumière
Note 1 à l'article: Une polymérase est ancrée au fond de ce ZMW et l’incorporation de nucléotides est mesurée par
une hausse de fluorescence pendant la fixation puis par une réduction ultérieure après incorporation.
4 Données brutes
4.1 Généralités
Il convient d’attribuer à chaque nucléotide d’une séquence une valeur numérique (score de qualité de
base) correspondant à la précision présumée du processus de détection de bases, le cas échéant.
6 © ISO 2021 – Tous droits réservés
---------------------- Page: 11 ----------------------
ISO 20397-2:2021(F)
4.2 Fichier de données brutes
Il convient que la génération de fichiers de données brutes utilise un logiciel et/ou un pipeline propre à
l’instrument. Les paramètres physiques contrôlés, notamment le rapport signal sur bruit, doivent être
documentés. Il convient de veiller à contrôler ces paramètres physiques pendant chaque séquençage.
Il convient de configurer les fichiers de séquençage au format approprié, contenant la compilation des
lectures de séquence individuelles, chacune avec son propre identifiant, et un score de qualité de base
correspondant à chaque nucléotide séquencé.
NOTE Le format FASTQ (ou convertible au format FASTQ) peut être utilisé comme format standard de facto
pour l’analyse en aval de la qualité des ensembles de données SMP. FASTQ est communément admis comme
format de fichier d'échange entre plateformes.
Il convient d’analyser les fichiers de sortie générés après un run de séquençage, ainsi que les mesures de
qualité associées, dans le pipeline bio-informatique en aval, à l’aide d’un logiciel approprié.
4.3 Évaluation de la qualité des données brutes
4.3.1 Généralités
Les indicateurs de contrôle qualité peuvent différer selon la plateforme SMP, la méthode de préparation
des banques et l’usage prévu de l’analyse.
Il convient que les résultats de séquençage soient interprétés par un personnel compétent. Il convient
d’effectuer l’interprétation en respectant le niveau de qualité correspondant à l’objectif prévu de
l’analyse, en tenant compte du nombre de répétitions statistiquement fiables des lectures.
Il convient d’appliquer les outils de traitement des lectures en s’appuyant sur différentes métriques de
qualité des lectures brutes et de leur pré-traitement (trimming).
4.3.2 Statistiques élémentaires
Les statistiques élémentaires doivent être enregistrées, en précisant notamment, entre autres:
a) le type de plateforme;
b) le type de lecture;
c) le kit de préparation des banques;
d) la longueur de lecture;
e) le nombre de lectures;
f) le taux de GC par rapport au nombre total de bases lues;
g) la longueur totale de la séquence.
4.3.3 Mesures de qualité
Les mesures de contrôle qualité applicables à l’évaluation des données brutes peuvent notamment
concerner:
a) la distribution de la longueur des séquences;
b) le taux de GC par séquence;
c) le score de qualité;
1) la qualité des séquences par base;
© ISO 2021 – Tous droits réservés 7
---------------------- Page: 12 ----------------------
ISO 20397-2:2021(F)
2) le score de qualité par séquence;
NOTE 1 De mauvais scores de qualité peuvent indiquer une augmentation des faux-positifs lors de la
détection des variants.
3) il convient de marquer chaque séquence avec les termes ‘warn’ ou ‘pass’ en fonction de la
qualité des séquences par base.
d) la composition en nucléotides par base;
e) l’acceptabilité du rapport signal/bruit;
f) les niveaux de duplication des séquences;
g) le niveau de surreprésentation;
h) la densité des clusters;
i) le rapport transition/transversion pour le séquençage d’exome, de génome ou de grands amplicons;
g) le taux de séquences d’adaptateurs et la contamination par les séquences d’adaptateurs;
k) les contaminants (identification, quantification);
l) le taux d’erreur;
NOTE 2 Cela inclut les erreurs du
...
FINAL
INTERNATIONAL ISO/FDIS
DRAFT
STANDARD 20397-2
ISO/TC 276
Biotechnology — Massively parallel
Secretariat: DIN
sequencing —
Voting begins on:
2020-11-02
Part 2:
Voting terminates on:
Quality evaluation of sequencing data
2020-12-28
RECIPIENTS OF THIS DRAFT ARE INVITED TO
SUBMIT, WITH THEIR COMMENTS, NOTIFICATION
OF ANY RELEVANT PATENT RIGHTS OF WHICH
THEY ARE AWARE AND TO PROVIDE SUPPOR TING
DOCUMENTATION.
IN ADDITION TO THEIR EVALUATION AS
Reference number
BEING ACCEPTABLE FOR INDUSTRIAL, TECHNO-
ISO/FDIS 20397-2:2020(E)
LOGICAL, COMMERCIAL AND USER PURPOSES,
DRAFT INTERNATIONAL STANDARDS MAY ON
OCCASION HAVE TO BE CONSIDERED IN THE
LIGHT OF THEIR POTENTIAL TO BECOME STAN-
DARDS TO WHICH REFERENCE MAY BE MADE IN
©
NATIONAL REGULATIONS. ISO 2020
---------------------- Page: 1 ----------------------
ISO/FDIS 20397-2:2020(E)
COPYRIGHT PROTECTED DOCUMENT
© ISO 2020
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting
on the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address
below or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii © ISO 2020 – All rights reserved
---------------------- Page: 2 ----------------------
ISO/FDIS 20397-2:2020(E)
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Raw data . 6
4.1 General . 6
4.2 Raw data file . 6
4.3 Quality assessment of raw data . 6
4.3.1 General. 6
4.3.2 Basic statistics . 7
4.3.3 Quality metrics . 7
4.4 Raw data pre-processing . 8
5 Sequence alignment and mapping . 8
5.1 General . 8
5.2 Alignment and mapping file format . 9
5.3 Quality control of sequencing alignment and mapping . 9
5.3.1 Basic alignment statistics . 9
5.3.2 Quality indicators .10
5.3.3 Methods for alignment and mapping quality assessment .11
5.4 Alignment post-processing .11
6 Variant calling .11
6.1 General .11
6.2 Data file for variant calling .11
6.3 Quality metrics in the variant calling .12
6.4 Processing of false positive variants .12
6.5 Sequence annotation .12
7 Validation .12
7.1 General .12
7.2 Validation of quality metrics .13
8 Documentation .14
Annex A (informative) Quality metrics for specific example MPS platforms .15
Annex B (informative) Coverage and read recommendations by applications .16
Annex C (informative) Software for sequence alignment and mapping .18
Bibliography .19
© ISO 2020 – All rights reserved iii
---------------------- Page: 3 ----------------------
ISO/FDIS 20397-2:2020(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO's adherence to the
World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www .iso .org/
iso/ foreword .html.
This document was prepared by Technical Committee ISO/TC 276, Biotechnology
A list of all parts in the ISO 20397 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www .iso .org/ members .html.
iv © ISO 2020 – All rights reserved
---------------------- Page: 4 ----------------------
ISO/FDIS 20397-2:2020(E)
Introduction
Massively parallel sequencing (MPS) is a high-throughput analytical approach to nucleic acid sequencing
utilizing massively parallel processing, that allows whole genomes, transcriptomes and specific nucleic
acid targets from different organisms to be investigated in a relatively short time.
MPS is used in many life science disciplines permitting determination and high throughput analysis of
millions and thousands of millions of nucleotide bases. The biological variability of deoxyribonucleic
and ribonucleic acid polymers from living organisms results in challenges in accurately determining
their sequences. The quality of sequence determination by MPS depends on many factors including but
not limited to sample quality, library preparation, platform selection, and sequencing data quality.
The analysis of sequencing data poses significant bioinformatics challenges in various areas such as
data storage, computation time and variant detection accuracy. One of the major challenges associated
with sequencing data that is sometimes easily overlooked is monitoring quality control metrics over
all stages of the data processing pipeline. Knowledge of data quality is essential for downstream
analysis of sequences. Quality control for nucleic acid sequencing data handling and analysis can be
separated into three stages: raw data, alignment and variant calling. This document provides a list of
considerations for quality evaluation of MPS sequencing data, and the specific recommendations for
different MPS platforms.
© ISO 2020 – All rights reserved v
---------------------- Page: 5 ----------------------
FINAL DRAFT INTERNATIONAL STANDARD ISO/FDIS 20397-2:2020(E)
Biotechnology — Massively parallel sequencing —
Part 2:
Quality evaluation of sequencing data
1 Scope
This document specifies general requirements and recommendations for quality assessments and
control of massively parallel sequencing (MPS) data. It covers post raw data generation procedures,
sequencing alignments, and variant calling.
This document also gives general guidelines for validation and documentation of MPS data.
This document does not apply to any processes related to de novo assembly.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at http:// www .electropedia .org/
3.1
adapter sequence
adapter
artificial oligonucleotide of a known sequence that can be added to the 3’ or 5’ ends of a nucleic acid
fragment
Note 1 to entry: It provides the primer site as well as other necessary sequences for sequencing the insert.
3.2
algorithm
completely determined finite sequence of instructions by which the values of the output variables may
be calculated from the values of the input variables
[SOURCE: IEC 60050-351:2013, 351-42-27, modified — The notes were deleted.]
3.3
base calling
computational process in massively parallel sequencing of translating raw electrical signals to
nucleotide sequence
Note 1 to entry: Base calling application and algorithm performance is characteristically defined by read and
consensus accuracy.
© ISO 2020 – All rights reserved 1
---------------------- Page: 6 ----------------------
ISO/FDIS 20397-2:2020(E)
3.4
bioinformatics pipeline
individual programs, scripts, or pieces of software linked together, where raw data or output from one
program is used as input for the next step in data processing
EXAMPLE The output from a base quality trimming program may be used as input to a de-novo assembler.
3.5
capture efficiency
percent of all sequenced or mapped reads that overlap the targeted regions
3.6
coverage
coverage depth
number of times that a given base position is read in a sequencing run
Note 1 to entry: The number of reads that cover a particular position.
3.7
coverage breadth
fraction of the genome in assembled/target genome size in sequencing runs
3.8
cluster density
number of clusters for each tile
Note 1 to entry: The cluster density applied to the MPS (3.30) platforms requires an amplification step.
Note 2 to entry: The density of individual sequence clusters, each arising from a single molecule on some
sequencing platforms.
2
Note 3 to entry: Cluster density is usually expressed in thousands per mm .
3.9
CCS
circular consensus sequencing
sequencing mode where the insert size is sequenced multiple times in a rolling circle amplification type
reaction, leading to high accuracy
Note 1 to entry: In this mode, multiple passes from the same molecule can be used to achieve higher single
molecule accuracy.
3.10
coverage range
range of coverage depth across a genome for sequencing runs
3.11
CNV
copy number variation
copy number variant
variation of the number of copies of one or more sections of the DNA present in the genome of an
organism
Note 1 to entry: CNVs are insertions, deletions, insertions and duplications containing at least 1 000 bases in length.
3.12
DNA
deoxyribonucleic acid
polymer of deoxyribonucleotides occurring in a double-stranded (dsDNA) or single-stranded (ssDNA)
form
[SOURCE: ISO 22174:2005, 3.1.2]
2 © ISO 2020 – All rights reserved
---------------------- Page: 7 ----------------------
ISO/FDIS 20397-2:2020(E)
3.13
deletion
loss of one (or more) nucleotide base pair(s) from a nucleic acid sequence compared to its reference
sequence
3.14
duplication level
number of identical repeats for every sequence in a library
Note 1 to entry: The duplication level is usually displayed in a plot showing the relative number of sequences
with different degrees of duplication.
3.15
GC content
percentage of guanine and cytosine in one or more nucleic acid sequence(s)
Note 1 to entry: The amount of guanine and cytosine in a polynucleic acid, is usually expressed in mole fraction
(or percentage) of total nitrogenous bases. Total nitrogenous bases comprise the total number of nucleotide
bases of reads from one or more MPS run.
3.16
gene
sequence of nucleotides in DNA or RNA encoding either an RNA or protein product
Note 1 to entry: Genes are recognized as the basic unit of heredity.
Note 2 to entry: A gene can consist of non-contiguous nucleic acid segments that are rearranged through a
nuclear processing step.
Note 3 to entry: A gene may include or be part of an operon that includes elements for gene expression.
3.17
indel
insertion (3.18) or /and deletion (3.13) of nucleotides in genomic DNA
Note 1 to entry: Indels are less than 1 000 bases in length.
3.18
insertion
addition of one (or more) nucleotide base pair(s) into a nucleic acid sequence
[SOURCE: ISO/TS 20428: 2017, 3.19, modified — DNA was replaced by nucleic acid.]
3.19
sequencing
determining the order and the content of nucleotide bases (adenine, guanine, cytosine, thymine, and
uracil) of a nucleic acid molecule
Note 1 to entry: A sequence is generally described from the 5’ to 3’ end.
[SOURCE: ISO/TS 17822-1:2014, 3.20, modified — DNA was deleted in the term; DNA was replaced by
nucleic acid, and uracil was added in the definition.]
3.20
sequence alignment
arrangement of nucleic acid sequences according to regions of similarity
Note 1 to entry: Sequence alignment may not require a reference genome /reference targeted nucleic acid region
and its aim might not produce an assembly.
© ISO 2020 – All rights reserved 3
---------------------- Page: 8 ----------------------
ISO/FDIS 20397-2:2020(E)
3.21
raw data
primary sequencing data produced by a sequencer without involving any software-based pre-filtering
for analysis purpose
3.22
RNA
ribonucleic acid
polymer of ribonucleotides occurring in a double-stranded or single-stranded form
Note 1 to entry: Synthesis of proteins in cells is directed by genetic information carried in the sequence of
nucleotides in a class of RNA known as messenger RNA (mRNA).
3.23
ribonucleotide
nucleotide containing ribose as its pentose component forming the basic building blocks for RNA
Note 1 to entry: The ribonucleotides consist of adenylate (AMP), guanylate (GMP), cytidylate (CMP), or
uridylate (UMP).
3.24
read
sequence read
nucleotide sequence generated by a sequencing device
Note 1 to entry: A read is a deduced sequence of nucleic acid base pairs (or base pairs probabilities) corresponding
to all (or part of) a single nucleic acid fragment. Read can be used to refer to as those sequences obtained from
MPS experiments.
3.25
read type
category of sequence that depends on how the sequence reading experiment is designed and conducted
EXAMPLE Read type can be single-end, paired-end, mate-paired end, continuous long read, circular
consensus.
3.26
reference sequence
nucleic acid sequence used either to align by mapping sequence reads or as the basis for annotations
such as genes and sequence variations
3.27
demultiplexing
computational reverse of multiplexing process, mixing two or more samples together such that they
can be sequenced in a single run on an MPS instrument
Note 1 to entry: Samples that are to be combined need to be barcoded/indexed prior to being mixed together.
Note 2 to entry: Demultiplexing is a computational algorithm that separates a pool of reads according to their
original sample based on the barcode.
3.28
mapping
assembling nucleic acid sequences against an existing backbone (reference) sequence, in order to build
a consensus sequence
3.29
mate pairs
mate pair reads
paired-end read which correspond to the ends of a long nucleic acid sequence fragment obtained by
shrinking the sample into large chunks (larger than 2 kb or at least 2 kb)
4 © ISO 2020 – All rights reserved
---------------------- Page: 9 ----------------------
ISO/FDIS 20397-2:2020(E)
3.30
MPS
massively parallel sequencing
sequencing technique based on the determination of incremental template based polymerization of
many independent DNA molecules simultaneously
Note 1 to entry: Massively parallel sequencing technology can provide millions or billions of short reads per run.
3.31
paired-end reads
sequencing reads from both ends of a DNA fragment
Note 1 to entry: In paired-end sequencing, the instrument sequences both ends of short inserts typically ranging
from 200 bps to 800 bps.
3.32
quality score
Q score
Phred quality score
measure of the sequencing quality of a given nucleotide base
Note 1 to entry: Q is defined by the following formula:
Qp=−10log10()
where p is the estimated probability of the base call being wrong.
Note 2 to entry: A quality score of 20 represents an error rate of 1 in 100, with a corresponding call accuracy
of 99 %.
Note 3 to entry: Higher quality scores indicate a smaller probability of error. Lower quality scores can result in a
significant portion of the reads being unusable. Low quality scores can also indicate false-positive variant calls,
resulting in inaccurate conclusions.
3.33
run
single process cycle of the sequencer from initiation until the raw data is obtained
3.34
sequence annotation
process of adding a note of explanation, comment or reference about specific features in a DNA, RNA or
protein sequence with descriptive information about structure or function
Note 1 to entry: The process of sequence annotation can be regarded as assigning metadata to the sequence.
3.35
single-end read
sequence read obtained by reading a DNA fragment from one end to the other
3.36
SNV
single nucleotide variant
variation in a single nucleotide of a nucleic acid molecule
3.37
SV
structural variation
region of DNA approximately 1 000 bases or larger in size which can include inversions and balanced
translocations or genomic imbalances
Note 1 to entry: Common types of structural variants include copy number variants (deletions, insertions,
amplifications, duplications), copy number neutral deletions (loss of heterozygosity), inversions, segmental
duplications, and translocations (balanced or imbalanced).
© ISO 2020 – All rights reserved 5
---------------------- Page: 10 ----------------------
ISO/FDIS 20397-2:2020(E)
3.38
subread
fraction of the read that is present in between hairpin adapters
3.39
trimming of raw reads
procedure aimed at removing low quality portions or sequence contaminations while preserving the
longest high-quality part of an MPS read
3.40
variation
differences of one or more nucleic acid bases in a sequence with respect to the expected one(s)
3.41
variant calling
process of accurately identifying the variations from sequence data with respect to a reference sequence
3.42
ZMW
zero mode waveguide
optical waveguide that guides light energy into a volume that is small in all dimensions compared to the
wavelength of the light
Note 1 to entry: A polymerase is anchored at the bottom of that ZMW and the incorporation of nucleotides
is measured by the increase of fluorescence during binding followed by the subsequent reduction after
incorporation.
4 Raw data
4.1 General
Each nucleotide in a sequence should be assigned a numerical value (base quality score) that correlates
to the inferred accuracy of the base calling process, if applicable.
4.2 Raw data file
Generation of sequence read files should use instrument-specific software and/or instrument-specific
pipelines. Monitored physical parameters such as signal to noise ratio shall be documented. These
physical parameters should be monitored of during each sequencing experiment.
Sequence read files should be configured in the appropriate file format, containing the compilation of
individual sequence reads, each with its own identifier, and an associated base quality score for each
nucleotide.
NOTE FASTQ format (or convertible to FASTQ format) can be used as a de facto standard format for
downstream analysis of the quality of MPS data sets. FASTQ is widely accepted as a cross platform interchange
file format.
The output files generated after a sequencing run, and associated quality metrics should be analysed in
the downstream bioinformatics pipeline using appropriate software.
4.3 Quality assessment of raw data
4.3.1 General
Quality control indicators can differ depending on the MPS platform, library preparation method, and
intended use of the analysis.
6 © ISO 2020 – All rights reserved
---------------------- Page: 11 ----------------------
ISO/FDIS 20397-2:2020(E)
Sequence results should be interpreted by competent staff. The interpretation should be performed to
meet the quality level fitting the intended purpose of the analysis considering a statistically reliable
repeat number of reads.
Read processing tools should be applied with consideration for quality assessment and trimming of
raw reads.
4.3.2 Basic statistics
Basic statistics shall be recorded, including but not limited to:
a) type of platform;
b) type of read;
c) library preparation kit;
d) read length;
e) number of reads;
f) overall GC content;
g) total sequence length.
4.3.3 Quality metrics
The quality control metrics for raw data assessment can refer to but are not limited to:
a) sequence length distribution;
b) per sequence GC content;
c) quality score;
1) per base sequence quality;
2) per sequence quality score;
NOTE 1 Low-quality scores can indicate increased false-positive variant calls.
3) all sequences should be flagged as either ‘warn’ or ‘pass’ for per base sequence quality.
d) per base sequence content;
e) acceptability of signal/noise ratio;
f) sequence duplication levels;
g) overrepresented level;
h) cluster density;
i) transition/transversion ratio for whole-exome or whole-genome sequencing or large amplicons
sequencing;
g) adaptor rate/adaptor sequence contamination;
k) contaminants (identification, quantification);
l) error rate;
NOTE 2 This includes homopolymer errors: errors in the number of bases called when a single nucleotide
occurs more than once in consecutive order in a sequence.
© ISO 2020 – All rights reserved 7
---------------------- Page: 12 ----------------------
ISO/FDIS 20397-2:2020(E)
m) k-mer analysis;
NOTE 3 In computational genomics, k-mers refer to all the possible subsequences (of length k) from a
nucleic acid sequence. Overrepresentation of k-mers can be analysed to detect potential genome mis-
assembly where repeated DNA sequences have possibly been combined.
n) N fragment;
NOTE 4 Number and/or percentage of ambiguous calls.
o) repeat stretch and repeat sequence;
p) nucleotide distribution across cycles.
4.4 Raw data pre-processing
Raw data pre-processing may include but is not limited to the following computational steps, if
applicable:
a) removal/trimming of low-quality sequences/bases;
b) demultiplexing;
c) removal of adapters/primers and contamination;
d) error correction;
e) filtration of duplicated read;
f) trimming of reads to fixed length;
g) calling the CCS reads.
When CCS data are being used, the CCS reads should be obtained and filtered prior to downstream
analysis.
5 Sequence alignment and mapping
5.1 General
Sequence alignment and mapping strategy should be chosen based on the application.
EXAMPLE There is spliced mapping for RNA and un-spliced mapping for the mapping strategy of RNA
sequencing.
Alignment and mapping software and tools can be used for alignment.
Alignment quality can be assessed visually using proper alignment views, and using the information
provided in the alignment file.
Examples of the software for sequence alignment and mapping of different applications are described
in Annex C.
Reference genomes/reference targeted nucleic acid regions shall be used for mapping and should be
carefully chosen depending on experimental design.
NOTE 1 Considerations include the version of the reference genome/reference targeted nucleic acid region,
choice of different strains in one organism, and choice of masked, soft-masked or unmasked genomes.
NOTE 2 Open source sequencing alignment and mapping software is available online.
8 © ISO 2020 – All rights reserved
---------------------- Page: 13 ----------------------
ISO/FDIS 20397-2:2020(E)
5.2 Alignment and mapping file format
Alignments are always stored in the following file formats.
[17][24]
a) Sequence alignment format (SAM) .
NOTE 1 SAM is a TAB-delimited text format consisting of a header section, which is optional, and an
alignment section. Each alignment line has 11 mandatory fields for essential alignment information such as
mapping position and variable number of optional fields for flexible or aligner specific information.
[15][17]
b) Binary alignment format (BAM) .
NOTE 2 It is the compressed format analogous to the SAM format in binary form.
[16]
c) Compressed reference-oriented alignment map (CRAM) .
NOTE 3 CRAM is a sequencing read file format that is space efficient by using reference-based compression
of sequence data and offers both lossless and lossy modes of compression.
[3][4][5][6][7][8]
d) Moving pictures experts group for genomics (MPEG-G) .
NOTE 4 MPEG-
...
PROJET
NORME ISO/FDIS
FINAL
INTERNATIONALE 20397-2
ISO/TC 276
Biotechnologie — Séquençage
Secrétariat: DIN
massivement parallèle —
Début de vote:
2020-11-02
Partie 2:
Vote clos le:
Évaluation de la qualité des données
2020-12-28
de séquençage
Biotechnology — Massively parallel sequencing —
Part 2: Quality evaluation of sequencing data
LES DESTINATAIRES DU PRÉSENT PROJET SONT
INVITÉS À PRÉSENTER, AVEC LEURS OBSER-
VATIONS, NOTIFICATION DES DROITS DE PRO-
PRIÉTÉ DONT ILS AURAIENT ÉVENTUELLEMENT
CONNAISSANCE ET À FOURNIR UNE DOCUMEN-
TATION EXPLICATIVE.
OUTRE LE FAIT D’ÊTRE EXAMINÉS POUR
ÉTABLIR S’ILS SONT ACCEPTABLES À DES FINS
INDUSTRIELLES, TECHNOLOGIQUES ET COM-
Numéro de référence
MERCIALES, AINSI QUE DU POINT DE VUE
ISO/FDIS 20397-2:2020(F)
DES UTILISATEURS, LES PROJETS DE NORMES
INTERNATIONALES DOIVENT PARFOIS ÊTRE
CONSIDÉRÉS DU POINT DE VUE DE LEUR POSSI-
BILITÉ DE DEVENIR DES NORMES POUVANT
SERVIR DE RÉFÉRENCE DANS LA RÉGLEMENTA-
©
TION NATIONALE. ISO 2020
---------------------- Page: 1 ----------------------
ISO/FDIS 20397-2:2020(F)
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2020
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii © ISO 2020 – Tous droits réservés
---------------------- Page: 2 ----------------------
ISO/FDIS 20397-2:2020(F)
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Données brutes . 6
4.1 Généralités . 6
4.2 Fichier de données brutes . 7
4.3 Évaluation de la qualité des données brutes . 7
4.3.1 Généralités . 7
4.3.2 Statistiques élémentaires . 7
4.3.3 Mesures de qualité . 7
4.4 Prétraitement des données brutes . 8
5 Alignement et cartographie des séquences . 9
5.1 Généralités . 9
5.2 Format des fichiers d’alignement et de cartographie . 9
5.3 Contrôle qualité de l’alignement et de la cartographie des séquences .10
5.2.1 Statistiques sur les alignements de base .10
5.3.1.1 Généralités .10
5.3.1.2 Statistiques de cartographie pour les lectures sur un brin unique .10
5.3.1.3 Statistiques de cartographie pour les lectures sur les deux extrémités
appariées .10
5.3.1.4 Longueur de sous-séquence cartographiée .11
5.2.2 Indicateurs de qualité .11
5.2.3 Méthodes d’évaluation de la qualité d’alignement et de cartographie .12
5.4 Post-traitement de l’alignement .12
6 Détection de variants .12
6.1 Généralités .12
6.2 Fichier de données pour la détection de variants .12
6.3 Mesures de qualité lors de la détection de variants . .12
6.4 Traitement des variants faux-positifs .13
6.5 Annotation de séquences .13
7 Validation .13
7.1 Généralités .13
7.2 Validation des mesures de qualité .14
8 Documentation .15
Annexe A (informative) Mesures de qualité applicables aux plateformes SMP .16
Annexe B (informative) Recommandations applicables à la couverture et aux lectures en
fonction des applications .17
Annexe C (informative) Logiciel d’alignement et de cartographie des séquences .19
Bibliographie .20
© ISO 2020 – Tous droits réservés iii
---------------------- Page: 3 ----------------------
ISO/FDIS 20397-2:2020(F)
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l'ISO participent également aux travaux.
L'ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l'élaboration du document sont indiqués dans l'Introduction et/ou dans la liste des déclarations de
brevets rédigées par l'ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, de la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute autre information au sujet de
l’adhésion de l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les
obstacles techniques au commerce (OTC), voir le lien suivant: www .iso .org/ iso/ fr/ avant -propos .html.
Le présent document a été élaboré par le Comité technique ISO/TC 276, Biotechnologie.
Une liste de toutes les parties de la série ISO 20397 se trouve sur le site web de l'ISO.
Il convient que l'utilisateur adresse tout retour d'information ou toute question concernant le présent
document à l'organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l'adresse www .iso .org/ members .html.
iv © ISO 2020 – Tous droits réservés
---------------------- Page: 4 ----------------------
ISO/FDIS 20397-2:2020(F)
Introduction
Le séquençage massivement parallèle (SMP) est une approche analytique de séquençage de l’acide
nucléique à haut débit qui utilise un traitement massivement parallèle pour étudier des génomes
entiers, des transcriptomes et des séquences ciblées d’acides nucléiques de différentes origines, en un
laps de temps relativement court.
Le SMP est utilisé dans de nombreux domaines des sciences de la vie. Il permet une détermination et
une analyse à haut débit de milliards de nucléotides. Du fait de la variabilité biologique des polymères
d’acide désoxyribonucléique et d’acide ribonucléique à travers le vivant, la détermination précise de
leurs séquences constitue un véritable défi. La qualité des séquences générées par SMP dépend de
nombreux facteurs, notamment, entre autres, la qualité de l’échantillon, la préparation de la banque, le
choix de la plateforme de lecture et la qualité des données de séquençage.
L’analyse des données de séquençage peut représenter de véritables défis bio-informatiques liés
au stockage des données, au temps de calcul et à la précision de détection des variants. L’une des
principales difficultés associées aux données de séquençage, trop souvent négligée, porte sur les
mesures de contrôle qualité à tous les stades du pipeline de traitement des données, alors mêmes qu’ils
sont essentiels à toute l’analyse en aval des données de séquences. Le contrôle qualité applicable au
traitement et à l’analyse des données de séquençage de l’acide nucléique concerne trois niveaux distincts:
données brutes, alignement et détection des variants. Le présent document fournit une liste d’éléments
à prendre en compte lors de l'évaluation de la qualité des données de séquençage massivement parallèle,
ainsi que les recommandations spécifiques à différentes plateformes SMP.
© ISO 2020 – Tous droits réservés v
---------------------- Page: 5 ----------------------
PROJET FINAL DE NORME INTERNATIONALE ISO/FDIS 20397-2:2020(F)
Biotechnologie — Séquençage massivement parallèle —
Partie 2:
Évaluation de la qualité des données de séquençage
1 Domaine d’application
Le présent document spécifie les exigences générales et les recommandations applicables à l'évaluation
et au contrôle de la qualité des données de séquençage massivement parallèle (SMP). Il traite des modes
opératoires faisant suite à la production des données brutes, en incluant la génération des alignements
de séquences et la détection des variants.
Le présent document fournit également des lignes directrices générales applicables à la validation et à
la documentation des données SMP.
Le présent document ne s’applique pas aux processus relatifs à l’assemblage de novo.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s'appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/
3.1
séquence d’adaptateur
adaptateur
oligonucléotide artificiel d’une séquence connue qui peut être ajouté aux extrémités 3’ ou 5’ d’un
fragment d’acide nucléique
Note 1 à l'article: Il fournit le site d’amorçage ainsi que les autres séquences nécessaires au séquençage de l’insert.
3.2
algorithme
séquence finie d'instructions complètement déterminée par laquelle les valeurs des variables de sortie
peuvent être calculées à partir des valeurs des variables d’entrée
[SOURCE: IEC 60050-351:2013, 351-42-27, modifiée — Les notes ont été supprimées.]
3.3
détection de bases
lors du séquençage massivement parallèle, processus de calcul consistant à traduire les signaux
électriques bruts en séquence nucléotidique
Note 1 à l'article: La performance de l’application de détection de bases et de l’algorithme est caractéristiquement
définie par une précision de lecture et un consensus.
© ISO 2020 – Tous droits réservés 1
---------------------- Page: 6 ----------------------
ISO/FDIS 20397-2:2020(F)
3.4
pipeline bio-informatique
suite de programmes individuels, scripts ou briques logicielles liés entre eux, dans lesquels les données
brutes ou les résultats d’un programme sont utilisés comme données d’entrée dans l'étape suivante du
traitement des données
EXEMPLE Les résultats d’un programme de découpage (trimming) peuvent être utilisés comme données
d’entrée pour un assembleur de novo.
3.5
efficacité de capture
pourcentage de l’ensemble des lectures séquencées ou cartographiées qui chevauchent les régions ciblées
3.6
couverture
profondeur de couverture
nombre de fois qu’une position de base donnée est lue dans un cycle de séquençage
Note 1 à l'article: Nombre de lectures qui couvrent une position particulière.
3.7
largeur de couverture
fraction du génome cible qui est identifiée lors des cycles de séquençage
3.8
densité de clusters
nombre de clusters pour chaque flow cell de séquençage
Note 1 à l'article: La densité de clusters s’applique aux plateformes SMP (3.30) nécessitant une étape
d’amplification.
Note 2 à l'article: La densité de clusters de séquence individuels, provenant chacun d’une seule molécule sur
certaines plateformes de séquençage.
2
Note 3 à l'article: La densité de clusters est généralement exprimée en milliers par mm .
3.9
CCS
séquençage consensus sur séquences circulaires
mode de séquençage où la taille de l’insert est séquencée plusieurs fois lors d’une réaction de type
amplification par cercle roulant, ce qui permet d’obtenir une haute précision.
Note 1 à l'article: Dans ce mode, plusieurs lectures de la même molécule peuvent être utilisées pour atteindre une
précision moléculaire individuelle supérieure.
3.10
étendue de couverture
étendue de la profondeur de couverture d’un génome à l’issue des cycles de séquençage
3.11
CNV
variation du nombre de copies
variation du nombre de copies sur un segment d’ADN génomique d’un organisme
Note 1 à l'article: Les CNV sont des insertions, délétions, insertions et duplications contenant au moins 1 000 bases
en longueur.
2 © ISO 2020 – Tous droits réservés
---------------------- Page: 7 ----------------------
ISO/FDIS 20397-2:2020(F)
3.12
ADN
acide désoxyribonucléique
polymère de désoxyribonucléotides se présentant sous la forme de double brin (ADNdb) ou de brin
simple (ADNsb)
[SOURCE: ISO 22174:2005, 3.1.2]
3.13
délétion
perte d’une (ou de plusieurs) paire(s) de bases nucléotidiques d’une séquence d’acide nucléique par
rapport à sa séquence de référence
3.14
niveau de duplication
nombre de répétitions identiques pour chaque séquence d’une banque
Note 1 à l'article: Le niveau de duplication apparaît généralement sous la forme d’un graphique représentant le
nombre relatif de séquences à différents degrés de duplication.
3.15
taux de GC
pourcentage de guanine et cytosine dans une ou plusieurs séquence(s) d’acide nucléique
Note 1 à l'article: La quantité de guanine et de cytosine dans un acide nucléique est généralement exprimée en
fraction molaire (ou pourcentage) de bases azotées totales. Les bases azotées totales comprennent le nombre
total de bases nucléotidiques lues après un ou plusieurs cycle(s) de SMP.
3.16
gène
séquence de nucléotides dans l’ADN ou l’ARN codant soit pour un ARN soit pour un produit protéique
Note 1 à l'article: Les gènes sont reconnus comme étant l’unité de base de l’hérédité.
Note 2 à l'article: Un gène peut comprendre des segments d’acide nucléique non contigus qui sont remaniés à
l’occasion d’un processus nucléaire.
Note 3 à l'article: Un gène peut comprendre ou faire partie d’un opéron qui inclut des éléments de l’expression
génétique.
3.17
indel
insertion (3.18) ou/et délétion (3.13) de nucléotides dans l’ADN génomique
Note 1 à l'article: Les indels ont des longueurs inférieures à 1 000 bases.
3.18
insertion
ajout d’une (ou de plusieurs) bases nucléotidiques dans une séquence d’acide nucléique
[SOURCE: ISO/TS 20428: 2017, 3.19, modifiée — Le terme « ADN » a été remplacé par « acide nucléique ».]
3.19
séquençage
détermination de l’ordre et de la concentration des bases nucléotidiques (adénine, guanine, cytosine,
thymine et uracile) d’une molécule d’acide nucléique
Note 1 à l'article: Une séquence est généralement décrite de l’extrémité 5’ à l’extrémité 3’.
[SOURCE: ISO/TS 17822-1:2014, 3.20, modifiée — « ADN » a été supprimé dans le terme; « ADN » a été
remplacé par acide nucléique, et « uracile » a été ajouté dans la définition.]
© ISO 2020 – Tous droits réservés 3
---------------------- Page: 8 ----------------------
ISO/FDIS 20397-2:2020(F)
3.20
alignement de séquences
agencement de plusieurs séquences d’acides nucléiques en fonction de leurs régions de similarité
Note 1 à l'article: L’alignement de séquences ne nécessite pas forcément un génome de référence/une région
d’acide nucléique cible de référence et son objectif n’est pas nécessairement de produire un assemblage.
3.21
données brutes
données de séquençage primaires produites par un séquenceur sans avoir recours à un pré-filtrage
informatique pour l’analyse
3.22
ARN
acide ribonucléique
polymère de ribonucléotides se présentant sous la forme de double brin ou de brin simple
Note 1 à l'article: La synthèse des protéines dans les cellules est régie par les informations génétiques contenues
dans la séquence de nucléotides d’une classe d’ARN connue sous le nom d’ARN messager (ARNm).
3.23
ribonucléotide
nucléotide contenant de la ribose comme composant pentosique formant le bloc élémentaire de
construction de l’ARN
Note 1 à l'article: Les ribonucléotides comprennent l’adénylate (AMP), le guanylate (GMP), le cytidylate (CMP) ou
l’uridylate (UMP).
3.24
lecture
séquence
séquence nucléotidique générée par un séquenceur
Note 1 à l'article: Une lecture (read) est une séquence déduite de paires de bases d’acide nucléique (ou de
probabilités de paires de bases) correspondant à tout (ou partie) d’un fragment d’acide nucléique. La lecture peut
être utilisée pour désigner les séquences obtenues par SMP.
3.25
type de lecture
catégorie de séquence qui dépend de la façon dont l’expérience de lecture des séquences est conçue et
réalisée
EXEMPLE Le type de lecture peut être la lecture sur une seule extrémité (single-end), la lecture d’extrémités
appariées (paired-end), la lecture d’extrémités appariées de plus grandes longueurs (mate-paired end), la lecture
longue continue (long read) ou la lecture consensus sur séquences circulaires.
3.26
séquence de référence
séquence d’acide nucléique servant soit à aligner les lectures de séquençage, soit de référence pour des
annotations telles que les gènes et les variations de séquence
3.27
démultiplexage
opération informatique inverse du processus de multiplexage, au cours de laquelle deux ou plusieurs
échantillons sont mélangés afin de pouvoir les séquencer en une seule fois sur un instrument SMP
Note 1 à l'article: Les échantillons qui doivent être combinés doivent être munis d'un code-barres/indexés avant
d’être mélangés.
Note 2 à l'article: Le démultiplexage est un algorithme de calcul qui sépare un groupe de lectures en fonction de
leur échantillon d’origine d’après le code-barres.
4 © ISO 2020 – Tous droits réservés
---------------------- Page: 9 ----------------------
ISO/FDIS 20397-2:2020(F)
3.28
cartographie
assemblage de séquences d’acides nucléiques en fonction d’une séquence de référence existante, servant
à construire une séquence consensus
3.29
lecture d’extrémités appariées de fragments de grandes longueurs
lecture des deux extrémités appariées situées aux deux extrémités d’un fragment de séquence d’acide
nucléique long de plusieurs kilobases (plus de 2 kb ou au moins 2 kb)
3.30
SMP
séquençage massivement parallèle
technique de séquençage permettant la détermination simultanée de la séquence de multiples molécules
d’acides nucléiques indépendantes basée sur le modèle incrémentiel
Note 1 à l'article: La technologie de séquençage massivement parallèle permet d’obtenir plusieurs millions ou
milliards de lectures courtes par cycle.
3.31
lecture d’extrémités appariées
lecture par SMP des deux extrémités appariées situées aux deux extrémités d’un fragment d’ADN
Note 1 à l'article: Dans le séquençage d’extrémités appariées, l’instrument séquence les deux extrémités de courts
fragments d’une longueur généralement comprise entre 200 pb et 800 pb.
3.32
score de qualité
score Q
score de qualité Phred
mesure de la qualité de séquençage d’une base nucléotidique donnée
Note 1 à l'article: Q est défini par la formule suivante:
Qp=−10log10()
où p est la probabilité estimée pour que la détection de bases soit erronée.
Note 2 à l'article: Un score de qualité de 20 représente un rapport d’erreur de 1 sur 100, avec une précision de
détection correspondante de 99 %.
Note 3 à l'article: Des scores de qualité élevés indiquent une plus faible probabilité d’erreur de séquençage. Des
scores de qualité faibles peuvent rendre inutilisables les lectures correspondantes. Des scores de qualité faibles
peuvent également conduire à des appels de variants faux-positifs, aboutissant à des conclusions inexactes.
3.33
run
processus complet de réalisation de l’opération de séquençage, de la charge des échantillons jusqu’à
l’obtention des données brutes
3.34
annotation de séquences
processus consistant à ajouter une note d’explication, un commentaire ou une référence sur les
caractéristiques spécifiques présentes dans une séquence d’ADN, d’ARN ou de protéines, grâce à des
informations descriptives sur la structure ou la fonction
Note 1 à l'article: Le processus d’annotation de séquences peut être considéré comme une assignation de données
à la séquence.
© ISO 2020 – Tous droits réservés 5
---------------------- Page: 10 ----------------------
ISO/FDIS 20397-2:2020(F)
3.35
lecture d’extrémité simple
lecture de séquence obtenue en lisant un seul des deux brins d’un fragment d’ADN à partir d’une des
deux extrémités
3.36
SNV
variant nucléotidique unique
variation sur un seul nucléotide d’une molécule d’acide nucléique
3.37
SV
variation structurale
région d’ADN d’environ 1 000 bases ou de taille supérieure, pouvant inclure des inversions et des
translocations équilibrées ou des déséquilibres génomiques
Note 1 à l'article: Il existe plusieurs types fréquents de variants structurels: variants du nombre de
copies (délétions, insertions, amplifications, duplications), délétions neutres du nombre de copies (perte
d’hétérozygosité), inversions, duplications segmentaires et translocations (équilibrées ou déséquilibrées).
3.38
sous-séquence
fraction d’une séquence présente entre des adaptateurs en épingle à cheveux
3.39
découpage (trimming) des lectures brutes
opération visant à supprimer les parties de faible qualité ou les séquences contaminantes tout en
préservant la partie de haute qualité d’une lecture SMP la plus longue possible
3.40
variation
différences d’une ou de plusieurs bases d’acides nucléiques dans une séquence par rapport à la base/aux
bases prévue(s)
3.41
détection de variants
processus d'identification précise des variations des données de séquence par rapport à une séquence
de référence
3.42
ZMW
guide d’onde mode zéro
guide d’onde optique qui guide l’énergie lumineuse dans un volume de petite dimension relativement à
la longueur d'onde de la lumière
Note 1 à l'article: Une polymérase est ancrée au fond de ce ZMW et l’incorporation de nucléotides est mesurée par
une hausse de fluorescence pendant la fixation puis par une réduction ultérieure après incorporation.
4 Données brutes
4.1 Généralités
Il convient d’attribuer à chaque nucléotide d’une séquence une valeur numérique (score de qualité de
base) correspondant à la précision présumée du processus de détection de bases, le cas échéant.
6 © ISO 2020 – Tous droits réservés
---------------------- Page: 11 ----------------------
ISO/FDIS 20397-2:2020(F)
4.2 Fichier de données brutes
Il convient que la génération de fichiers de données brutes utilise un logiciel et/ou un pipeline propre à
l’instrument. Les paramètres physiques contrôlés, notamment le rapport signal sur bruit, doivent être
documentés. Il convient de veiller à contrôler ces paramètres physiques pendant chaque séquençage.
Il convient de configurer les fichiers de séquençage au format approprié, contenant la compilation des
lectures de séquence individuelles, chacune avec son propre identifiant, et un score de qualité de base
correspondant à chaque nucléotide séquencé.
NOTE Le format FASTQ (ou convertible au format FASTQ) peut être utilisé comme format standard de facto
pour l’analyse en aval de la qualité des ensembles de données SMP. FASTQ est communément admis comme
format de fichier d'échange entre plateformes.
Il convient d’analyser les fichiers de sortie générés après un run de séquençage, ainsi que les mesures de
qualité associées, dans le pipeline bio-informatique en aval, à l’aide d’un logiciel approprié.
4.3 Évaluation de la qualité des données brutes
4.3.1 Généralités
Les indicateurs de contrôle qualité peuvent différer selon la plateforme SMP, la méthode de préparation
des banques et l’usage prévu de l’analyse.
Il convient que les résultats de séquençage soient interprétés par un personnel compétent. Il convient
d’effectuer l’interprétation en respectant le niveau de qualité correspondant à l’objectif prévu de
l’analyse, en tenant compte du nombre de répétitions statistiquement fiables des lectures.
Il convient d’appliquer les outils de traitement des lectures en s’appuyant sur différentes métriques de
qualité des lectures brutes et de leur pré-traitement (trimming).
4.3.2 Statistiques élémentaires
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.