ISO 23418:2022
(Main)Microbiology of the food chain — Whole genome sequencing for typing and genomic characterization of bacteria — General requirements and guidance
Microbiology of the food chain — Whole genome sequencing for typing and genomic characterization of bacteria — General requirements and guidance
This document specifies the minimum requirements for generating and analysing whole genome sequencing (WGS) data of bacteria obtained from the food chain. This process can include the following stages: a) handling of bacterial cultures; b) axenic genomic DNA isolation; c) library preparation, sequencing, and assessment of raw DNA sequence read quality and storage; d) bioinformatics analysis for determining genetic relatedness, genetic content and predicting phenotype, and bioinformatics pipeline validation; e) metadata capture and sequence repository deposition; f) validation of the end-to-end WGS workflow (fit for purpose for intended application). This document is applicable to bacteria isolated from: — products intended for human consumption; — products intended for animal feed; — environmental samples from food and feed handling and production areas; — samples from the primary production stage.
Microbiologie de la chaîne alimentaire — Séquençage de génome entier pour le typage et la caractérisation génomique des bactéries — Exigences générales et recommandations
Le présent document spécifie les exigences minimales pour générer et analyser des données de séquençage de génome entier (WGS) de bactéries provenant de la chaîne alimentaire. Ce processus peut comprendre les étapes suivantes: a) manipulation des cultures bactériennes; b) isolement de l’ADN génomique axène; c) préparation de la librairie, séquençage et évaluation de la qualité et du stockage des lectures de séquences brutes d’ADN; d) analyse bioinformatique visant à déterminer la parenté génétique et le contenu génétique, à prédire le phénotype et à valider le pipeline bioinformatique; e) capture des métadonnées et dépôt dans des bases de données de séquences; f) validation du processus de WGS de bout en bout (adapté à l’application prévue). Le présent document est applicable aux bactéries isolées à partir de ce qui suit: — des produits destinés à la consommation humaine; — des produits destinés à l’alimentation animale; — des échantillons environnementaux prélevés dans des zones de production et de manipulation de produits alimentaires et d’aliments pour animaux; — des échantillons de production primaire.
General Information
Relations
Standards Content (Sample)
INTERNATIONAL ISO
STANDARD 23418
First edition
2022-06
Microbiology of the food chain —
Whole genome sequencing for typing
and genomic characterization of
bacteria — General requirements and
guidance
Microbiologie de la chaîne alimentaire — Séquençage de génome
entier pour le typage et la caractérisation génomique des bactéries —
Exigences générales et recommandations
Reference number
© ISO 2022
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .v
Introduction . vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Principle . 6
4.1 General . 6
4.2 Laboratory operation: sample preparation and sequencing . 6
4.3 Bioinformatics analysis . 7
4.3.1 General . 7
4.3.2 SNP analyses . 7
4.3.3 MLST analyses . 7
4.3.4 Kmer distance analysis . 7
4.4 Metadata formats and sequence repository deposition . 7
4.5 Validation and verification of WGS workflow . 8
5 General laboratory guidance . 8
5.1 Bacterial isolation and DNA extraction . 8
5.2 Laboratory environment . 8
5.3 Standard operating procedures and nonconforming work . 8
5.4 Laboratory information management system . 8
5.5 Laboratory competence. 8
6 Laboratory operations . .9
6.1 Sample preparation and storage . 9
6.2 Bacterial isolates . 9
6.3 DNA isolation . 9
6.4 Library preparation and sequencing . 9
6.4.1 Library preparation . 9
6.4.2 DNA sequencing . 10
6.4.3 Use of controls . 10
6.4.4 Assessing raw read data quality . 10
6.4.5 Sample and data storage and retention . 10
7 Bioinformatic data analysis .11
7.1 Requirements for software and bioinformatic pipelines used for data analysis . 11
7.2 Logging and documentation . 11
7.3 Quality assessments . 11
7.4 SNP analyses .12
7.5 MLST analyses (cgMLST and wgMLST) .12
7.6 Target gene detection .13
7.7 Phylogenetic tree or dendrogram generation. 13
7.8 Metrics and log files .13
7.9 Interpreting and reporting the results of bioinformatics analyses .13
7.9.1 Interpreting results from bioinformatics pipelines .13
7.9.2 Reporting genomic analysis results . 14
8 Metadata .14
8.1 General . 14
8.2 Metadata interoperability and future-proofing . 14
8.2.1 General . 14
8.2.2 Ontologies . 14
8.2.3 ISO WGS Slim . 14
8.3 Formatting metadata using this document . 15
8.4 Metadata associated with sample collection . 15
iii
8.5 Metadata associated with the isolate . 16
8.6 Metadata associated with the sequence . 17
9 Sequence repositories .19
10 Validation and verification .20
10.1 Validation . 20
10.1.1 General .20
10.1.2 Validation of laboratory operations . 21
10.1.3 Validation of the bioinformatics pipeline . 21
10.1.4 Validation of the end-to-end workflow . 22
10.2 Verification . . 22
10.2.1 General .22
10.2.2 Verification of laboratory operations . 22
10.2.3 Verification of the bioinformatics pipeline .22
Annex A (informative) Development of quality metrics and use of controls .24
Annex B (informative) Laboratory contact information fields .29
Annex C (informative) Geographic location of sample collection fields .31
Annex D (informative) Isolate passage history fields .32
Annex E (informative) Antibiogram results and methods fields .33
Annex F (informative) Virulence factor detection and methods fields .35
Annex G (informative) Sequence quality control metrics .36
Annex H (informative) Metadata specification .37
Annex I (informative) Instructions for ontology slim integration by software developers .40
Bibliography . 44
iv
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and
expressions related to conformity assessment, as well as information about ISO’s adherence to
the World Trade Organization (WTO) principles in the Technical Barriers to Trade (TBT), see
www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 34, Food products, Subcommittee SC 9,
Microbiology, in collaboration with the European Committee for Standardization (CEN) Technical
Committee CEN/TC 463, Microbiology of the food chain, in accordance with the Agreement on technical
cooperation between ISO and CEN (Vienna Agreement).
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.
v
Introduction
Next generation sequencing (NGS) provides rapid, economical and high-throughput access to
microbial whole genome sequences and is being applied to an expanding number of problems in food
microbiology. Whole genome sequences are representations of the biological potential of the sequenced
organism at single base resolution. Whole genome sequencing (WGS) offers significant advantages over
existing technologies (e.g. serotyping, pulsed field gel electrophoresis, antibiotic resistance phenotype)
for many applications. WGS-based analyses are used by public health laboratories to detect outbreaks,
and to detect mutations, genes and other genetic features to characterize virulence and survival
potential. Within the food industry, there is interest in using whole genome sequences to characterize
bacterial isolates from ingredients and environmental surfaces, to better understand their origin and
ecology, and to update procedures to reduce risk. Some companies have developed, or are developing,
the capacity to collect and analyse whole genome sequence data. Others are turning to third-party
laboratories to perform these services, as they have done for other microbiological analyses.
This document provides guidance for both the laboratory and bioinformatic components of whole
genome sequences and associated metadata for bacterial foodborne microorganisms sampled along
the food chain (e.g. ingredients, food, feed, production environment). Although microbiology of the
food chain includes viruses and fungi, this document is only intended for bacteria. This document is
intended to be applicable to all currently available next generation DNA sequencing technologies. It
may be applied to analysis of whole genome sequence data with proprietary, open-source or custom
software. It is not intended to specify sequencing chemistries, analytical methods or software. This
document defines laboratory, data and metadata stewardship practices to ensure that analyses are
clearly reported, transparent and open to inquiry. This document is for use by laboratories to develop
their management systems for quality and technical operations. Laboratory customers and regulatory
authorities can also use it in confirming or recognizing the competence of laboratories. This document
can also be applied in other domains (e.g. environment, human health, animal health).
vi
INTERNATIONAL STANDARD ISO 23418:2022(E)
Microbiology of the food chain — Whole genome
sequencing for typing and genomic characterization of
bacteria — General requirements and guidance
WARNING — In order to safeguard the health of laboratory personnel, it is essential that
handling of bacterial cultures is only undertaken in properly equipped laboratories, under the
control of a skilled microbiologist, and that great care is taken in the disposal of all incubated
materials. Persons using this document should be familiar with normal laboratory practice.
This document does not purport to address all safety aspects, if any, associated with its use. It is
the responsibility of the user to establish appropriate safety and health practices.
1 Scope
This document specifies the minimum requirements for generating and analysing whole genome
sequencing (WGS) data of bacteria obtained from the food chain. This process can include the following
stages:
a) handling of bacterial cultures;
b) axenic genomic DNA isolation;
c) library preparation, sequencing, and assessment of raw DNA sequence read quality and storage;
d) bioinformatics analysis for determining genetic relatedness, genetic content and predicting
phenotype, and bioinformatics pipeline validation;
e) metadata capture and sequence repository deposition;
f) validation of the end-to-end WGS workflow (fit for purpose for intended application).
This document is applicable to bacteria isolated from:
— products intended for human consumption;
— products intended for animal feed;
— environmental samples from food and feed handling and production areas;
— samples from the primary production stage.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
adapter sequence
DNA with a known sequence that is added to the end of a DNA library fragment to facilitate the
sequencing process (e.g. annealing to a flow cell)
3.2
annotation
process of identifying genes and other features on genome assemblies (3.4)
3.3
antibiogram
summary of antimicrobial susceptibility testing results performed for a specific microorganism,
usually represented in tabular form
3.4
assembly
output from process of aligning and merging sequencing reads (3.38) into larger contiguous sequences
(contigs (3.10))
3.5
base calling
process of assigning nucleotides and quality scores to positions in sequencing reads (3.38)
3.6
bioinformatics
collection, storage and analysis of biological data including sequences
3.7
bioinformatics pipeline
individual programs, scripts or pieces of software linked together, where output from one program is
used as input for the next step in data processing
3.8
carryover-contamination
sample contamination linked to previous experiments, transferred to the current analysis (e.g.
carryover-contamination from amplification products in prior polymerase chain reaction (PCR)
experiments to the current PCR analysis, or carryover-contamination of previously sequenced samples
from one sequencing run to another)
3.9
Chemical Entities of Biological Interest Ontology
ChEBI
ontology (3.35) for describing small chemical compounds
3.10
contig
contiguous stretch of DNA sequence that results from the assembly (3.4) of smaller, overlapping DNA
sequence reads (3.38)
3.11
controlled vocabulary
finite set of values that represent the only allowed values for a data item
[SOURCE: ISO 11238:2018, 3.18, modified — Note 1 to entry deleted.]
3.12
coverage
number of times that a given base position is read in a sequencing run
Note 1 to entry: The number of reads (3.38) that cover a particular position.
[SOURCE: ISO 20397-2:2021, 3.6, modified — Admitted term “coverage depth” deleted.]
3.13
cross-contamination
contamination of a sample (bacterial isolate (3.23) or DNA) with other samples during the preparation
of a sequencing run
3.14
DNA sample
portion of DNA extracted from the processed sample
3.15
draft assembly
de novo genome assembly (3.4) consisting of contigs (3.10) with no implied order, typically generated
using whole genome shotgun sequencing with a short-read technology
3.16
Environment Ontology
EnvO
ontology (3.35) for describing environmental features and habitats
3.17
FoodEx2 Ontology
FoodEx2
standardized food classification and description system developed by the European Food Safety
Authority (EFSA)
3.18
Food Ontology
FoodOn
ontology (3.35) for describing food products, animal feed and food processing
3.19
Gazetteer Ontology
GAZ
ontology (3.35) for describing geographical locations
3.20
index
oligonucleotide sequences used in the process of library preparation to tag or barcode DNA from
specific samples, so that multiple samples (i.e. multiple libraries (3.25)) can be combined (multiplexed)
in a pool of libraries and analysed in a single sequencing reaction
3.21
International Nucleotide Sequence Database Collaboration
INSDC
initiative operated by the DNA Database of Japan (DDBJ), the European Molecular Biology Laboratory,
European Bioinformatics Institute (EMBL-EBI) and the National Center for Biotechnology Information
(NCBI)
3.22
International Organization for Standardization whole genome sequencing slim
ISO WGS Slim
ontology (3.35) slim containing interoperable fields and terms pertaining to the use of WGS (3.49) for
microbiology of the food chain
3.23
isolate
population of bacterial cells in pure culture derived from a single strain (3.45)
3.24
kmer
possible sequence of length k that is contained in a whole genome sequence
3.25
library
collection of genomic DNA fragments from a single isolate (3.23) intended for determining genome
sequence(s)
Note 1 to entry: A collection of libraries, each of a single isolate, is called a “pool of libraries” and is loaded on a
sequencer to be analysed. This multiplexing of libraries would still provide the result for a single isolate if unique
indices are used for each individual single isolate’s library preparation.
Note 2 to entry: A library of mixed DNA, i.e. originating from a mixture of multiple species, can be made. However,
this is not within the scope of this document as this refers to metagenomics sequencing.
3.26
management system
quality, administrative and technical systems that govern the operations of an organization
Note 1 to entry: For the purposes of this document, “organization” refers to the laboratory.
3.27
mapping
use of software to align sequencing reads (3.38) to reference sequences
3.28
metadata
data that defines and describes other data
[SOURCE: ISO/IEC 11179-1:2015, 3.2.16]
3.29
minimal data for matching
MDM
information required to describe the sample source and provenance of a genomic sequence, as defined
[1]
by the Global Microbial Identifier , and implemented by the International Nucleotide Sequence Database
Collaboration (3.21)
3.30
multi-locus sequence typing
MLST
method of genomic analysis that identifies nucleotide variants within predefined sets of loci
Note 1 to entry: Originally used for seven loci, it is now also applied to either core genome loci for cgMLST or
whole genome loci for wgMLST.
3.31
N50
length (N) such that sequence contigs (3.10) of N or longer include half the bases in the assembly (3.4)
3.32
NCBITaxon
automatic translation of the National Center for Biotechnology Information (NCBI) taxonomy database
into obo/owl
3.33
NG50
length (N) of DNA such that sequence contigs (3.10) of N or longer include half the bases in the genome
3.34
Open Biological and Biomedical Ontology Foundry
OBO Foundry
collection of ontologies (3.35) created by a collective of ontology developers that are committed to
collaboration and adherence to shared principles
3.35
ontology
controlled vocabulary (3.11) arranged in a hierarchy, where the terms are connected by logical
relationships
3.36
ontology slim
set of ontology fields and terms annotated as part of a particular collection, often for a specific purpose,
which may be extracted to create a file distinct from the original ontology (3.35)
3.37
Phred sequence quality score
Q
measure of the probability (P) that a base is incorrectly assigned at a given position in the sequence
expressed as:
QP=−10 lg
Note 1 to entry: A score of Q30 indicates that there is a 1 in 1 000 chance that a base is incorrectly assigned (i.e.
the base call is 99,9 % accurate).
3.38
read
nucleotide sequence inferred from a fragment of DNA or RNA
3.39
sequence repository
database in which whole genome sequencing (3.49) datasets are stored and managed
Note 1 to entry: A public repository allows unrestricted access to the data, while a private or federated repository
restricts access to the data.
3.40
sequencing replicate
sequencing a different colony from the same isolate (3.23) obtained from the same sample
material, to assess biological variation
3.41
sequencing replicate
resequencing of the same biological sample or library (3.25) to assess sequence variation
due to instrumentation and protocol
3.42
serotype
classification scheme based on the antigenic protein detection or sequence-based detection of genes
encoding bacterial surface molecules
3.43
single nucleotide polymorphism
SNP
single nucleotide variant (3.44) that passes a particular quality or frequency threshold
3.44
single nucleotide variant
SNV
differences between the nucleotides at the same genomic position of two or more isolates (3.23)
3.45
strain
descendants of a single isolation in pure culture, usually derived from a single initial colony on a solid
growth medium
Note 1 to entry: A strain may be considered an isolate (3.23) or group of isolates that may be distinguished from
other isolates of the same genus and species by phenotypic and genotypic characteristics.
Note 2 to entry: See Reference [2].
3.46
validation
establishment of the performance characteristics of a method and provision of objective evidence that
the performance requirements for a specified intended use are fulfilled
[SOURCE: ISO 16140-1:2016, 2.81]
3.47
validated data entry
automated process ensuring that data entered into a repository are correct
3.48
verification
demonstration that a validated method functions in the user’s hands according to the method’s
specifications determined in the validation study and is fit for its intended purpose
[SOURCE: ISO 16140-3:2021, 3.21, modified — Note 1 to entry deleted.]
3.49
whole genome sequencing
WGS
process of determining the DNA sequence of an organism’s genome using total genomic DNA as input
4 Principle
4.1 General
WGS analyses of bacteria along the food and feed chain consists of culturing the pure bacterial isolate,
DNA isolation performed in a microbiological laboratory, sequencing steps conducted in an appropriate
sequencing environment and bioinformatics analysis performed in a distinct computational
environment.
NOTE The microbiology laboratory, the sequencing facility and the bioinformatics facility can be the same
organization.
4.2 Laboratory operation: sample preparation and sequencing
Sample preparation and sequencing should include the following steps:
a) Information about the isolates being sequenced, including barcodes for multiplexed samples, is
entered into the appropriate record systems, such as a laboratory information management system
(LIMS) or sample description worksheets, or both.
b) Pure isolates (identified at least to the genus level and ideally to the species level) are cultured and
genomic DNA is extracted.
c) DNA sequencing libraries are prepared from quality controlled genomic DNA (see Table A.1 for
guidance on DNA quantity and quality metrics). This process should include:
1) DNA fragmentation, if required for the applied sequencing technology;
2) ligation of indices and adapters, consistent with the applied sequencing technology’s protocols;
3) quantification, normalization and quality control of the resulting library;
4) pooling of libraries in the case of multiplexed sequencing runs.
d) Libraries (i.e. pool of libraries) are sequenced.
e) Quality metrics produced by the sequencing instrument are ideally recorded for each run to allow
monitoring of the performance.
4.3 Bioinformatics analysis
4.3.1 General
Pipelines for bioinformatics analysis may focus on in silico predictions of phenotype (e.g. virulence) or
detecting clusters of genetically similar isolates (i.e. same strain, sequence type or serotype). Pipelines
based on comparative approaches may be used to detect the presence and states of markers in raw and
assembled sequencing data to make in silico strain (e.g. sequence type) and phenotype predictions.
Sequence data for multiple isolates may be analysed using SNP, MLST or kmer distance analysis
methods to identify clusters of closely related bacteria. Results from these analyses may be used to infer
relationships between isolates, which may be illustrated with phylogenetic trees and dendrograms.
4.3.2 SNP analyses
For SNP analyses, reads are mapped to a reference sequence or reads are assembled into contigs that
are compared. To determine SNPs, SNVs are quality-filtered to identify SNP positions.
4.3.3 MLST analyses
For MLST analyses, reads are assembled or mapped. Alleles are identified, quality-filtered and compared
to a cgMLST or wgMLST database.
4.3.4 Kmer distance analysis
Sequence data for multiple isolates may be analysed using kmer distance methods to identify clusters
of related bacteria. Kmer analyses have the advantage of being very fast but have some limitations,
notably in terms of precision (i.e. they are applicable in species determination, but not recommended
for detailed source tracking analysis of closely related strains).
4.4 Metadata formats and sequence repository deposition
Metadata records shall be created and safely stored for all sequences. Sequence data and corresponding
metadata should be consistently formatted and documented. These metadata may be shared solely at
the discretion of the metadata owner. Sequence data and its corresponding metadata shall be subject
to security considerations, cost and benefits, intellectual property rights, confidential business
information, contract restriction or other binding written agreements.
NOTE Licensing or a privacy policy, or both, can be applied to metadata or sequence data, or both, to protect
private or proprietary information.
[3]
To promote data stewardship best practices , this document provides optional metadata reporting
formats which are harmonized to a community data standard (e.g. MDM or OBO Foundry ontologies).
These formats and standards facilitate reproducibility and common understanding of terminology. An
ISO WGS Slim was created to format and provide values for the recommended metadata fields. WGS and
selected metadata may be transferred (uploaded) to a publicly accessible database.
4.5 Validation and verification of WGS workflow
The entire WGS workflow shall be validated to provide assurance that the methods are fit for intended
use.
NOTE More details on the validation and verification of the WGS workflow are given in Clause 10 and Table 4.
5 General laboratory guidance
5.1 Bacterial isolation and DNA extraction
Bacterial isolation and DNA extraction should be performed in a general microbiological laboratory
adapted to work with the specific bacteria, including pathogens. For sequencing library preparation
that involves DNA amplification using polymerase chain reaction (PCR), pre- and post-PCR steps should
be carried out in different or segregated areas of the laboratory to avoid carryover-contamination.
5.2 Laboratory environment
Air movements, vibration, temperature and humidity can interfere with the performance of many
sequencers and should be considered in the placement of the equipment in the laboratory. Laboratories
should consult the sequencer manufacturer’s site preparation guide for specific guidance.
5.3 Standard operating procedures and nonconforming work
Laboratories should maintain and adhere to standardized operating procedures (SOPs), workflow
documents, reagent inventory controls and equipment maintenance logs. SOPs should include
procedures for using positive and negative controls for the DNA extraction, sequence library
preparation and sequencing steps. SOPs should include procedures for monitoring operations for run
quality and errors (sample misidentification or cross-contamination).
In the case of sample misidentification or contamination, the root cause of errors in sequencing shall be
investigated:
a) ensuring that runs containing misidentified samples, or samples contaminated with multiple
strains, are not used for bioinformatics analysis for sample interpretation or uploaded to databases;
b) implementing measures to maintain quality and prevent recurrence of errors.
5.4 Laboratory information management system
Sample information shall be captured using a LIMS or similar system of documenting and tracking
information.
5.5 Laboratory competence
Laboratories should maintain records documenting training, education and proficiency for individuals
performing sequencing and bioinformatics analysis, and sample retention policy.
The laboratory should monitor its performance for WGS analysis by comparison with results of other
laboratories, where available and appropriate. This monitoring should be planned and reviewed and
include, but not be limited to, one of the following, ideally annually:
a) participation in a proficiency testing programme;
b) participation in interlaboratory comparisons other than proficiency testing;
c) verification of the analytical process by introducing “blind” samples or samples whose
characteristics are not known by the operator.
Data (e.g. sequence data, run metrics, result reports provided by the organizing institution) from
these monitoring activities should be analysed, used to control and, if applicable, used to improve the
laboratory’s activities. If the results of the analysis of data from these monitoring activities are found
to be outside predefined criteria, appropriate actions should be taken to prevent incorrect results from
being used for sample analysis.
6 Laboratory operations
6.1 Sample preparation and storage
Any material to be sequenced (bacterial isolate or extracted genomic DNA) should be handled and stored
in a way that minimizes the risk of sample degradation, misidentification and cross-contamination.
6.2 Bacterial isolates
Bacterial isolates should be stored and cultured by processes that minimize the potential for
introducing genetic changes (e.g. loss of plasmids or polymorphisms introduced through culture and
passaging). If the laboratory receives a bacterial isolate, the laboratory shall ensure the purity of the
isolate and ideally confirm species before subsequent steps are performed. If there is concern that
potentially unstable elements (e.g. plasmids) can be lost from a sample during passage, then sequences
should ideally be collected from at least two biological replicates. The number of single colony passages
performed after receipt of the isolate should be noted in the sample metadata. Bacterial isolates should
be archived using methods such as freezing as a glycerol stock at −80 °C.
6.3 DNA isolation
For bacterial DNA isolation, an extraction procedure should be selected that is suitable for the
respective organism and provides DNA of sufficient quality with regard to the sequencing platform
used. Bacterial DNA isolation is influenced by a number of factors including cell type (Gram positive
or negative), growth phase (early, mid, late log or stationary) and culture medium. The quantity and
quality of DNA should be assessed and documented. Storage conditions will influence DNA integrity
and library preparation for certain sequencing technologies.
NOTE Some DNA extraction methods are better than others for the recovery of plasmids. If plasmids are
important for the specific application, an appropriate method can be used.
6.4 Library preparation and sequencing
6.4.1 Library preparation
The laboratory should follow the manufacturer’s recommended protocol. Procedures may be adapted
for specific needs, but all modifications shall be fully documented and validated.
NOTE Size-selection procedures used in some library preparation methods [e.g. in construction of large
insert size (> 2 kb) single molecule real time libraries] can result in the loss of small plasmids.
PCR enrichment of libraries can result in reduced library complexity and a reduction in the number of
distinct DNA molecules in the preparation. Library complexity can also be affected by the amount of
DNA starting material or the amount of DNA lost during library preparation clean-up steps. Library
[4]
complexity may be estimated using the method of Daley and Smith .
If there is a possibility that libraries will be used again, libraries shall be stored according to the
manufacturer’s recommendations. The laboratory shall document:
— the sample tracking method used (i.e. barcode or equivalent);
— the sequencing platform used;
— the operator who made the library;
— the date the library was made;
— the lot information for the kit(s) used.
Multiplexing samples (i.e. combining different single libraries, each of a single isolate, into a pool of
libraries to be sequenced) requires selection and assignment of barcodes to identify individual samples,
and is typically documented in a worksheet to allow association of sequence data with the correct
metadata. If all multiplexed samples are of the same bacterial genus (e.g. all Salmonella), steps should
be taken to ensure that equimolar DNA inputs are used (i.e. library normalization) and that the correct
sequence is associated with its corresponding metadata. If the multiplexed samples represent multiple
genera, then estimated coverage, genome size and library fragment size need to be considered when
estimating the amount of DNA to be included for each sample.
6.4.2 DNA sequencing
Sequencing instrumentation shall be operated and maintained as per the recommendations of the
manufacturer, and documentation of maintenance procedures shall be maintained. Platform-specific
sequencing metrics (e.g. cluster density, number of reads, average base quality) shall be recorded
and monitored for each sequencing run. Platform-specific recommendations to minimize carryover-
contamination are provided in Clause A.1.
6.4.3 Use of controls
When handling a bacterial isolate and DNA extract, the laboratory should use a water blank or non-
inoculated broth as negative control during DNA extraction to assess possible cross-contamination.
A positive extraction control to assess method efficiency can be included as deemed necessary. If the
library preparation involves multiplexing and PCR amplification steps, then it should include both
positive and negative controls. It is also recommended to consistently use the same DNA extract for the
positive control to allow for comparisons of sequencing quality from run to run. Recommendations for
using positive and negative controls are provided in Clause A.3.
6.4.4 Assessing raw read data quality
Base calling should be performed using software specific to the instrument and sequencing chemistry.
Metrics may be defined at run level and at sample level. Metrics shall be documented to evaluate the
quality of raw sequence data. These can include insert size, sequence length distribution, number
of reads and an assessment of base composition [i.e. AT/GC balance or TAGC (taxon annotated GC-
coverage) plot or equivalent]. Quality scores, and read length, and taxonomy check should be used for
an initial check of sequencing performance (see also 7.3). Coverage, as calculated by mapping reads
back to a de novo assembly or to an appropriate reference genome, should also be evaluated.
DNA sequence read quality and quantity impac
...
NORME ISO
INTERNATIONALE 23418
Première édition
2022-06
Microbiologie de la chaîne
alimentaire — Séquençage de
génome entier pour le typage et
la caractérisation génomique des
bactéries — Exigences générales et
recommandations
Microbiology of the food chain — Whole genome sequencing
for typing and genomic characterization of bacteria — General
requirements and guidance
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2022
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .v
Introduction . vi
1 Domaine d’application . 1
2 Références normatives .1
3 Termes et définitions . 1
4 Principe. 7
4.1 Généralités . 7
4.2 Opérations réalisées en laboratoire: préparation et séquençage de l’échantillon . 7
4.3 Analyse bioinformatique . 7
4.3.1 Généralités . 7
4.3.2 Analyses des SNP . 8
4.3.3 Analyses des MLST . 8
4.3.4 Analyse de la distance k-mer . 8
4.4 Formats de métadonnées et dépôt dans la base de données de séquences . 8
4.5 Validation et vérification du processus de WGS . 8
5 Recommandations générales pour le laboratoire . 9
5.1 Isolement bactérien et extraction de l’ADN . 9
5.2 Environnement du laboratoire . 9
5.3 Procédure opérationnelles normalisées et travaux non conformes . 9
5.4 Système de management de l’information des laboratoires . 9
5.5 Compétence du laboratoire . 9
6 Opérations du laboratoire .10
6.1 Préparation et stockage des échantillons . 10
6.2 Isolats bactériens . 10
6.3 Isolement de l’ADN . 10
6.4 Préparation de la librairie et séquençage . 10
6.4.1 Préparation de la librairie . 10
6.4.2 Séquençage de l’ADN . 11
6.4.3 Utilisation de contrôles . 11
6.4.4 Évaluation de la qualité des données de lectures brutes . 11
6.4.5 Stockage et rétention des échantillons et des données .12
7 Analyse bioinformatique des données .12
7.1 Exigences relatives aux pipelines et logiciels bioinformatiques utilisés pour
l’analyse des données.12
7.2 Connexion et documentation .12
7.3 Évaluations de qualité . .12
7.4 Analyses des SNP . 14
7.5 Analyses des MLST (cgMLST et wgMLST) . 14
7.6 Détection de gènes cibles . 14
7.7 Génération d’arbre phylogénétique ou de dendrogramme . 14
7.8 Métriques et fichiers journaux . 15
7.9 Interprétation et consignation des résultats des analyses bioinformatiques .15
7.9.1 Interprétation des résultats des pipelines bioinformatiques .15
7.9.2 Consignation des résultats des analyses génomiques .15
8 Métadonnées .16
8.1 Généralités . 16
8.2 Interopérabilité et pérennité des métadonnées . 16
8.2.1 Généralités . 16
8.2.2 Ontologies . 16
8.2.3 ISO WGS Slim . 16
8.3 Formatage des métadonnées au moyen du présent document . 17
iii
8.4 Métadonnées associées à la collecte d’échantillons . 17
8.5 Métadonnées associées à l’isolat . 18
8.6 Métadonnées associées à la séquence . 20
9 Bases de données de séquences .22
10 Validation et vérification .22
10.1 Validation .22
10.1.1 Généralités .22
10.1.2 Validation des opérations de laboratoire . 24
10.1.3 Validation du pipeline bioinformatique . 24
10.1.4 Validation du processus de bout en bout . 25
10.2 Vérification . . 26
10.2.1 Généralités . 26
10.2.2 Vérification des opérations de laboratoire . 26
10.2.3 Vérification du pipeline bioinformatique . 26
Annexe A (informative) Élaboration de métriques de qualité et utilisation de contrôles .27
Annexe B (informative) Champs de coordonnées du laboratoire .33
Annexe C (informative) Champs de localisation géographique de la collecte d’échantillon .35
Annexe D (informative) Champs d’historique de repiquage de l’isolat .36
Annexe E (informative) Champs de méthodes et de résultats pour l’antibiogramme .37
Annexe F (informative) Champs de détection des facteurs de virulence et de méthodes .39
Annexe G (informative) Métriques de contrôle qualité des séquences .40
Annexe H (informative) Spécifications des métadonnées .41
Annexe I (informative) Instructions pour l’intégration de l’ontologie Slim
par les développeurs de logiciels . 44
Bibliographie .49
iv
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir
www.iso.org/directives).
L’attention est attirée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www.iso.org/brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion
de l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles
techniques au commerce (OTC), voir www.iso.org/avant-propos.
Le présent document a été élaboré par le comité technique ISO/TC 34, Produits alimentaires, sous-comité
SC 9, Microbiologie, en collaboration avec le comité technique CEN/TC 463, Microbiologie de la chaîne
alimentaire, du Comité européen de normalisation (CEN) conformément à l’Accord de coopération
technique entre l’ISO et le CEN (Accord de Vienne).
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes
se trouve à l’adresse www.iso.org/fr/members.html.
v
Introduction
Le séquençage à haut débit (NGS, next generation sequencing) permet un accès rapide, économique, et
à haut débit à des séquences de génomes microbiens entiers et est appliqué en réponse à un nombre
croissant de problèmes dans le secteur de la microbiologie des aliments. Les séquences de génomes
entiers sont des représentations du potentiel biologique de l’organisme séquencé avec une résolution
à la base. Le séquençage de génomes entiers (WGS) offre des avantages significatifs par rapport aux
technologies existantes (par exemple, sérotypage, électrophorèse sur gel en champ pulsé, phénotype
de résistance aux antibiotiques) dans de nombreuses applications. Les analyses basées sur le WGS
sont utilisées par les laboratoires de santé publique pour détecter les épidémies, ainsi que pour
détecter les mutations, gènes et autres éléments génétiques caractérisant la virulence et le potentiel
de survie. L’industrie alimentaire s’intéresse à l’utilisation de séquences de génomes entiers pour
caractériser des isolats bactériens provenant d’ingrédients et de surfaces environnementales, afin de
mieux comprendre leur origine et leur écologie, et d’actualiser les modes opératoires dans le but de
réduire le risque. Des sociétés ont développé ou développent actuellement leur capacité de collecte et
d’analyse de données de séquences de génomes entiers. D’autres confient ces opérations techniques à
des laboratoires tiers, comme elles le font pour d’autres analyses microbiologiques.
Le présent document fournit des recommandations pour les parties à la fois de laboratoire et de
bioinformatique des séquences de génomes entiers, ainsi que pour les métadonnées associées relatives
aux micro-organismes bactériens d’origine alimentaire échantillonnés tout au long de la chaîne
alimentaire (par exemple, ingrédients, produits alimentaires, aliments pour animaux, environnement
de production). Bien que la microbiologie de la chaîne alimentaire comprenne les virus et les
champignons, le présent document concerne uniquement les bactéries. Le présent document est destiné
à être applicable à toutes les technologies disponibles actuellement de séquençage d’ADN. Il peut être
appliqué à l’analyse des données de séquences de génomes entiers au moyen d’un logiciel commercial,
libre de droits ou personnalisé. Il n’a pas vocation à spécifier les chimies de séquençage, les méthodes
analytiques, ni le logiciel d’analyse. Le présent document définit les bonnes pratiques de laboratoire,
de gestion des données et des métadonnées, afin de s’assurer que les analyses sont transparentes,
clairement consignées dans un rapport et utilisables dans des investigations. Le présent document est
destiné à être utilisé par les laboratoires pour le développement de leurs systèmes de management de
la qualité et de leurs opérations techniques. Les clients des laboratoires et les autorités réglementaires
peuvent également l’utiliser pour confirmer ou reconnaître la compétence des laboratoires. Le présent
document peut aussi être appliqué à d’autres domaines (par exemple, environnement, santé humaine,
santé animale).
vi
NORME INTERNATIONALE ISO 23418:2022(F)
Microbiologie de la chaîne alimentaire — Séquençage
de génome entier pour le typage et la caractérisation
génomique des bactéries — Exigences générales et
recommandations
AVERTISSEMENT — Afin de protéger la santé du personnel de laboratoire, il est essentiel que
la manipulation des cultures bactériennes soit effectuée uniquement dans des laboratoires
dotés d’un équipement approprié, sous le contrôle d’un microbiologiste expérimenté, et qu’un
grand soin soit apporté à l’élimination de l’ensemble des matériaux ayant servi à l’incubation.
Il convient que les utilisateurs du présent document connaissent les pratiques courantes de
laboratoire. Le présent document ne prétend pas couvrir tous les aspects de sécurité liés, le cas
échéant, à son utilisation. Il incombe à l’utilisateur de mettre en place des pratiques de santé et
de sécurité appropriées.
1 Domaine d’application
Le présent document spécifie les exigences minimales pour générer et analyser des données de
séquençage de génome entier (WGS) de bactéries provenant de la chaîne alimentaire. Ce processus peut
comprendre les étapes suivantes:
a) manipulation des cultures bactériennes;
b) isolement de l’ADN génomique axène;
c) préparation de la librairie, séquençage et évaluation de la qualité et du stockage des lectures de
séquences brutes d’ADN;
d) analyse bioinformatique visant à déterminer la parenté génétique et le contenu génétique, à prédire
le phénotype et à valider le pipeline bioinformatique;
e) capture des métadonnées et dépôt dans des bases de données de séquences;
f) validation du processus de WGS de bout en bout (adapté à l’application prévue).
Le présent document est applicable aux bactéries isolées à partir de ce qui suit:
— des produits destinés à la consommation humaine;
— des produits destinés à l’alimentation animale;
— des échantillons environnementaux prélevés dans des zones de production et de manipulation de
produits alimentaires et d’aliments pour animaux;
— des échantillons de production primaire.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
adaptateur
ADN possédant une séquence connue, qui est ajouté à l’extrémité d’un fragment de la librairie d’ADN afin
de faciliter le procédé de séquençage (par exemple, appariement sur la cellule en flux de séquençage)
3.2
annotation
procédé d’identification des gènes et autres caractéristiques sur des assemblages (3.4) génomiques
3.3
antibiogramme
synthèse des résultats des essais de sensibilité aux agents antimicrobiens réalisés pour un micro-
organisme spécifique, généralement représenté sous forme de tableau
3.4
assemblage
produit du procédé d’alignement et de fusion des séquences nucléotidiques lues ou lectures (3.38) en
séquences contiguës plus longues (contigs (3.10))
3.5
attribution des bases
base calling
procédé consistant à affecter des nucléotides et des scores de qualité à des emplacements dans les
lectures (3.38)
3.6
bioinformatique
collecte, stockage et analyse de données biologiques, y compris des séquences
3.7
pipeline bioinformatique
programmes individuels, scripts ou éléments de logiciels liés ensemble, dans lesquels le produit d’un
programme est utilisé comme entrée pour l’étape suivante de traitement des données
3.8
intercontamination
contamination des échantillons due à de précédentes analyses, transférée à l’analyse en cours
(par exemple, intercontamination de produits d’amplification de précédentes analyses de réaction
de polymérisation en chaîne (PCR) à l’analyse PCR en cours, ou intercontamination d’échantillons
séquencés précédemment d’un cycle de séquençage à un autre)
3.9
Chemical Entities of Biological Interest (ontologie)
ChEBI
ontologie (3.35) utilisée pour la description de petits composés chimiques
3.10
contig
fragment contigu de séquence d’ADN résultant de l’assemblage (3.4) de lectures (3.38) de séquences
d’ADN plus petites se chevauchant
3.11
vocabulaire contrôlé
jeu fini de valeurs qui correspondent aux seules valeurs admises pour un élément de données
[SOURCE: ISO 11238:2018, 3.18, modifié — La Note 1 à l’article a été supprimée.]
3.12
couverture
nombre de fois qu’une position de base donnée est lue dans un cycle de séquençage
Note 1 à l'article: Nombre de lectures (3.38) qui couvrent une position particulière.
[SOURCE: ISO 20397‑2:2021, 3.6, modifié — Le terme admis «profondeur de couverture» a été
supprimé.]
3.13
contamination croisée
contamination d’un échantillon (isolat (3.23) bactérien ou ADN) avec d’autres échantillons au cours de
la préparation d’une série d’échantillons d’ADN en vue de leur séquençage
3.14
échantillon d’ADN
portion d’ADN extraite de l’échantillon traité
3.15
assemblage préliminaire
assemblage (3.4) de génome de novo composé de contigs (3.10) sans ordre implicite, généralement
obtenu par séquençage tronqué de génome entier avec une technologie de séquençage générant des
lectures courtes
3.16
Environment Ontology
EnvO
ontologie (3.35) utilisée pour la description des caractéristiques environnementales et des habitats
3.17
FoodEx2 (ontologie)
FoodEx2
classification alimentaire normalisée et système de description développé par l’Autorité européenne de
sécurité des aliments (EFSA)
3.18
Food Ontology
FoodOn
ontologie (3.35) utilisée pour la description des produits alimentaires, des aliments pour animaux et de
la transformation des aliments
3.19
Gazetteer (ontologie)
GAZ
ontologie (3.35) utilisée pour la description des localisations géographiques
3.20
index
séquences oligonucléotidiques utilisées dans le procédé de préparation de librairies pour étiqueter
ou marquer par code‑barres l’ADN d’échantillons spécifiques afin de pouvoir combiner (multiplexer)
plusieurs échantillons (c’est-à-dire plusieurs librairies (3.25)) dans un groupe de librairies et de les
analyser au cours d’une seule réaction de séquençage
3.21
International Nucleotide Sequence Database Collaboration
INSDC
initiative conduite par la Base de données d’acides nucléiques du Japon (DDBJ), l’Institut européen de
bioinformatique du Laboratoire européen de biologie moléculaire (EMBL-EBI) et le National Center for
Biotechnology Information (NCBI)
3.22
séquençage de génome entier slim de l’Organisation internationale de normalisation
ISO WGS Slim
ontologie (3.35) slim contenant des champs interopérables et des termes relatifs à l’utilisation du WGS
(3.49) dans le secteur de la microbiologie de la chaîne alimentaire
3.23
isolat
population de cellules bactériennes en culture pure dérivée d’une souche (3.45) unique
3.24
k-mer
séquence possible de longueur k contenue dans une séquence de génome entier
3.25
librairie
collection de fragments d’ADN génomique provenant d’un isolat (3.23) unique, destinée à déterminer la
ou les séquences du génome
Note 1 à l'article: Une collection de librairies, chacune d’elle provenant d’un isolat unique, est appelée «groupe de
librairies» et est transférée dans un séquenceur en vue d’être analysée. Ce multiplexage de librairies permettrait
tout de même d’obtenir le résultat correspondant à un seul isolat si des index uniques étaient utilisés pour la
préparation de la librairie de chaque isolat unique.
Note 2 à l'article: Une librairie d’ADN mixte, c’est-à-dire provenant d’un mélange de plusieurs espèces, peut être
constituée. Cependant, ce type de librairie fait référence au séquençage métagénomique et est donc exclu du
domaine d’application du présent document.
3.26
système de management
systèmes qualité, administratifs et techniques qui gouvernent les opérations d’un organisme
Note 1 à l'article: Pour les besoins du présent document, l’« organisme » désigne le laboratoire.
3.27
alignement
utilisation d’un logiciel pour aligner les lectures (3.38) sur des séquences de référence
3.28
métadonnées
données qui définissent et décrivent d’autres données
[SOURCE: ISO/IEC 11179‑1:2015, 3.2.16]
3.29
données minimales pour appariement
MDM
informations nécessaires pour décrire la source de l’échantillon et la provenance d’une séquence
[1]
génomique, comme défini par le Global Microbial Identifier, mises en œuvre par l’International
Nucleotide Sequence Database Collaboration (3.21)
3.30
typage par séquençage multilocus
MLST
méthode d’analyse génomique visant à identifier les variants nucléotidiques au sein d’ensembles
prédéfinis de loci
Note 1 à l'article: Utilisé à l’origine pour sept loci, il est désormais appliqué à d’autres loci de la partie commune
du génome des souches pour la cgMLST ou aux loci du génome entier pour le wgMLST.
3.31
N50
longueur (N) telle que les contigs (3.10) de séquences de longueur N ou plus incluent la moitié des bases
de l’assemblage (3.4)
3.32
NCBITaxon
traduction automatique de la base de données taxonomiques du National Center for Biotechnology
Information (NCBI) en obo/owl
3.33
NG50
longueur (N) d’ADN telle que les contigs (3.10) de séquences de longueur N ou plus incluent la moitié des
bases du génome
3.34
Open Biological and Biomedical Ontology Foundry
OBO Foundry
collection d’ontologies (3.35) créée par un collectif de développeurs d’ontologie déterminés à collaborer
et à adhérer à des principes partagés
3.35
ontologie
vocabulaire contrôlé (3.11) organisé de manière hiérarchique, dans lequel les termes sont connectés par
des relations logiques
3.36
slim (ontologie)
ensemble de champs d’ontologie et termes annotés dans le cadre d’une collection donnée, souvent dans
un but spécifique, pouvant être extrait pour créer un fichier distinct de l’ontologie (3.35) d’origine
3.37
score Phred de qualité de séquence
Q
mesure de la probabilité (P) qu’une base soit attribuée de manière incorrecte à un emplacement donné
dans la séquence, exprimée comme:
QP=−10 lg
Note 1 à l'article: Un score Q30 indique une probabilité de 1 sur 1 000 qu’une base soit affectée de manière
incorrecte (c’est-à-dire que l’attribution des bases est exacte à 99,9 %).
3.38
lecture
séquence nucléotidique lue
séquence nucléotidique déduite d’un fragment d’ADN ou d’ARN
3.39
base de données de séquences
base de données dans laquelle des jeux de données de séquençage de génome entier (3.49) sont stockés
et gérés
Note 1 à l'article: Une base de données publique autorise le libre accès aux données, tandis qu’une base de données
privée ou fédérée limite l’accès aux données.
3.40
réplicat de séquençage
séquençage d’une colonie différente à partir du même isolat (3.23) obtenu à partir du
même échantillon, pour évaluer la variation biologique
3.41
réplicat de séquençage
reséquençage du même échantillon biologique ou de la même librairie (3.25) pour évaluer
la variation de séquence due aux équipements et au protocole
3.42
sérotype
schéma de classification basé sur la détection de protéines antigéniques ou la détection de séquences de
gènes codant les molécules situées à la surface des bactéries
3.43
polymorphisme d’un seul nucléotide
SNP
variant mononucléotidique (3.44) qui passe un seuil donné de qualité ou de fréquence
3.44
variant mononucléotidique
SNV
différences entre les nucléotides au même emplacement génomique de deux isolats (3.23) ou plus
3.45
souche
descendants d’un isolement unique en culture pure, généralement dérivés d’une seule colonie initiale
sur un milieu de croissance solide
Note 1 à l'article: Une souche peut être considérée comme un isolat (3.23) ou un groupe d’isolats pouvant être
distingué des autres isolats du même genre et de la même espèce par ses caractéristiques phénotypiques et
génotypiques.
Note 2 à l'article: Voir la Référence [2].
3.46
validation
étude des caractéristiques de performance d’une méthode et démonstration objective que les exigences
en termes de performance correspondent à l’utilisation prévue et spécifiée
[SOURCE: ISO 16140‑1:2016, 2.81]
3.47
entrée de données validées
procédé automatisé garantissant que les données saisies dans une base de données sont correctes
3.48
vérification
démonstration apportant la preuve que la méthode validée lorsqu’elle est appliquée par un laborantin
est conforme aux spécifications de la méthode déterminées lors de l’étude de validation et qu’elle est en
adéquation avec l’utilisation prévue
[SOURCE: ISO 16140‑3:2021, 3.21, modifié — La Note 1 à l’article a été supprimée.]
3.49
séquençage de génome entier
WGS
processus permettant la détermination de la séquence d’ADN du génome d’un organisme à partir de
l’ADN génomique total
4 Principe
4.1 Généralités
Les analyses de WGS des bactéries présentes dans la chaîne alimentaire humaine et animale consistent
à cultiver l’isolat bactérien pur, à purifier l’ADN dans un laboratoire de microbiologie, à conduire des
étapes de séquençage dans un environnement de séquençage approprié et à effectuer une analyse
bioinformatique dans un environnement informatique distinct.
NOTE Le laboratoire de microbiologie, le service de séquençage et le service de bioinformatique peuvent
appartenir à la même organisation.
4.2 Opérations réalisées en laboratoire: préparation et séquençage de l’échantillon
Il convient que la préparation et le séquençage de l’échantillon incluent les étapes suivantes:
a) des informations relatives aux isolats séquencés, incluant des codes-barres pour les échantillons
multiplexés, sont saisies dans les systèmes d’enregistrement appropriés, comme un système de
management de l’information des laboratoires (LIMS) et/ou des fiches de description d’échantillon;
b) des isolats purs (identifiés au moins au niveau du genre et dans l’idéal au niveau de l’espèce) sont
mis en culture et leur ADN génomique est extrait;
c) des librairies de séquençage d’ADN sont préparées à partir de l’ADN génomique, après avoir été
soumis à un contrôle qualité (voir le Tableau A.1 pour obtenir des recommandations relatives aux
métriques de qualité et de quantité de l’ADN). Il convient que ce procédé inclue:
1) la fragmentation de l’ADN, si nécessaire selon la technologie de séquençage appliquée;
2) la ligature des index et adaptateurs, selon les protocoles de la technologie de séquençage
appliquée;
3) la quantification, la normalisation et le contrôle qualité de la librairie résultante;
4) le regroupement des librairies en cas de cycles de séquençage multiplexé;
d) les librairies (c’est-à-dire les groupes de librairies) sont séquencées;
e) dans l’idéal, les métriques de qualité produites par l’équipement de séquençage sont enregistrées à
chaque série d’échantillons d’ADN à des fins de surveillance des performances.
4.3 Analyse bioinformatique
4.3.1 Généralités
Les pipelines pour l’analyse bioinformatique peuvent être axés sur des prédictions in silico de phénotype
(par exemple, virulence) ou la détection de groupes d’isolats génétiquement similaires (c’est-à-dire
mêmes souche, type de séquence ou sérotype). Des pipelines basés sur des approches comparatives
peuvent être utilisés pour détecter la présence et les états de marqueurs dans des données de
séquençage brutes et assemblées pour constituer une souche in silico (par exemple, type de séquence)
et des prédictions de phénotypes.
Les données de séquences d’isolats multiples peuvent être analysées en utilisant des méthodes d’analyse
SNP, MLST ou de la distance k‑mer afin d’identifier des groupes de bactéries étroitement apparentées.
Les résultats de ces analyses peuvent être utilisés pour déduire les relations entre les isolats, qui
peuvent être illustrées au moyen d’arbres phylogénétiques et de dendrogrammes.
4.3.2 Analyses des SNP
Pour les analyses des SNP, les lectures sont alignées sur une séquence de référence ou les lectures sont
assemblées en contigs qui sont comparés. Pour déterminer les SNP, un filtre qualité est appliqué aux
SNV afin d’identifier les emplacements des SNP.
4.3.3 Analyses des MLST
Pour les analyses des MLST, les lectures sont assemblées ou alignées. Les allèles sont identifiés, un filtre
qualité leur est appliqué et ils sont comparés à une base de données de cgMLST ou de wgMLST.
4.3.4 Analyse de la distance k-mer
Les données de séquence d’isolats multiples peuvent être analysées en utilisant les méthodes de
distances k‑mers afin d’identifier des groupes de bactéries apparentées. Les analyses de k‑mers ont
l’avantage d’être très rapides, mais présentent certaines limites notamment en matière de précision
(c’est-à-dire qu’elles sont applicables à la détermination des espèces, mais ne sont pas recommandées
pour l’analyse détaillée de suivi des sources de contamination portant sur des souches étroitement
apparentées).
4.4 Formats de métadonnées et dépôt dans la base de données de séquences
Les enregistrements des métadonnées doivent être créés et stockés de manière sécurisée pour toutes
les séquences. Il convient que les données de séquence et les métadonnées correspondantes soient
formatées et documentées de manière uniforme. Ces métadonnées peuvent être partagées uniquement
à la discrétion du propriétaire des métadonnées. Les données de séquence et les métadonnées
correspondantes doivent être soumises à des considérations liées à la sécurité, aux coûts et aux
bénéfices, aux droits de propriété intellectuelle, aux informations commerciales à caractère confidentiel,
aux restrictions par contrat et/ou autres accords écrits contraignants.
NOTE Les données de séquence et/ou les métadonnées peuvent faire l’objet d’une licence et/ou d’une
politique de confidentialité visant à protéger les informations privées ou exclusives.
[3]
Afin de favoriser les meilleures pratiques de gestion des données, le présent document propose
des formats facultatifs pour les rapports de métadonnées, qui sont harmonisés selon une norme
communautaire (par exemple, ontologies MDM ou OBO Foundry). Ces formats et ces normes facilitent
la reproductibilité et la compréhension commune de la terminologie. Un ISO WGS Slim a été créé
pour formater et fournir des valeurs pour les champs de métadonnées recommandés. Le WGS et les
métadonnées sélectionnées peuvent être transférés (téléchargés) dans une base de données publique.
4.5 Validation et vérification du processus de WGS
L’ensemble du processus de WGS doit être validé pour fournir l’assurance que les méthodes sont
adaptées à l’application prévue.
NOTE L’Article 10 et le Tableau 4 fournissent davantage de détails concernant la validation et la vérification
du processus de WGS.
5 Recommandations générales pour le laboratoire
5.1 Isolement bactérien et extraction de l’ADN
Il convient que l’isolement bactérien et l’extraction de l’ADN soient réalisés dans un laboratoire de
microbiologie générale adapté à la manipulation des bactéries spécifiques, y compris pathogènes.
Pour la préparation d’une librairie de séquençage impliquant une amplification de l’ADN par réaction
de polymérisation en chaîne (PCR), il convient que les étapes pré- et post-PCR soient réalisées dans des
zones différentes ou séparées du laboratoire, afin d’éviter les intercontaminations.
5.2 Environnement du laboratoire
Les mouvements, les vibrations, la température et l’humidité de l’air peuvent interférer avec les
performances de nombreux séquenceurs et il convient d’en tenir compte dans le positionnement de
l’équipement dans le laboratoire. Il convient que les laboratoires consultent le guide de préparation du
site du fabricant du séquenceur, afin d’obtenir des recommandations spécifiques.
5.3 Procédure opérationnelles normalisées et travaux non conformes
Il convient que les laboratoires tiennent à jour et respectent des procédures opérationnelles normalisées
(PON), des documents de processus, des contrôles d’inventaire de réactifs et des dossiers de
maintenance des équipements. Il convient que les PON incluent des procédures concernant l’utilisation
de contrôles positifs et négatifs pour les étapes d’extraction de l’ADN, de préparation des librairies de
séquences et de séquençage. Il convient que les PON incluent des procédures pour les opérations de
surveillance portant sur la qualité des séries d’échantillons d’ADN et les erreurs (mauvaise identification
d’échantillon ou contamination croisée).
En cas de mauvaise identification d’échantillon ou de contamination, l’analyse des causes premières des
erreurs dans le séquençage doit être réalisée:
a) en s’assurant que les séries d’échantillons d’ADN contenant des échantillons mal identifiés, ou
des échantillons contaminés par des souches multiples, ne sont pas utilisées pour l’analyse
bioinformatique à des fins d’interprétation des échantillons ni téléchargées dans les bases de
données;
b) en mettant en œuvre des mesures pour maintenir la qualité et éviter la répétition des erreurs.
5.4 Système de management de l’information des laboratoires
Les informations concernant les échantillons doivent être enregistrées dans un LIMS ou un système
similaire de documentation et de suivi des informations.
5.5 Compétence du laboratoire
Il convient que les laboratoires tiennent à jour des enregistrements documentant la formation,
l’éducation et les aptitudes des personnes réalisant le séquençage et l’analyse bioinformatique, ainsi
que la politique de conservation des échantillons.
Il convient que le laboratoire surveille ses performances dans le cadre de l’analyse WGS par comparaison
avec les résultats d’autres laboratoires, lorsqu’ils sont disponibles et s’il y a lieu. Il convient que cette
surveillance soit planifiée et examinée chaque année dans l’idéal, et qu’elle inclue, sans toutefois s’y
limiter, l’un des éléments suivants:
a) participation à un programme d’essai d’aptitude;
b) participation à des comparaisons interlaboratoires autres que des essais d’aptitude;
c) vérification du procédé d’analyse en introduisant des échantillons «aveugles», ou des échantillons
dont les caractéristiques ne sont pas connues de l’opérateur.
Il convient que les données (par exemple, les données de séquences, les métriques d’analyse, les
rapports de résultats fournis par l’institution organisatrice) issues de ces activités de surveillance
soient analysées et utilisées pour contrôler et, le cas échéant, améliorer les activités du laboratoire.
S’il s’avère que les résultats de l’analyse des données issues de ces activités de surveillance se situent en
dehors des critères prédéfinis, il convient de prendre des mesures appropriées pour éviter d’utiliser les
résultats incorrects dans l’analyse des échantillons.
6 Opérations du laboratoire
6.1 Préparation et stockage des échantillons
Il convient de manipuler et de stocker tout matériel à séquencer (isolat bactérien ou extrait d’ADN
génomique) de manière à réduire le plus possible le risque de dégradation de l’échantillon, de mauvaise
identification et de contamination croisée.
6.2 Isolats bactériens
Il convient de stocker et de cultiver les isolats bactériens en utilisant des procédés qui réduisent le
plus possible le risque d’introduction de changements génétiques (par exemple, perte de plasmides
ou introduction de polymorphismes par cultur
...










Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...