Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework

This document establishes general common organizational approaches, regardless of the type, size or nature of the applying organization, to ensure data quality for training and evaluation in analytics and machine learning (ML). It includes guidance on the data quality process for: - supervised ML with regard to the labelling of data used for training ML systems, including common organizational approaches for training data labelling; - unsupervised ML; - semi-supervised ML; - reinforcement learning; - analytics. This document is applicable to training and evaluation data that come from different sources, including data acquisition and data composition, data preparation, data labelling, evaluation and data use. This document does not define specific services, platforms or tools.

Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 4: Cadre pour le processus de qualité des données

Le présent document établit des approches organisationnelles communes générales, indépendamment du type, de la taille ou de la nature de l’organisme demandeur, afin de garantir la qualité des données pour l’entraînement et l’évaluation dans le cadre de l’analyse de données et de l’apprentissage automatique (AA). Il comprend des recommandations relatives au processus de qualité des données pour: — l’AA supervisé en ce qui concerne l’étiquetage des données utilisées pour entraîner les systèmes d’AA, y compris les approches organisationnelles communes pour l’étiquetage des données d’entraînement; — l’AA non supervisé; — l’AA semi-supervisé; — l’apprentissage par renforcement; — l’analyse de données. Le présent document s’applique aux données d’entraînement et d’évaluation provenant de différentes sources, y compris l’acquisition et la composition des données, la préparation des données, l’étiquetage des données, l’évaluation et l’utilisation des données. Le présent document ne définit pas de services, plateformes ou outils spécifiques.

General Information

Status
Published
Publication Date
14-Jul-2024
Current Stage
6060 - International Standard published
Start Date
15-Jul-2024
Due Date
30-Apr-2024
Completion Date
15-Jul-2024
Ref Project

Overview

ISO/IEC 5259-4:2024 - Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework defines a general organizational framework to ensure data quality for training and evaluation across analytics and multiple ML paradigms. The standard applies regardless of organization type or size and covers data lifecycle stages from acquisition and composition through preparation, labelling, evaluation, provisioning and decommissioning. It explicitly applies to supervised, unsupervised, semi‑supervised and reinforcement learning as well as analytics, and does not prescribe specific services, platforms or tools.

Key Topics and Requirements

  • Data Quality Process Framework (DQPF): Principles and a structured process for planning, evaluating, improving and validating data quality for ML and analytics.
  • Data requirements & planning: Defining data needs for training and evaluation, dataset composition and provenance.
  • Data acquisition & preparation: Best practices for sourcing, cleaning, transforming, encoding and de‑identifying data used in ML workflows.
  • Data labelling & annotation: Guidance on labelling methods, labelling specifications, task assignment, process control, quality checking and revision-especially for supervised ML.
  • ML‑specific processes: Tailored guidance for supervised, unsupervised, semi‑supervised and reinforcement learning, including recording and dataset handling.
  • Data provisioning & decommissioning: Procedures for releasing datasets to model pipelines and retiring datasets safely.
  • Roles of participants: Defined roles such as data planner, originator, collector, engineer, holder and user-to support accountability and process control.
  • Assessment & improvement: Data quality assessment metrics and iterative improvement mechanisms; process validation to ensure fitness for purpose.
  • Scope limitations: The standard addresses organizational approaches and processes, not particular tools or technical implementations.

Applications and Who Uses It

ISO/IEC 5259-4 is practical for organizations that build, evaluate or govern AI/ML systems, including:

  • Data scientists & ML engineers designing training and evaluation datasets.
  • Data engineers & platform teams implementing data pipelines, encoding and de‑identification.
  • Data quality, governance & compliance officers establishing organizational controls and audit trails.
  • Annotation vendors and labelling teams applying standardized labelling workflows and quality checks.
  • Analytics teams ensuring reliable inputs for statistical analysis and business intelligence.

Adopting this standard helps reduce bias, improve model reliability, and support regulatory compliance by formalizing data quality processes across ML lifecycle stages.

Related Standards

  • Part of the ISO/IEC 5259 series on AI data quality. ISO/IEC 5259-4:2024 complements other organizational and technical AI standards by focusing on the data quality process framework rather than tools or platforms.
Standard
ISO/IEC 5259-4:2024 - Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 4: Data quality process framework Released:15. 07. 2024
English language
28 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 5259-4:2024 - Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 4: Cadre pour le processus de qualité des données Released:11. 07. 2025
French language
30 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
REDLINE ISO/IEC 5259-4:2024 - Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 4: Cadre pour le processus de qualité des données Released:11. 07. 2025
French language
30 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


International
Standard
ISO/IEC 5259-4
First edition
Artificial intelligence — Data
2024-07
quality for analytics and machine
learning (ML) —
Part 4:
Data quality process framework
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique —
Partie 4: Cadre pour le processus de qualité des données
Reference number
© ISO/IEC 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
© ISO/IEC 2024 – All rights reserved
ii
Contents Page
Foreword .v
Introduction .vi
1 Scope .1
2 Normative references .1
3 Terms and definitions .1
4 Symbols and abbreviated terms.3
5 Data quality process principles .3
6 Data quality process framework .3
6.1 General .3
6.2 Data quality planning .5
6.3 Data quality evaluation .6
6.4 Data quality improvement .6
6.5 Data quality process validation .6
6.6 Using the DQPF .7
7 Data quality process for ML .7
7.1 General .7
7.2 Data requirements .8
7.3 Data planning . .9
7.4 Data acquisition .9
7.5 Data preparation .10
7.5.1 General .10
7.5.2 Supervised ML .10
7.5.3 Unsupervised ML .10
7.5.4 Semi-supervised ML .10
7.5.5 Dataset composition .11
7.5.6 Data labelling .11
7.5.7 Data annotation .11
7.5.8 Data quality assessment . 12
7.5.9 Data quality improvement . 13
7.5.10 Data de-identification . 15
7.5.11 Data encoding. .16
7.6 Data provisioning .16
7.6.1 General .16
7.6.2 Supervised ML .16
7.6.3 Unsupervised ML .16
7.6.4 Semi-supervised ML .16
7.7 Data decommissioning .16
8 Data labelling methods and process .17
8.1 General .17
8.2 Data labelling principles .17
8.3 Data labelling methods .17
8.4 Data labelling process .18
8.4.1 General .18
8.4.2 Labelling specifications .18
8.4.3 Labelling participant roles .18
8.4.4 Labelling tools or platforms .19
8.4.5 Labelling task establishment .19
8.4.6 Labelling task assignment .19
8.4.7 Labelling process control . 20
8.4.8 Labelling result quality checking . 20
8.4.9 Labelling result revision . . 20

© ISO/IEC 2024 – All rights reserved
iii
9 Roles of participants .21
9.1 General .21
9.2 Data planner .21
9.3 Data originator .21
9.4 Data collector .21
9.5 Data engineer .21
9.6 Data holder .21
9.7 Data user .21
10 Data quality process for semi-supervised ML .22
10.1 General . 22
10.2 Data requirements . 22
10.3 Data planning . . 22
10.4 Data acquisition . 22
10.5 Data preparation . 22
10.6 Data provisioning . 22
10.7 Data decommissioning . 23
11 Data quality process for reinforcement learning .23
11.1 General . 23
11.2 Data requirements . 23
11.3 Data planning . . 23
11.4 Data acquisition . 23
11.5 Data preparation . . 23
11.5.1 General process . 23
11.5.2 Data recording .24
11.6 Data provisioning .24
11.7 Data decommissioning .24
12 Data quality process for analytics.24
12.1 General .24
12.2 Data requirements .24
12.3 Data planning . .24
12.4 Data acquisition . 25
12.4.1 General . 25
12.4.2 Data loading . 25
12.4.3 Data storage . 25
12.5 Data preparation . 25
12.5.1 General . 25
12.5.2 Data cleaning . 25
12.5.3 Data transformation . 25
12.5.4 Data aggregation . 26
12.5.5 Data quality assessment . 26
12.5.6 Data quality improvement . 26
12.6 Data provisioning .27
12.7 Data decommissioning .27
Bibliography .28

© ISO/IEC 2024 – All rights reserved
iv
Foreword
ISO (the International Organization for Standardization) and IEC (the International Electrotechnical
Commission) form the specialized system for worldwide standardization. National bodies that are
members of ISO or IEC participate in the development of International Standards through technical
committees established by the respective organization to deal with particular fields of technical activity.
ISO and IEC technical committees collaborate in fields of mutual interest. Other international organizations,
governmental and non-governmental, in liaison with ISO and IEC, also take part in the work.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of document should be noted. This document was drafted in accordance with the editorial rules of the ISO/
IEC Directives, Part 2 (see www.iso.org/directives or www.iec.ch/members_experts/refdocs).
ISO and IEC draw attention to the possibility that the implementation of this document may involve the
use of (a) patent(s). ISO and IEC take no position concerning the evidence, validity or applicability of any
claimed patent rights in respect thereof. As of the date of publication of this document, ISO and IEC had not
received notice of (a) patent(s) which may be required to implement this document. However, implementers
are cautioned that this may not represent the latest information, which may be obtained from the patent
database available at www.iso.org/patents and https://patents.iec.ch. ISO and IEC shall not be held
responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO's adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT) see www.iso.org/iso/foreword.html.
In the IEC, see www.iec.ch/understanding-standards.
This document was prepared by Joint Technical Committee ISO/IEC JTC 1, Information technology,
Subcommittee SC 42, Artificial intelligence.
A list of all parts in the ISO/IEC 5259 series can be found on the ISO and IEC websites.
Any feedback or questions on this document should be directed to the user’s national standards
body. A complete listing of these bodies can be found at www.iso.org/members.html and
www.iec.ch/national-committees.

© ISO/IEC 2024 – All rights reserved
v
Introduction
Artificial intelligence (AI)-related products, systems or solutions have developed quickly in recent years. One
of the common characteristics of an AI system, especially for systems using supervised machine learning
(ML), is whether the AI system can be trained on a dataset before deployment or trained dynamically as the
system is used.
Data have been recognized as one of the most important aspects of ML-based AI systems. For all supervised,
semi-supervised, unsupervised and reinforcement learning approaches, data quality can be a primary
concern in creating and using data for training and evaluating ML systems. It has been shown that with more
accurate and richer data, the results of analytics and ML can be more useful and reliable. In addition, for
the development of supervised learning-based AI systems, a large number of task-specific labelled training
data is needed. This makes accurately labelled data one of the most important resources in the AI industry.
Nowadays, there is a verified market of industrial services and tools for training data labelling. This market
is now reaching a level of maturity that justifies the development of International Standards for the benefit
of providers and users of these services and tools to ensure high-quality labelled data.
This document describes the implementation of a standardized common procedure of data processing with
regard to data quality for analytics and ML. Clause 5 describes principles about data quality process and
Clause 6 describes a data quality process framework. Clause 7 describes the data quality process for ML
approaches, Clause 8 describes data labelling methods and process, Clause 9 provides roles of participants
in data quality processes, Clauses 10 and 11 then describe the additional considerations that apply to
semi-supervised learning and reinforcement learning. Clause 12 describes how the data quality process
framework applies to analytics.
This document provides the process framework on a detailed level which can be used to fulfil the
requirements specified in ISO/IEC 5259-3. It also links processes that are mapped on the data life cycle
model in ISO/IEC 5259-1.
© ISO/IEC 2024 – All rights reserved
vi
International Standard ISO/IEC 5259-4:2024(en)
Artificial intelligence — Data quality for analytics and
machine learning (ML) —
Part 4:
Data quality process framework
1 Scope
This document establishes general common organizational approaches, regardless of the type, size or nature
of the applying organization, to ensure data quality for training and evaluation in analytics and machine
learning (ML). It includes guidance on the data quality process for:
— supervised ML with regard to the labelling of data used for training ML systems, including common
organizational approaches for training data labelling;
— unsupervised ML;
— semi-supervised ML;
— reinforcement learning;
— analytics.
This document is applicable to training and evaluation data that come from different sources, including data
acquisition and data composition, data preparation, data labelling, evaluation and data use. This document
does not define specific services, platforms or tools.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content constitutes
requirements of this document. For dated references, only the edition cited applies. For undated references,
the latest edition of the referenced document (including any amendments) applies.
ISO/IEC 5259-1, Artificial intelligence — Data quality for analytics and machine leaning (ML) — Part 1:
Overview, terminology and examples
ISO/IEC 22989:2022, Information technology — Artificial intelligence — Artificial intelligence concepts and
terminology
ISO/IEC 23053:2022, Framework for Artificial Intelligence (AI) Systems Using Machine Learning (ML)
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO/IEC 5259-1, ISO/IEC 22989 and
ISO/IEC 23053 and the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/

© ISO/IEC 2024 – All rights reserved
3.1
outsourcing
subcontracting of an activity by an organization to an external organization
[SOURCE: ISO TS 22002-4:2013, 3.14, modified — Definition revised.]
3.2
stand-off annotation
annotation layered over primary data and serialized in a document separate from that containing the
primary data
[SOURCE: ISO 24612:2012, 2.7, modified — Note to entry removed.]
3.3
cloud service
one or more capabilities offered via cloud computing invoked using a defined interface
[SOURCE: ISO/IEC 22123-1:2023, 3.1.2]
3.4
data originator
party that created the data and that can have rights
Note 1 to entry: A data originator can be an individual person.
Note 2 to entry: The data originator can be distinct from the natural or legal person(s) mentioned in, described by, or
implicitly or explicitly associated with the data. For example, personally identifiable information (PII) can be collected
by a data originator that identifies other individuals. Those data subjects (PII principals) can also have rights in
relation to the data set.
Note 3 to entry: Rights can include the right to publicity, the right to display a name, the right to identity and the right
to prohibit data use in a way that offends honourable mention.
[SOURCE: ISO/IEC 23751:2022, 3.2]
3.5
bounding box
rectangular region enclosing annotated object
[SOURCE: ISO/IEC 30137-4:2021, 3.3, modified — Note to entry removed.]
3.6
segmentation
process of separating the objects of interest from their surroundings
Note 1 to entry: Segmentation can be applicable to 2D, 3D, raster or vector data.
[SOURCE: ISO/IEC 3532-1:2023, 3.1.13]
3.7
key-point
point of interest on an object

© ISO/IEC 2024 – All rights reserved
4 Symbols and abbreviated terms
AI artificial intelligence
AQL acceptance quality limit
DLC data life cycle
DQPF data quality process framework
IoT internet of things
JPEC joint photographic experts group
JSON JavaScript object notation
ML machine learning
MPEG moving picture experts group
PII personally identifiable information
XML extensible markup language
5 Data quality process principles
ISO/IEC 5259-1 defines data quality as a characteristic of data that the data meet the organization’s
requirements for a specified context.
Regardless of the data and evaluation methodology, the data quality process for analytics and ML should
be based on general principles that are used throughout the DLC model. Organizations should define and
document general data quality principles, taking into account the following aspects:
— the data and datasets are appropriate to the specified ML or analytics task;
— use of a data quality model based on data quality characteristics;
— validation of data quality according to data quality requirements using data quality measurements and
specified targets;
— verifying at each stage that the process is on track to meet these targets and other requirements;
— correctness and robustness under testing, including techniques such as adversarial testing that are
designed to identify errors;
— alignment with organizational requirements for security, privacy, fairness and ethics;
— protection of the health and well-being of annotators and other people involved in the data quality
process's execution;
— documentation of progress and adherence to specified principles and requirements.
6 Data quality process framework
6.1 General
Based on the principles in Clause 5, the aim of the DQPF is to enable organizations to manage data quality to
the extent the data meet requirements. Outcomes of the DQPF can include:
— data quality strategy;
© ISO/IEC 2024 – All rights reserved
— data quality plan;
— data quality requirements including a data quality model, data quality measures and targets;
— data quality work products (e.g. results of data quality measurements, failure reports, data improvement
and augmentation methods applied);
— guidance on improvement to the data quality processes;
— approval for the use of the data in the analytics or ML project.
Figure 1 — The overall DQPF and examples of outcomes
Figure 1 provides a basic structure of the DQPF. The components of the DQPF include:
— data quality planning: establish the data quality management plans by analysing data quality
requirements and data life cycle and determining the data quality management methods;
— data quality evaluation: measure and monitor data quality in the DLC model and provide results for the
data quality plans;
— data quality improvement: implement data quality improvement processes (e.g. data cleaning, transforms,
augmentation, scaling);
— data quality process validation: evaluate the data quality measures and processes to ensure the data
meet requirements and provide feedback to the data quality improvement process if needed.
Figure 2 describes the relationship between the DLC model in ISO/IEC 5259-1 and the DQPF. The DQPF can
be used throughout the overall DLC model to manage the data quality.

© ISO/IEC 2024 – All rights reserved
Key
data quality management flow
Figure 2 — The relationship between the DLC model and the DQPF
6.2 Data quality planning
The data quality planning process activities and outcomes include:
— activities:
— analyse the data quality requirements from the stakeholders in the data life cycle model;
1)
— build the data quality model as described in ISO/IEC 5259-1 and ISO/IEC 5259-2;
— determine the appropriate data quality measures as described in ISO/IEC 5259-2 and target values
for each measure;
— outcomes:
— data quality model;
— data quality measures;
— data quality measurements targets;
— data quality work products, such as results of data quality measurements, failure reports, data
improvement and augmentation methods applied.
1) Under preparation. Stage at the time of publication: ISO/IEC FDIS 5259-2:2024.

© ISO/IEC 2024 – All rights reserved
6.3 Data quality evaluation
The data quality evaluation process activities and outcomes include:
— activities:
— apply data quality measures;
— compare data quality measures results against established targets;
— assess whether data requirements are met;
— outcomes:
— documentation of the differences and impact analysis, between the results of data quality measures
and established targets;
— documentation of the data quality assessment.
6.4 Data quality improvement
The data quality improvement process activities and outcomes include:
— activities:
— apply data quality improvement methods as described in 7.5.9;
— repeat the data quality evaluation processes;
— outcomes:
— documentation of the data quality improvement methods used;
— documentation of the data quality assessment.
6.5 Data quality process validation
The data quality process validation activities and outcomes include:
— activities:
— assessment of whether the data meet requirements;
— if the data do not meet requirements, changes to some of the data quality processes are considered
and implemented;
— complete data provenance records (if used);
— outcomes:
— documentation of the data quality assessment;
— failure reports;
— guidance on the improvement of the data quality processes;
— approval for the use of the data for a specified context by appropriate stakeholders.
NOTE 1 The data quality process validation is accomplished by experts and other data quality stakeholders.
NOTE 2 Figure 3 shows how the data quality process validation can be used.

© ISO/IEC 2024 – All rights reserved
6.6 Using the DQPF
The DQPF provides additional detail for data quality management over the DLC model. Users of this document
should apply the DQPF in conjunction with the selected data quality processes described in this document.
For example, data quality planning in the DQPF can map to the detailed processes under the data planning
stage in the DLC model. Likewise, data quality evaluation in the DQPF can map to the data quality assessment
process under the data preparation stage of the DLC model.
Data that meets requirements is essential to training, testing and validating ML models and to data analytics
tasks. For ML, if the training, testing and validation data do not meet requirements, the output of trained
models can likewise fail to meet requirements. Acquired data is often not perfect (e.g. lack of accuracy, not
enough samples, outdated). A data quality process can be used to improve and optimize data to the extent
it then meets the organization’s requirements. Additionally, the data quality process itself can be improved
and optimized.
Figure 3 shows the relationship between data quality and data quality processes.
Figure 3 — Relationship between data quality and data quality processes
7 Data quality process for ML
7.1 General
The purpose of the data quality process described in this document is to provide guidance and good practices
that organizations can use to ensure that data used for ML meets requirements. The data quality process is
based on the DQPF described in Clause 6. The specifics of the data quality process used for a given ML task
will depend on:
— the ML task itself (e.g. image processing, forecasting, natural language processing);
— the approach to ML;
— ML processes;
— domain of application;
— data types;
© ISO/IEC 2024 – All rights reserved
— data quality requirements.
As shown in Figure 4, a data quality process can include:
— data requirements;
— data planning;
— data acquisition;
— data preparation;
— data provisioning;
— data decommissioning.
Figure 4 — Example of data quality process for supervised ML
7.2 Data requirements
Data requirements are based on the context of the ML task, application and approach, and set the stage for
the remainder of the data quality process. For the purposes of achieving data quality, the data requirements
should include determining and documenting at least the following aspects:
— necessary features in the data;
— necessary quantity of data;
— provenance;
— acceptable bias;
— statistical properties;
— representativeness in terms of the behaviours, demographics and geographies of the subjects of the
ML model;
— data quality model based on selected data quality characteristics;
— appropriate data quality measures;
— targets for data quality measures;
— legal requirements.
© ISO/IEC 2024 – All rights reserved
7.3 Data planning
Data planning builds on the data requirements processes and can ensure that plans and resources are in
place to successfully execute the data quality process. The data planning process should consider at least the
following elements:
— data model or data architecture necessary to achieve the data requirements;
— plan for acquiring the necessary data as identified by the data requirements;
— plan for ensuring the acquired data are of sufficient quantity and are suitable for the ML or analytics task;
— roles, skills and people necessary to execute the data quality process;
— IT and other resources necessary to execute the data quality process;
— time and budget necessary to execute the data quality process;
— plan for executing data quality measures according to the data quality model;
— plan for meeting legal requirements;
— plan for adhering to the data quality process principles;
— plan for identifying and mitigating any gaps or deficiencies found in the acquired data.
7.4 Data acquisition
Data used to develop an ML model can come from different sources (e.g. IoT systems, transaction processing,
surveys, still images, videos, sounds, web forms, synthetic data generators) with various data types (e.g.
numbers, text, binary), data formats (e.g. XML, JSON, delimiter separated values, JPEG, MPEG) and schema.
The organization can already possess the data identified by the data requirements or the organization can
collect new data. In some cases, the data can come from streamed or near real-time sources (e.g. social media
feeds, search engines) and can be used to continuously improve the AI model.
The data acquisition process should consider at least the following elements:
— adherence to the elements identified in the data planning process;
— adherence to the data quality process principles;
— key data properties as determined by the data requirements process, for example:
— provenance;
— bias;
— reliability;
— validity;
— data types;
— schema;
— format.
— context of the data within the development of the ML model, for example:
— training;
— validation;
— testing;
© ISO/IEC 2024 – All rights reserved
— production.
— coverage (e.g. demographics, behaviours, geographies).
For still images and videos, key data properties include:
— resolution;
— clarity;
— light;
— colour;
— background noise.
Once acquired, the quality of the data should be further assessed according to 7.5.8.
7.5 Data preparation
7.5.1 General
The objective of the data preparation process is to get the data to a state where it can successfully be used to
develop an ML model and the performance of the model meets the organization’s requirements.
The data preparation process should consider at least the following elements:
— dataset composition;
— data labelling;
— data annotation;
— data quality assessment relative to the data quality measure targets established in the data requirements
process;
— data quality improvement:
— data cleaning;
— data standardization;
— data normalization;
— data imputation.
— data de-identification;
— data encoding.
7.5.2 Supervised ML
Supervised ML can make use of all the elements described in 7.5.1.
7.5.3 Unsupervised ML
Unsupervised ML does not make use of labelled data but can use the other elements described in 7.5.1.
7.5.4 Semi-supervised ML
Semi-supervised ML is a hybrid of supervised and unsupervised learning and can make use of all of the
elements described in 7.5.1.
© ISO/IEC 2024 – All rights reserved
7.5.5 Dataset composition
ISO/IEC 23053 describes dataset composition as a process of selecting and compiling data into a single
dataset that are then used to train or evaluate an ML model. It can be necessary to combine, reorganize or
augment acquired data to create a dataset appropriate for the ML task, application and approach. Examples
of dataset composition processes can include:
— appending data from multiple sources;
— selecting data for specific features in the acquired data;
— splitting features (e.g. splitting a date feature into day, month and year features);
— appending synthetic data;
— sub-sampling the acquired data (e.g. sub-sampling a 16 kHz audio stream to 8 kHz, select 12 random
students from 100 in a course vs. selecting 1 each from those with birthday in a particular month);
— random sampling: every sample in the dataset has an equal chance of being selected;
— stratified sampling: the data are divided into subgroups based on relevant features, such as gender
and age range; sampling is conducted to ensure that every subgroup is accurately represented.
Datasets can have different formats that are determined by the data providers. To ensure that the datasets
with different formats can be processed consistently by a certain ML tool, the datasets can be transformed,
serialized and stored in a wrapped form, where the metadata, data samples and labels are well organized, to
improve data quality when the data are used.
Common components and their semantics can then be abstracted and specified. With this approach, the
reuse, exchange, storage, access and comparison of datasets can be facilitated. Common components of a
dataset in a wrapped form include the following:
— Index: a component that can be used to facilitate dataset browsing and accessing. It contains the
information related to the directories, names and offsets of samples and label files.
— Head: a component that can be used to record the organization information inside a dataset. It
...


Norme
internationale
ISO/IEC 5259-4
Première édition
Intelligence artificielle — Qualité
2024-07
des données pour les analyses
de données et l’apprentissage
automatique (AA) —
Partie 4:
Cadre pour le processus de qualité
des données
Artificial intelligence — Data quality for analytics and machine
learning (ML) —
Part 4: Data quality process framework
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
ii
Sommaire Page
Avant-propos .v
Introduction .vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles et abréviations . 3
5 Principes du processus de qualité des données . 3
6 Cadre pour le processus de qualité des données . 4
6.1 Généralités .4
6.2 Planification de la qualité des données .5
6.3 Évaluation de la qualité des données .6
6.4 Amélioration de la qualité des données .6
6.5 Validation du processus de qualité des données .6
6.6 Utilisation du CPQD .7
7 Processus de qualité des données pour l’AA . 7
7.1 Généralités .7
7.2 Exigences en matière de données .8
7.3 Planification des données .9
7.4 Acquisition des données.9
7.5 Préparation des données .10
7.5.1 Généralités .10
7.5.2 AA supervisé .11
7.5.3 AA non supervisé .11
7.5.4 AA semi-supervisé .11
7.5.5 Composition de l’ensemble de données .11
7.5.6 Étiquetage des données . 12
7.5.7 Annotation des données . 12
7.5.8 Évaluation de la qualité des données . 13
7.5.9 Amélioration de la qualité des données . 13
7.5.10 Dé-identification des données .16
7.5.11 Encodage des données . . .16
7.6 Mise à disposition des données .17
7.6.1 Généralités .17
7.6.2 AA supervisé .17
7.6.3 AA non supervisé .17
7.6.4 AA semi-supervisé .17
7.7 Mise hors service des données .17
8 Méthodes et processus d’étiquetage des données .18
8.1 Généralités .18
8.2 Principes d’étiquetage des données .18
8.3 Méthodes d’étiquetage des données .18
8.4 Processus d’étiquetage des données .19
8.4.1 Généralités .19
8.4.2 Spécifications d’étiquetage . . .19
8.4.3 Rôles des participants à l’étiquetage . 20
8.4.4 Outils ou plateformes d’étiquetage . 20
8.4.5 Établissement des tâches d’étiquetage . 20
8.4.6 Attribution des tâches d’étiquetage . 20
8.4.7 Contrôle du processus d’étiquetage .21
8.4.8 Vérification de la qualité des résultats d’étiquetage .21
8.4.9 Révision des résultats d’étiquetage . 22

© ISO/IEC 2024 – Tous droits réservés
iii
9 Rôles des participants .22
9.1 Généralités . 22
9.2 Planificateur de données . 23
9.3 Créateur de données . 23
9.4 Collecteur de données . 23
9.5 Ingénieur données . 23
9.6 Détenteur de données . 23
9.7 Utilisateur des données . 23
10 Processus de qualité des données pour l’AA semi-supervisé .23
10.1 Généralités . 23
10.2 Exigences en matière de données .24
10.3 Planification des données .24
10.4 Acquisition des données.24
10.5 Préparation des données .24
10.6 Mise à disposition des données .24
10.7 Mise hors service des données .24
11 Processus de qualité des données pour l’apprentissage par renforcement .25
11.1 Généralités . 25
11.2 Exigences en matière de données . 25
11.3 Planification des données . 25
11.4 Acquisition des données. 25
11.5 Préparation des données . 25
11.5.1 Processus général . 25
11.5.2 Enregistrement des données . 26
11.6 Mise à disposition des données . 26
11.7 Mise hors service des données . 26
12 Processus de qualité des données pour l’analyse de données .26
12.1 Généralités . 26
12.2 Exigences en matière de données . 26
12.3 Planification des données .27
12.4 Acquisition des données.27
12.4.1 Généralités .27
12.4.2 Chargement des données .27
12.4.3 Stockage des données .27
12.5 Préparation des données .27
12.5.1 Généralités .27
12.5.2 Nettoyage des données .27
12.5.3 Transformations des données . 28
12.5.4 Agrégation des données . 28
12.5.5 Évaluation de la qualité des données . 28
12.5.6 Amélioration de la qualité des données . 28
12.6 Mise à disposition des données . 29
12.7 Mise hors service des données . 29
Bibliographie .30

© ISO/IEC 2024 – Tous droits réservés
iv
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique.
Les comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de
brevets, disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être
tenues pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.

© ISO/IEC 2024 – Tous droits réservés
v
Introduction
Les produits, systèmes ou solutions liés à l’intelligence artificielle (IA) se sont rapidement développés ces
dernières années. L’une des caractéristiques communes des systèmes d’IA, en particulier pour les systèmes
utilisant l’apprentissage automatique (AA) supervisé, est de savoir si le système d’IA peut être entraîné
sur un ensemble de données avant son déploiement ou s’il peut être entraîné dynamiquement pendant
l’utilisation du système.
Les données ont été reconnues comme l’un des aspects les plus importants des systèmes d’IA basés sur l’AA.
Pour toutes les approches d’apprentissage supervisé, semi-supervisé, non supervisé et par renforcement, la
qualité des données peut être une préoccupation principale lors de la création et de l’utilisation des données
pour entraîner et évaluer les systèmes d’AA. Il a été démontré qu’avec des données plus exactes et plus
riches, les résultats de l’analyse de données et de l’AA peuvent être plus utiles et plus fiables. En outre, pour
le développement de systèmes d’IA basés sur l’apprentissage supervisé, il est nécessaire de disposer d’un
grand nombre de données d’entraînement étiquetées et spécifiques à une tâche. Les données étiquetées avec
exactitude constituent donc l’une des ressources les plus importantes de l’industrie de l’IA. Aujourd’hui, il
existe un marché vérifié de services industriels et d’outils pour l’étiquetage des données d’entraînement.
Ce marché atteint aujourd’hui un niveau de maturité qui justifie l’élaboration de Normes internationales
au profit des fournisseurs et utilisateurs de ces services et outils afin d’assurer des données étiquetées de
haute qualité.
Le présent document décrit la mise en œuvre d’une procédure commune normalisée de traitement des
données, orientée sur la qualité des données qui sont utilisées à des fins d’analyse et d’AA. L’Article 5 décrit
les principes relatifs au processus de qualité des données et l’Article 6 décrit un cadre pour le processus de
qualité des données. L’Article 7 décrit le processus de qualité des données pour les approches d’AA, l’Article 8
décrit les méthodes et le processus d’étiquetage des données, l’Article 9 fournit les rôles des participants aux
processus de qualité des données, les Articles 10 et 11 décrivent ensuite les considérations supplémentaires
qui s’appliquent à l’apprentissage semi-supervisé et à l’apprentissage par renforcement. L’Article 12 décrit la
manière dont le cadre pour le processus de qualité des données s’applique à l’analyse de données.
Le présent document fournit un cadre de processus détaillé qui peut être utilisé pour satisfaire aux exigences
spécifiées dans l’ISO/IEC 5259-3. Il relie également les processus qui sont mis en correspondance sur le
modèle de cycle de vie des données de l’ISO/IEC 5259-1.

© ISO/IEC 2024 – Tous droits réservés
vi
Norme internationale ISO/IEC 5259-4:2024(fr)
Intelligence artificielle — Qualité des données pour les
analyses de données et l’apprentissage automatique (AA) —
Partie 4:
Cadre pour le processus de qualité des données
1 Domaine d’application
Le présent document établit des approches organisationnelles communes générales, indépendamment du
type, de la taille ou de la nature de l’organisme demandeur, afin de garantir la qualité des données pour
l’entraînement et l’évaluation dans le cadre de l’analyse de données et de l’apprentissage automatique (AA). Il
comprend des recommandations relatives au processus de qualité des données pour:
— l’AA supervisé en ce qui concerne l’étiquetage des données utilisées pour entraîner les systèmes d’AA, y
compris les approches organisationnelles communes pour l’étiquetage des données d’entraînement;
— l’AA non supervisé;
— l’AA semi-supervisé;
— l’apprentissage par renforcement;
— l’analyse de données.
Le présent document s’applique aux données d’entraînement et d’évaluation provenant de différentes
sources, y compris l’acquisition et la composition des données, la préparation des données, l’étiquetage des
données, l’évaluation et l’utilisation des données. Le présent document ne définit pas de services, plateformes
ou outils spécifiques.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour
les références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO/IEC 5259-1, Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage
automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples
ISO/IEC 22989:2022, Technologies de l'information — Intelligence artificielle — Concepts et terminologie
relatifs à l'intelligence artificielle
ISO/IEC 23053:2022, Cadre pour les systèmes d'intelligence artificielle (IA) qui utilisent l'apprentissage machine (ML)
3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l’ISO/IEC 5259-1, l’ISO/IEC 22989,
l’ISO/IEC 23053 ainsi que les suivants s’appliquent.

© ISO/IEC 2024 – Tous droits réservés
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
externalisation
toute activité sous-traitée par un organisme à un organisme externe
[SOURCE: ISO TS 22002-4:2013, 3.14, modifié — La définition a été révisée.]
3.2
annotation déportée
annotation superposée aux données primaires et sérialisée dans un document distinct de celui contenant les
données primaires
[SOURCE: ISO 24612:2012, 2.7, modifié — La note à l’article a été supprimée.]
3.3
service informatique en nuage
ensemble de fonctionnalités offertes par l’intermédiaire de l’informatique en nuage, auquel il est fait appel
au moyen d’une interface définie
[SOURCE: ISO/IEC 22123-1:2023, 3.1.2]
3.4
créateur de données
partie qui a créé les données et qui peut avoir des droits
Note 1 à l'article: Un créateur de données peut être une personne physique.
Note 2 à l'article: Le créateur de données peut être distinct de la ou des personnes physiques ou morales mentionnées
dans les données, décrites par ces dernières, ou associées implicitement ou explicitement à celles-ci. Par exemple,
des données à caractère personnel (DCP) peuvent être recueillies par un créateur de données qui identifie d’autres
personnes. Les personnes concernées (également appelées «personnes concernées par des DCP ») peuvent également
avoir des droits, en relation avec l’ensemble de données.
Note 3 à l'article: Les droits peuvent inclure le droit à la publicité, le droit d’afficher un nom, le droit à l’identité, le droit
d’interdire l’utilisation des données d’une manière qui offense une mention honorable.
[SOURCE: ISO/IEC 23751:2022, 3,2, modifié: suppression des notes à l’article.]
3.5
zone de délimitation
région rectangulaire qui entoure l’objet annoté
[SOURCE: ISO/IEC 30137-4:2021, 3.3, modifié — La Note à l’article a été supprimée.]
3.6
segmentation
processus de séparation des objets d’intérêt de leur environnement
Note 1 à l'article: La segmentation peut s’appliquer aux données 2D, 3D, de trame ou vectorielles.
[SOURCE: ISO/IEC 3532-1:2023, 3.1.13]
3.7
point clé
point d’intérêt sur un objet
© ISO/IEC 2024 – Tous droits réservés
4 Symboles et abréviations
AA apprentissage automatique
CPQD cadre pour le processus de qualité des données
CVD cycle de vie des données
DCP données à caractère personnel
IA intelligence artificielle
IoT Internet of things (Internet des objets)
JPEG joint photographic experts group (format de fichiers images)
JSON JavaScript object notation (format de notation d’objet JavaScript)
MPEG moving picture experts group (format de fichiers vidéo)
NQA niveau de qualité acceptable
XML extensible markup language (langage de balisage extensible)
5 Principes du processus de qualité des données
L’ISO/IEC 5259-1 définit la qualité des données comme une caractéristique des données selon laquelle les
données satisfont aux exigences de l’organisme en matière de données pour un contexte spécifié.
Indépendamment des données et de la méthodologie d’évaluation, il convient que le processus de qualité
des données pour l’analyse de données et l’AA repose sur les principes généraux utilisés dans l’ensemble
du modèle de cycle de vie des données (CVD). Il convient que les organismes définissent et documentent les
principes généraux de qualité des données, en tenant compte des aspects suivants:
— les données et les ensembles de données sont adaptés à la tâche d’AA ou d’analyse de données spécifiée;
— l’utilisation d’un modèle de qualité des données basé sur les caractéristiques de qualité des données;
— la validation de la qualité des données conformément aux exigences de qualité des données en utilisant
des mesurages de la qualité des données et les objectifs spécifiés;
— la vérification, à chaque étape, que le processus est en bonne voie pour atteindre ces objectifs et d’autres
exigences;
— la justesse et la robustesse lors des tests, y compris les techniques telles que les tests contradictoires qui
sont conçus pour identifier les erreurs;
— l’alignement sur les exigences organisationnelles en matière de sécurité, de protection des données,
d’équité et d’éthique;
— la protection de la santé et du bien-être des annotateurs et des autres personnes impliquées dans
l’exécution du processus de qualité des données;
— la documentation de l’avancement et du respect des principes et exigences spécifiés.

© ISO/IEC 2024 – Tous droits réservés
6 Cadre pour le processus de qualité des données
6.1 Généralités
Sur la base des principes de l’Article 5, l’objectif du CPQD est de permettre aux organismes de gérer la qualité
des données dans la mesure où celles-ci satisfont aux exigences. Les résultats du CPQD peuvent inclure:
— la stratégie de qualité des données;
— le plan de qualité des données;
— les exigences de qualité des données, y compris un modèle de qualité des données, des mesures de la
qualité des données et des objectifs;
— les livrables de qualité des données (par exemple, les résultats des mesurages de la qualité des données,
les rapports de défaillance, les méthodes d’amélioration et d’augmentation des données appliquées);
— des recommandations concernant l’amélioration des processus de qualité des données;
— une approbation d’utilisation des données dans le cadre du projet d’analyse de données ou d’AA.
Figure 1 — CPQD global et exemples de résultats
La Figure 1 représente une structure de base du CPQD. Les composantes du CPQD comprennent:
— la planification de la qualité des données: établir les plans de gestion de la qualité des données en analysant
les exigences de qualité des données et le cycle de vie des données et en déterminant les méthodes de
gestion de la qualité des données;
— l’évaluation de la qualité des données: mesurer et surveiller la qualité des données dans le modèle CVD
et fournir des résultats pour les plans de qualité des données;
— l’amélioration de la qualité des données: mettre en œuvre des processus d’amélioration de la qualité des
données (par exemple, nettoyage des données, transformations, augmentation, mise à l’échelle);

© ISO/IEC 2024 – Tous droits réservés
— la validation du processus de qualité des données: évaluer les mesures et les processus de qualité des
données pour s’assurer que les données satisfont aux exigences et fournir un retour d’information au
processus d’amélioration de la qualité des données si nécessaire.
La Figure 2 décrit la relation entre le modèle CVD de l’ISO/IEC 5259-1 et le CPQD. Le CPQD peut être utilisé
dans l’ensemble du modèle CVD pour gérer la qualité des données.
Légende
flux de gestion de la qualité des données
Figure 2 — Relation entre le modèle CVD et le CPQD
6.2 Planification de la qualité des données
Les activités et résultats du processus de planification de la qualité des données comprennent:
— des activités:
— analyser les exigences de qualité des données des parties prenantes dans le modèle de cycle de vie
des données;
1)
— élaborer le modèle de qualité des données comme décrit dans l’ISO/IEC 5259-1 et l’ISO/IEC 5259-2 ;
— déterminer les mesures appropriées de la qualité des données comme décrit dans l’ISO/IEC 5259-2
et des valeurs cibles pour chaque mesure;
— des résultats:
— modèle de qualité des données;
— mesures de la qualité des données;
— objectifs des mesurages de la qualité des données;
— livrables de qualité des données tels que les résultats des mesurages de la qualité des données, les
rapports de défaillance, les méthodes d’amélioration et d’augmentation des données appliquées.
1) En cours d’élaboration. Stade au moment de la publication : ISO/IEC FDIS 5259-2:2024.

© ISO/IEC 2024 – Tous droits réservés
6.3 Évaluation de la qualité des données
Les activités et les résultats du processus d’évaluation de la qualité des données comprennent:
— des activités:
— appliquer les mesures de la qualité des données;
— comparer les résultats des mesures de la qualité des données avec les objectifs établis;
— évaluer si les exigences en matière de données sont satisfaites;
— des résultats:
— documentation des différences et de l’analyse d’impact, entre les résultats des mesures de la qualité
des données et les objectifs établis;
— documentation de l’évaluation de la qualité des données.
6.4 Amélioration de la qualité des données
Les activités et les résultats du processus d’amélioration de la qualité des données comprennent:
— des activités:
— appliquer les méthodes d’amélioration de la qualité des données décrites en 7.5.9;
— répéter les processus d’évaluation de la qualité de données;
— des résultats:
— documentation des méthodes d’amélioration de la qualité des données utilisées;
— documentation de l’évaluation de la qualité des données.
6.5 Validation du processus de qualité des données
Les activités et les résultats de la validation du processus de qualité des données comprennent:
— des activités:
— évaluer si les données satisfont aux exigences;
— si les données ne satisfont pas aux exigences, des modifications de certains processus de qualité des
données sont envisagées et mises en œuvre;
— compléter les registres de provenance des données (le cas échéant);
— des résultats:
— documentation de l’évaluation de la qualité des données;
— rapports de défaillance;
— recommandations relatives à l’amélioration des processus de qualité des données;
— approbation d’utilisation des données pour un contexte spécifié par les parties prenantes concernées.
NOTE 1 La validation du processus de qualité des données est réalisée par des experts et d’autres parties prenantes
de la qualité des données.
NOTE 2 La Figure 3 montre comment utiliser la validation du processus de qualité des données.

© ISO/IEC 2024 – Tous droits réservés
6.6 Utilisation du CPQD
Le CPQD fournit des détails supplémentaires pour la gestion de la qualité des données dans le cadre du
modèle CVD. Il convient que les utilisateurs du présent document appliquent le CPQD conjointement aux
processus de qualité des données sélectionnés décrits dans le présent document.
Par exemple, la planification de la qualité des données dans le CPQD peut correspondre aux processus
détaillés de l’étape de planification des données dans le modèle CVD. De même, l’évaluation de la qualité des
données dans le CPQD peut correspondre au processus d’évaluation de la qualité des données dans le cadre
de l’étape de préparation des données du modèle CVD.
Pour l’entraînement, les tests et la validation des modèles d’AA, ainsi que pour les tâches d’analyse de données,
il est essentiel de disposer de données qui satisfont aux exigences. Pour l’AA, si les données d’entraînement,
de test et de validation ne satisfont pas aux exigences, les extrants des modèles entraînés peuvent également
ne pas satisfaire aux exigences. Souvent, les données acquises ne sont pas parfaites (par exemple, manque
d’exactitude, échantillons insuffisants, obsolescence). Un processus de qualité des données peut être utilisé
pour améliorer et optimiser les données dans la mesure où il satisfait aux exigences de l’organisme. De plus,
le processus de qualité des données à proprement parler peut être amélioré et optimisé.
La Figure 3 représente la relation entre la qualité des données et les processus de qualité des données.
Figure 3 — Relation entre la qualité des données et les processus de qualité des données
7 Processus de qualité des données pour l’AA
7.1 Généralités
La finalité du processus de qualité des données décrit dans le présent document est de fournir des
recommandations et de bonnes pratiques que les organismes peuvent utiliser pour s’assurer que les données
utilisées pour l’AA satisfont aux exigences. Le processus de qualité des données s’appuie sur le CPQD décrit
à l’Article 6. Les spécificités du processus de qualité des données utilisé pour une tâche d’AA donnée
dépendent:
— de la tâche d’AA elle-même (par exemple, traitement d’images, prévision, traitement du langage naturel);
— de l’approche d’AA;
— des processus d’AA;
© ISO/IEC 2024 – Tous droits réservés
— du domaine d’application;
— des types de données;
— des exigences de qualité des données.
Comme représenté à la Figure 4, un processus de qualité des données peut inclure:
— les exigences en matière de données;
— la planification des données;
— l’acquisition des données;
— la préparation des données;
— la mise à disposition des données;
— la mise hors service des données.
Figure 4 — Exemple de processus de qualité des données pour l’AA supervisé
7.2 Exigences en matière de données
Les exigences en matière de données sont basées sur le contexte de la tâche, de l’application et de l’approche
d’AA et préparent le terrain pour le reste du processus de qualité des données. Pour garantir la qualité des
données, il convient que les exigences en matière de données comprennent au moins la détermination et la
documentation des aspects suivants:
— les caractéristiques nécessaires dans les données;
— la quantité nécessaire de données;
— la provenance;
— le biais acceptable;
— les propriétés statistiques;
— la représentativité du modèle d’AA en ce qui concerne les aspects comportementaux, démographiques et
géographiques des personnes concernées;
— le modèle de qualité des données basé sur des caractéristiques de qualité des données sélectionnées;

© ISO/IEC 2024 – Tous droits réservés
— les mesures de la qualité des données appropriées;
— les objectifs des mesures de la qualité des données;
— les exigences légales.
7.3 Planification des données
La planification des données s’appuie sur les processus d’exigences en matière de données et peut permettre
de s’assurer que des plans et des ressources sont en place pour exécuter avec succès le processus de qualité
des données. Il convient que le processus de planification des données prenne en compte au moins les
éléments suivants:
— le modèle de données ou l’architecture de données nécessaires pour satisfaire aux exigences en matière
de données;
— le plan d’acquisition des données nécessaires identifiées par les exigences en matière de données;
— un plan permettant de s’assurer que les données sont acquises en quantité suffisante et sont adaptées à
la tâche d’AA ou d’analyse de données;
— les rôles, les qualifications et les personnes nécessaires à l’exécution du processus de qualité des données;
— les ressources informatiques et autres ressources nécessaires à l’exécution du processus de qualité des
données;
— le temps et le budget nécessaires à l’exécution du processus de qualité des données;
— le plan d’exécution des mesures de la qualité des données conformément au modèle de qualité des
données;
— un plan permettant de satisfaire aux exigences légales;
— un plan permettant d’assurer le respect des principes du processus de qualité des données;
— un plan d’identification et d’atténuation des écarts ou lacunes constatés dans les données acquises.
7.4 Acquisition des données
Les données utilisées pour développer un modèle d’AA peuvent provenir de différentes sources
(par exemple, systèmes IoT, traitement des transactions, enquêtes, images fixes, vidéos, sons, formulaires
Web, générateurs de données synthétiques) avec différents types de données (par exemple, nombres, texte,
binaires), formats de données (par exemple, XML, JSON, valeurs séparées par un délimiteur, JPEG, MPEG) et
schémas. L’organisme peut déjà posséder les données identifiées par les exigences en matière de données
ou il peut en recueillir de nouvelles. Dans certains cas, les données peuvent provenir de sources en continu
ou quasi en temps réel (par exemple, fils de médias sociaux
...


Date: 2024-06-06
ISO/IEC 5259--4:2024(fr)
ISO/IEC JTC 1/SC 42
Première édition
2024-07
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique (AA) — —
Partie 4:
Cadre pour le processus de qualité des données
Artificial intelligence — Data quality for analytics and machine learning (ML) — —
Part 4: Data quality process framework
ICS: 35.020
DOCUMENT PROTÉGÉ PAR COPYRIGHT

© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre oeuvre, aucune partie
de cette publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique
ou mécanique, y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable.
Une autorisation peut être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays
du demandeur.
ISO copyright office
Case postaleCP 401 • • Ch. de Blandonnet 8
CH-1214 Vernier, GenèveGeneva
Tél.: +Phone: + 41 22 749 01 11
E-mail: copyright@iso.org
Website: www.iso.orgWeb: www.iso.org

Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
iii
Sommaire Page
Avant-propos . vi
Introduction . vii
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 2
4 Symboles et abréviations . 3
5 Principes du processus de qualité des données . 3
6 Cadre pour le processus de qualité des données . 4
6.1 Généralités . 4
6.2 Planification de la qualité des données . 5
6.3 Évaluation de la qualité des données . 6
6.4 Amélioration de la qualité des données . 6
6.5 Validation du processus de qualité des données . 7
6.6 Utilisation du CPQD . 7
7 Processus de qualité des données pour l’AA . 8
7.1 Généralités . 8
7.2 Exigences en matière de données . 9
7.3 Planification des données . 10
7.4 Acquisition des données . 10
7.5 Préparation des données . 11
7.6 Mise à disposition des données . 19
7.7 Mise hors service des données . 19
8 Méthodes et processus d’étiquetage des données . 20
8.1 Généralités . 20
8.2 Principes d’étiquetage des données. 20
8.3 Méthodes d’étiquetage des données . 20
8.4 Processus d’étiquetage des données . 21
9 Rôles des participants . 25
9.1 Généralités . 25
9.2 Planificateur de données . 25
9.3 Créateur de données . 25
9.4 Collecteur de données . 25
9.5 Ingénieur données . 25
9.6 Détenteur de données . 25
9.7 Utilisateur des données . 26
10 Processus de qualité des données pour l’AA semi-supervisé . 26
10.1 Généralités . 26
10.2 Exigences en matière de données . 26
10.3 Planification des données . 26
10.4 Acquisition des données . 26
10.5 Préparation des données . 26
10.6 Mise à disposition des données . 27
10.7 Mise hors service des données . 27
11 Processus de qualité des données pour l’apprentissage par renforcement . 27
11.1 Généralités . 27
11.2 Exigences en matière de données . 27
© ISO/IEC 2024 – Tous droits réservés
iv
11.3 Planification des données . 27
11.4 Acquisition des données . 27
11.5 Préparation des données . 28
11.6 Mise à disposition des données . 28
11.7 Mise hors service des données . 29
12 Processus de qualité des données pour l’analyse de données . 29
12.1 Généralités . 29
12.2 Exigences en matière de données . 29
12.3 Planification des données . 29
12.4 Acquisition des données . 29
12.5 Préparation des données . 30
12.6 Mise à disposition des données . 32
12.7 Mise hors service des données . 32
Bibliographie . 33

© ISO/IEC 2024 – Tous droits réservés
v
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique. Les
comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de brevets,
disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être tenues
pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.
© ISO/IEC 2024 – Tous droits réservés
vi
Introduction
Les produits, systèmes ou solutions liés à l’intelligence artificielle (IA) se sont rapidement développés ces
dernières années. L’une des caractéristiques communes des systèmes d’IA, en particulier pour les systèmes
utilisant l’apprentissage automatique (AA) supervisé, est de savoir si le système d’IA peut être entraîné sur un
ensemble de données avant son déploiement ou s’il peut être entraîné dynamiquement pendant l’utilisation
du système.
Les données ont été reconnues comme l’un des aspects les plus importants des systèmes d’IA basés sur l’AA.
Pour toutes les approches d’apprentissage supervisé, semi-supervisé, non supervisé et par renforcement, la
qualité des données peut être une préoccupation principale lors de la création et de l’utilisation des données
pour entraîner et évaluer les systèmes d’AA. Il a été démontré qu’avec des données plus exactes et plus riches,
les résultats de l’analyse de données et de l’AA peuvent être plus utiles et plus fiables. En outre, pour le
développement de systèmes d’IA basés sur l’apprentissage supervisé, il est nécessaire de disposer d’un grand
nombre de données d’entraînement étiquetées et spécifiques à une tâche. Les données étiquetées avec
exactitude constituent donc l’une des ressources les plus importantes de l’industrie de l’IA. Aujourd’hui, il
existe un marché vérifié de services industriels et d’outils pour l’étiquetage des données d’entraînement. Ce
marché atteint aujourd’hui un niveau de maturité qui justifie l’élaboration de Normes internationales au profit
des fournisseurs et utilisateurs de ces services et outils afin d’assurer des données étiquetées de haute qualité.
Le présent document décrit la mise en œuvre d’une procédure commune normalisée de traitement des
données, orientée sur la qualité des données qui sont utilisées à des fins d’analyse et d’AA. 5L’Article 5 décrit
les principes relatifs au processus de qualité des données et 6l’Article 6 décrit un cadre pour le processus de
qualité des données. 7L’Article 7 décrit le processus de qualité des données pour les approches d’AA,
8l’Article 8 décrit les méthodes et le processus d’étiquetage des données, 9l’Article 9 fournit les rôles des
participants aux processus de qualité des données, les 10Articles 10 et 1111 décrivent ensuite les
considérations supplémentaires qui s’appliquent à l’apprentissage semi-supervisé et à l’apprentissage par
renforcement. 12L’Article 12 décrit la manière dont le cadre pour le processus de qualité des données
s’applique à l’analyse de données.
Le présent document fournit un cadre de processus détaillé qui peut être utilisé pour satisfaire aux exigences
spécifiées dans l’ISO/IEC 5259--3. Il relie également les processus qui sont mis en correspondance sur le
modèle de cycle de vie des données de l’ISO/IEC 5259--1.
© ISO/IEC 2024 – Tous droits réservés
vii
Norme internationale ISO/IEC 5259-4:2024(fr)

Intelligence artificielle — Qualité des données pour les analyses de
données et l’apprentissage automatique (AA) — —
Partie 4:
Cadre pour le processus de qualité des données
1 Domaine d’application
Le présent document établit des approches organisationnelles communes générales, indépendamment du
type, de la taille ou de la nature de l’organisme demandeur, afin de garantir la qualité des données pour
l’entraînement et l’évaluation dans le cadre de l’analyse de données et de l’apprentissage automatique (AA). Il
comprend des recommandations relatives au processus de qualité des données pour:
— — l’AA supervisé en ce qui concerne l’étiquetage des données utilisées pour entraîner les systèmes d’AA,
y compris les approches organisationnelles communes pour l’étiquetage des données d’entraînement;
— — l’AA non supervisé;
— — l’AA semi-supervisé;
— — l’apprentissage par renforcement;
— — l’analyse de données.
Le présent document s’applique aux données d’entraînement et d’évaluation provenant de différentes
sources, y compris l’acquisition et la composition des données, la préparation des données, l’étiquetage des
données, l’évaluation et l’utilisation des données. Le présent document ne définit pas de services, plateformes
ou outils spécifiques.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur contenu,
des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour les
références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO/IEC 5259--1, Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage
automatique (AA) — Partie 1: Vue d'ensemble, terminologie et exemples
ISO/IEC 22989:2022, Technologies de l'information — Intelligence artificielle — Concepts et terminologie
relatifs à l'intelligence artificielle
ISO/IEC 23053:2022, Cadre pour les systèmes d'intelligence artificielle (IA) qui utilisent l'apprentissage machine
(ML)
© ISO/IEC 2024 – Tous droits réservés

3 Termes et définitions
Pour les besoins du présent document, les termes et les définitions de l’ISO/IEC 5259--1, l’ISO/IEC 22989,
l’ISO/IEC 23053 ainsi que les suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— — ISO Online browsing platform: disponible à l’adresse https://www.iso.org/obp
— — IEC Electropedia: disponible à l’adresse https://www.electropedia.org/
3.1 3.1
externalisation
toute activité sous-traitée par un organisme à un organisme externe
[SOURCE: ISO TS 22002-‑4:2013, 3.14, modifié — La définition a été révisée.]
3.2 3.2
annotation déportée
annotation superposée aux données primaires et sérialisée dans un document distinct de celui contenant les
données primaires
[SOURCE: ISO 24612:2012, 2.7, modifié — La note à l’article a été supprimée.]
3.3 3.3
service informatique en nuage
ensemble de fonctionnalités offertes par l’intermédiaire de l’informatique en nuage, auquel il est fait appel au
moyen d’une interface définie
[SOURCE: ISO/IEC 22123-‑1:2023, 3.1.2]
3.4 3.4
créateur de données
partie qui a créé les données et qui peut avoir des droits
Note 1 à l’articlel'article: Un créateur de données peut être une personne physique.
Note 2 à l’articlel'article: Le créateur de données peut être distinct de la ou des personnes physiques ou morales
mentionnées dans les données, décrites par ces dernières, ou associées implicitement ou explicitement à celles-ci. Par
exemple, des données à caractère personnel (DCP) peuvent être recueillies par un créateur de données qui identifie
d’autres personnes. Les personnes concernées (également appelées «personnes concernées par des DCP ») peuvent
également avoir des droits, en relation avec l’ensemble de données.
Note 3 à l’articlel'article: Les droits peuvent inclure le droit à la publicité, le droit d’afficher un nom, le droit à l’identité,
le droit d’interdire l’utilisation des données d’une manière qui offense une mention honorable.
[SOURCE: ISO/IEC 23751:2022, 3,2, modifié: suppression des notes à l’article.]
3.5 3.5
zone de délimitation
région rectangulaire qui entoure l’objet annoté
[SOURCE: ISO/IEC 30137-‑4:2021, 3.3, modifié — La Note à l’article a été supprimée.]
© ISO/IEC 2024 – Tous droits réservés
3.6 3.6
segmentation
processus de séparation des objets d’intérêt de leur environnement
Note 1 à l’article l'article: La segmentation peut s’appliquer aux données 2D, 3D, de trame ou vectorielles.
[SOURCE: ISO/IEC 3532-‑1:2023, 3.1.13]
3.7 3.7
point clé
point d’intérêt sur un objet
4 Symboles et abréviations
AA apprentissage automatique
CPQD cadre pour le processus de qualité des données
CVD cycle de vie des données
DCP données à caractère personnel
IA intelligence artificielle
IoT Internet of things (Internet des objets)
JPEG joint photographic experts group (format de fichiers images)
JSON JavaScript object notation (format de notation d’objet JavaScript)
MPEG moving picture experts group (format de fichiers vidéo)
NQA niveau de qualité acceptable
XML extensible markup language (langage de balisage extensible)
5 Principes du processus de qualité des données
L’ISO/IEC 5259--1 définit la qualité des données comme une caractéristique des données selon laquelle les
données satisfont aux exigences de l’organisme en matière de données pour un contexte spécifié.
Indépendamment des données et de la méthodologie d’évaluation, il convient que le processus de qualité des
données pour l’analyse de données et l’AA repose sur les principes généraux utilisés dans l’ensemble du
modèle de cycle de vie des données (CVD). Il convient que les organismes définissent et documentent les
principes généraux de qualité des données, en tenant compte des aspects suivants:
— — les données et les ensembles de données sont adaptés à la tâche d’AA ou d’analyse de données
spécifiée;
— — l’utilisation d’un modèle de qualité des données basé sur les caractéristiques de qualité des données;
— — la validation de la qualité des données conformément aux exigences de qualité des données en utilisant
des mesurages de la qualité des données et les objectifs spécifiés;
— — la vérification, à chaque étape, que le processus est en bonne voie pour atteindre ces objectifs et
d’autres exigences;
— — la justesse et la robustesse lors des tests, y compris les techniques telles que les tests contradictoires
qui sont conçus pour identifier les erreurs;
© ISO/IEC 2024 – Tous droits réservés
— — l’alignement sur les exigences organisationnelles en matière de sécurité, de protection des données,
d’équité et d’éthique;
— — la protection de la santé et du bien-être des annotateurs et des autres personnes impliquées dans
l’exécution du processus de qualité des données;
— — la documentation de l’avancement et du respect des principes et exigences spécifiés.
6 Cadre pour le processus de qualité des données
6.1 Généralités
Sur la base des principes de 5l’Article 5,, l’objectif du CPQD est de permettre aux organismes de gérer la qualité
des données dans la mesure où celles-ci satisfont aux exigences. Les résultats du CPQD peuvent inclure:
— — la stratégie de qualité des données;
— — le plan de qualité des données;
— — les exigences de qualité des données, y compris un modèle de qualité des données, des mesures de la
qualité des données et des objectifs;
— — les livrables de qualité des données (par exemple, les résultats des mesurages de la qualité des
données, les rapports de défaillance, les méthodes d’amélioration et d’augmentation des données
appliquées);
— — des recommandations concernant l’amélioration des processus de qualité des données;
— — une approbation d’utilisation des données dans le cadre du projet d’analyse de données ou d’AA.
5259-4_ed1fig1_f.EPS
Figure 1 — CPQD global et exemples de résultats
© ISO/IEC 2024 – Tous droits réservés
La Figure 1Figure 1 représente une structure de base du CPQD. Les composantes du CPQD comprennent:
— — la planification de la qualité des données: établir les plans de gestion de la qualité des données en
analysant les exigences de qualité des données et le cycle de vie des données et en déterminant les
méthodes de gestion de la qualité des données;
— — l’évaluation de la qualité des données: mesurer et surveiller la qualité des données dans le modèle CVD
et fournir des résultats pour les plans de qualité des données;
— — l’amélioration de la qualité des données: mettre en œuvre des processus d’amélioration de la qualité
des données (par exemple, nettoyage des données, transformations, augmentation, mise à l’échelle);
— — la validation du processus de qualité des données: évaluer les mesures et les processus de qualité des
données pour s’assurer que les données satisfont aux exigences et fournir un retour d’information au
processus d’amélioration de la qualité des données si nécessaire.
La Figure 2Figure 2 décrit la relation entre le modèle CVD de l’ISO/IEC 5259--1 et le CPQD. Le CPQD peut être
utilisé dans l’ensemble du modèle CVD pour gérer la qualité des données.
5259-4_ed1fig2_f.EPS
Légende
5259-4_ed1fig2_key1.EPS flux de gestion de la qualité des données

Figure 2 — Relation entre le modèle CVD et le CPQD
6.2 Planification de la qualité des données
Les activités et résultats du processus de planification de la qualité des données comprennent:
— — des activités:
© ISO/IEC 2024 – Tous droits réservés
— — analyser les exigences de qualité des données des parties prenantes dans le modèle de cycle de
vie des données;
— — élaborer le modèle de qualité des données comme décrit dans l’ISO/IEC 5259--1 et
1 1)
l’ISO/IEC 5259--2 ; ;
— — déterminer les mesures appropriées de la qualité des données comme décrit dans
l’ISO/IEC 5259--2 et des valeurs cibles pour chaque mesure;
— — des résultats:
— — modèle de qualité des données;
— — mesures de la qualité des données;
— — objectifs des mesurages de la qualité des données;
— — livrables de qualité des données tels que les résultats des mesurages de la qualité des données,
les rapports de défaillance, les méthodes d’amélioration et d’augmentation des données appliquées.
6.3 Évaluation de la qualité des données
Les activités et les résultats du processus d’évaluation de la qualité des données comprennent:
— — des activités:
— — appliquer les mesures de la qualité des données;
— — comparer les résultats des mesures de la qualité des données avec les objectifs établis;
— — évaluer si les exigences en matière de données sont satisfaites;
— — des résultats:
— — documentation des différences et de l’analyse d’impact, entre les résultats des mesures de la
qualité des données et les objectifs établis;
— — documentation de l’évaluation de la qualité des données.
6.4 Amélioration de la qualité des données
Les activités et les résultats du processus d’amélioration de la qualité des données comprennent:
— — des activités:
— — appliquer les méthodes d’amélioration de la qualité des données décrites en 7.5.97.5.9;;
— — répéter les processus d’évaluation de la qualité de données;
— — des résultats:
— — documentation des méthodes d’amélioration de la qualité des données utilisées;

En cours d’élaboration. Stade au moment de la publication : ISO/IEC FDIS 5259-2:2024.
1)
En cours d’élaboration. Stade au moment de la publication : ISO/IEC FDIS 5259-2:2024.
© ISO/IEC 2024 – Tous droits réservés
— — documentation de l’évaluation de la qualité des données.
6.5 Validation du processus de qualité des données
Les activités et les résultats de la validation du processus de qualité des données comprennent:
— — des activités:
— — évaluer si les données satisfont aux exigences;
— — si les données ne satisfont pas aux exigences, des modifications de certains processus de
qualité des données sont envisagées et mises en œuvre;
— — compléter les registres de provenance des données (le cas échéant);
— — des résultats:
— — documentation de l’évaluation de la qualité des données;
— — rapports de défaillance;
— — recommandations relatives à l’amélioration des processus de qualité des données;
— — approbation d’utilisation des données pour un contexte spécifié par les parties prenantes
concernées.
NOTE 1 La validation du processus de qualité des données est réalisée par des experts et d’autres parties prenantes
de la qualité des données.
NOTE 2 La Figure 3Figure 3 montre comment utiliser la validation du processus de qualité des données.
6.6 Utilisation du CPQD
Le CPQD fournit des détails supplémentaires pour la gestion de la qualité des données dans le cadre du modèle
CVD. Il convient que les utilisateurs du présent document appliquent le CPQD conjointement aux processus de
qualité des données sélectionnés décrits dans le présent document.
Par exemple, la planification de la qualité des données dans le CPQD peut correspondre aux processus détaillés
de l’étape de planification des données dans le modèle CVD. De même, l’évaluation de la qualité des données
dans le CPQD peut correspondre au processus d’évaluation de la qualité des données dans le cadre de
l’étape de préparation des données du modèle CVD.
Pour l’entraînement, les tests et la validation des modèles d’AA, ainsi que pour les tâches d’analyse de données,
il est essentiel de disposer de données qui satisfont aux exigences. Pour l’AA, si les données d’entraînement,
de test et de validation ne satisfont pas aux exigences, les extrants des modèles entraînés peuvent également
ne pas satisfaire aux exigences. Souvent, les données acquises ne sont pas parfaites (par exemple, manque
d’exactitude, échantillons insuffisants, obsolescence). Un processus de qualité des données peut être utilisé
pour améliorer et optimiser les données dans la mesure où il satisfait aux exigences de l’organisme. De plus,
le processus de qualité des données à proprement parler peut être amélioré et optimisé.
La Figure 3Figure 3 représente la relation entre la qualité des données et les processus de qualité des données.
© ISO/IEC 2024 – Tous droits réservés
5259-4_ed1fig3_f.EPS
Figure 3 — Relation entre la qualité des données et les processus de qualité des données
7 Processus de qualité des données pour l’AA
7.1 Généralités
La finalité du processus de qualité des données décrit dans le présent document est de fournir des
recommandations et de bonnes pratiques que les organismes peuvent utiliser pour s’assurer que les données
utilisées pour l’AA satisfont aux exigences. Le processus de qualité des données s’appuie sur le CPQD décrit à
6l’Article 6. Les spécificités du processus de qualité des données utilisé pour une tâche d’AA donnée
dépendent:
— — de la tâche d’AA elle-même (par exemple, traitement d’images, prévision, traitement du langage
naturel);
— — de l’approche d’AA;
— — des processus d’AA;
— — du domaine d’application;
— — des types de données;
— — des exigences de qualité des données.
Comme représenté à la Figure 4Figure 4,, un processus de qualité des données peut inclure:
— — les exigences en matière de données;
— — la planification des données;
— — l’acquisition des données;
— — la préparation des données;
© ISO/IEC 2024 – Tous droits réservés
— — la mise à disposition des données;
— — la mise hors service des données.
5259-4_ed1fig4_f.EPS
Figure 4 — Exemple de processus de qualité des données pour l’AA supervisé
7.2 Exigences en matière de données
Les exigences en matière de données sont basées sur le contexte de la tâche, de l’application et de l’approche
d’AA et préparent le terrain pour le reste du processus de qualité des données. Pour garantir la qualité des
données, il convient que les exigences en matière de données comprennent au moins la détermination et la
documentation des aspects suivants:
— — les caractéristiques nécessaires dans les données;
— — la quantité nécessaire de données;
— — la provenance;
— — le biais acceptable;
— — les propriétés statistiques;
— — la représentativité du modèle d’AA en ce qui concerne les aspects comportementaux, démographiques
et géographiques des personnes concernées;
— — le modèle de qualité des données basé sur des caractéristiques de qualité des données sélectionnées;
— — les mesures de la qualité des données appropriées;
— — les objectifs des mesures de la qualité des données;
— — les exigences légales.
© ISO/IEC 2024 – Tous droits réservés
7.3 Planification des données
La planification des données s’appuie sur les processus d’exigences en matière de données et peut permettre
de s’assurer que des plans et des ressources sont en place pour exécuter avec succès le processus de qualité
des données. Il convient que le processus de planification des données prenne en compte au moins les
éléments suivants:
— — le modèle de données ou l’architecture de données nécessaires pour satisfaire aux exigences en
matière de données;
— — le plan d’acquisition des données nécessaires identifiées par les exigences en matière de données;
— — un plan permettant de s’assurer que les données sont acquises en quantité suffisante et sont adaptées
à la tâche d’AA ou d’analyse de données;
— — les rôles, les qualifications et les personnes nécessaires à l’exécution du processus de qualité des
données;
— — les ressources informatiques et autres ressources nécessaires à l’exécution du processus de qualité
des données;
— — le temps et le budget nécessaires à l’exécution du processus de qualité des données;
— — le plan d’exécution des mesures de la qualité des données conformément au modèle de qualité des
données;
— — un plan permettant de satisfaire aux exigences légales;
— — un plan permettant d’assurer le respect des principes du processus de qualité des données;
— — un plan d’identification et d’atténuation des écarts ou lacunes constatés dans les données acquises.
7.4 Acquisition des données
Les données utilisées pour développer un modèle d’AA peuvent provenir de différentes sources (par exemple,
systèmes IoT, traitement des transactions, enquêtes, images fixes, vidéos, sons, formulaires Web, générateurs
de données synthétiques) avec différents types de données (par exemple, nombres, texte, binaires), formats
de données (par exemple, XML, JSON, valeurs séparées par un délimiteur, JPEG, MPEG) et schémas.
L’organisme peut déjà posséder les données identifiées par les exigences en matière de données ou il peut en
recueillir de nouvelles. Dans certains cas, les données peuvent provenir de sources en continu ou quasi en
temps réel (par exemple, fils de médias sociaux, moteurs de recherche) et peuvent être utilisées pour
améliorer en permanence le modèle d’IA.
Il convient que le processus d’acquisition des données tienne compte au moins des éléments suivants:
— — le respect des éléments identifiés dans le processus de planification des données;
— — le respect des principes du processus de qualité des données;
— — les propriétés clés des données telles que déterminées par le processus d’exigences en matière de
données, par exemple:
— — provenance;
— — biais;
© ISO/IEC 2024 – Tous droits réservés
— — fiabilité;
— — validité;
— — types de données;
— — schéma;
— — format;
— — le contexte des données dans le cadre du développement du modèle d’AA, par exemple:
— — entraînement;
— — validation;
— — tests;
— — production;
— — la couverture (par exemple, données démographiques, comportementales, géographiques).
Pour les images fixes et les vidéos, les propriétés clés des données comprennent:
— — résolution;
— — clarté;
— — lumière;
— — couleur;
— — bruit de fond.
Une fois les données acquises, il convient d’évaluer leur qualité plus en détail conformément à 7.5.87.5.8.
7.5 Préparation des données
7.5.1 Généralités
L’objectif du processus de préparation des données est de faire en sorte que les données puissent être utilisées
avec succès pour développer un modèle d’AA et que la performance du modèle satisfasse aux exigences de
l’organisme.
Il convient que le processus de préparation des données tienne compte au moins des éléments suivants:
— — composition de l’ensemble de données;
— — étiquetage des données;
— — annotation des données;
— — évaluation de la qualité des données par rapport aux objectifs des mesures de la qualité des données
établis dans le processus d’exigences en matière de données;
— — amélioration de la qualité des données:
© ISO/IEC 2024 – Tous droits réservés
— — nettoyage des données;
— — standardisation des données;
— — normalisation des données;
— — imputation des données;
— — dé-identification des données;
— — encodage des données.
7.5.2 AA supervisé
L’AA supervisé peut utiliser tous les éléments décrits en 7.5.17.5.1.
7.5.3 AA non supervisé
L’AA non supervisé n’utilise pas de données étiquetées, mais peut utiliser les autres éléments décrits
en 7.5.17.5.1.
7.5.4 AA semi-supervisé
L’AA semi-supervisé est un hybride entre l’apprentissage supervisé et l’apprentissage non supervisé et peut
utiliser tous les éléments décrits en 7.5.17.5.1.
7.5.5 Composition de l’ensemble de données
L’ISO/IEC 23053 décrit la composition d’ensembles de données comme un processus de sélection et de
compilation de données en un seul ensemble de données qui est ensuite utilisé pour former ou évaluer un
modèle d’AA. Il peut être nécessaire de combiner, de réorganiser ou d’augmenter les données acquises afin de
créer un ensemble de données adapté à la tâche, à l’application et à l’approche d’AA. Des exemples de
processus de composition d’ensembles de données peuvent inclure:
— — l’ajout de données provenant de plusieurs sources;
— — la sélection de données pour des caractéristiques spécifiques dans les données acquises;
— — la division des caractéristiques (par exemple, division d’une caractéristique de date en
caractéristiques de jour, de mois et d’année);
— — l’ajout de données synthétiques;
— — le sous-échantillonnage des données acquises (par exemple, le sous-échantillonnage d’un flux audio
de 16 kHz à 8 kHz, la sélection aléatoire de 12 étudiants parmi 100 dans un cours contre la sélection de
1 étudiant parmi ceux fêtant leur anniversaire un mois donné);
— — l’échantillonnage aléatoire: chaque échantillon de l’ensemble de données a une chance égale
d’être sélectionné;
— — l’échantillonnage stratifié: les données sont divisées en sous-groupes en fonction de
caractéristiques pertinentes, telles que le sexe et la tranche d’âge. L’échantillonnage est réalisé pour
s’assurer que chaque sous-groupe est représenté avec exactitude.
Les ensembles de données peuvent avoir différents formats qui sont déterminés par les fournisseurs de
données. Pour s’assurer que les ensembles de données de différents formats peuvent être traités de manière
© ISO/IEC 2024 – Tous droits réservés
cohérente par un certain outil d’AA, les ensembles de données peuvent être transformés, sérialisés et stockés
sous une forme structurée, où les métadonnées, les échantillons de données et les étiquettes sont bien
organisés, afin d’améliorer la qualité des données lorsque les données sont utilisées.
Les composantes communes et leur sémantique peuvent alors être extraites et spécifiées. Cette approche
permet de faciliter la réutilisation, l’échange, le stockage, l’accès et la comparaison d’ensembles de données.
Les composantes communes d’un ensemble de données sous une forme structurée comprennent ce qui suit:
— — index: composante qui peut être utilisée pour faciliter la navigation et l’accès aux ensembles de
données. L’index contient les informations relatives aux répertoires, aux noms et aux décalages des
échantillons et des fichiers d’étiquettes;
— — en-tête: composante qui peut être utilisée pour enregistrer les informations de l’organisme dans un
ensemble de données. Il contient les informations relatives au volume et aux emplacements des données
scalaires et de bloc, ainsi que les informations relatives à leurs correspondances, statistiques, partitions,
types de données et dimensions;
— — page: une page fait référence à un certain segment à l’intérieur d’un fichier de données, qui stocke les
données scalaires réelles (par exemple, les données de type entier, chaîne, flottant et autres types
primitifs) ou les données de bloc (par exemple, image, vidéo et audio) des échantillons et des étiquettes.
Il convient d’évaluer la qualité de la composition des ensembles de données conformément à 7.5.87.5.8.
7.5.6 Étiquetage des données
Voir 8l’Article 8 pour obtenir des recommandations sur l’étiquetage des données.
7.5.7 Annotation des données
Les données peuvent être annotées avec des métadonnées qui fournissent des informations descriptives sur
l’ensemble de données. Les métadonnées peuvent être utilisées par les parties prenantes pour cataloguer les
données, pour les outils de recherche et de recommandation, ainsi que pour le traçage et le partage de
données. Les métadonnées peuvent être créées par les détenteurs de données et les utilisateurs de données
sur la base d’une logique métier. Avant la sélection et l’utilisation d’un ensemble de données, les parties
prenantes peuvent utiliser des métadonnées pour s’assurer que l’ensemble de données satisfait aux exigences.
Les métadonnées incluent, par exemple:
— — les métadonnées liées à la préparation (par exemple, les sources de données, les ressources humaines
utilisées pour l’annotation des données, la date et l’heure des opérations de traitement des données et le
transfert de possession pendant le partage de données);
— — les métadonnées liées au contenu (par exemple, les domaines métiers et techniques, les formats de
données, le volume de données, le nombre de catégories de données, les exemples d’échantillons,
les attributs des données, les informations statistiques relatives aux distributions de données, les zones
de délimitation, les segmentations, les points clés et les fichiers);
— — les métadonnées relatives à la qualité (par exemple, les résultats des mesures de la qualité des
données).
EXEMPLE 1 Pour entraîner un modèle d’AA à la reconnaissance de véhicule, un utilisateur trouve les ensembles de
données appropriés sur la base de quelques exemples d’images disponibles. Il s’agit d’une situation courante dans
laquelle un utilisateur dispose uniquement de quelques photographies de véhicules prises dans le monde réel
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...

Frequently Asked Questions

ISO/IEC 5259-4:2024 is a standard published by the International Organization for Standardization (ISO). Its full title is "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework". This standard covers: This document establishes general common organizational approaches, regardless of the type, size or nature of the applying organization, to ensure data quality for training and evaluation in analytics and machine learning (ML). It includes guidance on the data quality process for: - supervised ML with regard to the labelling of data used for training ML systems, including common organizational approaches for training data labelling; - unsupervised ML; - semi-supervised ML; - reinforcement learning; - analytics. This document is applicable to training and evaluation data that come from different sources, including data acquisition and data composition, data preparation, data labelling, evaluation and data use. This document does not define specific services, platforms or tools.

This document establishes general common organizational approaches, regardless of the type, size or nature of the applying organization, to ensure data quality for training and evaluation in analytics and machine learning (ML). It includes guidance on the data quality process for: - supervised ML with regard to the labelling of data used for training ML systems, including common organizational approaches for training data labelling; - unsupervised ML; - semi-supervised ML; - reinforcement learning; - analytics. This document is applicable to training and evaluation data that come from different sources, including data acquisition and data composition, data preparation, data labelling, evaluation and data use. This document does not define specific services, platforms or tools.

ISO/IEC 5259-4:2024 is classified under the following ICS (International Classification for Standards) categories: 35.020 - Information technology (IT) in general. The ICS classification helps identify the subject area and facilitates finding related standards.

You can purchase ISO/IEC 5259-4:2024 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of ISO standards.

ISO/IEC 5259-4:2024 표준은 인공지능 및 머신러닝(ML) 분야에서 데이터 품질을 보장하기 위한 포괄적인 프로세스 프레임워크를 제공합니다. 이 문서는 조직의 유형, 규모 또는 성격과 무관하게 적용할 수 있는 일반적인 공통 접근 방식을 수립하여, 분석 및 머신러닝을 위한 교육 및 평가 데이터의 품질을 확보하는 데 중점을 두고 있습니다. 이 표준의 강점은 다양한 머신러닝 유형에 대한 세부 지침을 제공한다는 점입니다. 감독 학습(supervised ML)과 관련하여 데이터 라벨링(data labeling)에 대한 모범 사례를 포함하고 있으며, 반 감독 학습(semi-supervised ML), 비감독 학습(unsupervised ML), 강화 학습(reinforcement learning), 그리고 데이터 분석(analytics)에 대해서도 잘 정의된 프로세스들을 포함합니다. 이러한 접근 방식은 기업들이 직면하는 현실적인 도전 과제를 해결하는 데 도움을 주며, 데이터 품질 향상을 위한 체계적이고 효율적인 방법론을 제시합니다. 또한, ISO/IEC 5259-4:2024 문서는 다양한 출처에서 제공되는 데이터 수집(data acquisition) 및 데이터 구성(data composition) 뿐만 아니라, 데이터 준비(data preparation), 라벨링, 평가 및 데이터 사용(data use)에 이르는 전 과정에 걸쳐 사실상 모든 데이터 품질 프로세스를 포괄합니다. 이러한 폭넓은 적용 가능성은 다양한 환경에서 데이터 품질 관리의 중요성을 강조하며, 실질적인 가이드를 제공하여 조직들이 데이터의 정확성과 신뢰성을 높일 수 있도록 지원합니다. 결론적으로, ISO/IEC 5259-4:2024 표준은 머신러닝과 데이터 분석을 위한 데이터 품질 관리에 있어 필수적인 프레임워크로 자리 잡고 있으며, 모든 조직이 데이터 품질 프로세스를 체계적으로 관리하고 개선해 나갈 수 있도록 도와줍니다.

ISO/IEC 5259-4:2024 표준 문서는 인공지능과 머신러닝(ML)에서 데이터 품질을 보장하기 위한 종합적인 프로세스 프레임워크를 제공합니다. 이 표준은 모든 유형, 크기 또는 성격의 조직에 적용될 수 있는 일반적인 조직적 접근 방식을 수립하여, 분석 및 머신러닝에 대한 훈련 및 평가를 위한 데이터 품질을 확보합니다. 이 표준의 주요 강점은 다양한 머신러닝 접근 방식에 대한 데이터 품질 프로세스에 대한 가이드라인을 제공한다는 점입니다. 감독형 학습, 비감독형 학습, 반감독형 학습, 강화 학습 등을 포함하여, 데이터 레이블링을 위한 공통 조직적 접근법을 명확히 설정합니다. 이는 훈련 데이터의 일관성과 신뢰성을 높이는데 기여하며, 데이터 품질 관리의 중요성을 강조합니다. 또한, ISO/IEC 5259-4는 데이터 획득, 데이터 구성, 데이터 준비, 데이터 레이블링, 평가 및 데이터 사용 등 다양한 출처에서 오는 훈련 및 평가 데이터에 적용될 수 있습니다. 이는 다양한 데이터 소스와 처리 과정에서의 통합성을 촉진하여, 데이터 분석과 머신러닝에서의 신뢰할 수 있는 결과 도출을 지원합니다. 마지막으로, 이 표준은 특정 서비스, 플랫폼 또는 도구를 정의하지 않음으로써, 다양한 산업과 환경에서 유연하게 활용될 수 있는 잠재력을 가지고 있습니다. 따라서 ISO/IEC 5259-4:2024는 데이터 품질 향상을 위한 필수 가이드로 자리 잡고 있으며, 데이터 기반의 의사 결정을 강화하는데 중요한 역할을 하는 문서입니다.

Die ISO/IEC 5259-4:2024 ist ein bedeutendes Dokument, das einen strukturierten Rahmen für die Datenqualitätsprozesse in der Analyse und im maschinellen Lernen (ML) bereitstellt. Der Umfang dieser Norm ist ausgesprochen umfassend, da sie gemeinsame organisatorische Ansätze für verschiedene Arten von Organisationen definiert, unabhängig von deren Größe oder Natur. Dies gewährleistet, dass die Qualität der Daten, die für das Training und die Evaluation in der Analyse und im maschinellen Lernen verwendet werden, auf einem hohen Standard gehalten wird. Ein herausragendes Merkmal dieser Norm ist die fundierte Anleitung zur Datenqualität, die nicht nur für das überwachte maschinelle Lernen gilt, sondern auch spezielle Aspekte des unüberwachten, halbüberwachten und bestärkenden Lernens sowie der Analyse adressiert. Insbesondere die Hinweise zur Kennzeichnung von Trainingsdaten, die für die Entwicklung von ML-Systemen unerlässlich sind, bieten wertvolle Orientierung hinweg über gemeinschaftlich definierte organisatorische Ansätze. Darüber hinaus erkennt die ISO/IEC 5259-4:2024 die Vielfalt der Datenquellen an und bietet einen klaren Rahmen für die verschiedenen Phasen des Datenqualitätsprozesses: von der Datenerfassung über die Datenaufbereitung bis hin zur Evaluierung und Nutzung der Daten. Dies fördert nicht nur die Konsistenz innerhalb der Organisationen, sondern auch die Interoperabilität zwischen unterschiedlichen Systemen und Plattformen, was in der heutigen datengetriebenen Welt von erheblicher Relevanz ist. Es ist wichtig zu betonen, dass das Dokument keine spezifischen Dienste, Plattformen oder Werkzeuge definiert. Dies lädt Organisationen ein, die Prinzipien der Datenqualität flexibel anzuwenden und an ihre individuellen Bedürfnisse anzupassen, was die Relevanz der Norm in einer sich schnell verändernden Technologie-Landschaft noch verstärkt. Insgesamt leistet die ISO/IEC 5259-4:2024 einen wesentlichen Beitrag zur Sicherstellung der Datenqualität in der Analyse und im maschinellen Lernen, indem sie einen klaren und anpassungsfähigen Rahmen schafft, der für jede Organisation von Nutzen sein kann.

La norme ISO/IEC 5259-4:2024 se positionne comme un cadre essentiel pour assurer la qualité des données dans le domaine de l'intelligence artificielle, spécifiquement pour l'analyse et l'apprentissage machine (ML). Elle s'applique à toutes les organisations, indépendamment de leur type, taille ou nature, garantissant ainsi une inclusivité dans les approches organisationnelles relatives à la qualité des données. Parmi ses forces, cette norme offre des directives claires sur les processus de qualité des données pour divers types d'apprentissage machine, tels que l'apprentissage supervisé, non supervisé, semi-supervisé, et par renforcement. La section dédiée à l'apprentissage supervisé, en particulier, traite de la labellisation des données utilisées pour la formation des systèmes d'apprentissage machine, ce qui est crucial pour garantir des résultats précis et fiables. En outre, l'application de cette norme à des données provenant de différentes sources souligne son rôle clé dans la gestion complète du cycle de vie des données, incluant l'acquisition, la préparation, la labellisation, l'évaluation et l'utilisation des données. Cette approche systématique contribue à relever les défis liés à la qualité des données, ce qui est d'une importance capitale dans le contexte actuel où les données jouent un rôle central dans le développement de solutions d'intelligence artificielle efficaces. La norme ne définit pas de services, plateformes ou outils spécifiques, ce qui permet une flexibilité d'application dans différents environnements organisationnels. Cela favorise l’adaptabilité des pratiques de qualité des données, permettant à chaque organisation de personnaliser les recommandations en fonction de ses besoins et de son contexte particulier. En résumé, la norme ISO/IEC 5259-4:2024 représente un pas en avant significatif pour la standardisation des processus de qualité des données en analytics et machine learning, offrant ainsi un cadre robuste et adaptable pour toutes les organisations souhaitant garantir l'intégrité de leurs données dans un paysage technologique en constante évolution.

ISO/IEC 5259-4:2024は、データ品質に関する重要な標準文書であり、特に分析や機械学習(ML)においてデータ品質を確保するための共通の組織的アプローチを確立しています。この文書の範囲は、すべてのタイプ、サイズ、性質を持つ組織に適用可能であり、データのトレーニングや評価において一貫したプロセスを提供する点において非常に重要です。 この標準の強みは、多様な機械学習手法に対する指導を包括していることです。監視付き学習におけるデータラベリングの過程、無監視学習、半監視学習、強化学習、さらには分析にも適用される具体的なガイダンスが含まれています。これにより、データ品質プロセスは、トレーニングデータのラベリングを含む多岐にわたる対象に対して、一貫した方法で実施されることが保証されます。 また、ISO/IEC 5259-4:2024は多様なデータソースから取得されるトレーニングおよび評価データに対しても適用可能であり、データ収集やデータ構成、データ準備、評価、データ使用に関連したプロセスをカバーしています。このように、標準は幅広い範囲を持っているため、さまざまな業界や分野での実践において非常に relevant です。 特筆すべきは、このドキュメントが特定のサービス、プラットフォーム、またはツールを定義していない点です。これにより、各組織は自身のニーズに合わせて柔軟にプロセスを適用できる自由度を持ち、独自のデータ品質管理戦略を展開することが可能になります。このアプローチは、機械学習モデルの効果的なトレーニングと信頼性のある評価を確保するための基盤を提供します。 したがって、ISO/IEC 5259-4:2024は、データ品質を確保するための実用的で包括的なフレームワークを提供しており、分析と機械学習におけるデータ品質の向上を目指すすべての組織にとって、重要かつ relevant な標準と言えるでしょう。

The ISO/IEC 5259-4:2024 standard presents a comprehensive framework for data quality processes specifically tailored for analytics and machine learning (ML). Its scope is notably broad, addressing the needs of organizations regardless of their size, type, or nature, which enhances its applicability across various sectors. One of the key strengths of this standard lies in its structured approach to ensuring data quality in different ML paradigms, including supervised, unsupervised, semi-supervised ML, and reinforcement learning. By providing guidance on the labeling of training data, the standard identifies critical practices for creating high-quality datasets, which are essential for effective analytics and machine learning outcomes. The inclusion of various data quality processes, from data acquisition to data preparation and evaluation, reflects a robust understanding of the lifecycle of ML data. This holistic perspective is crucial for organizations aiming to create reliable and effective ML systems, as it emphasizes the importance of data quality at every stage of the process. Additionally, the standard's ability to accommodate data from diverse sources adds significant value, offering flexibility and comprehensive guidelines for handling complex data environments. Furthermore, by refraining from specifying particular services, platforms, or tools, the standard maintains an adaptable stance that allows organizations to implement the data quality framework in a manner that aligns with their specific operational needs and existing infrastructures. This adaptability makes ISO/IEC 5259-4:2024 a pertinent resource for organizations seeking to enhance their data quality processes within the rapidly evolving field of analytics and machine learning. Overall, the relevance of ISO/IEC 5259-4:2024 is underscored by its well-defined processes that are essential for fostering high-quality data, a critical asset for any entity involved in analytics and ML. The standard serves as an essential guideline, driving improvements in data quality management and ensuring reliability in the development and evaluation of ML applications.

The ISO/IEC 5259-4:2024 standard establishes a comprehensive framework for data quality processes essential for analytics and machine learning (ML), making it a pivotal resource for organizations seeking to enhance their data management practices. Its scope is extensive, offering general common organizational approaches applicable to any type, size, or nature of organization, thereby promoting adaptability and inclusivity in the implementation of data quality measures. One of the standard's key strengths lies in its guidance on the data quality process for various ML methodologies, including supervised, unsupervised, semi-supervised ML, and reinforcement learning. This versatility ensures that organizations can effectively address the specific data quality challenges associated with each type of machine learning approach. By detailing best practices for training data labelling within supervised ML, the document aids organizations in enhancing their data integrity, thus facilitating more reliable and accurate ML outcomes. Additionally, the standard encompasses crucial phases of the data lifecycle, encompassing data acquisition, data composition, data preparation, labelling, evaluation, and subsequent data use. This holistic view not only strengthens the framework but also encourages organizations to implement robust data management processes that cultivate data quality throughout various stages of the analytics and ML pipeline. Moreover, the document does not constrain itself to specific services, platforms, or tools, allowing for broad applicability and flexibility. Organizations are therefore encouraged to tailor their processes to fit their unique operational environments while aligning with the best practices outlined in the standard. In conclusion, ISO/IEC 5259-4:2024 provides a vital foundation for organizations aiming to ensure data quality for analytics and machine learning, reinforcing its relevance in today's data-driven landscape. Its comprehensive coverage and adaptable approach position it as a significant resource in the ongoing evolution of data analytics and machine learning practices.

ISO/IEC 5259-4:2024は、人工知能におけるデータ品質に関する重要な標準であり、特に分析および機械学習(ML)のためのデータ品質プロセスフレームワークを確立しています。この文書は、適用する組織の種類、規模、性質に関わらず、データ品質を確保するための一般的な共通アプローチを提示しています。 この標準の強みは、スーパーバイズドML、アンスーパーバイズドML、セミスーパーバイズドML、強化学習、及び解析といったさまざまなML手法に対するデータ品質プロセスに関する明確な指針を提供する点にあります。特に、スーパーバイズドMLにおいては、MLシステムのトレーニングに使用されるデータのラベリングに関する共通のアプローチを詳述しており、トレーニングデータのラベリングに関するベストプラクティスを利用者に示しています。 この文書は、さまざまなソースから得られるトレーニングおよび評価データに適用可能であり、データ取得、データ構成、データ準備、データラベリング、評価、データ使用といったデータ品質プロセスの全体を網羅しています。こうした包括的なアプローチにより、組織はデータ品質を維持し、信頼性のある分析結果を得ることが可能になります。 さらに、ISO/IEC 5259-4:2024は、特定のサービス、プラットフォーム、またはツールを定義していないため、広範な適用性を持ち、さまざまな業種や規模の組織に柔軟に適応できる点も大きな魅力です。これにより、すべての組織が自らのニーズに応じてデータ品質プロセスを最適化することが可能です。 このように、ISO/IEC 5259-4:2024は、人工知能の進化と機械学習の発展に寄与するための重要な標準であり、データ品質を中心に据えた取り組みを推進する上で極めて重要です。

The ISO/IEC 5259-4:2024 standard titled "Artificial intelligence - Data quality for analytics and machine learning (ML) - Part 4: Data quality process framework" presents a comprehensive framework aimed at enhancing data quality for analytics and ML across various organizational contexts. Its broad scope makes it applicable to any organization, regardless of size, type, or nature, thereby ensuring universal relevance in the evolving data landscape. One of the key strengths of this standard is its detailed guidance on the data quality process tailored specifically for different ML methodologies, including supervised, unsupervised, semi-supervised, and reinforcement learning. This specificity addresses the distinct challenges posed by each approach and emphasizes the importance of high-quality data, which is pivotal for effective ML outcomes. The standard also encompasses essential aspects of data preparation, evaluation, and use, which highlights its holistic approach to data quality. By covering crucial stages such as data acquisition, composition, labelling, and evaluation, ISO/IEC 5259-4:2024 ensures that organizations are well-equipped to maintain data integrity throughout the lifecycle of data used in analytics and ML. Notably, the document avoids prescribing specific services, platforms, or tools, which allows for flexible implementation. This aspect empowers organizations to adopt the framework in a way that best suits their operational needs while promoting best practices in data quality management. Overall, the ISO/IEC 5259-4:2024 standard is a vital resource for organizations aiming to establish robust data quality processes that are paramount for the success of their analytics and machine learning initiatives. Its structured approach not only enhances data quality but also fosters consistent and reliable outcomes in ML applications, reinforcing its significance in the field of artificial intelligence.

ISO/IEC 5259-4:2024 표준은 인공지능 및 기계 학습(ML)에서 데이터 품질을 보장하기 위한 일반적인 조직적 접근 방법을 제시합니다. 이 표준은 적용 조직의 유형, 규모 또는 성격에 관계없이 데이터 품질을 확보하고 분석 및 기계 학습에서의 훈련 및 평가를 위한 데이터 품질 프로세스 프레임워크를 수립합니다. 이 표준의 강점은 여러 종류의 기계 학습 기법을 포괄하는 점입니다. 감독 학습에서 데이터 라벨링에 대한 일반적인 조직 접근 방식을 포함할 뿐 아니라 비감독 학습, 반감독 학습, 강화 학습, 그리고 데이터 분석에 대한 가이드를 제공합니다. 이를 통해 다양한 데이터 출처에서 나온 훈련 및 평가 데이터를 다루는 데 필요한 전반적인 지침을 제공합니다. 또한, ISO/IEC 5259-4:2024는 데이터 수집, 데이터 구성, 데이터 준비, 데이터 라벨링, 평가 및 데이터 사용에 이르는 모든 과정에서 데이터 품질을 유지하기 위한 통합적인 방법론을 제시합니다. 이러한 포괄적인 접근은 데이터 품질 관리의 일관성을 증대시키고, 데이터 품질의 중요성을 인식하는 데 기여합니다. 마지막으로, 해당 표준은 특정 서비스나 플랫폼, 도구를 정의하지 않으며, 다양한 조직들이 자율적으로 자신들의 환경에 맞는 데이터 품질 관리 체계를 구축할 수 있도록 유연성을 제공합니다. 이는 ISO/IEC 5259-4:2024이 현재와 미래의 다양한 데이터 품질 요구에 빈틈없이 대응할 수 있는 관련성을 유지하게 합니다.

La norme ISO/IEC 5259-4:2024 présente un cadre précieux pour assurer la qualité des données dans le domaine de l'intelligence artificielle, particulièrement pour l'analyse et l'apprentissage automatique (ML). Son champ d'application est vaste, car il traite des approches organisationnelles communes qui sont applicables quel que soit le type, la taille ou la nature de l'organisation concernée. Cela renforce son importance dans un contexte où la qualité des données est essentielle pour le succès des projets d'IA. Parmi ses forces, la norme fournit des directives claires sur le processus de qualité des données, y compris des recommandations spécifiques pour le machine learning supervisé, en ce qui concerne l'étiquetage des données utilisées pour l'entraînement. L'inclusion de méthodes pour le machine learning non supervisé, semi-supervisé et l'apprentissage par renforcement témoigne de la pertinence de cette norme pour divers modèles de ML. Cela permet aux organisations de s'assurer que leurs données d'entraînement et d'évaluation, peu importe leur source, sont de la plus haute qualité. En outre, le fait que le document aborde tous les aspects de la qualité des données, depuis l'acquisition jusqu'à la préparation, l'étiquetage et l'utilisation des données, en fait un outil essentiel pour les praticiens et les chercheurs dans le domaine de l'analyse de données et du machine learning. En ne se limitant pas à des services ou outils spécifiques, la norme encourage une flexibilité et une adaptabilité qui sont cruciales pour la diversité des environnements d'application de l'IA. Ainsi, la norme ISO/IEC 5259-4:2024 se positionne comme un pilier fondamental pour garantir la qualité des données dans l'analyse et le machine learning, en fournissant un cadre de référence solide et applicable à toute organisation souhaitant optimiser ses pratiques de données.

Die Norm ISO/IEC 5259-4:2024 bietet einen umfassenden Rahmen für die Gewährleistung der Datenqualität in analytischen Prozessen und beim maschinellen Lernen. Besonders bemerkenswert ist ihre allgemeine Anwendbarkeit auf Organisationen jeglicher Art, Größe oder Natur, was ihre Relevanz in einem breiten Spektrum von Anwendungen unterstreicht. Ein herausragendes Merkmal dieser Norm ist der systematische Ansatz zur Datenqualität, der sowohl für überwachtes maschinelles Lernen (ML) als auch für unüberwachtes, semi-überwachtes Lernen und verstärkendes Lernen klare Richtlinien bietet. Dies umfasst spezifische Aspekte wie die Kennzeichnung von Trainingsdaten, die für die Entwicklung von ML-Systemen entscheidend ist. Die Norm bietet auch wertvolle Informationen zur Datenvorbereitung und -komposition, was für die Effektivität der Trainings- und Evaluierungsprozesse von zentraler Bedeutung ist. Darüber hinaus schafft der Leitfaden zur Datenqualität in der Norm einen strukturierten Prozessrahmen, der eine robuste Grundlage für die Datenqualität in der Analyse und im maschinellen Lernen bietet. Diese strukturierte Herangehensweise hilft Organisationen, die Integrität und Nützlichkeit ihrer Daten zu verbessern, was letztlich zu präziseren und zuverlässigeren ML-Modellen führt. Es ist wichtig zu beachten, dass die Norm keine spezifischen Dienste, Plattformen oder Werkzeuge definiert. Stattdessen konzentriert sie sich darauf, allgemeine organisatorische Ansätze zu etablieren, die flexibel und anpassbar sind. Dies ermöglicht es den Anwendern, die praktischen Anforderungen ihrer spezifischen Datenquellen und -aufbereitungsprozesse zu berücksichtigen, wodurch die Norm ein hohes Maß an Anpassungsfähigkeit und Relevanz in der schnelllebigen Welt der Datenanalyse und des maschinellen Lernens bietet. Insgesamt stellt die ISO/IEC 5259-4:2024 eine essenzielle Ressource dar, die Unternehmen und Organisationen hilft, die Qualität ihrer Daten zielgerichtet zu verbessern, und somit einen entscheidenden Beitrag zur Effizienz und Genauigkeit in der Datenanalyse und im maschinellen Lernen leistet.

ISO/IEC 5259-4:2024は、人工知能、特に分析および機械学習(ML)のためのデータ品質に関する重要な標準です。この文書は、適用される組織のタイプ、サイズ、性質に関わらず、データ品質を確保するための一般的な共通組織アプローチを確立しています。この標準の強みは、トレーニングおよび評価データの質を向上させるための明確なフレームワークを提供している点にあります。 この文書は、スーパーバイズドMLにおけるデータラベリングの方法論を含む、データ品質プロセスに関する指針を提供しています。特に、トレーニングデータのラベリングにおいて、共通の組織アプローチを定めることで、データの一貫性と信頼性を高めることが可能となります。また、アンシーパーバイズドML、セミスーパーバイズドML、強化学習、および分析に関する指針を包含しており、幅広いML手法に対応しています。 さらに、本標準は、データ取得、データ構成、データ準備、データラベリング、評価、データ使用など、さまざまな出所からのトレーニングおよび評価データに適用可能です。これにより、データ品質の向上に向けた全体的なプロセスを体系的に捉えることができるようになっています。ただし、特定のサービスやプラットフォーム、ツールについては定義されていないため、柔軟な実装が可能です。 ISO/IEC 5259-4:2024は、データ品質を重視するすべての組織にとって、重要な指針となる標準であり、今日のデータ駆動型の環境において、その関連性はますます高まっています。この標準を参照することによって、組織はMLシステムの性能を向上させ、データ駆動型の意思決定を強化するための基盤を構築することができるでしょう。

La norme ISO/IEC 5259-4:2024 se distingue par son approche systématique et universelle de la qualité des données dans le domaine de l'intelligence artificielle, en particulier pour l'analyse et l'apprentissage machine (ML). Son champ d'application est large, permettant à des organisations de toute taille et de toute nature d'adopter des méthodes communes pour garantir la qualité des données utilisées lors de l'entraînement et de l'évaluation des systèmes d'analytique et de ML. Parmi ses points forts, cette norme fournit des orientations claires sur les processus de qualité des données, s’adressant spécifiquement à plusieurs types d'apprentissage machine, comme le ML supervisé, non supervisé, semi-supervisé et d'apprentissage par renforcement. Cela signifie que les utilisateurs peuvent trouver des solutions adaptées à divers scénarios d'application, notamment en ce qui concerne le marquage des données pour l'apprentissage supervisé, ce qui est crucial pour la performance des modèles. De plus, la norme aborde également les étapes liées à l'acquisition et à la composition des données, à leur préparation et à leur évaluation, assurant ainsi une couverture complète des processus nécessaires à une gestion efficace de la qualité des données. En omettant de définir des services, plateformes ou outils spécifiques, la norme reste flexible et applicable à un large éventail de contextes, ce qui renforce sa pertinence dans un environnement technologique en constante évolution. En résumé, l'ISO/IEC 5259-4:2024 est une ressource essentielle pour toute organisation souhaitant s'assurer que la qualité des données est maintenue à chaque étape du processus de ML et d'analyse, ce qui est crucial pour le succès des initiatives liées à l'intelligence artificielle.

Die Norm ISO/IEC 5259-4:2024 bietet einen umfassenden Rahmen zur Sicherstellung der Datenqualität in der Analyse und im maschinellen Lernen (ML). Ihr zentraler Fokus liegt darauf, allgemeine und einheitliche organisatorische Ansätze zu etablieren, die unabhängig von der Art, Größe oder Natur der anwendenden Organisation sind. Dies gewährleistet, dass die Qualität der Daten für das Training und die Evaluierung von ML-Modellen auf einem konsistenten Niveau gehalten wird. Ein herausragendes Merkmal dieser Norm ist ihre Vielseitigkeit, da sie sowohl für überwachtes, unbeaufsichtigtes als auch halbüberwachtes maschinelles Lernen sowie für Reinforcement Learning und Analysen gilt. Dies macht die Norm insbesondere relevant für eine breite Palette von Anwendungen im Bereich der Datenverarbeitung und -analyse. Die Guideline zur Datenqualität umfasst wichtige Aspekte wie die Kennzeichnung von Trainingsdaten, die für maschinelle Lernsysteme verwendet werden. Die Norm deckt auch den gesamten Prozess der Datenqualität ab, einschließlich Datenakquise, Datenzusammensetzung, Datenvorbereitung, Datenkennzeichnung, Evaluierung und Nutzung der Daten. Dies zeigt, dass ISO/IEC 5259-4:2024 nicht nur theoretische Konzepte behandelt, sondern auch praktische Ansätze zur Optimierung der Datenqualität liefert. Ein weiterer bedeutender Vorteil der Norm ist die Abwesenheit spezifischer Vorgaben für Dienste, Plattformen oder Tools. Dies ermöglicht es Organisationen, flexibel und unabhängig von bestimmten Technologien oder Anbietern zu handeln, während sie dennoch die Standards für Datenqualität einhalten. Insgesamt positioniert sich ISO/IEC 5259-4:2024 als ein essenzielles Dokument für Organisationen, die im Bereich der Datenanalyse und des maschinellen Lernens tätig sind, indem es einen klaren und strukturierten Rahmen für die Gewährleistung von Datenqualität bietet, der für unterschiedliche Organisationen anpassbar ist.