ISO/IEC 5259-4:2024
(Main)Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 4: Data quality process framework
Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 4: Data quality process framework
This document establishes general common organizational approaches, regardless of the type, size or nature of the applying organization, to ensure data quality for training and evaluation in analytics and machine learning (ML). It includes guidance on the data quality process for: — supervised ML with regard to the labelling of data used for training ML systems, including common organizational approaches for training data labelling; — unsupervised ML; — semi-supervised ML; — reinforcement learning; — analytics. This document is applicable to training and evaluation data that come from different sources, including data acquisition and data composition, data preparation, data labelling, evaluation and data use. This document does not define specific services, platforms or tools.
Intelligence artificielle — Qualité des données pour les analyses de données et l’apprentissage automatique (AA) — Partie 4: Cadre pour le processus de qualité des données
Le présent document établit des approches organisationnelles communes générales, indépendamment du type, de la taille ou de la nature de l’organisme demandeur, afin de garantir la qualité des données pour l’entraînement et l’évaluation dans le cadre de l’analyse de données et de l’apprentissage automatique (AA). Il comprend des recommandations relatives au processus de qualité des données pour: — l’AA supervisé en ce qui concerne l’étiquetage des données utilisées pour entraîner les systèmes d’AA, y compris les approches organisationnelles communes pour l’étiquetage des données d’entraînement; — l’AA non supervisé; — l’AA semi-supervisé; — l’apprentissage par renforcement; — l’analyse de données. Le présent document s’applique aux données d’entraînement et d’évaluation provenant de différentes sources, y compris l’acquisition et la composition des données, la préparation des données, l’étiquetage des données, l’évaluation et l’utilisation des données. Le présent document ne définit pas de services, plateformes ou outils spécifiques.
General Information
Buy Standard
Standards Content (Sample)
International
Standard
ISO/IEC 5259-4
First edition
Artificial intelligence — Data
2024-07
quality for analytics and machine
learning (ML) —
Part 4:
Data quality process framework
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique —
Partie 4: Cadre pour le processus de qualité des données
Reference number
© ISO/IEC 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
© ISO/IEC 2024 – All rights reserved
ii
Contents Page
Foreword .v
Introduction .vi
1 Scope .1
2 Normative references .1
3 Terms and definitions .1
4 Symbols and abbreviated terms.3
5 Data quality process principles .3
6 Data quality process framework .3
6.1 General .3
6.2 Data quality planning .5
6.3 Data quality evaluation .6
6.4 Data quality improvement .6
6.5 Data quality process validation .6
6.6 Using the DQPF .7
7 Data quality process for ML .7
7.1 General .7
7.2 Data requirements .8
7.3 Data planning . .9
7.4 Data acquisition .9
7.5 Data preparation .10
7.5.1 General .10
7.5.2 Supervised ML .10
7.5.3 Unsupervised ML .10
7.5.4 Semi-supervised ML .10
7.5.5 Dataset composition .11
7.5.6 Data labelling .11
7.5.7 Data annotation .11
7.5.8 Data quality assessment . 12
7.5.9 Data quality improvement . 13
7.5.10 Data de-identification . 15
7.5.11 Data encoding. .16
7.6 Data provisioning .16
7.6.1 General .16
7.6.2 Supervised ML .16
7.6.3 Unsupervised ML .16
7.6.4 Semi-supervised ML .16
7.7 Data decommissioning .16
8 Data labelling methods and process .17
8.1 General .17
8.2 Data labelling principles .17
8.3 Data labelling methods .17
8.4 Data labelling process .18
8.4.1 General .18
8.4.2 Labelling specifications .18
8.4.3 Labelling participant roles .18
8.4.4 Labelling tools or platforms .19
8.4.5 Labelling task establishment .19
8.4.6 Labelling task assignment .19
8.4.7 Labelling process control . 20
8.4.8 Labelling result quality checking . 20
8.4.9 Labelling result revision . . 20
© ISO/IEC 2024 – All rights reserved
iii
9 Roles of participants .21
9.1 General .21
9.2 Data planner .21
9.3 Data originator .21
9.4 Data collector .21
9.5 Data engineer .21
9.6 Data holder .21
9.7 Data user .21
10 Data quality process for semi-supervised ML .22
10.1 General . 22
10.2 Data requirements . 22
10.3 Data planning . . 22
10.4 Data acquisition . 22
10.5 Data preparation . 22
10.6 Data provisioning .
...
Norme
internationale
ISO/IEC 5259-4
Première édition
Intelligence artificielle — Qualité
2024-07
des données pour les analyses
de données et l’apprentissage
automatique (AA) —
Partie 4:
Cadre pour le processus de qualité
des données
Artificial intelligence — Data quality for analytics and machine
learning (ML) —
Part 4: Data quality process framework
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
ii
Sommaire Page
Avant-propos .v
Introduction .vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles et abréviations . 3
5 Principes du processus de qualité des données . 3
6 Cadre pour le processus de qualité des données . 4
6.1 Généralités .4
6.2 Planification de la qualité des données .5
6.3 Évaluation de la qualité des données .6
6.4 Amélioration de la qualité des données .6
6.5 Validation du processus de qualité des données .6
6.6 Utilisation du CPQD .7
7 Processus de qualité des données pour l’AA . 7
7.1 Généralités .7
7.2 Exigences en matière de données .8
7.3 Planification des données .9
7.4 Acquisition des données.9
7.5 Préparation des données .10
7.5.1 Généralités .10
7.5.2 AA supervisé .11
7.5.3 AA non supervisé .11
7.5.4 AA semi-supervisé .11
7.5.5 Composition de l’ensemble de données .11
7.5.6 Étiquetage des données . 12
7.5.7 Annotation des données . 12
7.5.8 Évaluation de la qualité des données . 13
7.5.9 Amélioration de la qualité des données . 13
7.5.10 Dé-identification des données .16
7.5.11 Encodage des données . . .16
7.6 Mise à disposition des données .17
7.6.1 Généralités .17
7.6.2 AA supervisé .17
7.6.3 AA non supervisé .17
7.6.4 AA semi-supervisé .17
7.7 Mise hors service des données .17
8 Méthodes et processus d’étiquetage des données .18
8.1 Généralités .18
8.2 Principes d’étiquetage des données .18
8.3 Méthodes d’étiquetage des données .18
8.4 Processus d’étiquetage des données .19
8.4.1 Généralités .19
8.4.2 Spécifications d’étiquetage . . .19
8.4.3 Rôles des participants à l’étiquetage . 20
8.4.4 Outils ou plateformes d’étiquetage . 20
8.4.5 Établissement des tâches d’étiquetage . 20
8.4.6 Attribution des tâches d’étiquetage . 20
8.4.7 Contrôle du processus d’étiquetage .21
8.4.8 Vérification de la qualité des résultats d’étiquetage .21
8.4.9 Révision des résultats d’étiquetage . 22
© ISO/IEC 2024 – Tous droits réservés
iii
9 Rôles des participants .22
9.1 Généralités . 22
9.2 Planificateur de données . 23
9.3 Créateur de données . 23
9.4 Collecteur de données . 23
9.5 Ingénieur données . 23
9.6 Détenteur de données . 23
9.7 Utilisateur des données . 23
10 Processus de qualité des données pour l’AA semi-supervisé .23
10.1 Généralités . 23
10.2 Exigences en matière de données .24
10.3 Planification des données .24
10.4 Acquisition des données.24
10.5 Préparation des données .24
10.6 Mise à disposition des données .24
10.7 Mise hors service des données .24
11 Processus de qualité des données pour l’apprentissage par renforcement .25
11.1 Généralités . 25
11.2 Exigences en matière de données . 25
...
Date: 2024-06-06
ISO/IEC 5259--4:2024(fr)
ISO/IEC JTC 1/SC 42
Première édition
2024-07
Intelligence artificielle — Qualité des données pour les analyses
de données et l’apprentissage automatique (AA) — —
Partie 4:
Cadre pour le processus de qualité des données
Artificial intelligence — Data quality for analytics and machine learning (ML) — —
Part 4: Data quality process framework
ICS: 35.020
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO/IEC 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre oeuvre, aucune partie
de cette publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique
ou mécanique, y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable.
Une autorisation peut être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays
du demandeur.
ISO copyright office
Case postaleCP 401 • • Ch. de Blandonnet 8
CH-1214 Vernier, GenèveGeneva
Tél.: +Phone: + 41 22 749 01 11
E-mail: copyright@iso.org
Website: www.iso.orgWeb: www.iso.org
Publié en Suisse
© ISO/IEC 2024 – Tous droits réservés
iii
Sommaire Page
Avant-propos . vi
Introduction . vii
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 2
4 Symboles et abréviations . 3
5 Principes du processus de qualité des données . 3
6 Cadre pour le processus de qualité des données . 4
6.1 Généralités . 4
6.2 Planification de la qualité des données . 5
6.3 Évaluation de la qualité des données . 6
6.4 Amélioration de la qualité des données . 6
6.5 Validation du processus de qualité des données . 7
6.6 Utilisation du CPQD . 7
7 Processus de qualité des données pour l’AA . 8
7.1 Généralités . 8
7.2 Exigences en matière de données . 9
7.3 Planification des données . 10
7.4 Acquisition des données . 10
7.5 Préparation des données . 11
7.6 Mise à disposition des données . 19
7.7 Mise hors service des données . 19
8 Méthodes et processus d’étiquetage des données . 20
8.1 Généralités . 20
8.2 Principes d’étiquetage des données. 20
8.3 Méthodes d’étiquetage des données . 20
8.4 Processus d’étiquetage des données . 21
9 Rôles des participants . 25
9.1 Généralités . 25
9.2 Planificateur de données . 25
9.3 Créateur de données . 25
9.4 Collecteur de données . 25
9.5 Ingénieur données . 25
9.6 Détenteur de données . 25
9.7 Utilisateur des données . 26
10 Processus de qualité des données pour l’AA semi-supervisé . 26
10.1 Généralités . 26
10.2 Exigences en matière de données . 26
10.3 Planification des données . 26
10.4 Acquisition des données . 26
10.5 Préparation des données . 26
10.6 Mise à disposition des données . 27
10.7 Mise hors service des données . 27
11 Processus de qualité des données pour l’apprentissage par renforcement . 27
11.1 Généralités . 27
11.2 Exigences en matière de données . 27
© ISO/IEC 2024 – Tous droits réservés
iv
11.3 Planification des données . 27
11.4 Acquisition des données . 27
11.5 Préparation des données . 28
11.6 Mise à disposition des données . 28
11.7 Mise hors service des données . 29
12 Processus de qualité des données pour l’analyse de données . 29
12.1 Généralités . 29
12.2 Exigences en matière de données . 29
12.3 Planification des données . 29
12.4 Acquisition des données . 29
12.5 Préparation des données . 30
12.6 Mise à disposition des données . 32
12.7 Mise hors service des données . 32
Bibliographie . 33
© ISO/IEC 2024 – Tous droits réservés
v
Avant-propos
L’ISO (Organisation internationale de normalisation) et l’IEC (Commission électrotechnique internationale)
forment le système spécialisé de la normalisation mondiale. Les organismes nationaux membres de l’ISO ou
de l’IEC participent au développement de Normes internationales par l’intermédiaire des comités techniques
créés par l’organisation concernée afin de s’occuper des domaines particuliers de l’activité technique. Les
comités techniques de l’ISO et de l’IEC collaborent dans des domaines d’intérêt commun. D’autres
organisations internationales, gouvernementales et non gouvernementales, en liaison avec l’ISO et l’IEC,
participent également aux travaux.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents critères
d’approbation requis pour les différents types de documents. Le présent document a été rédigé conformément
aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www.iso.org/directives ou
www.iec.ch/members_experts/refdocs).
L’ISO et l’IEC attirent l’attention sur le fait que la mise en application du présent document peut entraîner
l’utilisation d’un ou de plusieurs brevets. L’ISO et l’IEC ne prennent pas position quant à la preuve, à la validité
et à l’applicabilité de tout droit de propriété revendiqué à cet égard. À la date de publication du présent
document, l’ISO et l’IEC n’avaient pas reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires
à sa mise en application. Toutefois, il y a lieu d’avertir les responsables de la mise en application du présent
document que des informations plus récentes sont susceptibles de figurer dans la base de données de brevets,
disponible à l’adresse www.iso.org/brevets et https://patents.iec.ch. L’ISO et l’IEC ne sauraient être tenues
pour responsables de ne pas avoir identifié tout ou partie de tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions spécifiques
de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux
principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au commerce
(OTC), voir www.iso.org/iso/avant-propos. Pour l’IEC, voir www.iec.ch/understanding-standards.
Le présent document a été élaboré par le comité technique mixte ISO/IEC JTC 1, Technologies de l’information,
sous-comité SC 42, Intelligence artificielle.
Une liste de toutes les parties de la série ISO/IEC 5259 se trouve sur les sites Web de l’ISO et de l’IEC.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve aux adresses www.iso.org/members.html et www.iec.ch/national-committees.
© ISO/IEC 2024 – Tous droits réservés
vi
Introduction
Les produits, systèmes ou solutions liés à l’intelligence artificielle (IA) se sont rapidement développés ces
dernières années. L’une des caractéristiques communes des systèmes d’IA, en particulier pour les systèmes
utilisant l’apprentissage automatique (AA) supervisé, est de savoir si le système d’IA peut être entraîné sur un
ensemble de données avant son déploiement ou s’il peut être entraîné dynamiquement pendant l’utilisation
du système.
Les données ont été reconnues comme l’un des aspects les plus importants des systèmes d’IA basés sur l’AA.
Pour toutes les approches d’apprentissage supervisé, semi-supervisé, non supervisé et par renforcement,
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.