Geographic information - Training data markup language for artificial intelligence - Part 1: Conceptual model

Within the context of training data for Earth Observation (EO) Artificial Intelligence Machine Learning (AI/ML), this document specifies a conceptual model that: - establishes a UML model with a target of maximizing the interoperability and usability of EO imagery training data; - specifies different AI/ML tasks and labels in EO in terms of supervised learning, including scene level, object level and pixel level tasks; - describes the permanent identifier, version, licence, training data size, measurement or imagery used for annotation; - specifies a description of quality (e.g. training data errors, training data representativeness, quality measures) and provenance (e.g. agents who perform the labelling, labelling procedure).

Information géographique — Langage de balisage des données d'entraînement pour l'intelligence artificielle — Partie 1: Modèle conceptuel

Dans le contexte des données d’entraînement pour l’apprentissage automatique de l’intelligence artificielle (IA/ML) en matière d’observation de la Terre (EO), le présent document spécifie un modèle conceptuel qui: — établit un modèle UML dans le but de maximiser l’interopérabilité et l’utilisabilité des données d’entraînement à l’imagerie d’observation de la Terre; — spécifie les différentes tâches et étiquettes d’IA/ML dans le domaine de l’EO en termes d’apprentissage supervisé, y compris les tâches au niveau de la scène, de l’objet et du pixel; — décrit l’identifiant permanent, la version, la licence, la taille des données d’entraînement, les mesures ou l’imagerie utilisée pour l’annotation; — spécifie une description de la qualité (par exemple, les erreurs dans les données d’entraînement, la représentativité des données d’entraînement, les mesures de la qualité) et de la provenance (par exemple, les agents qui effectuent l’étiquetage, la procédure d’étiquetage).

General Information

Status
Published
Publication Date
26-May-2025
Current Stage
6060 - International Standard published
Start Date
27-May-2025
Due Date
13-Feb-2027
Completion Date
27-May-2025

Overview

ISO 19178-1:2025 - Geographic information - Training data markup language for artificial intelligence - Part 1: Conceptual model defines a conceptual UML model (TrainingDML-AI) for describing training data used in Earth Observation (EO) AI/ML. The standard targets maximized interoperability and usability of EO imagery training data, covering dataset metadata, labels, tasks, provenance, quality, identifiers, versioning and licensing. It provides a structured vocabulary and class model to make EO training datasets discoverable, reproducible and machine-actionable.

Key topics and technical requirements

  • UML conceptual model: A formal information model (TrainingDML-AI) expressed with UML to standardize how training datasets and annotations are represented.
  • AI/ML task taxonomy: Specification of supervised learning task types relevant to EO - scene-level, object-level, and pixel-level tasks - and their associated labels.
  • Dataset and data item metadata: Requirements to record permanent identifiers, version, licence, dataset or training data size, and the measurement/imagery sources used for annotation.
  • Labeling and annotation: Structured description of AI_Label, AI_Labeling, and related classes to capture label semantics, geometry, and annotation provenance.
  • Quality and provenance: Mechanisms to describe data quality (errors, representativeness, quality measures) and provenance (agents, labelling procedures, change sets).
  • Extensibility and conformance: Guidelines for extending TrainingDML-AI and conformance rules to ensure consistent implementations.
  • Data dictionary and ISO dependencies: Mappings to established ISO geographic metadata classes (e.g., ISO 19115-1, ISO 19157-1, ISO 19101-1) to promote integration with existing geospatial metadata ecosystems.

Practical applications and users

  • Who uses this standard:
    • EO data providers and catalog managers
    • Remote sensing and GIS teams preparing annotated datasets
    • ML engineers and data scientists training EO models
    • Dataset curators, benchmark organizers, and platform developers
    • Standards bodies and data stewards integrating EO metadata
  • Practical benefits:
    • Create interoperable EO training datasets that are reusable across projects and platforms
    • Improve dataset traceability, reproducibility, and legal clarity via identifiers, licensing and versioning
    • Support robust model development and evaluation through standardized quality and provenance metadata
    • Facilitate dataset discovery, federation and cross-organization data sharing

Related standards

  • ISO 19115-1 (geographic metadata)
  • ISO 19157-1 (data quality)
  • ISO 19101-1 (feature concept) These referenced ISO standards provide metadata and quality classes used by TrainingDML-AI for consistent integration with geospatial information systems.

Keywords: ISO 19178-1, TrainingDML-AI, training data markup language, EO imagery, Earth Observation, AI/ML training data, dataset metadata, data provenance, data quality, supervised learning.

Standard

ISO 19178-1:2025 - Geographic information — Training data markup language for artificial intelligence — Part 1: Conceptual model Released:27. 05. 2025

English language
48 pages
sale 15% off
Preview
sale 15% off
Preview
Standard

ISO 19178-1:2025 - Information géographique — Langage de balisage des données d'entraînement pour l'intelligence artificielle — Partie 1: Modèle conceptuel Released:27. 05. 2025

French language
53 pages
sale 15% off
Preview
sale 15% off
Preview

Frequently Asked Questions

ISO 19178-1:2025 is a standard published by the International Organization for Standardization (ISO). Its full title is "Geographic information - Training data markup language for artificial intelligence - Part 1: Conceptual model". This standard covers: Within the context of training data for Earth Observation (EO) Artificial Intelligence Machine Learning (AI/ML), this document specifies a conceptual model that: - establishes a UML model with a target of maximizing the interoperability and usability of EO imagery training data; - specifies different AI/ML tasks and labels in EO in terms of supervised learning, including scene level, object level and pixel level tasks; - describes the permanent identifier, version, licence, training data size, measurement or imagery used for annotation; - specifies a description of quality (e.g. training data errors, training data representativeness, quality measures) and provenance (e.g. agents who perform the labelling, labelling procedure).

Within the context of training data for Earth Observation (EO) Artificial Intelligence Machine Learning (AI/ML), this document specifies a conceptual model that: - establishes a UML model with a target of maximizing the interoperability and usability of EO imagery training data; - specifies different AI/ML tasks and labels in EO in terms of supervised learning, including scene level, object level and pixel level tasks; - describes the permanent identifier, version, licence, training data size, measurement or imagery used for annotation; - specifies a description of quality (e.g. training data errors, training data representativeness, quality measures) and provenance (e.g. agents who perform the labelling, labelling procedure).

ISO 19178-1:2025 is classified under the following ICS (International Classification for Standards) categories: 35.240.70 - IT applications in science. The ICS classification helps identify the subject area and facilitates finding related standards.

You can purchase ISO 19178-1:2025 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of ISO standards.

Standards Content (Sample)


International
Standard
ISO 19178-1
First edition
Geographic information — Training
2025-05
data markup language for artificial
intelligence —
Part 1:
Conceptual model
Information géographique — Langage de balisage des données
d'entraînement pour l'intelligence artificielle —
Partie 1: Modèle conceptuel
Reference number
© ISO 2025
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .v
Introduction .vi
1 Scope . 1
2 Normative references . 1
3 Terms, definitions and abbreviated terms . 1
3.1 Terms and definitions .1
3.2 Abbreviated terms .3
4 Conventions . 4
4.1 General .4
4.2 Identifiers .4
4.3 UML notation.4
5 Conformance . 6
6 Overview . 6
6.1 General .6
6.2 AI tasks for EO.6
6.3 Modularization .7
6.4 General modelling principles .8
6.4.1 Element modelling .8
6.4.2 Class hierarchy and inheritance of properties and relations .8
6.4.3 Definition of the semantics for all classes, properties and relations . .9
6.4.4 Data integrity, authenticity and non-repudiation .9
6.5 Extending TrainingDML-AI .9
7 TrainingDML-AI UML model . 9
7.1 General .9
7.2 ISO dependencies .9
7.3 Overview of the UML model .10
7.4 AI_TrainingDataset . 12
7.4.1 General . 12
7.4.2 Provisions . 13
7.4.3 Class definitions .14
7.5 AI_TrainingData . 15
7.5.1 General . 15
7.5.2 Provisions .16
7.5.3 Class definitions .16
7.6 AI_Task .17
7.6.1 General .17
7.6.2 Provisions .18
7.6.3 Class definitions .18
7.7 AI_Label .18
7.7.1 General .18
7.7.2 Provisions .19
7.7.3 Class definitions . 20
7.8 AI_Labeling . 20
7.8.1 General . 20
7.8.2 Provisions .21
7.8.3 Class definitions . 22
7.9 AI_TDChangeset . 22
7.9.1 General . 22
7.9.2 Provisions . 23
7.9.3 Class definitions .24
7.10 AI_DataQuality .24
7.10.1 General .24

iii
7.10.2 Provisions . 25
7.10.3 Class definitions . 26
8 TrainingDML-AI Data Dictionary .26
8.1 General . 26
8.2 ISO Classes . 26
8.2.1 Feature (from ISO 19101-1) . 26
8.2.2 MD_Band (from ISO 19115-1) . 26
8.2.3 MD_Scope (from ISO 19115-1) . 26
8.2.4 MD_ReferenceSystem (from ISO 19115-1) . 26
8.2.5 LI_Lineage (from ISO 19115-1) .27
8.2.6 EX_Extent (from ISO 19115-1) .27
8.2.7 CI_Citation (from ISO 19115-1) .27
8.2.8 MD_Resolution (from ISO 19115-1) .27
8.2.9 DataQuality (from ISO 19157-1).27
8.2.10 QualityElement (from ISO 19157-1) . 28
8.3 AI_TrainingDataset . 28
8.3.1 Metadata . 28
8.3.2 Classes . 28
8.4 AI_TrainingData . 30
8.4.1 Metadata . 30
8.4.2 Classes . 30
8.5 AI_Task .31
8.5.1 Metadata .31
8.5.2 Classes .32
8.6 AI_Label .32
8.6.1 Metadata .32
8.6.2 Classes .32
8.7 AI_Labeling . 34
8.7.1 Metadata . 34
8.7.2 Classes . 34
8.8 AI_TDChangeset . 35
8.8.1 Metadata . 35
8.8.2 Classes . 35
8.9 AI_DataQuality . 36
8.9.1 Metadata . 36
8.9.2 Classes . 36
Annex A (normative) Abstract test suite .37
Annex B (informative) Examples .44
Bibliography . 47

iv
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out through
ISO technical committees. Each member body interested in a subject for which a technical committee
has been established has the right to be represented on that committee. International organizations,
governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of ISO document should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use of (a)
patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed patent
rights in respect thereof. As of the date of publication of this document, ISO had not received notice of (a)
patent(s) which may be required to implement this document. However, implementers are cautioned that
this may not represent the latest information, which may be obtained from the patent database available at
www.iso.org/patents. ISO shall not be held responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO’s adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 211, Geographic information/Geomatics, in
collaboration with the European Committee for Standardization (CEN) Technical Committee CEN/TC 287,
Geographic Information, in accordance with the Agreement on technical cooperation between ISO and CEN
(Vienna Agreement) and in collaboration with the Open Geospatial Consortium (OGC).
A list of all parts in the ISO 19178 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.

v
Introduction
This document aims to develop the UML model and encodings for geospatial machine learning training data.
Training data play a fundamental role in Earth Observation (EO) Artificial Intelligence Machine Learning
(AI/ML), especially Deep Learning (DL). Training data are used to train, validate and test AI/ML models.
This document defines a UML model and encodings consistent with the OGC Standards baseline to exchange
and retrieve training data in the Web environment.
This document provides detailed metadata for formalizing the information model of training data. This
includes, but is not limited to the following aspects:
— how the training data are prepared, such as provenance or quality;
— how to specify different metadata used for different ML tasks, such as scene/object/pixel levels;
— how to differentiate the high-level training data information model and extended information models
specific to various ML applications;
— how to introduce external classification schemes and flexible means for representing labelling.

vi
International Standard ISO 19178-1:2025(en)
Geographic information — Training data markup language
for artificial intelligence —
Part 1:
Conceptual model
1 Scope
Within the context of training data for Earth Observation (EO) Artificial Intelligence Machine Learning (AI/
ML), this document specifies a conceptual model that:
— establishes a UML model with a target of maximizing the interoperability and usability of EO imagery
training data;
— specifies different AI/ML tasks and labels in EO in terms of supervised learning, including scene level,
object level and pixel level tasks;
— describes the permanent identifier, version, licence, training data size, measurement or imagery used for
annotation;
— specifies a description of quality (e.g. training data errors, training data representativeness, quality
measures) and provenance (e.g. agents who perform the labelling, labelling procedure).
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content constitutes
requirements of this document. For dated references, only the edition cited applies. For undated references,
the latest edition of the referenced document (including any amendments) applies.
ISO 19101-1, Geographic information — Reference model — Part 1: Fundamentals
ISO 19103, Geographic information — Conceptual schema language
ISO 19115-1, Geographic information — Metadata — Part 1: Fundamentals
ISO 19156, Geographic information — Observations, measurements and samples
ISO 19157-1, Geographic information — Data quality — Part 1: General requirements
3 Terms, definitions and abbreviated terms
3.1 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/

3.1.1
3D model reconstruction
task in which 3D objects and scenes are built from multi-view images
3.1.2
artificial intelligence
AI
branch of computer science devoted to developing data processing systems that perform functions normally
associated with human intelligence, such as reasoning, learning and self-improvement
[SOURCE: ISO/IEC 2382:2015, 2121393, modified — Notes 1 and 2 to entry have been removed.]
3.1.3
change detection
recognition of changes between images acquired at different times
3.1.4
class
result of a classification process as part of a classification system which subdivides concepts
within a given topic area
[SOURCE: ISO 19144-2:2023, 3.1.6]
3.1.5
dataset
identifiable collection of data
Note 1 to entry: A dataset can be a smaller grouping of data which, though limited by some constraint such as spatial
extent or feature type, is located physically within a larger dataset. Theoretically, a dataset can be as small as a single
feature or feature attribute contained within a larger dataset. A hardcopy map or chart can be considered a dataset.
[SOURCE: ISO 19115-1:2014, 4.3]
3.1.6
deep learning
DL
approach to creating rich hierarchical representations through the training of
neural networks with one or more hidden layers
Note 1 to entry: Deep learning uses multi-layered networks of simple computing units (or “neurons”). In these neural
networks each unit combines a set of input values to produce an output value, which in turn is passed on to other
neurons downstream.
[SOURCE: ISO/IEC TR 29119-11:2020, 3.1.26]
3.1.7
generative model
method of large model training, which improves model performance through
unsupervised pre-training
Note 1 to entry: In the fine-tuning phase, labelled data play a critical role in optimizing the model for specific vertical
domains or tasks. By incorporating labelled data, the model can learn to accurately identify and extract relevant
features, leading to better performance on specific downstream tasks. Overall, the combination of generative models
and fine-tuning with labelled data can significantly improve the performance of large models in specialized domains
or tasks.
3.1.8
label
known or expected results annotated as values of a dependent variable in training samples
Note 1 to entry: A training sample label is different from those on a geographical map, which are known as map labels
or annotations.
3.1.9
machine learning
ML
process of optimizing model parameters through computational techniques, such
that the model’s behaviour reflects the data or experience
Note 1 to entry: ML processes create models from training data by using a set of learning algorithms, and then can use
these models to make predictions. Depending on whether the training data include labels, the learning algorithms can
be divided into supervised and unsupervised learning.
[SOURCE: ISO/IEC 22989:2022, 3.3.5, modified — Note 1 has been added.]
3.1.10
object detection
recognition of objects from images
Note 1 to entry: The objects are often localized using bounding boxes.
3.1.11
provenance
organization or individual that created, accumulated, maintained and used records
Note 1 to entry: In this document provenance is a record of how training data were prepared.
[SOURCE: ISO 19115-1:2014, 4.16, modified —Note 1 to entry has been added.]
3.1.12
quality
degree to which a set of inherent characteristics of an object fulfils requirements
Note 1 to entry: Quality of training data (such as data imbalance and mislabelling) can impact the performance of
artificial intelligence/machine learning (AI/ML) models.
[SOURCE: ISO 9000:2015, 3.6.2, modified — Notes 1 and 2 to entry have been removed, and a new Note 1 to
entry has been added.]
3.1.13
scene classification
task of identifying scene categories of images, on the basis of a training set of images
whose scene categories are known
3.1.14
semantic segmentation
task of assigning class labels to pixels of images or points of point clouds
3.1.15
training dataset
collection of samples, often labelled with known or expected values for supervised
learning
Note 1 to entry: A training dataset can be divided into training, validation and test sets. "Training samples" referred
to in this document are different from "samples" referred to in ISO 19156. They are often collected in purposive ways
that deviate from purely probability sampling, with known or expected results labelled as values of a dependent
variable for generating a trained predictive model.
3.2 Abbreviated terms
In this document, the following abbreviated terms and acronyms are used or introduced:

ATS abstract test suite
DML Data Markup Language
EO earth observation
ISO International Organization for Standardization
JSON JavaScript Object Notation
LC land cover
LU land use
OGC Open Geospatial Consortium
RS remote sensing
SAR synthetic aperture radar
TD training data
UML Unified Modelling Language
URL Uniform Resource Locator
URI Uniform Resource Identifier
XML Extensible Markup Language
4 Conventions
4.1 General
This clause provides details and examples for any conventions used in the document. Examples of conventions
are symbols, abbreviations, use of XML schema, or special notes regarding how to read the document.
4.2 Identifiers
The requirements in this specification are denoted by the URI:
http://www.opengis.net/spec/TrainingDML-AI-1/1.0

All requirements and conformance tests that appear in this document are denoted by partial URIs which are
relative to this base.
4.3 UML notation
The conceptual model is presented in this document through diagrams using the Unified Modelling Language
(UML) static structure diagram. The UML notations used in this document are described in the diagram in
Figure 1.
NOTE For further information on the UML notation, see ISO 19103.
Figure 1 — UML notation
All associations between model elements in the TrainingDML-AI conceptual model are uni-directional. Thus,
associations in the model are navigable in only one direction. The direction of navigation is depicted by an
arrowhead. In general, the context an element takes within the association is indicated by its role. The role is
displayed near the target of the association. But, if the graphical representation is ambiguous, the position of
the role has to be drawn to the element to which the association points.
The following stereotypes are used in this model.
— «DataType» defines a set of properties that lack identity. A data type is a classifier with no operations,
whose primary purpose is to hold information.
— «CodeList» enumerates the valid attribute values. In contrast to Enumeration, the list of values is open
and, thus, not given inline in the TrainingDML-AI UML Model. The allowed values can be provided within
an external code list.
5 Conformance
This document defines a conceptual model that is independent of any encoding or formatting technologies.
The standardization target for this document is:
— TrainingDML-AI conceptual model
Conformance with this document shall be checked using all the relevant tests specified in Annex A of this
document. The framework, concepts and methodology for testing, and the criteria to be achieved to claim
conformance are specified in the OGC Compliance Testing Policies and Procedures and the OGC Compliance
[9]
Testing web site.
All requirements-classes and conformance-classes described in this document are owned by the standard
identified.
6 Overview
6.1 General
This document defines how to represent and exchange ML training data. The conceptual model includes the
most relevant training data entities from datasets, to instances (i.e. individual training samples), to labels.
The conceptual schema specifies how and into which parts the training data should be decomposed and
classified.
This document strategically addresses geospatial requirements by providing a modular and extensible
framework tailored to EO applications. The content and format of training datasets differ depending on the
EO ML scenarios they were collected for (e.g. scene/object/pixel levels). This document defines a UML model
and encodings consistent with the OGC/ISO baseline standards to exchange and retrieve geospatial training
data. Existing geospatial standards (e.g. ISO 19101-1, ISO 19115-1, ISO 19157-1) can be reused when defining
geospatial requirements on source RS images, label geometry, metadata and quality. While some general
geospatial information such as the spatial extent and reference system information are defined for training
data at the high level, other EO-specific information, such as the size of each sample image, spatial resolution,
and bands, can be extended in a subclass at the low level. With a hierarchical and extensible structure,
the training data model accommodates diverse geospatial data characteristics, ensuring flexibility and
interoperability.
The training data model defined in this document facilitates interoperability by enabling heterogeneous
training datasets to conform to a unified representation and exchange form. It ensures that training
data from different vendors can be consistently shared and interpreted, improving the accessibility and
promoting the integration of geospatial AI/ML resources.
The TrainingDML-AI conceptual model (Clause 7) is formally specified using UML class diagrams,
complemented by a data dictionary (Clause 8) providing the definitions and explanations of the object
classes and attributes. This conceptual model provides the basis for specifying encoding implemented in
languages such as JSON, or XML. Annex B provides a series of encoding examples, including representations
for TrainingDataset, DataQuality, and TDChangeset encoding.
6.2 AI tasks for EO
In recent years AI/ML has been increasingly used in the EO domain. The new AI/ML algorithms frequently
require large training datasets as benchmarks. AI/ML TD have been used in many EO applications to
calibrate the performance of AI/ML models. Many efforts have been made to produce training datasets
to make accurate predictions. As a result, a number of training datasets are publicly available, with new
datasets being constantly released. In the EO domain, examples of AI/ML training datasets have been
developed in various tasks including the following typical scenarios.
— Scene classification: These algorithms determine image categories from numerous pictures (e.g.
agricultural, forest and beach scenes). The training samples are a series of labelled pictures. The data

can be either from satellite, drones or aircrafts. The metadata of the datasets often includes the number
of training samples, the number of classes and the image size.
— Object detection: These algorithms detect and localize different objects (e.g. airplanes, cars and buildings)
in a single image. The image can be optical or non-optical, such as synthetic aperture radar (SAR). Recent
work also suggests an increasing focus on object detection from street view imagery. Objects can be
labelled using either polygons or bounding boxes. The bounding boxes can be either oriented vertically or
horizontally. The geometry of a bounding box can be expressed using top-left/bottom-right coordinates,
coordinates of four corners, or centre coordinates along with the length and width of the box.
— Semantic segmentation: In terms of land cover (LC) and land use (LU) classification, this process assigns
a LC/LU class label to a pixel (or groups of pixels) of RS imagery. In the context of semantic segmentation
of 3D point clouds, it classifies points of a 3D point cloud into categories. TDs are usually composed of RS
images/point clouds, and the corresponding labelled value of each pixel/point recording its class.
— Change detection: These algorithms identify the difference between images acquired over the same
geographical area but taken at different times. The TD comprise a set of pre-change and post-change RS
images, with the corresponding reference map labelled for changed and unchanged pixels. The image
can be optical or SAR images.
— 3D model reconstruction: These algorithms infer the 3D geometry and structure of objects and scenes,
mainly realized from the dense matching of multi-view images. The TD are usually composed of two-
view or multi-view images, with the corresponding disparity map or depth maps as reference data
respectively.
6.3 Modularization
The TrainingDML-AI conceptual model provides models for the most important elements within TD. These
elements have been identified to be either required or important in many different AI/ML tasks. However,
implementations are not required to support the complete TrainingDML-AI model in order to be conformant
to this document. Implementations may employ a subset of constructs according to their specific information
needs. For this purpose, modularization is applied to the TrainingDML-AI model.
As shown in Figure 2, the TrainingDML-AI conceptual model is thematically decomposed into a Basic
module, a Provenance module, a Quality module and a Changeset module. The Basic module comprises
the basic concepts and elements, including AI_TrainingDataset, AI_TrainingData, AI_Label and AI_Task, of
the TrainingDML-AI, and thus, shall be implemented by any conformant system. The Provenance module
provides a comprehensive definition of provenance by AI_Labeling, AI_Labeler and AI_Labeling Procedure.
The Quality module offers quality description of TD with AI_DataQuality elements. The Changeset module
defines AI_TDChangeset between versions of datasets.

Figure 2 — TrainingDML-AI module overview
6.4 General modelling principles
6.4.1 Element modelling
[15]
The modelling of all elements in the TrainingDML-AI conceptual model has the following principles .
— Granularity: Two levels of granularity are differentiated in the conceptual model: The Training Dataset
is used to refer to the collection level, and the Training Data are used to refer to the individual level.
— Label semantics: The training dataset will not be limited to one classification scheme. External
classification schemes should be allowed to be linked into the Training Dataset to accommodate different
cases in practice. The development of external classification schemes can follow the ISO 19144 series.
— Light-weight design: The lightweight designed conceptual model has a minimum set of metadata
elements, provenance, or quality measures at the collection level instead of at the individual level. This
is to facilitate the understanding of the dataset and improve the scalability for communicating large
training datasets.
— Alignment: The modelling of elements in TDs can leverage existing efforts for wide adoption, such as for
ISO 19109, ISO 19115-1, ISO 19157-1, and the OGC Geography Markup Language (GML) Standard. The
conceptual model can be aligned with these existing standards and leverage capabilities fulfilled in part
by other standards.
— Quality, bias, and ethics: Elements related to quality, or more specifically, bias that can be used to reduce
the errors when using AI/ML. For example, any knowledge of the TD imbalance and mislabelling can be
stored in TD quality. In addition, data ethics aims to safeguard the responsible use of TD, and it can be
addressed by using the licence property in the TD.
— Changeset: This will be an optional module in TD modelling. Changeset addresses how to capture
changes in TD datasets. The change model considers the trend in TD collections to use the crowdsourcing
platforms and borrow the change representation from the platforms such as OpenStreetMap.
6.4.2 Class hierarchy and inheritance of properties and relations
In the TrainingDML-AI conceptual model, the specific elements such as EO training datasets, EO training
data, scene label, object label and pixel label are defined as subclasses of more general higher-level classes.
Hence, elements build a hierarchy along specialization/generalization relations where more specialized

elements inherit the properties and relations of all their super classes along the entire generalization path to
the topmost element.
6.4.3 Definition of the semantics for all classes, properties and relations
The meanings of all elements defined in the TrainingDML-AI conceptual model are normatively specified in
the data dictionary in Clause 8.
6.4.4 Data integrity, authenticity and non-repudiation
Sometimes training datasets can be downloaded, disseminated, and changed by anyone. The data integrity,
authenticity and non-repudiation are important to avoid unexpected bias propagation and distorted results.
Currently the standard focuses on the information modelling, while data dissemination can be enriched
with strategies from the general information domain by publishing hashes (e.g. MD5) and public-keys (e.g.
RSA) after signing and encrypting.
6.5 Extending TrainingDML-AI
The TrainingDML-AI conceptual model is designed as a universal information model that defines elements
and attributes which are useful for a broad range of AI/ML applications in the geospatial domain. In
practical AI/ML applications, the elements within specific TDs will most likely contain attributes which are
not explicitly modelled in TrainingDML-AI. Moreover, there can be TD elements which are not covered by the
TrainingDML-AI thematic classes.
The model provides an abstract class-based method to support the exchange of such data. Elements not
represented by the predefined thematic classes of the model
...


Norme
internationale
ISO 19178-1
Première édition
Information géographique —
2025-05
Langage de balisage des données
d'entraînement pour l'intelligence
artificielle —
Partie 1:
Modèle conceptuel
Geographic information — Training data markup language for
artificial intelligence —
Part 1: Conceptual model
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2025
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .v
Introduction .vi
1 Domaine d’application . 1
2 Références normatives . 1
3  Termes, définitions et abréviations . 1
3.1 Termes et définitions .1
3.2 Abréviations.4
4 Conventions . 4
4.1 Généralités .4
4.2 Identifiants . .4
4.3 Notation UML .5
5 Conformité . 6
6 Vue d’ensemble . 6
6.1 Généralités .6
6.2 Tâches d’IA pour l’EO .6
6.3 Modularisation .7
6.4 Principes généraux de modélisation .8
6.4.1 Modélisation des éléments .8
6.4.2 Hiérarchie des classes et héritage des propriétés et des relations.9
6.4.3 Définition de la sémantique pour toutes les classes, propriétés et relations .9
6.4.4 Intégrité, authenticité et non-répudiation des données .9
6.5 Extension du modèle TrainingDML-AI .9
7 Modèle UML TrainingDML-AI . 9
7.1 Généralités .9
7.2 Dépendances ISO .9
7.3 Vue d’ensemble du modèle UML .11
7.4 AI_TrainingDataset . 12
7.4.1 Généralités . 12
7.4.2 Dispositions . 13
7.4.3 Définitions de classes .14
7.5 AI_TrainingData . 15
7.5.1 Généralités . 15
7.5.2 Dispositions .16
7.5.3 Définitions de classes .16
7.6 AI_Task .17
7.6.1 Généralités .17
7.6.2 Dispositions .18
7.6.3 Définitions de classes .19
7.7 AI_Label .19
7.7.1 Généralités .19
7.7.2 Dispositions . 20
7.7.3 Définitions de classes .21
7.8 AI_Labeling .21
7.8.1 Généralités .21
7.8.2 Dispositions . 22
7.8.3 Définitions de classes . 23
7.9 AI_TDChangeset . 23
7.9.1 Généralités . 23
7.9.2 Dispositions .24
7.9.3 Définitions de classes .24
7.10 AI_DataQuality . 25
7.10.1 Généralités . 25

iii
7.10.2 Dispositions . 26
7.10.3 Définitions de classes .27
8 Dictionnaire de données TrainingDML-AI .27
8.1 Généralités .27
8.2 Classes ISO .27
8.2.1 Feature (entité, d’après l’ISO 19101-1) .27
8.2.2 MD_Band (bande, d’après l’ISO 19101-1) .27
8.2.3 MD_Scope (domaine d’application, d’après l’ISO 19115-1) .27
8.2.4 MD_ReferenceSystem (d’après l’ISO 19115-1) . 28
8.2.5 LI_Lineage (généalogie, d’après l’ISO 19115-1) . 28
8.2.6 EX_Extent (étendue, d’après l’ISO 19115-1) . 28
8.2.7 CI_Citation (citation, d’après l’ISO 19115-1) . 28
8.2.8 MD_Resolution (résolution, d’après l’ISO 19115-1) . 28
8.2.9 DataQuality (qualité des données, d’après l’ISO 19157-1) . 28
8.2.10 QualityElement (élément de qualité, d’après l’ISO 19157-1) . 29
8.3 AI_TrainingDataset . 29
8.3.1 Métadonnées . 29
8.3.2 Classes . 29
8.4 AI_TrainingData .31
8.4.1 Métadonnées .31
8.4.2 Classes .31
8.5 AI_Task . 33
8.5.1 Métadonnées . 33
8.5.2 Classes . 33
8.6 AI_Label . 34
8.6.1 Métadonnées . 34
8.6.2 Classes . 34
8.7 AI_Labeling . 35
8.7.1 Métadonnées . 35
8.7.2 Classes . 36
8.8 AI_TDChangeset .37
8.8.1 Métadonnées .37
8.8.2 Classes .37
8.9 AI_DataQuality . 38
8.9.1 Métadonnées . 38
8.9.2 Classes . 38
Annexe A (normative) Suite de tests abstraits .39
Annexe B (informative) Exemples .47
Bibliographie . 51

iv
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes nationaux
de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est en général
confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude a le droit de faire
partie du comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l’ISO participent également aux travaux. L’ISO collabore étroitement avec
la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a
été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir
www.iso.org/directives).
L’ISO attire l’attention sur le fait que la mise en application du présent document peut entraîner l’utilisation
d’un ou de plusieurs brevets. L’ISO ne prend pas position quant à la preuve, à la validité et à l’applicabilité de
tout droit de brevet revendiqué à cet égard. À la date de publication du présent document, l’ISO n’avait pas
reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires à sa mise en application. Toutefois,
il y a lieu d’avertir les responsables de la mise en application du présent document que des informations
plus récentes sont susceptibles de figurer dans la base de données de brevets, disponible à l’adresse
www.iso.org/brevets. L’ISO ne saurait être tenue pour responsable de ne pas avoir identifié tout ou partie de
tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de
l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au
commerce (OTC), voir www.iso.org/avant-propos.
Le présent document a été élaboré par le comité technique ISO/TC 211, Information géographique/
Géomatique, en collaboration avec le comité technique CEN/TC 287, Information géographique, du Comité
européen de normalisation (CEN) conformément à l’Accord de coopération technique entre l’ISO et le CEN
(Accord de Vienne), et en collaboration avec l’Open Geospatial Consortium (OGC).
Une liste de toutes les parties de la série ISO 19178 se trouve sur le site web de l’ISO.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve à l’adresse www.iso.org/fr/members.html.

v
Introduction
Le présent document vise à développer le modèle UML et les encodages pour les données d’entraînement
à l’apprentissage automatique géospatial. Les données d’entraînement jouent un rôle fondamental dans
l’apprentissage automatique de l’intelligence artificielle (IA/ML) en matière d’observation de la Terre (EO),
en particulier l’apprentissage profond (DL). Elles sont utilisées pour entraîner, valider et tester les modèles
d’IA/ML. Le présent document définit un modèle UML et des encodages conformes à la base de normes de
l’OGC pour échanger et récupérer les données d’entraînement dans l’environnement Web.
Le présent document fournit des métadonnées détaillées pour formaliser le modèle d’information des
données d’entraînement. Cela comprend, sans s’y limiter, les aspects suivants:
— comment les données d’entraînement sont préparées, telles que la provenance ou la qualité;
— comment spécifier les différentes métadonnées utilisées pour les différentes tâches de ML, telles que les
niveaux scène/objet/pixel;
— comment différencier le modèle d’information des données d’entraînement de haut niveau et les modèles
d’information étendus spécifiques à diverses applications de ML;
— comment introduire des systèmes de classification externes et des moyens flexibles pour représenter
l’étiquetage.
vi
Norme internationale ISO 19178-1:2025(fr)
Information géographique — Langage de balisage des
données d'entraînement pour l'intelligence artificielle —
Partie 1:
Modèle conceptuel
1 Domaine d’application
Dans le contexte des données d’entraînement pour l’apprentissage automatique de l’intelligence artificielle
(IA/ML) en matière d’observation de la Terre (EO), le présent document spécifie un modèle conceptuel qui:
— établit un modèle UML dans le but de maximiser l’interopérabilité et l’utilisabilité des données
d’entraînement à l’imagerie d’observation de la Terre;
— spécifie les différentes tâches et étiquettes d’IA/ML dans le domaine de l’EO en termes d’apprentissage
supervisé, y compris les tâches au niveau de la scène, de l’objet et du pixel;
— décrit l’identifiant permanent, la version, la licence, la taille des données d’entraînement, les mesures ou
l’imagerie utilisée pour l’annotation;
— spécifie une description de la qualité (par exemple, les erreurs dans les données d’entraînement, la
représentativité des données d’entraînement, les mesures de la qualité) et de la provenance (par exemple,
les agents qui effectuent l’étiquetage, la procédure d’étiquetage).
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour
les références non datées, la dernière édition du document de référence s'applique (y compris les éventuels
amendements).
ISO 19101-1, Information géographique — Modèle de référence — Partie 1: Principes de base
ISO 19103, Information géographique — Langage de schéma conceptuel
ISO 19115-1, Information géographique — Métadonnées — Partie 1: Principes de base
ISO 19156, Information géographique — Observations, mesures et échantillons
ISO 19157-1, Information géographique — Qualité des données — Partie 1: Exigences générales
3  Termes, définitions et abréviations
3.1  Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp

— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1.1
reconstruction d’un modèle 3D
tâche dans laquelle des objets et des scènes en 3D sont construits à partir d’images
multi-vues
3.1.2
intelligence artificielle
IA
discipline qui traite des systèmes informatiques capables d’exécuter des fonctions généralement associées à
l’intelligence humaine, telles que le raisonnement, l’apprentissage et l’auto-amélioration
[SOURCE: ISO/IEC 2382:2015, 2121393, modifié — Les Notes 1 et 2 à l’article ont été supprimées.]
3.1.3
détection de changements
reconnaissance des changements entre des images acquises à des moments
différents
3.1.4
classe
résultat d’un processus de classification dans le cadre d’un système de classification qui
subdivise des concepts dans un domaine thématique donné
[SOURCE: ISO 19144‑2:2023, 3.1.6]
3.1.5
jeu de données
collection identifiable de données
Note 1 à l'article: Un jeu de données peut être un regroupement plus restreint de données qui, bien qu’il soit limité par
certaines contraintes, comme une étendue spatiale ou un type d’entité, est situé physiquement dans un jeu de données
plus grand. En théorie, un jeu de données peut être aussi petit qu’une seule entité ou attribut d’entité dans un jeu de
données plus grand. Une carte ou un graphe sur copie papier peut être considéré comme un jeu de données.
[SOURCE: ISO 19115‑1:2014, 4.3]
3.1.6
apprentissage profond
DL
approche consistant à créer de riches représentations hiérarchiques par
l’entraînement de réseaux neuronaux comportant une ou plusieurs couches cachées
Note 1 à l'article: L’apprentissage profond utilise des réseaux multicouches d’unités de calcul simples (ou «neurones»).
Dans ces réseaux neuronaux, chaque unité combine un ensemble de valeurs d’entrée pour produire une valeur de
sortie, laquelle est à son tour transmise à d’autres neurones en aval.
[SOURCE: ISO/IEC TR 29119‑11:2020, 3.1.26]
3.1.7
modèle génératif
méthode d’entraînement de grands modèles, qui améliore la performance du
modèle par un pré entraînement non supervisé
Note 1 à l'article: Dans la phase de réglage fin, les données étiquetées jouent un rôle essentiel dans l’optimisation
du modèle pour des domaines verticaux ou des tâches spécifiques. En incorporant des données étiquetées, le modèle
peut apprendre à identifier et à extraire avec précision les entités pertinentes, ce qui permet d’obtenir de meilleures
performances pour des tâches spécifiques en aval. Dans l’ensemble, la combinaison de modèles génératifs et d’un
réglage fin à l’aide de données étiquetées peut améliorer de manière significative les performances des grands modèles
dans des domaines ou des tâches spécialisés.

3.1.8
étiquette
résultats connus ou attendus annotés en tant que valeurs d’une variable
dépendante dans des échantillons d’entraînement
Note 1 à l'article: L’étiquette d’un échantillon d’entraînement est différente de celles qui figurent sur une carte
géographique, appelées étiquettes ou annotations cartographiques.
3.1.9
apprentissage machine
ML
processus d’optimisation des paramètres de modèle à l’aide de techniques de
calcul, de sorte que le comportement du modèle reflète les données ou l’expérience
Note 1 à l'article: Les processus de ML créent des modèles à partir de données d’entraînement en utilisant un ensemble
d’algorithmes d’apprentissage, et peuvent ensuite utiliser ces modèles pour faire des prédictions. Les algorithmes
d’apprentissage peuvent être divisés en apprentissage supervisé et non supervisé, en fonction de la présence ou non
d’étiquettes dans les données d’entraînement.
[SOURCE: ISO/IEC 22989:2022, 3.3.5, modifié — La Note 1 à l’article a été ajoutée.]
3.1.10
détection d’objets
reconnaissance d’objets à partir d’images
Note 1 à l'article: Les objets sont souvent localisés à l’aide de cadres de contour.
3.1.11
provenance
organisation ou individu qui a créé, collecté, maintenu et utilisé des enregistrements
Note 1 à l'article: Dans le présent document, la provenance est un enregistrement de la façon dont les données
d’entraînement ont été préparées.
[SOURCE: ISO 19115‑1:2014, 4.16, modifié — La Note 1 à l’article a été ajoutée.]
3.1.12
qualité
aptitude d’un ensemble de caractéristiques intrinsèques d’un objet à satisfaire des exigences
Note 1 à l'article: La qualité des données d’entraînement (telles que le déséquilibre des données et les erreurs
d’étiquetage) peut avoir une incidence sur les performances des modèles d’apprentissage automatique de l’intelligence
artificielle (IA/ML).
[SOURCE: ISO 9000:2015, 3.6.2, modifié — Les Notes 1 et 2 à l’article ont été supprimées et une nouvelle
Note 1 à l’article a été ajoutée.]
3.1.13
classification des scènes
tâche consistant à identifier les catégories de scène des images, sur la base d’un
ensemble d’images d’entraînement dont les catégories de scène sont connues
3.1.14
segmentation sémantique
tâche consistant à attribuer des étiquettes de classe aux pixels des images ou aux
points des nuages de points
3.1.15
jeu de données d’entraînement
collection d’échantillons, souvent étiquetés avec des valeurs connues ou attendues
pour l’apprentissage supervisé
Note 1 à l'article: Un jeu de données d’entraînement peut être divisé en ensembles d’entraînement, de validation et
de test. Les «échantillons d’entraînement» mentionnés dans le présent document sont différents des «échantillons»
mentionnés dans l’ISO 19156. Elles sont souvent collectées de manière ciblée, en s’écartant de l’échantillonnage
purement probabiliste, les résultats connus ou attendus étant considérés comme des valeurs d’une variable
dépendante permettant de générer un modèle prédictif entraîné.
3.2 Abréviations
Dans le présent document, les abréviations et acronymes suivants sont utilisés ou introduits:
ATS Abstract test suite (Suite de tests abstraits)
DML Data Markup Language (Langage de balisage des données)
EO Earth observation (Observations de la Terre)
ISO International Organization for Standardization (Organisation internationale de normalisation)
JSON JavaScript Object Notation (Notation d’objet JavaScript)
LC Land cover (Occupation des sols)
LU Land use (Usage des sols)
OGC Open Geospatial Consortium (Consortium définissant des standards pour le géospatial)
RS Remote sensing (Télédétection)
RSO Radar à synthèse d’ouverture (SAR, Synthetic Aperture Radar)
TD Training data (Données d’entraînement)
UML Unified Modelling Language (Langage de modélisation unifié)
URL Uniform Resource Locator (Localisateur uniforme de ressource)
URI Uniform Resource Identifier (Identificateur de ressource uniforme)
XML Extensible Markup Language (Langage de balisage extensible)
4 Conventions
4.1 Généralités
Le présent article fournit des détails et des exemples pour toutes les conventions utilisées dans le document.
Les symboles, les abréviations, l’utilisation du schéma XML ou les notes spéciales concernant la lecture du
document sont des exemples de conventions.
4.2  Identifiants
Les exigences de la présente spécification sont indiquées par les URI:
http://www.opengis.net/spec/TrainingDML-AI-1/1.0

Toutes les exigences et tous les tests de conformité qui apparaissent dans le présent document sont désignés
par des URI partiels qui se réfèrent à cette base.

4.3 Notation UML
Le modèle conceptuel est présenté dans le présent document au moyen de diagrammes utilisant le
diagramme de structure statique du langage de modélisation unifié (UML). Les notations UML utilisées dans
le présent document sont décrites dans le diagramme de la Figure 1.
NOTE Pour plus d’informations sur la notation UML, voir l’ISO 19103.
Figure 1 — Notation UML
Toutes les associations entre les éléments du modèle conceptuel TrainingDML-AI sont unidirectionnelles.
Ainsi, les associations du modèle ne sont navigables que dans une seule direction. Le sens de la navigation
est indiqué par une flèche. En général, le contexte d’un élément au sein de l’association est indiqué par son
rôle. Le rôle est affiché près de la cible de l’association. Toutefois, si la représentation graphique est ambiguë,
la position du rôle doit être attirée vers l’élément sur lequel pointe l’association.
Les stéréotypes suivants sont utilisés dans ce modèle.
— «DataType» définit un ensemble de propriétés dépourvues d’identité. Un type de données est un
classificateur n’ayant aucune opération, dont le but principal est de détenir les informations.
— «CodeList» énumère les valeurs d’attributs valides. Contrairement à l’énumération, la liste des valeurs
est ouverte et n’est donc pas donnée en ligne dans le modèle UML TrainingDML-AI. Les valeurs autorisées
peuvent être fournies dans une liste de codes externe.

5 Conformité
Le présent document définit un modèle conceptuel indépendant de toute technologie d’encodage ou de
formatage. L’objectif de normalisation pour le présent document correspondent à ce qui suit:
— modèle conceptuel TrainingDML-AI.
La conformité avec le présent document doit être vérifiée à l’aide de tous les essais concernés spécifiés à
l’Annexe A du présent document. La structure, les concepts et la méthodologie de test, ainsi que les critères
à remplir pour revendiquer la conformité sont spécifiés dans les OGC Compliance Testing Policies and
[9]
Procedures et sur le site Web OGC Compliance Testing .
Toutes les classes d’exigences et de conformité décrites dans le présent document appartiennent à la norme
identifiée.
6 Vue d’ensemble
6.1 Généralités
Le présent document définit la manière de représenter et d’échanger les données d’entraînement au ML. Le
modèle conceptuel comprend les entités de données d’entraînement les plus pertinentes, des jeux de données
aux instances (c’est-à-dire les échantillons d’entraînement individuels), en passant par les étiquettes.
Le schéma conceptuel spécifie comment et en quelles parties il convient de décomposer et de classer les
données d’entraînement.
Le présent document répond stratégiquement aux exigences géospatiales en fournissant un cadre modulaire
et extensible adapté aux applications d’EO. Le contenu et le format des jeux de données d’entraînement
diffèrent selon les scénarios de ML en EO pour lesquels ils ont été collectés (par exemple, niveaux de scène/
d’objet/de pixel). Le présent document définit un modèle UML et des encodages conformes aux normes
de base OGC/ISO pour l’échange et l’extraction de données géospatiales d’entraînement. Les normes
géospatiales existantes (par exemple l’ISO 19101-1, l’ISO 19115-1, l’ISO 19157-1) peuvent être réutilisées
pour définir les exigences géospatiales relatives aux images RS source, à la géométrie des étiquettes, aux
métadonnées et à la qualité. Alors que certaines informations géospatiales générales, telles que l’étendue
spatiale et les informations relatives au système de référence, sont définies pour les données d’entraînement
au niveau supérieur, d’autres informations spécifiques à l’EO, telles que la taille de chaque image échantillon,
la résolution spatiale et les bandes, peuvent être étendues dans une sous-classe au niveau inférieur. Grâce
à sa structure hiérarchique et extensible, le modèle de données d’entraînement s’adapte aux diverses
caractéristiques des données géospatiales, garantissant ainsi la flexibilité et l’interopérabilité.
Le modèle de données d’entraînement défini dans le présent document facilite l’interopérabilité en
permettant à des jeux de données d’entraînement hétérogènes de se conformer à une forme unifiée de
représentation et d’échange. Il assure que les données d’entraînement issues de différents fournisseurs
peuvent être partagées et interprétées de manière cohérente, ce qui améliore l’accessibilité et favorise
l’intégration des ressources d’IA/ML géospatiales.
Le modèle conceptuel TrainingDML-AI (Article 7) est formellement spécifié à l’aide de diagrammes de classes
UML, complétés par un dictionnaire de données (Article 8) fournissant les définitions et les explications
des classes d’objets et des attributs. Ce modèle conceptuel sert de base à la spécification de l’encodage
implémenté dans des langages tels que JSON ou XML. L’Annexe B fournit une série d’exemples d’encodages, y
compris des représentations pour l’encodage TrainingDataset, DataQuality et TDChangeset.
6.2 Tâches d’IA pour l’EO
Ces dernières années, l’IA/ML a été de plus en plus utilisée dans le domaine de l’EO. Les nouveaux algorithmes
d’IA/ML nécessitent souvent de gros jeux de données d’entraînement comme points de référence. Les TD IA/
ML ont été utilisées dans de nombreuses applications d’EO pour calibrer les performances des modèles AI/
ML. De nombreux efforts ont été déployés pour produire des jeux de données d’entraînement permettant
d’effectuer des prédictions précises. Par conséquent, un certain nombre de jeux de données d’entraînement
sont accessibles au public, et de nouveaux jeux de données sont constamment publiés. Dans le domaine de

l’EO, des exemples de jeux de données d’entraînement à l’IA/ML ont été développés pour diverses tâches,
notamment les scénarios types suivants.
— Classification des scènes: ces algorithmes déterminent des catégories d’images à partir de nombreuses
photos (par exemple, des scènes agricoles, forestières et de plage). Les échantillons d’entraînement sont
une série d’images étiquetées. Les données peuvent provenir de satellites, de drones ou d’avions. Les
métadonnées des jeux de données comprennent souvent le nombre d’échantillons d’entraînement, le
nombre de classes et la taille de l’image.
— Détection d’objets: ces algorithmes détectent et localisent différents objets (par exemple des avions, des
voitures et des bâtiments) dans une seule image. L’image peut être optique ou non optique, comme avec
le radar à synthèse d’ouverture (RSO). Des travaux récents montrent également un intérêt croissant pour
la détection d’objets à partir d’images de rues. Les objets peuvent être étiquetés à l’aide de polygones ou
de cadres de contour. Les cadres de contour peuvent être orientés verticalement ou horizontalement. La
géométrie d’un cadre de contour peut être exprimée à l’aide des coordonnées haut-gauche/bas-droite,
des coordonnées des quatre coins ou des coordonnées du centre, ainsi que de la longueur et de la largeur
du cadre.
— Segmentation sémantique: en termes de classification de l’occupation des sols (LC) et de l’usage des sols
(LU), ce processus attribue une étiquette de classe LC/LU à un pixel (ou à des groupes de pixels) de
l’imagerie RS. Dans le contexte de la segmentation sémantique des nuages de points 3D, il classe les
points d’un nuage de points 3D en catégories. Les TD sont généralement composées d’images RS/de
nuages de points, et la valeur étiquetée correspondante de chaque pixel/point enregistre sa classe.
— Détection de changements: ces algorithmes identifient la différence entre des images acquises sur la
même zone géographique, mais prises à des moments différents. Les TD comprennent un ensemble
d’images RS avant et après changement, avec la carte de référence correspondante étiquetée pour les
pixels changés et inchangés. L’image peut être une image optique ou une image RSO.
— Reconstruction d’un modèle 3D: ces algorithmes déduisent la géométrie et la structure 3D des objets
et des scènes, principalement à partir de la correspondance dense d’images multi-vues. Les TD sont
généralement composées d’images à deux ou plusieurs vues, avec les cartes de disparité ou les cartes de
profondeur correspondantes, respectivement, comme données de référence.
6.3 Modularisation
Le modèle conceptuel TrainingDML-AI fournit des modèles pour les éléments les plus importants des TD.
Ces éléments ont été identifiés comme étant soit nécessaires, soit importants dans de nombreuses tâches
d’IA/ML. Toutefois, les mises en œuvre ne sont pas tenues de prendre en charge l’intégralité du modèle
TrainingDML-AI pour être conformes au présent document. Les mises en œuvre peuvent utiliser un sous-
ensemble de constructions en fonction de leurs besoins spécifiques en matière d’information. À cette fin, la
modularisation est appliquée au modèle TrainingDML-AI.
Comme le montre la Figure 2, le modèle conceptuel TrainingDML-AI est décomposé thématiquement
en un module Base, un module Provenance, un module Qualité et un module Changeset (ensemble de
modifications). Le module Basic comprend les concepts et éléments de base, notamment AI_TrainingDataset,
AI_TrainingData, AI_Label et AI_Task, du modèle TrainingDML-AI, et doit donc être mis en œuvre par tout
système conforme. Le module Provenance fournit une définition complète de la provenance grâce à AI_
Labeling, AI_Labeler et AI_Labeling Procedure. Le module Quality permet de décrire la qualité des TD à
l’aide d’éléments AI_DataQuality. Le module Changeset définit AI_TDChangeset entre les versions des jeux
de données.
Figure 2 — Vue d’ensemble du module TrainingDML-AI
6.4 Principes généraux de modélisation
6.4.1 Modélisation des éléments
La
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...