ISO 24620-5:2024
(Main)Language resource management — Controlled human communication (CHC) — Part 5: Lexico-morpho-syntactic principles and methodology for personal data recognition and protection in text
Language resource management — Controlled human communication (CHC) — Part 5: Lexico-morpho-syntactic principles and methodology for personal data recognition and protection in text
This document establishes basic principles and a methodology to recognize personal data written in free text, in different languages (whether agglutinating, inflectional or isolating) and countries. This document is applicable to protecting human data circulating in national and international industries, and private and public organizations. This document is applicable to processing by human beings and/or automated processing, and to various domains (e.g. law, finance, health). It does not apply to automated image processing. This document uses formal methods only, as statistical methods are very different in nature.
Gestion des ressources linguistiques — Communication humaine contrôlée (CHC) — Partie 5: Principes lexico-morpho-syntaxiques et méthodologie pour la reconnaissance et la protection des données à caractère personnel dans du texte
Le présent document définit les principes de base et la méthodologie pour reconnaître des données à caractère personnel dans du texte libre, dans différentes langues (qu’elles soient agglutinantes, flexionnelles ou isolantes) et pays. Le présent document est applicable essentiellement à la protection des données humaines circulant dans les industries nationales et internationales, et dans les organisations privées et publiques. Le présent document s’applique au traitement par des êtres humains et/ou au traitement automatisé, ainsi qu’à divers domaines (par exemple, le droit, la finance, la santé). Il ne s’applique pas au traitement automatisé des images. Le présent document n’utilise que des méthodes formelles, les méthodes statistiques étant de nature très différente.
Upravljanje jezikovnih virov - Nadzorovana človeška komunikacija (CHC) - 5. del: Leksiko-morfo-skladenjska načela in metodologija za prepoznavanje in varstvo osebnih podatkov v besedilu
General Information
Buy Standard
Standards Content (Sample)
International
Standard
ISO 24620-5
First edition
Language resource
2024-06
management — Controlled human
communication (CHC) —
Part 5:
Lexico-morpho-syntactic principles
and methodology for personal data
recognition and protection in text
Gestion des ressources linguistiques — Communication humaine
contrôlée (CHC) —
Partie 5: Principes lexico-morpho-syntaxiques et méthodologie
pour la reconnaissance et la protection des données à caractère
personnel dans du texte
Reference number
© ISO 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Motivation for controlled human communication . 2
5 Basic principles and methodology . 2
5.1 General .2
5.2 Specific issues .3
5.3 Principles .3
5.3.1 Overview .3
5.3.2 Lexical, morphological and syntactic indicants .4
6 Applications . 6
6.1 General .6
6.2 Different language families .6
6.3 Languages and countries .6
6.4 Semes in text.6
6.5 Applications for personal data recognition .6
Annex A (informative) Examples of text in different languages and different semes . 7
Annex B (informative) Examples of hidden text with seme indications .13
Annex C (informative) Table of semes in context.15
Bibliography .18
iii
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out through
ISO technical committees. Each member body interested in a subject for which a technical committee
has been established has the right to be represented on that committee. International organizations,
governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of ISO document should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use of (a)
patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed patent
rights in respect thereof. As of the date of publication of this document, ISO had not received notice of (a)
patent(s) which may be required to implement this document. However, implementers are cautioned that
this may not represent the latest information, which may be obtained from the patent database available at
www.iso.org/patents. ISO shall not be held responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO’s adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology, Subcommittee
SC 4, Language resource management.
A list of all parts in the ISO 24620 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.
iv
Introduction
The exchange of personal data between public and private actors, including natural persons, associations and
undertakings, is continually increasing. Rapid technological developments and globalization have brought
new challenges for the protection of personal data. The scale of the collection and sharing of personal data
has increased significantly. Technology allows both private companies and public authorities to make use
of personal data on an unprecedented scale in order to pursue their activities. Natural persons increasingly
make personal information available publicly and globally. Nevertheless, technology has transformed both
the economy and social life, and should further facilitate the free flow of personal data within a country
as well as the transfer to and between other countries and international organizations, while ensuring a
high level of protection of personal data. These developments require a robust and coherent data protection
framework. For example, ISO/IEC 27701 defines processes and provides guidance for protecting personally
identifiable information (PII) on an ongoing, ever-evolving basis.
Effective protection of personal data requires the strengthening and setting out in detail of the rights of
natural persons as data subjects, and the obligations of those who process and determine the processing of
personal data.
[6][15]
EXAMPLE The European Union’s (EU) General Data Protection Regulation (GDPR).
The principles of data protection apply to any information concerning an identified or identifiable natural person.
In this context, numerous industries, governmental bodies, and private and public companies or
[16]
organizations need to variously hide (mask) , remove, anonymize or pseudonymize personal data before
[4][8]
text containing such data is processed.
This document provides principles and a methodology to detect and identify personal data so that it can be
hidden or suppressed, i.e. protected before transmitting and/or processing a text containing such data. The
problem is not so much the suppression or hiding of data, but rather the recognition of personal data in a
written text. Unlike personal data in text, personal data in structured data (e.g. as presented in tables) does
[5]
not represent a real problem as such data are easily recognizable.
This document is aimed at national and international micro, small, medium and large enterprises, as well
as private/public bodies processing text which can contain personal data in all domains (e.g. law, finance,
[14]
health) and languages and from different countries. The principles and methodology are already in use in
industry and government bodies.
Due to regulations such as the EU’s GDPR, personal data protection presents a major challenge for micro,
small, medium and large enterprises, as well as private and public bodies. For example, the GDPR forbids
the transfer of the personal data of EU data subjects to “third countries” (countries outside of the European
Economic Area (EEA)) unless appropriate safeguards are imposed, or the third country’s data protection
regulations are formally considered adequate by the European Commission. In addition, the state of
California in the United States passed the California Consumer Privacy Act on 28 June 2018, taking effect
1 January 2020, granting rights to transparency and control over the collection of personal information by
companies in a similar manner to the GDPR (see Reference [2] and ISO/IEC 27701).
All the examples in this document are fictitious but could exist if real data were to be substituted for the
fictitious data.
v
International Standard ISO 24620-5:2024(en)
Language resource management — Controlled human
communication (CHC) —
Part 5:
Lexico-morpho-syntactic principles and methodology for
personal data recognition and protection in text
1 Scope
This document establishes basic principles and a methodology to recognize personal data written in free
text, in different languages (whether agglutinating, inflectional or isolating) and countries.
This document is applicable to protecting human data circulating in national and international industries,
and private and public organizations.
This document is applicable to processing by human beings and/or automated processing, and to various
domains (e.g. law, finance, health).
It does not apply to automated image processing.
This document uses formal methods only, as statistical methods are very different in nature.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the terms and definitions given in the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
intension
internal content of a term or concept that constitutes its formal definition
Note 1 to entry: Extension is the range of applicability of a concept by naming the particular objects that it denotes.
3.2
personal data
any information relating to an identified or identifiable natural person (3.6)
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (1)]
3.3
pseudonymization
processing (3.4) of personal data (3.2) in such a manner that the personal data can no longer be attributed to
a specific data subject without the use of additional information, provided that such additional information
is kept separately and is subject to technical and organizational measures to ensure that the personal data
are not attributed to an identified or identifiable natural person (3.6)
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (5)]
3.4
processing
any operation or set of operations which is performed on personal data (3.2) or on sets of personal data,
whether or not by automated means, such as collection, recording, organization, structuring, storage,
adaptation or alteration, retrieval, consultation,
...
Norme
internationale
ISO 24620-5
Première édition
Gestion des ressources
2024-06
linguistiques — Communication
humaine contrôlée (CHC) —
Partie 5:
Principes lexico-morpho-
syntaxiques et méthodologie pour
la reconnaissance et la protection
des données à caractère personnel
dans du texte
Language resource management — Controlled human
communication (CHC) —
Part 5: Lexico-morpho-syntactic principles and methodology for
personal data recognition and protection in text
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Raisons en faveur d’une communication humaine contrôlée . 2
5 Principes de base et méthodologie . . 3
5.1 Généralités .3
5.2 Aspects spécifiques .3
5.3 Principes .3
5.3.1 Vue d’ensemble .3
5.3.2 Indicateurs lexicaux, morphologiques et syntaxiques .4
6 Applications . 6
6.1 Généralités .6
6.2 Différentes familles de langues .6
6.3 Langues et pays . .6
6.4 Sèmes dans les textes .6
6.5 Applications pour la reconnaissance des données à caractère personnel .7
Annexe A (informative) Exemples de textes dans différentes langues et pour différents sèmes . 8
Annexe B (informative) Exemples de textes cachés avec des indications sémiques .13
Annexe C (informative) Tableau de sèmes en contexte .15
Bibliographie .18
iii
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes nationaux
de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est en général
confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude a le droit de faire
partie du comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l’ISO participent également aux travaux. L’ISO collabore étroitement avec
la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a
été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir
www.iso.org/directives).
L’ISO attire l’attention sur le fait que la mise en application du présent document peut entraîner l’utilisation
d’un ou de plusieurs brevets. L’ISO ne prend pas position quant à la preuve, à la validité et à l’applicabilité de
tout droit de brevet revendiqué à cet égard. À la date de publication du présent document, l’ISO n’avait pas
reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires à sa mise en application. Toutefois,
il y a lieu d’avertir les responsables de la mise en application du présent document que des informations
plus récentes sont susceptibles de figurer dans la base de données de brevets, disponible à l’adresse
www.iso.org/brevets. L’ISO ne saurait être tenue pour responsable de ne pas avoir identifié tout ou partie de
tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de
l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au
commerce (OTC), voir www.iso.org/avant-propos.
Le présent document a été élaboré par le comité technique ISO/TC 37, Langage et terminologie, sous-comité
SC 4, Gestion des ressources linguistiques.
Une liste de toutes les parties de la série ISO 24620 se trouve sur le site web de l’ISO.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve à l’adresse www.iso.org/fr/members.html.
iv
Introduction
L’échange des données à caractère personnel entre des acteurs publics et privés, y compris les personnes
physiques, les associations et les entreprises, augmente continuellement. L’évolution rapide des technologies
et la mondialisation ont créé de nouveaux enjeux pour la protection des données à caractère personnel.
L’ampleur de la collecte et du partage de données à caractère personnel a augmenté de manière importante.
Les technologies permettent tant aux entreprises privées qu’aux autorités publiques d’utiliser les données à
caractère personnel comme jamais auparavant dans le cadre de leurs activités. De plus en plus, les personnes
physiques rendent des informations les concernant accessibles publiquement et à un niveau mondial.
Néanmoins, la technologie a transformé la vie économique et sociale, et devrait faciliter davantage la libre
circulation des données à caractère personnel au sein d’un pays ainsi que leur transfert vers et entre les
autres pays et organisations internationales, tout en assurant un niveau élevé de protection des données à
caractère personnel. Ces développements requièrent un cadre de protection des données solide et cohérent.
Par exemple, l’ISO/IEC 27701 définit les processus et fournit des recommandations pour la protection des
informations personnelles identifiables (IPI) de manière continue, en constante évolution.
Il est nécessaire, pour protéger efficacement les données à caractère personnel, de renforcer et de détailler
les droits des personnes physiques en tant que personnes concernées, ainsi que les obligations de ceux qui
traitent et déterminent le traitement des données à caractère personnel.
[6][15]
EXAMPLE Le Règlement général sur la protection des données (RGPD) de l’Union européenne (UE) .
Les principes de protection des données s’appliquent à toute information concernant une personne physique
identifiée ou identifiable.
Dans ce contexte, de nombreux secteurs d’activité, organismes gouvernementaux et entreprises ou
[16]
organisations privées et publiques doivent cacher (masquer), supprimer, anonymiser ou pseudonymiser
[4][8]
les données à caractère personnel avant que le texte contenant ces données ne soit traité.
Le présent document fournit des principes et une méthodologie permettant de détecter et d’identifier des
données à caractère personnel afin qu’elles puissent être cachées ou supprimées, c’est‑à‑dire protégées
avant la transmission et/ou le traitement d’un texte contenant de telles données. La difficulté ne réside pas
tant dans la suppression ou le masquage des données, mais dans la reconnaissance des données à caractère
personnel dans du texte écrit. Contrairement aux données à caractère personnel contenues dans un texte,
les données à caractère personnel contenues dans des données structurées (par exemple présentées dans
[5]
des tableaux) ne posent pas de réel problème, car ces données sont facilement reconnaissables.
Le présent document s’adresse aux micro-entreprises, aux PME et aux grandes entreprises nationales et
internationales, ainsi qu’aux organismes privés et publics qui traitent du texte pouvant contenir des données
à caractère personnel dans tous les domaines (par exemple, le droit, la finance, la santé), dans toutes les
[14]
langues et dans tous les pays. Les principes et la méthodologie sont déjà utilisés par l’industrie et les
organismes gouvernementaux.
En vertu des réglementations telles que le RGPD européen, la protection de données à caractère personnel
représente un défi considérable pour les micro, petites, moyennes et grandes entreprises, et également
pour les organismes privés et publics. Par exemple, le RGPD interdit le transfert de données à caractère
personnel de personnes concernées européennes vers des pays situés en dehors de l’EEE, dénommés
« pays tiers », à moins que les garanties appropriées ne soient imposées ou que les réglementations du pays
tiers concernant la protection des données ne soient formellement considérées comme adéquates par la
Commission européenne. En outre, l’État de Californie, aux États-Unis, a adopté le 28 juin 2018 le California
er
Consumer Privacy Act, qui prend effet au 1 janvier 2020 et accorde des droits à la transparence et au
contrôle de la collecte d’informations personnelles par les entreprises d’une manière similaire au RGPD (voir
la Référence [2] et l’ISO/IEC 27701).
Tous les exemples donnés dans le présent document sont fictifs, mais ils pourraient exister si des données
réelles étaient substituées aux données fictives.
v
Norme internationale ISO 24620-5:2024(fr)
Gestion des ressources linguistiques — Communication
humaine contrôlée (CHC) —
Partie 5:
Principes lexico-morpho-syntaxiques et méthodologie pour
la reconnaissance et la protection des données à caractère
personnel dans du texte
1 Domaine d’application
Le présent document définit les principes de base et la méthodologie pour reconnaître des données à
caractère personnel dans du texte libre, dans différentes langues (qu’elles soient agglutinantes, flexionnelles
ou isolantes) et pays.
Le présent document est applicable essentiellement à la protection des données humaines circulant dans les
industries nationales et internationales, et dans les organisations privées et publiques.
Le présent document s’applique au traitement par des êtres humains et/ou au traitement automatisé, ainsi
qu’à divers domaines (par exemple, le droit, la finance, la santé).
Il ne s’applique pas au traitement automatisé des images.
Le présent document n’utilise que des méthodes formelles, les méthodes statistiques étant de nature très
différente.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour
...
Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.