Language resource management - Controlled human communication (CHC) - Part 5: Lexico-morpho-syntactic principles and methodology for personal data recognition and protection in text

This document establishes basic principles and a methodology to recognize personal data written in free text, in different languages (whether agglutinating, inflectional or isolating) and countries.
This document is applicable to protecting human data circulating in national and international industries, and private and public organizations.
This document is applicable to processing by human beings and/or automated processing, and to various domains (e.g. law, finance, health).
It does not apply to automated image processing.
This document uses formal methods only, as statistical methods are very different in nature.

Gestion des ressources linguistiques — Communication humaine contrôlée (CHC) — Partie 5: Principes lexico-morpho-syntaxiques et méthodologie pour la reconnaissance et la protection des données à caractère personnel dans du texte

Le présent document définit les principes de base et la méthodologie pour reconnaître des données à caractère personnel dans du texte libre, dans différentes langues (qu’elles soient agglutinantes, flexionnelles ou isolantes) et pays.
Le présent document est applicable essentiellement à la protection des données humaines circulant dans les industries nationales et internationales, et dans les organisations privées et publiques.
Le présent document s’applique au traitement par des êtres humains et/ou au traitement automatisé, ainsi qu’à divers domaines (par exemple, le droit, la finance, la santé).
Il ne s’applique pas au traitement automatisé des images.
Le présent document n’utilise que des méthodes formelles, les méthodes statistiques étant de nature très différente.

Upravljanje jezikovnih virov - Nadzorovana človeška komunikacija (CHC) - 5. del: Leksikalno-morfosintaktična načela in metodologija za prepoznavanje in varstvo osebnih podatkov v besedilu

Ta dokument določa osnovna načela in metodologijo za prepoznavanje osebnih podatkov, zapisanih v prostem besedilu, v različnih jezikih (aglutinacijskih, pregibnih ali izolacijskih) in državah.
Ta dokument se uporablja za varstvo podatkov o ljudeh, ki krožijo v nacionalnih in mednarodnih panogah ter zasebnih in javnih organizacijah.
Ta dokument se uporablja za obdelavo, ki jo izvaja človek, in/ali avtomatizirano obdelavo ter za različna področja (npr. pravo, finance, zdravje).
Ne uporablja se za avtomatizirano obdelavo slik.
Ta dokument uporablja samo formalne metode, saj se statistične metode zelo razlikujejo.

General Information

Status
Published
Publication Date
06-Oct-2024
Current Stage
6060 - National Implementation/Publication (Adopted Project)
Start Date
17-Sep-2024
Due Date
22-Nov-2024
Completion Date
07-Oct-2024

Overview

SIST ISO 24620-5:2024 - part of the ISO 24620 series on Language resource management (Controlled Human Communication, CHC) - defines lexico‑morpho‑syntactic principles and a formal methodology for recognizing and protecting personal data in free text. The standard targets texts in multiple languages (agglutinating, inflectional, isolating) and across countries and domains (e.g. law, finance, health). It focuses on formal, rule‑based approaches (intension‑based representations) rather than statistical methods and does not cover automated image processing.

Key technical topics and requirements

  • Scope and applicability
    • Applies to human and automated processing of free text containing personal data.
    • Designed for cross‑language and cross‑country use; supports different language families and varying national formats (e.g. addresses).
  • Linguistic building blocks
    • Uses lexical, morphological and syntactic indicants to detect personal data (names, addresses, phone numbers, IDs, bank account numbers, etc.).
    • Introduces the notion of seme (Saussurean signified and its instantiations in text) and indicants (occurrences of lexical/morphological/syntactic phenomena that signal personal data).
  • Formal methodology
    • Specifies intension‑based formal representations and a meta‑language/grammar to express recognition rules.
    • Requires an ordered system of constraint rules and an associated algorithm that, when applied, extracts or flags personal data instances.
    • Emphasizes explainability and extensibility so new semes and languages can be added.
  • Protection options
    • After detection, personal data can be masked, removed, anonymized or pseudonymized following organizational or legal requirements.
  • Limitations
    • Excludes automated image processing and excludes statistical/machine‑learning methods (the standard focuses on formal rule‑based techniques).

Practical applications and users

Who benefits:

  • Data Protection Officers and compliance teams ensuring GDPR/CCPA alignment when sharing or processing text.
  • NLP engineers and language technologists building rule‑based redaction or entity‑recognition systems.
  • Software vendors delivering text anonymization, pseudonymization, and redaction tools.
  • Public bodies, legal, finance and healthcare organizations that must protect personal data in documents and communications.

Practical uses:

  • Automated and semi‑automated redaction workflows for document sharing and litigation.
  • Sanitizing training corpora and logs before machine learning or analytics.
  • Pre‑processing text for cross‑border data transfer while meeting regulatory safeguards.
  • Creating explainable, language‑agnostic pipelines for personal data recognition.

Related standards (for context)

  • ISO 24620 series (other CHC parts)
  • ISO/IEC 27701 (privacy information management guidance)
  • GDPR and other regional privacy regulations (as motivating examples for protection measures)

Keywords: SIST ISO 24620-5:2024, personal data recognition, personal data protection, lexico-morpho-syntactic, language resource management, CHC, text anonymization, pseudonymization, GDPR, rule-based redaction.

Standard
SIST ISO 24620-5:2024
English language
24 pages
sale 10% off
Preview
sale 10% off
Preview
e-Library read for
1 day
Standard
ISO 24620-5:2024 - Language resource management — Controlled human communication (CHC) — Part 5: Lexico-morpho-syntactic principles and methodology for personal data recognition and protection in text Released:3. 06. 2024
English language
19 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 24620-5:2024 - Gestion des ressources linguistiques — Communication humaine contrôlée (CHC) — Partie 5: Principes lexico-morpho-syntaxiques et méthodologie pour la reconnaissance et la protection des données à caractère personnel dans du texte Released:3. 06. 2024
French language
19 pages
sale 15% off
Preview
sale 15% off
Preview

Frequently Asked Questions

SIST ISO 24620-5:2024 is a standard published by the Slovenian Institute for Standardization (SIST). Its full title is "Language resource management - Controlled human communication (CHC) - Part 5: Lexico-morpho-syntactic principles and methodology for personal data recognition and protection in text". This standard covers: This document establishes basic principles and a methodology to recognize personal data written in free text, in different languages (whether agglutinating, inflectional or isolating) and countries. This document is applicable to protecting human data circulating in national and international industries, and private and public organizations. This document is applicable to processing by human beings and/or automated processing, and to various domains (e.g. law, finance, health). It does not apply to automated image processing. This document uses formal methods only, as statistical methods are very different in nature.

This document establishes basic principles and a methodology to recognize personal data written in free text, in different languages (whether agglutinating, inflectional or isolating) and countries. This document is applicable to protecting human data circulating in national and international industries, and private and public organizations. This document is applicable to processing by human beings and/or automated processing, and to various domains (e.g. law, finance, health). It does not apply to automated image processing. This document uses formal methods only, as statistical methods are very different in nature.

SIST ISO 24620-5:2024 is classified under the following ICS (International Classification for Standards) categories: 01.020 - Terminology (principles and coordination); 01.140.20 - Information sciences. The ICS classification helps identify the subject area and facilitates finding related standards.

You can purchase SIST ISO 24620-5:2024 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of SIST standards.

Standards Content (Sample)


SLOVENSKI STANDARD
01-november-2024
Upravljanje jezikovnih virov - Nadzorovana človeška komunikacija (CHC) - 5. del:
Leksikalno-morfosintaktična načela in metodologija za prepoznavanje in varstvo
osebnih podatkov v besedilu
Language resource management — Controlled human communication (CHC) — Part 5:
Lexico-morpho-syntactic principles and methodology for personal data recognition and
protection in text
Gestion des ressources linguistiques — Communication humaine contrôlée (CHC) —
Partie 5: Principes lexico-morpho-syntaxiques et méthodologie pour la reconnaissance
et la protection des données à caractère personnel dans du texte
Ta slovenski standard je istoveten z: ISO 24620-5:2024
ICS:
01.020 Terminologija (načela in Terminology (principles and
koordinacija) coordination)
01.140.20 Informacijske vede Information sciences
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.

International
Standard
ISO 24620-5
First edition
Language resource
2024-06
management — Controlled human
communication (CHC) —
Part 5:
Lexico-morpho-syntactic principles
and methodology for personal data
recognition and protection in text
Gestion des ressources linguistiques — Communication humaine
contrôlée (CHC) —
Partie 5: Principes lexico-morpho-syntaxiques et méthodologie
pour la reconnaissance et la protection des données à caractère
personnel dans du texte
Reference number
© ISO 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Motivation for controlled human communication . 2
5 Basic principles and methodology . 2
5.1 General .2
5.2 Specific issues .3
5.3 Principles .3
5.3.1 Overview .3
5.3.2 Lexical, morphological and syntactic indicants .4
6 Applications . 6
6.1 General .6
6.2 Different language families .6
6.3 Languages and countries .6
6.4 Semes in text.6
6.5 Applications for personal data recognition .6
Annex A (informative) Examples of text in different languages and different semes . 7
Annex B (informative) Examples of hidden text with seme indications .13
Annex C (informative) Table of semes in context.15
Bibliography .18

iii
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out through
ISO technical committees. Each member body interested in a subject for which a technical committee
has been established has the right to be represented on that committee. International organizations,
governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of ISO document should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use of (a)
patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed patent
rights in respect thereof. As of the date of publication of this document, ISO had not received notice of (a)
patent(s) which may be required to implement this document. However, implementers are cautioned that
this may not represent the latest information, which may be obtained from the patent database available at
www.iso.org/patents. ISO shall not be held responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO’s adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology, Subcommittee
SC 4, Language resource management.
A list of all parts in the ISO 24620 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.

iv
Introduction
The exchange of personal data between public and private actors, including natural persons, associations and
undertakings, is continually increasing. Rapid technological developments and globalization have brought
new challenges for the protection of personal data. The scale of the collection and sharing of personal data
has increased significantly. Technology allows both private companies and public authorities to make use
of personal data on an unprecedented scale in order to pursue their activities. Natural persons increasingly
make personal information available publicly and globally. Nevertheless, technology has transformed both
the economy and social life, and should further facilitate the free flow of personal data within a country
as well as the transfer to and between other countries and international organizations, while ensuring a
high level of protection of personal data. These developments require a robust and coherent data protection
framework. For example, ISO/IEC 27701 defines processes and provides guidance for protecting personally
identifiable information (PII) on an ongoing, ever-evolving basis.
Effective protection of personal data requires the strengthening and setting out in detail of the rights of
natural persons as data subjects, and the obligations of those who process and determine the processing of
personal data.
[6][15]
EXAMPLE The European Union’s (EU) General Data Protection Regulation (GDPR).
The principles of data protection apply to any information concerning an identified or identifiable natural person.
In this context, numerous industries, governmental bodies, and private and public companies or
[16]
organizations need to variously hide (mask) , remove, anonymize or pseudonymize personal data before
[4][8]
text containing such data is processed.
This document provides principles and a methodology to detect and identify personal data so that it can be
hidden or suppressed, i.e. protected before transmitting and/or processing a text containing such data. The
problem is not so much the suppression or hiding of data, but rather the recognition of personal data in a
written text. Unlike personal data in text, personal data in structured data (e.g. as presented in tables) does
[5]
not represent a real problem as such data are easily recognizable.
This document is aimed at national and international micro, small, medium and large enterprises, as well
as private/public bodies processing text which can contain personal data in all domains (e.g. law, finance,
[14]
health) and languages and from different countries. The principles and methodology are already in use in
industry and government bodies.
Due to regulations such as the EU’s GDPR, personal data protection presents a major challenge for micro,
small, medium and large enterprises, as well as private and public bodies. For example, the GDPR forbids
the transfer of the personal data of EU data subjects to “third countries” (countries outside of the European
Economic Area (EEA)) unless appropriate safeguards are imposed, or the third country’s data protection
regulations are formally considered adequate by the European Commission. In addition, the state of
California in the United States passed the California Consumer Privacy Act on 28 June 2018, taking effect
1 January 2020, granting rights to transparency and control over the collection of personal information by
companies in a similar manner to the GDPR (see Reference [2] and ISO/IEC 27701).
All the examples in this document are fictitious but could exist if real data were to be substituted for the
fictitious data.
v
International Standard ISO 24620-5:2024(en)
Language resource management — Controlled human
communication (CHC) —
Part 5:
Lexico-morpho-syntactic principles and methodology for
personal data recognition and protection in text
1 Scope
This document establishes basic principles and a methodology to recognize personal data written in free
text, in different languages (whether agglutinating, inflectional or isolating) and countries.
This document is applicable to protecting human data circulating in national and international industries,
and private and public organizations.
This document is applicable to processing by human beings and/or automated processing, and to various
domains (e.g. law, finance, health).
It does not apply to automated image processing.
This document uses formal methods only, as statistical methods are very different in nature.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the terms and definitions given in the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
intension
internal content of a term or concept that constitutes its formal definition
Note 1 to entry: Extension is the range of applicability of a concept by naming the particular objects that it denotes.
3.2
personal data
any information relating to an identified or identifiable natural person (3.6)
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (1)]

3.3
pseudonymization
processing (3.4) of personal data (3.2) in such a manner that the personal data can no longer be attributed to
a specific data subject without the use of additional information, provided that such additional information
is kept separately and is subject to technical and organizational measures to ensure that the personal data
are not attributed to an identified or identifiable natural person (3.6)
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (5)]
3.4
processing
any operation or set of operations which is performed on personal data (3.2) or on sets of personal data,
whether or not by automated means, such as collection, recording, organization, structuring, storage,
adaptation or alteration, retrieval, consultation, use, disclosure by transmission, dissemination or otherwise
making available, alignment or combination, restriction, erasure or destruction
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (2)]
3.5
seme
Saussure’s signified with its different signifiers (instantiations) in text
Note 1 to entry: Saussure was the first person to use the terminology “signified” and “signifier”. Saussure offered a
“dyadic” or two-part model of the sign. He defined a sign as being composed of a “signifier” (signifiant) and a “signified”
(signifié) (see References [17] and [18]).
3.6
identifiable natural person
data subject
person who can be identified, directly or indirectly, in particular by reference to an identifier
Note 1 to entry: An identifier can be a name, an identification number, location data or an online identifier of a natural
person. Further examples which are excluded from the examples in this document are references to one or more factors
specific to the physical, physiological, genetic, mental, economic, cultural or social identity of the natural person.
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (1)]
3.7
indicant
significant occurrence of interaction between lexical, morphological and syntactic phenomena or of one of
these phenomena across a wide spectrum of languages or in few languages or in just one language that is
suited to identify personal data (3.2)
4 Motivation for controlled human communication
The first step in protecting personal data is being able to recognize such data automatically, especially when
they are not structured but rather occur in free text, as shown in Example 1 in Clause A.1.
Once data are detected or recognized as personal data, different ways can be used to hide them in the text:
they can be hidden (masked), removed, anonymized (see References [9] and [10]) or pseudonymized (see
Reference [7]), as shown in Example 2 in Clause A.2.
Examples 3 and 4 in Clauses A.3 and A.4 show a similar example in French.
5 Basic principles and methodology
5.1 General
For the basic principles, various lexical, morphological and syntactic linguistic phenomena shall be used, in
particular concerning the way in which personal data are represented in free text. For example, addresses

not respecting the English format in the UK as seen in Example 1 in Clause A.1, i.e. “Stoneham-le-Willows at
24 Britanny Park, F2 7AN (GB29 NWBK 6016 1331 9268 19)”.
The methodology specifies formal representations designed in intension (see References [11], [12] and [13])
based on lexical, morphological and syntactic phenomena that shall apply in a sequential order at each of the
levels of linguistic analysis which have an impact on the recognition of personal data.
The basic principles and methodology are specifically formulated to provide an explanatory power to show
how and when each of the linguistic phenomena (lexical, morphological and/or syntactic) and/or their
combinations and interactions embedded in context shall be used and applied according to different semes
recognition in the analysis of text. In consequence, the methodology uses linguistics phenomena conforming
to basic principles for the recognition of personal data (instead of a lexicon), and specifies a system of
constraint rules completed with an algorithm, which, when applied, results in extracting personal data.
5.2 Specific issues
The basic problem is the recognition of personal data in free text in different languages, from different
countries and from different domains (e.g. law, finance, health).
The problem also concerns the use of the same language within different countries as, for example, addresses
are not written the same way in France, Switzerland, Belgium and Canada, or in Austria and Germany (see
Examples 5 and 6 in Clauses A.5 and A.6). Text in one language can also include personal data in other
languages and from different countries.
The problem is thus fourfold:
a) personal data in free text;
b) personal data in different countries;
c) personal data in different languages;
d) personal data in different domains.
The methodology described in this document uses indicants to detect personal data such as a telephone
number, identification or bank account number, an address, etc.
The methodology works in intension. For this reason, it is rule-based: it establishes a system of ordered
constraint rules based on linguistic phenomena, which conform to the basic principles that shall be followed
(see 5.3). Indicants shall be established, and they shall be lexical, morphological or/and syntactic.
5.3 Principles
5.3.1 Overview
The principles addressing the four specific issues listed in 5.2 formulate rules for an explanatory linguistic
formal representation with its own meta-language and grammar accompanied with examples so that new
semes and new languages can be processed.
The user shall establish lexico-morpho-syntactic indicants. The indicants, if they do not already exist in the
grammar of the meta-language, shall be added.

5.3.2 Lexical, morphological and syntactic indicants
5.3.2.1 General
Some indicants shall be sets valid for different semes in different languages and different countries such as
N or A which very often appear in the text but can also be optional. They shall be formally represented as
follows in the meta-language grammar (extract):
— N = digit (0.9)
— L = A,B.Z (without diacritic signs)
— A = 0,1.9,L (L signifies an element of L above)
— listA = 01,02,03,04,05,06,07,08,09,10,11,12
— ListB = ListA, 13.100
— () = element(s) between parentheses optional
— M = any word starting with an uppercase or lowercase letter followed by zero or more uppercase or
lowercase letters as well as ‘‘°-
— UM = M starting with a majuscule letter
— n = new line followed or not by space(s) and/or tab(s)
— listC = 1.9999
— l = a,b.z (without diacritic signs)
— |any character(s) with character | coded as || terminated by| = literal.
NOTE Sequence of literals are illegal (ambiguity of ||).
Some indicants shall be added according to the seme to be recognized, or to the country or language used
(see the examples in Annex A).
Example 3 in Clause A.3 contains the following addresses written in different formats:
— 1, rue des échelles
25620 Besançon
— 43 Bd du 11 novembre 1918 à Dijon dans la Côte d’Or 21280
— Saint-Germain-en-Laye, au n° 25 rue du Château d’If 78100
The algorithmic formal representation (diagram representing the algorithm) to recogni
...


International
Standard
ISO 24620-5
First edition
Language resource
2024-06
management — Controlled human
communication (CHC) —
Part 5:
Lexico-morpho-syntactic principles
and methodology for personal data
recognition and protection in text
Gestion des ressources linguistiques — Communication humaine
contrôlée (CHC) —
Partie 5: Principes lexico-morpho-syntaxiques et méthodologie
pour la reconnaissance et la protection des données à caractère
personnel dans du texte
Reference number
© ISO 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Motivation for controlled human communication . 2
5 Basic principles and methodology . 2
5.1 General .2
5.2 Specific issues .3
5.3 Principles .3
5.3.1 Overview .3
5.3.2 Lexical, morphological and syntactic indicants .4
6 Applications . 6
6.1 General .6
6.2 Different language families .6
6.3 Languages and countries .6
6.4 Semes in text.6
6.5 Applications for personal data recognition .6
Annex A (informative) Examples of text in different languages and different semes . 7
Annex B (informative) Examples of hidden text with seme indications .13
Annex C (informative) Table of semes in context.15
Bibliography .18

iii
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out through
ISO technical committees. Each member body interested in a subject for which a technical committee
has been established has the right to be represented on that committee. International organizations,
governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of ISO document should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use of (a)
patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed patent
rights in respect thereof. As of the date of publication of this document, ISO had not received notice of (a)
patent(s) which may be required to implement this document. However, implementers are cautioned that
this may not represent the latest information, which may be obtained from the patent database available at
www.iso.org/patents. ISO shall not be held responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO’s adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology, Subcommittee
SC 4, Language resource management.
A list of all parts in the ISO 24620 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.

iv
Introduction
The exchange of personal data between public and private actors, including natural persons, associations and
undertakings, is continually increasing. Rapid technological developments and globalization have brought
new challenges for the protection of personal data. The scale of the collection and sharing of personal data
has increased significantly. Technology allows both private companies and public authorities to make use
of personal data on an unprecedented scale in order to pursue their activities. Natural persons increasingly
make personal information available publicly and globally. Nevertheless, technology has transformed both
the economy and social life, and should further facilitate the free flow of personal data within a country
as well as the transfer to and between other countries and international organizations, while ensuring a
high level of protection of personal data. These developments require a robust and coherent data protection
framework. For example, ISO/IEC 27701 defines processes and provides guidance for protecting personally
identifiable information (PII) on an ongoing, ever-evolving basis.
Effective protection of personal data requires the strengthening and setting out in detail of the rights of
natural persons as data subjects, and the obligations of those who process and determine the processing of
personal data.
[6][15]
EXAMPLE The European Union’s (EU) General Data Protection Regulation (GDPR).
The principles of data protection apply to any information concerning an identified or identifiable natural person.
In this context, numerous industries, governmental bodies, and private and public companies or
[16]
organizations need to variously hide (mask) , remove, anonymize or pseudonymize personal data before
[4][8]
text containing such data is processed.
This document provides principles and a methodology to detect and identify personal data so that it can be
hidden or suppressed, i.e. protected before transmitting and/or processing a text containing such data. The
problem is not so much the suppression or hiding of data, but rather the recognition of personal data in a
written text. Unlike personal data in text, personal data in structured data (e.g. as presented in tables) does
[5]
not represent a real problem as such data are easily recognizable.
This document is aimed at national and international micro, small, medium and large enterprises, as well
as private/public bodies processing text which can contain personal data in all domains (e.g. law, finance,
[14]
health) and languages and from different countries. The principles and methodology are already in use in
industry and government bodies.
Due to regulations such as the EU’s GDPR, personal data protection presents a major challenge for micro,
small, medium and large enterprises, as well as private and public bodies. For example, the GDPR forbids
the transfer of the personal data of EU data subjects to “third countries” (countries outside of the European
Economic Area (EEA)) unless appropriate safeguards are imposed, or the third country’s data protection
regulations are formally considered adequate by the European Commission. In addition, the state of
California in the United States passed the California Consumer Privacy Act on 28 June 2018, taking effect
1 January 2020, granting rights to transparency and control over the collection of personal information by
companies in a similar manner to the GDPR (see Reference [2] and ISO/IEC 27701).
All the examples in this document are fictitious but could exist if real data were to be substituted for the
fictitious data.
v
International Standard ISO 24620-5:2024(en)
Language resource management — Controlled human
communication (CHC) —
Part 5:
Lexico-morpho-syntactic principles and methodology for
personal data recognition and protection in text
1 Scope
This document establishes basic principles and a methodology to recognize personal data written in free
text, in different languages (whether agglutinating, inflectional or isolating) and countries.
This document is applicable to protecting human data circulating in national and international industries,
and private and public organizations.
This document is applicable to processing by human beings and/or automated processing, and to various
domains (e.g. law, finance, health).
It does not apply to automated image processing.
This document uses formal methods only, as statistical methods are very different in nature.
2 Normative references
There are no normative references in this document.
3 Terms and definitions
For the purposes of this document, the terms and definitions given in the following apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
intension
internal content of a term or concept that constitutes its formal definition
Note 1 to entry: Extension is the range of applicability of a concept by naming the particular objects that it denotes.
3.2
personal data
any information relating to an identified or identifiable natural person (3.6)
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (1)]

3.3
pseudonymization
processing (3.4) of personal data (3.2) in such a manner that the personal data can no longer be attributed to
a specific data subject without the use of additional information, provided that such additional information
is kept separately and is subject to technical and organizational measures to ensure that the personal data
are not attributed to an identified or identifiable natural person (3.6)
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (5)]
3.4
processing
any operation or set of operations which is performed on personal data (3.2) or on sets of personal data,
whether or not by automated means, such as collection, recording, organization, structuring, storage,
adaptation or alteration, retrieval, consultation, use, disclosure by transmission, dissemination or otherwise
making available, alignment or combination, restriction, erasure or destruction
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (2)]
3.5
seme
Saussure’s signified with its different signifiers (instantiations) in text
Note 1 to entry: Saussure was the first person to use the terminology “signified” and “signifier”. Saussure offered a
“dyadic” or two-part model of the sign. He defined a sign as being composed of a “signifier” (signifiant) and a “signified”
(signifié) (see References [17] and [18]).
3.6
identifiable natural person
data subject
person who can be identified, directly or indirectly, in particular by reference to an identifier
Note 1 to entry: An identifier can be a name, an identification number, location data or an online identifier of a natural
person. Further examples which are excluded from the examples in this document are references to one or more factors
specific to the physical, physiological, genetic, mental, economic, cultural or social identity of the natural person.
[6]
[SOURCE: Regulation (EU) 2016/679 , Article 4 (1)]
3.7
indicant
significant occurrence of interaction between lexical, morphological and syntactic phenomena or of one of
these phenomena across a wide spectrum of languages or in few languages or in just one language that is
suited to identify personal data (3.2)
4 Motivation for controlled human communication
The first step in protecting personal data is being able to recognize such data automatically, especially when
they are not structured but rather occur in free text, as shown in Example 1 in Clause A.1.
Once data are detected or recognized as personal data, different ways can be used to hide them in the text:
they can be hidden (masked), removed, anonymized (see References [9] and [10]) or pseudonymized (see
Reference [7]), as shown in Example 2 in Clause A.2.
Examples 3 and 4 in Clauses A.3 and A.4 show a similar example in French.
5 Basic principles and methodology
5.1 General
For the basic principles, various lexical, morphological and syntactic linguistic phenomena shall be used, in
particular concerning the way in which personal data are represented in free text. For example, addresses

not respecting the English format in the UK as seen in Example 1 in Clause A.1, i.e. “Stoneham-le-Willows at
24 Britanny Park, F2 7AN (GB29 NWBK 6016 1331 9268 19)”.
The methodology specifies formal representations designed in intension (see References [11], [12] and [13])
based on lexical, morphological and syntactic phenomena that shall apply in a sequential order at each of the
levels of linguistic analysis which have an impact on the recognition of personal data.
The basic principles and methodology are specifically formulated to provide an explanatory power to show
how and when each of the linguistic phenomena (lexical, morphological and/or syntactic) and/or their
combinations and interactions embedded in context shall be used and applied according to different semes
recognition in the analysis of text. In consequence, the methodology uses linguistics phenomena conforming
to basic principles for the recognition of personal data (instead of a lexicon), and specifies a system of
constraint rules completed with an algorithm, which, when applied, results in extracting personal data.
5.2 Specific issues
The basic problem is the recognition of personal data in free text in different languages, from different
countries and from different domains (e.g. law, finance, health).
The problem also concerns the use of the same language within different countries as, for example, addresses
are not written the same way in France, Switzerland, Belgium and Canada, or in Austria and Germany (see
Examples 5 and 6 in Clauses A.5 and A.6). Text in one language can also include personal data in other
languages and from different countries.
The problem is thus fourfold:
a) personal data in free text;
b) personal data in different countries;
c) personal data in different languages;
d) personal data in different domains.
The methodology described in this document uses indicants to detect personal data such as a telephone
number, identification or bank account number, an address, etc.
The methodology works in intension. For this reason, it is rule-based: it establishes a system of ordered
constraint rules based on linguistic phenomena, which conform to the basic principles that shall be followed
(see 5.3). Indicants shall be established, and they shall be lexical, morphological or/and syntactic.
5.3 Principles
5.3.1 Overview
The principles addressing the four specific issues listed in 5.2 formulate rules for an explanatory linguistic
formal representation with its own meta-language and grammar accompanied with examples so that new
semes and new languages can be processed.
The user shall establish lexico-morpho-syntactic indicants. The indicants, if they do not already exist in the
grammar of the meta-language, shall be added.

5.3.2 Lexical, morphological and syntactic indicants
5.3.2.1 General
Some indicants shall be sets valid for different semes in different languages and different countries such as
N or A which very often appear in the text but can also be optional. They shall be formally represented as
follows in the meta-language grammar (extract):
— N = digit (0.9)
— L = A,B.Z (without diacritic signs)
— A = 0,1.9,L (L signifies an element of L above)
— listA = 01,02,03,04,05,06,07,08,09,10,11,12
— ListB = ListA, 13.100
— () = element(s) between parentheses optional
— M = any word starting with an uppercase or lowercase letter followed by zero or more uppercase or
lowercase letters as well as ‘‘°-
— UM = M starting with a majuscule letter
— n = new line followed or not by space(s) and/or tab(s)
— listC = 1.9999
— l = a,b.z (without diacritic signs)
— |any character(s) with character | coded as || terminated by| = literal.
NOTE Sequence of literals are illegal (ambiguity of ||).
Some indicants shall be added according to the seme to be recognized, or to the country or language used
(see the examples in Annex A).
Example 3 in Clause A.3 contains the following addresses written in different formats:
— 1, rue des échelles
25620 Besançon
— 43 Bd du 11 novembre 1918 à Dijon dans la Côte d’Or 21280
— Saint-Germain-en-Laye, au n° 25 rue du Château d’If 78100
The algorithmic formal representation (diagram representing the algorithm) to recognize any addresses
shall be:
semeAddress = (UM( )(UM)(,)( )(M)( )(M)( ))(listC)( )(listE)(,)( )listL( )(M)( )(M)( )(n)(listNC)
( )(listC)( )(listmois)( )(listC)( )(M)( )(M)( )(M)( )(M)( )(M)( )(M)( )(M)( )(M)(,)(n)( )listB
( )NNN( )(UM)( )(UM)
Using elements (indicants) of the general meta-language grammar and the following complementary
indicants:
— listE = bis,ter,Bis,Ter
— listL = rue,avenue,allée,impasse,place,chemin,square,boulevard,Bd,ruelle
— listNC = 1ER,1er,1ERE,1ère,2ème,2EME,3.999|ème|
— listmois = mai,juillet,novembre
...


Norme
internationale
ISO 24620-5
Première édition
Gestion des ressources
2024-06
linguistiques — Communication
humaine contrôlée (CHC) —
Partie 5:
Principes lexico-morpho-
syntaxiques et méthodologie pour
la reconnaissance et la protection
des données à caractère personnel
dans du texte
Language resource management — Controlled human
communication (CHC) —
Part 5: Lexico-morpho-syntactic principles and methodology for
personal data recognition and protection in text
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Raisons en faveur d’une communication humaine contrôlée . 2
5 Principes de base et méthodologie . . 3
5.1 Généralités .3
5.2 Aspects spécifiques .3
5.3 Principes .3
5.3.1 Vue d’ensemble .3
5.3.2 Indicateurs lexicaux, morphologiques et syntaxiques .4
6 Applications . 6
6.1 Généralités .6
6.2 Différentes familles de langues .6
6.3 Langues et pays . .6
6.4 Sèmes dans les textes .6
6.5 Applications pour la reconnaissance des données à caractère personnel .7
Annexe A (informative) Exemples de textes dans différentes langues et pour différents sèmes . 8
Annexe B (informative) Exemples de textes cachés avec des indications sémiques .13
Annexe C (informative) Tableau de sèmes en contexte .15
Bibliographie .18

iii
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes nationaux
de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est en général
confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude a le droit de faire
partie du comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l’ISO participent également aux travaux. L’ISO collabore étroitement avec
la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a
été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir
www.iso.org/directives).
L’ISO attire l’attention sur le fait que la mise en application du présent document peut entraîner l’utilisation
d’un ou de plusieurs brevets. L’ISO ne prend pas position quant à la preuve, à la validité et à l’applicabilité de
tout droit de brevet revendiqué à cet égard. À la date de publication du présent document, l’ISO n’avait pas
reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires à sa mise en application. Toutefois,
il y a lieu d’avertir les responsables de la mise en application du présent document que des informations
plus récentes sont susceptibles de figurer dans la base de données de brevets, disponible à l’adresse
www.iso.org/brevets. L’ISO ne saurait être tenue pour responsable de ne pas avoir identifié tout ou partie de
tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l’ISO liés à l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de
l’ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au
commerce (OTC), voir www.iso.org/avant-propos.
Le présent document a été élaboré par le comité technique ISO/TC 37, Langage et terminologie, sous-comité
SC 4, Gestion des ressources linguistiques.
Une liste de toutes les parties de la série ISO 24620 se trouve sur le site web de l’ISO.
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve à l’adresse www.iso.org/fr/members.html.

iv
Introduction
L’échange des données à caractère personnel entre des acteurs publics et privés, y compris les personnes
physiques, les associations et les entreprises, augmente continuellement. L’évolution rapide des technologies
et la mondialisation ont créé de nouveaux enjeux pour la protection des données à caractère personnel.
L’ampleur de la collecte et du partage de données à caractère personnel a augmenté de manière importante.
Les technologies permettent tant aux entreprises privées qu’aux autorités publiques d’utiliser les données à
caractère personnel comme jamais auparavant dans le cadre de leurs activités. De plus en plus, les personnes
physiques rendent des informations les concernant accessibles publiquement et à un niveau mondial.
Néanmoins, la technologie a transformé la vie économique et sociale, et devrait faciliter davantage la libre
circulation des données à caractère personnel au sein d’un pays ainsi que leur transfert vers et entre les
autres pays et organisations internationales, tout en assurant un niveau élevé de protection des données à
caractère personnel. Ces développements requièrent un cadre de protection des données solide et cohérent.
Par exemple, l’ISO/IEC 27701 définit les processus et fournit des recommandations pour la protection des
informations personnelles identifiables (IPI) de manière continue, en constante évolution.
Il est nécessaire, pour protéger efficacement les données à caractère personnel, de renforcer et de détailler
les droits des personnes physiques en tant que personnes concernées, ainsi que les obligations de ceux qui
traitent et déterminent le traitement des données à caractère personnel.
[6][15]
EXAMPLE Le Règlement général sur la protection des données (RGPD) de l’Union européenne (UE) .
Les principes de protection des données s’appliquent à toute information concernant une personne physique
identifiée ou identifiable.
Dans ce contexte, de nombreux secteurs d’activité, organismes gouvernementaux et entreprises ou
[16]
organisations privées et publiques doivent cacher (masquer), supprimer, anonymiser ou pseudonymiser
[4][8]
les données à caractère personnel avant que le texte contenant ces données ne soit traité.
Le présent document fournit des principes et une méthodologie permettant de détecter et d’identifier des
données à caractère personnel afin qu’elles puissent être cachées ou supprimées, c’est‑à‑dire protégées
avant la transmission et/ou le traitement d’un texte contenant de telles données. La difficulté ne réside pas
tant dans la suppression ou le masquage des données, mais dans la reconnaissance des données à caractère
personnel dans du texte écrit. Contrairement aux données à caractère personnel contenues dans un texte,
les données à caractère personnel contenues dans des données structurées (par exemple présentées dans
[5]
des tableaux) ne posent pas de réel problème, car ces données sont facilement reconnaissables.
Le présent document s’adresse aux micro-entreprises, aux PME et aux grandes entreprises nationales et
internationales, ainsi qu’aux organismes privés et publics qui traitent du texte pouvant contenir des données
à caractère personnel dans tous les domaines (par exemple, le droit, la finance, la santé), dans toutes les
[14]
langues et dans tous les pays. Les principes et la méthodologie sont déjà utilisés par l’industrie et les
organismes gouvernementaux.
En vertu des réglementations telles que le RGPD européen, la protection de données à caractère personnel
représente un défi considérable pour les micro, petites, moyennes et grandes entreprises, et également
pour les organismes privés et publics. Par exemple, le RGPD interdit le transfert de données à caractère
personnel de personnes concernées européennes vers des pays situés en dehors de l’EEE, dénommés
« pays tiers », à moins que les garanties appropriées ne soient imposées ou que les réglementations du pays
tiers concernant la protection des données ne soient formellement considérées comme adéquates par la
Commission européenne. En outre, l’État de Californie, aux États-Unis, a adopté le 28 juin 2018 le California
er
Consumer Privacy Act, qui prend effet au 1 janvier 2020 et accorde des droits à la transparence et au
contrôle de la collecte d’informations personnelles par les entreprises d’une manière similaire au RGPD (voir
la Référence [2] et l’ISO/IEC 27701).
Tous les exemples donnés dans le présent document sont fictifs, mais ils pourraient exister si des données
réelles étaient substituées aux données fictives.

v
Norme internationale ISO 24620-5:2024(fr)
Gestion des ressources linguistiques — Communication
humaine contrôlée (CHC) —
Partie 5:
Principes lexico-morpho-syntaxiques et méthodologie pour
la reconnaissance et la protection des données à caractère
personnel dans du texte
1 Domaine d’application
Le présent document définit les principes de base et la méthodologie pour reconnaître des données à
caractère personnel dans du texte libre, dans différentes langues (qu’elles soient agglutinantes, flexionnelles
ou isolantes) et pays.
Le présent document est applicable essentiellement à la protection des données humaines circulant dans les
industries nationales et internationales, et dans les organisations privées et publiques.
Le présent document s’applique au traitement par des êtres humains et/ou au traitement automatisé, ainsi
qu’à divers domaines (par exemple, le droit, la finance, la santé).
Il ne s’applique pas au traitement automatisé des images.
Le présent document n’utilise que des méthodes formelles, les méthodes statistiques étant de nature très
différente.
2 Références normatives
Le présent document ne contient aucune référence normative.
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
intension
contenu interne d’un terme ou concept qui constitue sa définition formelle
Note 1 à l'article: L’extension est la gamme d’applicabilité d’un concept en nommant les objets particuliers qu’il dénote.
3.2
données à caractère personnel
toute information relative à une personne physique identifiable (3.6) ou identifiée
[6]
[SOURCE: : Règlement (UE) 2016/679, Article 4 (1)]

3.3
pseudonymisation
traitement (3.4) de données à caractère personnel (3.2) de telle façon que celles-ci ne puissent plus être
attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour
autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures
techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas
attribuées à une personne physique identifiée ou identifiable (3.6)
[6]
[SOURCE: : Règlement (UE) 2016/679, Article 4 (5)]
3.4
traitement
toute opération ou tout ensemble d’opérations effectuées ou non à l’aide de procédés automatisés et
appliquées à des données ou des ensembles de données à caractère personnel (3.2), telles que la collecte,
l’enregistrement, l’organisation, la structuration, la conservation, l’adaptation ou la modification, l’extraction,
la consultation, l’utilisation, la communication par transmission, la diffusion ou toute autre forme de mise à
disposition, le rapprochement ou l’interconnexion, la limitation, l’effacement ou la destruction
[6]
[SOURCE: : Règlement (UE) 2016/679, Article 4 (2)]
3.5
sème
signifié de Saussure avec ses différents signifiants (instanciations) dans le texte
Note 1 à l'article: Saussure a été le premier à utiliser les termes « signifié » et « signifiant ». Saussure a proposé un
modèle « dyadique » ou en deux parties du signe. Il a défini le signe comme étant composé d’un « signifiant » et d’un
« signifié » (voir les Références [17] et [18]).
3.6
personne physique identifiable
personne concernée
personne qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant
Note 1 à l'article: Un identifiant peut être un nom, un numéro d’identification, des données de localisation ou un
identifiant en ligne d’une personne physique. D’autres exemples exclus des exemples du présent document sont des
références à un ou plusieurs facteurs spécifiques à l’identité physique, physiologique, génétique, mentale, économique,
culturelle ou sociale de la personne physique.
[6]
[SOURCE: : Règlement (UE) 2016/679, Article 4 (1)]
3.7
indicateur
présence significative d’une interaction entre des phénomènes lexicaux, morphologiques et syntaxiques ou
l’un de ces phénomènes dans un large éventail de langues ou dans un petit nombre de langues ou dans une
seule langue permettant l’identification des données à caractère personnel (3.2)
4 Raisons en faveur d’une communication humaine contrôlée
La première étape de la protection des données à caractère personnel consiste à pouvoir reconnaître
automatiquement ces données, en particulier lorsqu’elles ne sont pas structurées, mais se présentent sous
forme de texte libre, comme le montre l’Exemple 1 de l’Article A.1.
Une fois que les données sont détectées ou reconnues comme étant des données à caractère personnel,
différents moyens peuvent être utilisés pour les dissimuler dans le texte : elles peuvent être
cachées (masquées), supprimées, anonymisées (voir les Références [9] et [10]) ou pseudonymisées
(voir la Référence [7]), comme le montre l’Exemple 2 de l’Article A.2.
Les Exemples 3 et 4 des Articles A.3 et A.4 montrent un exemple similaire en français.

5 Principes de base et méthodologie
5.1 Généralités
Pour les principes de base, divers phénomènes linguistiques lexicaux, morphologiques et syntaxiques sont
utilisés, notamment en ce qui concerne la manière dont les données à caractère personnel sont représentées
sous forme de texte libre. Par exemple, les adresses ne respectant pas le format anglais au Royaume-Uni,
comme indiqué dans l’Exemple 1 de l’Article A.1, c’est-à-dire « Stoneham-le-Willows at 24 Britanny Park, F2
7AN (GB29 NWBK 6016 1331 9268 19) ».
La méthodologie spécifie des représentations formelles conçues en intension (voir les Références [11], [12]
et [13]) basées sur des phénomènes lexicaux, morphologiques et syntaxiques qui doivent s’appliquer dans
un ordre séquentiel à chacun des niveaux d’analyse linguistique qui ont un impact sur la reconnaissance des
données à caractère personnel.
Les principes de base et la méthodologie sont formulés spécifiquement pour leur conférer un pouvoir
explicatif afin de montrer comment et quand chacun des phénomènes linguistiques, lexicaux, morphologiques
et/ou syntaxiques, et/ou leurs associations et interactions, en contexte, doivent être utilisés et appliqués en
fonction de la reconnaissance des différents sèmes dans l’analyse des textes. Par conséquent, la méthodologie
utilise des phénomènes linguistiques conformes aux principes de base pour la reconnaissance des données
à caractère personnel (au lieu d’un lexique) et spécifie un système de règles de contrainte complété par un
algorithme qui, lorsqu’il est appliqué, permet d’extraire les données à caractère personnel.
5.2 Aspects spécifiques
La principale difficulté réside dans la reconnaissance des données à caractère personnel dans des textes
libres rédigés dans des langues différentes, provenant de pays différents et issus de domaines différents
(par exemple, droit, finance, santé).
Le problème concerne également l’utilisation de la même langue dans différents pays. Par exemple,
les adresses ne sont pas écrites de la même manière en France, en Suisse, en Belgique et au Canada, ou en
Autriche et en Allemagne (voir les Exemples 5 et 6 des Articles A.5 et A.6). Un texte rédigé dans une langue
peut également contenir des données à caractère personnel dans d’autres langues et dans d’autres pays.
Le problème est donc quadruple :
a) les données à caractère personnel dans du texte libre ;
b) les données à caractère personnel dans des pays différents ;
c) les données à caractère personnel dans des langues différentes ;
d) les données à caractère personnel dans des domaines différents.
La méthodologie décrite dans le présent document utilise des indicateurs pour détecter des données à
caractère personnel telles qu’un numéro de téléphone, un numéro d’identification ou de compte bancaire,
une adresse, etc.
La méthodologie fonctionne en intension. De ce fait, elle est basée sur des règles : elle établit un système de
règles de contraintes ordonnées fondées sur des phénomènes linguistiques, qui sont conformes aux principes
de base à suivre (voir 5.3). Les indicateurs doivent être établis et ils doivent être lexicaux, morphologiques
et/ou syntaxiques.
5.3 Principes
5.3.1 Vue d’ensemble
Les principes abordant les quatre problématiques spécifiques listées en 5.2 élaborent des règles pour une
représentation linguistique explicative formelle avec son propre métalangage et sa grammaire accompagnée
d’exemples afin que de nouveaux sèmes et de nouvelles langues puissent être traités.

L’utilisateur doit établir les indicateurs lexico-morpho-syntaxiques. Les indicateurs, s’ils n’existent pas déjà
dans la grammaire du métalangage, doivent être ajoutés.
5.3.2 Indicateurs lexicaux, morphologiques et syntaxiques
5.3.2.1 Généralités
Certains indicateurs doivent être des ensembles valables pour différents sèmes dans différentes langues
et dans différents pays tels que N ou A, lesquels apparaissent très souvent dans le texte, mais ils peuvent
également être facultatifs. Ils doivent être représentés formellement dans la grammaire du métalangage
comme suit (extrait) :
— N = chiffre (0…9) ;
— L = A, B, …Z (sans signes diacritiques) ;
— A = 0,1, …9,L (L signifie un élément du L ci‑dessus) ;
— listA = 01,02,03,04,05,06,07,08,09,10,11,12 ;
— ListB = ListA, 13, .100 ;
— () = élément(s) entre parenthèses facultatif(s) ;
— M = tout mot commençant par une lettre majuscule ou minuscule suivi de zéro ou de plusieurs lettres
majuscules ou minuscules ainsi que des caractères ‘‘°- ;
— UM = M commençant par une lettre majuscule ;
— n = nouvelle ligne suivie ou non d’un ou de plusieurs espaces et/ou d’une ou de plusieurs tabulations ;
— listC = 1, …9999 ;
— l = a, b, …z (sans signes diacritiques) ;
— |tout caractère avec le caractère | codé comme || terminé par | = littéral.
NOTE Les séquences de littéraux sont illégales (ambiguïté de ||).
Certains indicateurs doivent être ajoutés selon le sème à reconnaître, le pays ou la langue utilisée (voir les
exemples de l’Annexe A).
L’Exemple 3 de l’Article A.3 contient les adresses suivantes rédigées dans différents formats :
— 1, rue des échelles
25620 Besançon
— 43 B
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...

SIST ISO 24620-5:2024は、自由文本中に記載された個人データを認識し保護するための基本的な原則と方法論を確立した重要な標準です。この標準は、膠着語、屈折語、分離語を含む異なる言語や国において適用可能であり、広範な用途があることが特徴です。 この標準の強みは、国家および国際産業、私的および公的機関において循環する人間データの保護に特化している点です。迅速に変化するデジタル空間における個人データの取り扱いに対して、確固たる方法論を提供することで、信頼性の高いデータ管理を促進します。特に、法律、金融、健康といった様々な分野での適用可能性があるため、幅広い業界において重要な役割を果たすでしょう。 また、SIST ISO 24620-5:2024は、形式的手法を用いることにより、誤解を招く恐れのある統計的手法からの逸脱を強調しています。この選択は、個人データの認識精度を高めるだけでなく、データ処理の透明性を確保します。このアプローチは、利用者および関係者の信頼を築くうえで極めて重要です。 さらに、この標準は、人間による処理および自動処理の両方に対応しているため、現代の多様なデータ処理環境に適合します。これにより、技術の進展や新たなデータ処理手法が出現する中でも、柔軟に応じることができる点も評価できます。 結論として、SIST ISO 24620-5:2024は、個人データの認識と保護に関する信頼性の高いガイドラインを提供し、様々な言語と分野での適用が可能であるため、現代のデータ管理において不可欠な標準となるでしょう。

SIST ISO 24620-5:2024は、自由形式のテキストに記述された個人データを認識し、保護するための基礎的な原則と方法論を確立する重要な文書です。この標準は、膠着語、屈折語、孤立語といった多様な言語や国において適用されることを目的としており、その適用範囲は広範です。特に、国際産業や公私の組織における人間データの保護に焦点を当てています。 この標準の強みは、個人データの取り扱いに対して明確な指針を提供している点です。法務、金融、健康など様々なドメインにおいて、人的および自動処理の両方に適用可能であり、さまざまな業界での実践的なニーズに応えることができます。また、この文書は形式的方法のみを用いることにより、統計的方法との明確な違いを提供し、より正確なデータ認識プロセスを実現しています。 さらに、この標準は個人データの保護において、文章中の言語資源管理を制度化することにより、国際的なデータ保護基準にも合致するものです。そのため、グローバルに活動する企業や団体にとっても、非常に関連性の高い指針となります。SIST ISO 24620-5:2024は、個人データ認識と保護のための重要な枠組みを提供することで、将来的なデータ管理の戦略においても指導的役割を果たすことが期待されます。

The standard SIST ISO 24620-5:2024 presents a comprehensive framework focused on the recognition and protection of personal data within free text across various languages and contexts. This document utilizes a formal methodology that emphasizes lexico-morpho-syntactic principles, making it particularly relevant for industries that handle sensitive information. One of the strengths of this standard is its applicability across multiple sectors, including law, finance, and health, thus providing a versatile approach for organizations dealing with personal data. This broad scope ensures that both public and private entities, as well as industries operating nationally and internationally, can effectively implement its guidelines. The inclusion of a formal methodology rather than relying on statistical methods enhances the reliability of personal data recognition processes, ensuring consistency in the identification and protection of sensitive information. This is particularly crucial in today’s data-driven world, where the protection of human data is paramount. Furthermore, the standard's explicit emphasis on a range of languages, including agglutinating, inflectional, and isolating languages, addresses the diversity of global communication and ensures that organizations can engage in personal data protection with a comprehensive understanding of linguistic nuances. Overall, SIST ISO 24620-5:2024 provides a robust and systematically detailed approach to personal data recognition and protection, reinforcing its relevance amidst increasing concerns over data privacy and regulatory compliance in various industries.

The SIST ISO 24620-5:2024 standard provides a comprehensive framework for understanding and implementing controlled human communication (CHC) principles specifically focused on lexico-morpho-syntactic rules. Its primary scope is the recognition of personal data within free text across various languages and cultural contexts, making it a vital resource for industries that handle sensitive human data. One of the strengths of this standard is its versatility in applicability. It caters to both national and international contexts, ensuring that organizations in different countries can adopt a consistent methodology for data recognition and protection. By addressing a range of language types, including agglutinating, inflectional, and isolating languages, the standard is inclusive and relevant to a global audience. Furthermore, the emphasis on formal methods over statistical approaches enhances the standard's robustness in accurately identifying personal data. This distinction is particularly relevant as it aligns with the rigor required in sensitive domains such as law, finance, and health, where precision in data handling is paramount. The clear methodology established in this document aids organizations in navigating the complexities of personal data recognition while ensuring compliance with legal standards. Overall, the SIST ISO 24620-5:2024 standard stands out for its targeted approach to protecting human data in text form. Its structured principles provide a solid foundation for both manual and automated processes, addressing the unique challenges faced by various sectors. By facilitating a standardized approach to personal data recognition and protection, this document holds significant relevance in today's data-driven environment.

Der Standard SIST ISO 24620-5:2024 bietet eine umfassende Grundlage für das Management sprachlicher Ressourcen mit einem speziellen Fokus auf kontrollierte menschliche Kommunikation. Die im Dokument festgelegten lexiko-morpho-syntaktischen Prinzipien sind entscheidend für die Wiederkennung und den Schutz personenbezogener Daten in freiem Text über verschiedene Sprachen und Länder hinweg. Ein herausragendes Merkmal dieses Standards ist seine Anwendbarkeit auf diverse Branchen, einschließlich Recht, Finanzen und Gesundheitswesen, und sowohl im nationalen als auch im internationalen Kontext. Dies zeigt die Relevanz des Dokuments in einer globalisierten Welt, in der der Schutz personenbezogener Daten von größter Bedeutung ist. Die Methodologie, die im Standard etabliert wird, ist besonders vorteilhaft für die Verarbeitung durch Menschen sowie für automatisierte Verarbeitungssysteme. Die klare Abgrenzung zwischen den formalen Methoden und den statistischen Methoden sorgt dafür, dass die Erkennung von persönlichen Daten präzise und effizient erfolgt, wobei verschiedene Sprachstrukturen wie agglutinierte, flektierte oder isolierte Sprachen berücksichtigt werden. Ein weiterer Stärke des Standards liegt in seiner Fähigkeit, in unterschiedlichsten Anwendungsbereichen wirksam zu sein und so den Schutz menschlicher Daten zu fördern. Die Tatsache, dass das Dokument nicht auf automatisierte Bildverarbeitung abzielt, unterstreicht den klaren Fokus auf textuelle Daten, was in vielen Industrien von großer Bedeutung ist. Insgesamt bietet der Standard SIST ISO 24620-5:2024 eine relevante und fundierte Methodologie zur Erkennung und zum Schutz personenbezogener Daten und stellt damit einen wichtigen Beitrag im Bereich der Datenmanagement-Standards dar.

La norme SIST ISO 24620-5:2024 se positionne comme un document essentiel dans le domaine de la gestion des ressources linguistiques, en se concentrant spécifiquement sur la communication humaine contrôlée (CHC). Son champ d'application est clair et pertinent, car il établit des principes fondamentaux et une méthodologie destinée à la reconnaissance des données personnelles dans des textes librement écrits, transcendant ainsi les barrières linguistiques et géographiques. Les forces de cette norme résident dans sa capacité à traiter différents types de langues, qu'elles soient agglutinantes, flexionnelles ou isolantes, et dans son adaptabilité aux spécificités des pays concernés. Cela permet aux organisations nationales et internationales, qu'elles soient publiques ou privées, de garantir une protection efficace des données humaines à travers diverses industries telles que le droit, la finance et la santé. Un autre atout majeur de la norme est son approche méthodologique rigoureuse. En s'appuyant uniquement sur des méthodes formelles pour la reconnaissance des données personnelles, cette norme se distingue nettement des approches statistiques, souvent moins précises. Cela assure une fiabilité accrue dans le traitement des données, que ce soit par des êtres humains ou par des processus automatisés, renforçant ainsi la sécurité et la confidentialité des informations gérées. En somme, la norme SIST ISO 24620-5:2024 joue un rôle crucial dans la standardisation des pratiques liées à la reconnaissance et à la protection des données personnelles, garantissant que les principes lexicaux, morpho-syntaxiques soient appliqués de manière uniforme à travers divers contextes. Sa pertinence est indéniable, notamment à une époque où la protection des données revêt une importance capitale.

SIST ISO 24620-5:2024 문서는 언어 자원 관리 및 통제된 인간 커뮤니케이션(CHC)에 관한 핵심 원칙과 방법론을 제시하며, 다양한 언어와 국가에서 자유 텍스트로 작성된 개인 데이터를 인식하고 보호하는 데 중점을 두고 있습니다. 이 표준은 응용 범위가 넓어, 국가 및 국제 산업과 개인 및 공공 기관에 걸쳐 순환하는 인간 데이터를 효과적으로 보호할 수 있는 기반을 제공합니다. 이 표준의 강점 중 하나는 수많은 언어적 특성을 포함하는 개인 데이터 인식을 위한 체계적인 접근 방식을 강조한다는 점입니다. 고립어, 굴절어, 교착어 등 다양하게 분류된 언어의 구조를 아우르는 방법론을 제공하여, 다양한 문화적 배경을 가진 데이터 처리에 중요한 역할을 할 수 있습니다. 이로 인해 전 세계 여러 산업 분야에서 활용 가능성이 높아지는 장점이 있습니다. 또한, 법률, 금융, 건강과 같은 다양한 분야에 적용할 수 있어, 각 도메인에 맞는 데이터 보호 방법을 맞춤형으로 제공할 수 있는 점은 특히 중요한 요소입니다. 인간 처리 및 자동 처리 모두에 적용 가능하다는 점에서 기술 발전에 따른 요구에도 능동적으로 대응할 수 있는 표준으로서의 가치를 지니고 있습니다. 마지막으로, 이 표준은 통계적 방법이 아닌 형식적 방법만을 사용하여 개인 데이터 인식을 진행하는 것을 규명함으로써 데이터 처리의 정확성과 신뢰성을 확보하고 있습니다. 이는 정확한 데이터 보호와 인식의 요구가 있는 현재의 환경에서 매우 중요한 요소입니다.

SIST ISO 24620-5:2024 표준은 다양한 언어 및 국가에서 자유 텍스트로 작성된 개인 데이터를 인식하고 보호하기 위한 기본 원칙과 방법론을 설정하는 중요한 문서입니다. 이 표준은 응집적, 굴절적 또는 고립어와 같은 언어적 특성을 고려하며, 개인 데이터 보호를 위해 다양한 산업 및 조직에서 활용될 수 있습니다. 이 표준의 주요 강점은 사람의 손에 의한 처리와 자동화된 처리 모두에 적용된다는 점입니다. 법률, 금융, 건강 등 여러 분야에서 활용할 수 있어 매우 포괄적입니다. 또한, 공식적인 방법만을 사용하며, 통계적 방법의 차이를 명확히 인지하고 있다는 점이 이 표준의 신뢰성을 높입니다. 이는 데이터 보호 및 인식에 있어 연구자와 실무자 간의 명확한 소통을 가능하게 합니다. SIST ISO 24620-5:2024의 적합성은 특히 개인 데이터가 국가 및 국제 산업 내에서 유통될 때 드러납니다. 이는 개인 정보 보호가 더욱 중요해지는 현대 사회에서 필수적인 요소로 자리잡고 있으며, 다양한 언어 환경에서의 응용 가능성은 이 문서의 또 다른 강점입니다. 이 표준은 개인 데이터 보호의 새로운 패러다임을 제시하며, 향후 데이터 관리 및 보호의 방향성을 제시하는 데 기여할 것입니다.

Die SIST ISO 24620-5:2024 ist ein bedeutendes Dokument, das Grundlagen sowie Methoden zur Erkennung persönlicher Daten in unstrukturiertem Text festlegt. Diese Norm hat einen weitreichenden Anwendungsbereich und ist besonders relevant für die Sicherstellung des Datenschutzes in unterschiedlichen Sprachen und kulturellen Kontexten, einschließlich agglutinierender, flektierender oder isolierender Sprachen. Ein wesentlicher Vorteil dieser Norm liegt in ihrer Fähigkeit, Prinzipien für die Verarbeitung persönlicher Daten zu definieren, die sowohl für den nationalen als auch für den internationalen Sektor von Bedeutung sind. Durch die Berücksichtigung verschiedener Branchen, wie Recht, Finanzen und Gesundheit, bietet die Norm eine umfassende Grundlage zur Erkennung und zum Schutz von persönlichen Daten in vielfältigen Kontexten. Die SIST ISO 24620-5:2024 etabliert klare lexikologisch-morpho-syntaktische Prinzipien, die die automatisierte sowie menschliche Bearbeitung von Textdaten betreffen. Dies ist besonders wichtig, da in einer zunehmend digitalisierten Welt die effiziente und verantwortungsvolle Handhabung von persönlichen Daten eine zentrale Rolle spielt. Die ausschließliche Nutzung formaler Methoden zur Datenverarbeitung hebt sich deutlich von statistischen Verfahren ab, die in ihrer Natur unterschiedlich sind und hier nicht zur Anwendung kommen. Insgesamt trägt die Norm entscheidend dazu bei, die komplexen Herausforderungen, die mit der Personalisierung und dem Schutz personenbezogener Daten in einer globalisierten Welt verbunden sind, zu adressieren und setzt damit einen wichtigen Standard für die Zukunft der Sprachressourcenverwaltung.

La norme SIST ISO 24620-5:2024 établit des principes lexicaux, morpho-syntaxiques et une méthodologie clés pour la reconnaissance et la protection des données personnelles dans des textes rédigés librement. Son champ d'application est particulièrement vaste puisqu'elle s'applique à différents types de langues, qu'elles soient agglutinantes, flexionnelles ou isolantes, et couvre également diverses régions géographiques. L'une des forces majeures de cette norme réside dans son approche systématique pour le traitement des données personnelles, en intégrant des méthodes formelles. Cela garantit une robustesse et une cohérence dans la reconnaissance des données, essentielle pour les industries nationales et internationales, ainsi que pour les organisations publiques et privées. En se concentrant sur le traitement effectué par des humains et/ou de manière automatisée, la norme répond aux besoins évolutifs des secteurs tels que le droit, la finance et la santé, tout en s’alignant avec les exigences de protection des données personnelles. De plus, le fait que cette norme ne s'applique pas au traitement automatisé d'images renforce son adéquation pour les scénarios textuels, ce qui est vital pour le respect de la confidentialité dans des contextes sensibles. En évitant d’employer des méthodes statistiques, qui peuvent introduire des imprécisions, SIST ISO 24620-5:2024 s'assure que les principes de traitement se basent sur des fondements solides et fiables. En résumé, la norme SIST ISO 24620-5:2024 se positionne comme un outil essentiel pour toute organisation souhaitant garantir la reconnaissance et la protection des données personnelles dans des textes, tout en étant adaptable à divers contextes linguistiques et professionnels.