Health informatics — Pseudonymization

ISO 25237:2017 contains principles and requirements for privacy protection using pseudonymization services for the protection of personal health information. This document is applicable to organizations who wish to undertake pseudonymization processes for themselves or to organizations who make a claim of trustworthiness for operations engaged in pseudonymization services. ISO 25237:2017 - defines one basic concept for pseudonymization (see Clause 5), - defines one basic methodology for pseudonymization services including organizational, as well as technical aspects (see Clause 6), - specifies a policy framework and minimal requirements for controlled re-identification (see Clause 7), - gives an overview of different use cases for pseudonymization that can be both reversible and irreversible (see Annex A), - gives a guide to risk assessment for re-identification (see Annex B), - provides an example of a system that uses de-identification (see Annex C), - provides informative requirements to an interoperability to pseudonymization services (see Annex D), and - specifies a policy framework and minimal requirements for trustworthy practices for the operations of a pseudonymization service (see Annex E).

Informatique de santé — Pseudonymisation

ISO 25237:2017 établit un certain nombre de principes et d'exigences visant à garantir la protection de la vie privée, grâce à des services de pseudonymisation ayant pour objet de protéger les informations de santé à caractère personnel. Le présent document est applicable aux organismes qui souhaitent s'engager dans des processus de pseudonymisation pour eux-mêmes et aux organismes qui se déclarent dignes de confiance pour engager des opérations dans des services de pseudonymisation. ISO 25237:2017: - définit un concept de base pour la pseudonymisation (voir Article 5); - définit une méthodologie de base pour les services de pseudonymisation, y compris au niveau des aspects organisationnels et techniques (voir Article 6); - spécifie un cadre politique et des exigences minimales pour la ré-identification contrôlée (voir Article 7); - donne une vue d'ensemble des différents cas d'utilisation où l'opération de pseudonymisation peut être réversible ou irréversible (voir Annexe A); - fournit un guide pour l'évaluation des risques en cas de ré-identification (voir Annexe B); - donne un exemple de système qui utilise la désidentification (voir Annexe C); - fournit des exigences informatives pour l'interopérabilité des services de pseudonymisation (voir Annexe D); et - spécifie un cadre politique et des exigences minimales favorisant des pratiques fiables pour un service de pseudonymisation (voir Annexe E).

General Information

Status
Published
Publication Date
02-Jan-2017
Current Stage
9092 - International Standard to be revised
Start Date
16-Aug-2023
Completion Date
13-Dec-2025
Ref Project

Relations

Standard
ISO 25237:2017 - Health informatics -- Pseudonymization
English language
62 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 25237:2017 - Health informatics -- Pseudonymization
English language
62 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 25237:2017 - Informatique de santé -- Pseudonymisation
French language
68 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 25237:2017 - Informatique de santé -- Pseudonymisation
French language
68 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


DRAFT INTERNATIONAL STANDARD
ISO/DIS 25237
ISO/TC 215 Secretariat: ANSI
Voting begins on: Voting terminates on:
2015-09-03 2015-12-03
Health informatics — Pseudonymisation
Informatique de santé — Pseudonymization
ICS: 35.240.80
ISO/CEN PARALLEL PROCESSING
This draft has been developed within the International Organization for
Standardization (ISO), and processed under the ISO lead mode of collaboration
as defined in the Vienna Agreement.
This draft is hereby submitted to the ISO member bodies and to the CEN member
bodies for a parallel five month enquiry.
Should this draft be accepted, a final draft, established on the basis of comments
received, will be submitted to a parallel two-month approval vote in ISO and
THIS DOCUMENT IS A DRAFT CIRCULATED
formal vote in CEN.
FOR COMMENT AND APPROVAL. IT IS
THEREFORE SUBJECT TO CHANGE AND MAY
NOT BE REFERRED TO AS AN INTERNATIONAL
STANDARD UNTIL PUBLISHED AS SUCH.
To expedite distribution, this document is circulated as received from the
IN ADDITION TO THEIR EVALUATION AS
committee secretariat. ISO Central Secretariat work of editing and text
BEING ACCEPTABLE FOR INDUSTRIAL,
composition will be undertaken at publication stage.
TECHNOLOGICAL, COMMERCIAL AND
USER PURPOSES, DRAFT INTERNATIONAL
STANDARDS MAY ON OCCASION HAVE TO
BE CONSIDERED IN THE LIGHT OF THEIR
POTENTIAL TO BECOME STANDARDS TO
WHICH REFERENCE MAY BE MADE IN
Reference number
NATIONAL REGULATIONS.
ISO/DIS 25237:2015(E)
RECIPIENTS OF THIS DRAFT ARE INVITED
TO SUBMIT, WITH THEIR COMMENTS,
NOTIFICATION OF ANY RELEVANT PATENT
RIGHTS OF WHICH THEY ARE AWARE AND TO
©
PROVIDE SUPPORTING DOCUMENTATION. ISO 2015

ISO/DIS 25237:2015(E)
© ISO 2015, Published in Switzerland
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized otherwise in any form
or by any means, electronic or mechanical, including photocopying, or posting on the internet or an intranet, without prior
written permission. Permission can be requested from either ISO at the address below or ISO’s member body in the country of
the requester.
ISO copyright office
Ch. de Blandonnet 8 • CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. +41 22 749 01 11
Fax +41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2015 – All rights reserved

ISO/TS 25237:2008(E)
Contents Page
Foreword .iii
Introduction . iv
1 Scope .2
2 Normative references .2
3 Terms and definitions .2
4 Symbols (and abbreviated terms) .7
5 Requirements for privacy protection of identities in healthcare .8
5.1 A conceptual model for pseudonymization of personal data . Error! Bookmark not defined.
5.2 Categories of data subject . 16
5.3 Classification of data . 17
5.4 Trusted services . 20
5.5 Need for re-identification of pseudonymized data . 20
5.6 Pseudonymization service characteristics . 21
6 Pseudonymization process (methods and implementation). 21
6.1 Design criteria . Error! Bookmark not defined.
6.2 Entities in the model . Error! Bookmark not defined.
6.3 Workflow in the model . Error! Bookmark not defined.
6.4 Preparation of data . Error! Bookmark not defined.
6.5 Processing steps in the workflow . Error! Bookmark not defined.
6.6 Protecting privacy protection through pseudonymization . 21
7 Re-identification process (methods and implementation) . 25
8 Specification of interoperability of interfaces (methods and implementation)Error! Bookmark not defined.
9 Policy framework for operation of pseudonymization services (methods and
implementation) . Error! Bookmark not defined.
9.1 General . Error! Bookmark not defined.
9.2 Privacy policy . Error! Bookmark not defined.
9.3 Trustworthy practices for operations . Error! Bookmark not defined.
9.4 Implementation of trustworthy practices for re-identification . Error! Bookmark not defined.
Annex A (informative) Healthcare pseudonymization scenarios . 28
Annex B (informative) Requirements for privacy risk assessment design . 41
Bibliography . 63

ii © ISO 2008 – All rights reserved

ISO/TS 25237:2008(E)
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular the different approval criteria needed for the different types of
ISO documents should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of any patent
rights identified during the development of the document will be in the Introduction and/or on the ISO list of
patent declarations received (see www.iso.org/patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation on the meaning of ISO specific terms and expressions related to conformity assessment,
as well as information about ISO’s adherence to the WTO principles in the Technical Barriers to Trade (TBT)
see the following URL: Foreword - Supplementary information.
The committee responsible for this document is ISO/TC 215, Health informatics.ISO/TS 25237 was prepared
by Technical Committee ISO/TC 215, Healthcare informatics.

ISO/TS 25237:2008(E)
Introduction
Pseudonymization is recognised as an important method for privacy protection of personal health information.
Such services may be used nationally as well as for trans-border communication.
Application areas include but are not limited to:
 indirect use of clinical data (e.g. research);
 clinical trials and post-marketing surveillance;
 pseudonymous care;
 patient identification systems;
 public health monitoring and assessment;
 confidential patient-safety reporting (e.g. adverse drug effects);
 comparative quality indicator reporting;
 peer review;
 consumer groups;
 field service.
This Technical Specification provides a conceptual model of the problem areas, requirements for trustworthy
practices, and specifications to support the planning and implementation of pseudonymization services.
The specification of a general workflow together with a policy for trustworthy operations serve both as a
general guide for implementers but also for quality assurance purposes, assisting users of the
pseudonymization services to determine their trust in the services provided. This guide will serve to education
organizations so they can perform pseudonymization services themselves with sufficient proficiency to
achieve the desired degree of quality and risk reduction.
iv © ISO 2008 – All rights reserved

ISO/TS 25237:2008(E)
Health informatics — Pseudonymization
1 Scope
This Technical Specification contains principles and requirements for privacy protection using
pseudonymization services for the protection of personal health information. This technical specification is
applicable to organizations who wish to undertake pseudonymization processes for themselves or to
organizations who make a claim of trustworthiness for operations engaged in pseudonymization services.
This Technical Specification:
 defines one basic concept for pseudonymization;
 gives an overview of different use cases for pseudonymization that can be both reversible and
irreversible;
 defines one basic methodology for pseudonymization services including organizational as well as
technical aspects;
 gives a guide to risk assessment for re-identification;
 specifies a policy framework and minimal requirements for trustworthy practices for the operations of a
pseudonymization service;
 specifies a policy framework and minimal requirements for controlled re-identification;
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 27799, Health informatics —Information security management in health using ISO/IEC 27002
IHE Healthcare De-Identification Handbook: 2014
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
access control
means of ensuring that the resources of a data processing system can be accessed only by authorized
entities in authorized ways
[ISO/IEC 2382-8:1998, definition 08.04.01]
3.2
anonymization
process by which personal data is irreversibly altered in such a way that a data subject can no longer be identified
directly or indirectly, either by the data controller alone or in collaboration with any other party
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
NOTE: The concept is absolute, and in practice it may be difficult to obtain.
NOTE: Adapted from ISO/IEC 29100:2011 Information technology — Security techniques — Privacy framework
3.3
anonymized data
data that has been produced as the output of an anonymization process
NOTE: Adapted from ISO/IEC 29100:2011 Information technology — Security techniques — Privacy framework
3.4
anonymous identifier
identifier of a person which does not allow the identification of the natural person -
3.5
authentication
assurance of the claimed identity
3.6
attacker
person seeking to exploit potential vulnerabilities of a biometric system
[ISO/IEC 19792:2009(en)
3.7
ciphertext
data produced through the use of encryption, the semantic content of which is not available without the use of
cryptographic techniques
[ISO/IEC 2382-8:1998, definition 08-03-8]
3.8
confidentiality
property that information is not made available or disclosed to unauthorized individuals, entities or processes
[ISO 7498-2:1989, definition 3.3.16]
3.9
content-encryption key
cryptographic key used to encrypt the content of a communication
3.10
controller
natural or legal person, public authority, agency or any other body which alone or jointly with others
determines the purposes and means of the processing of personal data
3.11
cryptography
discipline which embodies principles, means and methods for the transformation of data in order to hide its
information content, prevent its undetected modification and/or prevent its unauthorized use
[ISO 7498-2:1989, definition 3.3.20]
3.12
cryptographic algorithm
〈cipher〉 method for the transformation of data in order to hide its information content, prevent its undetected
modification and/or prevent its unauthorized use
ISO/TS 25237:2008(E)
3.13
key management
cryptographic key management
generation, storage, distribution, deletion, archiving and application of keys in accordance with a security
policy (3.43)
[ISO 7498-2:1989, definition 3.3.33]
3.14
data integrity
property that data have not been altered or destroyed in an unauthorized manner
[ISO 7498-2:1989, definition 3.3.21]
3.15
data linking
matching and combining data from multiple databases
3.16
data protection
technical and social regimen for negotiating, managing and ensuring informational privacy, and security
3.17
data-subjects
persons to whom data refer
3.18
decipherment
decryption
process of obtaining, from a ciphertext, the original corresponding data
[ISO/IEC 2382-8:1998, definition 08-03-04]
NOTE A ciphertext can be enciphered a second time, in which case a single decipherment does not produce the
original plaintext.
3.19
de-identification
general term for any process of reducing the association between a set of identifying data and the data
subject
3.20
Directly Identifying data
data that directly identifies a single individual
NOTE Direct identifiers are those data that can be used to identify a person without additional information or with
cross-linking through other information that is in the public domain.
3.21
disclosure
divulging of, or provision of access to, data
NOTE Whether the recipient actually looks at the data, takes them into knowledge, or retains them, is irrelevant to
whether disclosure has occurred.
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
3.22
encipherment encryption
cryptographic transformation of data to produce ciphertext (3.6)
[ISO 7498-2:1989, definition 3.3.27]
NOTE See cryptography (3.10).
3.23
subject of care identifier
healthcare identifier
identifier of a person for primary use by a healthcare system
3.24
identifiable person
one who can be identified, directly or indirectly, in particular by reference to an identification number or to one
or more factors specific to his physical, physiological, mental, economic, cultural or social identity
[Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of
individuals with regard to the processing of personal data and on the free movement of such data]
3.25
identification
process of using claimed or observed attributes of an entity to single out the entity among other entities in a
set of identities
NOTE The identification of an entity within a certain context enables another entity to distinguish between the entities
with which it interacts.
3.26
identifier
information used to claim an identity, before a potential corroboration by a corresponding authenticator (as
used in this document)
[ENV 13608-1]
3.27
indirectly identifying data
data that can identify a single person only when used together with other indirectly identifying data
NOTE Indirect identifiers can reduce the population to which the person belongs, possibly down to one if used in
combination.
EXAMPLE Postcode, sex, age, date of birth.
3.28
information
knowledge concerning objects that within a certain context has a particular meaning
[ISO/IEC 2382-1:1993]
NEW TERM
data
reinterpretable representation of information in a formalized manner suitable for communication, interpretation or
processing
NOTE: Data can be processed by humans or by automatic means.
[ISO/IEC 2382-1:1993]
ISO/TS 25237:2008(E)
3.29
irreversibility
situation when, for any passage from identifiable to pseudonymous, it is computationally unfeasible to trace
back to the original identifier from the pseudonym
3.30
key
sequence of symbols which controls the operations of encipherment (3.21) and decipherment (3.17)
[ISO 7498-2:1989, definition 3.3.32]
3.31
linkage of information objects
process allowing a logical association to be established between different information objects
3.32
natural person
Real human being as opposed to a legal person which may be a private or public organisation

3.33
person identification
process for establishing an association between an information object and a physical person
3.34
personal identifier
information with the purpose of uniquely identifying a person within a given context
3.35
personal data
any information relating to an identified or identifiable natural person (“data subject”)
[Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of
individuals with regard to the processing of personal data and on the free movement of such data]
3.36
primary use of personal data
use of personal data for delivering healthcare
3.37
privacy
freedom from intrusion into the private life or affairs of an individual when that intrusion results from undue or
illegal gathering and use of data about that individual
[ISO/IEC 2382-8:1998, definition 08-01-23]
3.38
processing of personal data
any operation or set of operations that is performed upon personal data, whether or not by automatic means,
such as collection, recording, organization, storage, adaptation or alteration, retrieval, consultation, use,
disclosure by transmission, dissemination or otherwise making available, alignment or combination, blocking,
erasure or destruction
[Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of
individuals with regard to the processing of personal data and on the free movement of such data]
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
3.39
processor
natural or legal person, public authority, agency or any other body that processes personal data on behalf of
the controller
[Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of
individuals with regard to the processing of personal data and on the free movement of such data]
3.40
pseudonymization
particular type of de-identification that both removes the association with a data subject and adds an
association between a particular set of characteristics relating to the data subject and one or more
pseudonyms
3.41
pseudonym
personal identifier that is different from the normally used personal identifier and is used with pseudonymized
data to provide dataset coherence linking all the information about a subject, without disclosing the real world
person identity.
NOTE 1 This may be either derived from the normally used personal identifier in a reversible or irreversible way, or be
totally unrelated.
NOTE 2 Pseudonym is usually restricted to mean an identifier that does not allow the direct derivation of the normal
personal identifier. Such pseudonymous information is thus functionally anonymous. A trusted third party may be able to
obtain the normal personal identifier from the pseudonym.
3.42
recipient
natural or legal person, public authority, agency or any other body to whom data are disclosed
3.43
secondary indirect use of personal data
Indirect uses are those that are different than the initial intended use for the data collected.

3.44
security policy
plan or course of action adopted for providing computer security
[ISO/IEC 2382-8:1998, definition 08-01-06]
3.45
trusted third party
security authority, or its agent, trusted by other entities with respect to security-related activities

[ISO/IEC 18014-1:2008]
4 Symbols (and abbreviated terms)
HIPAA Health Insurance Portability and Accountability Act
HIS Hospital Information System
HIV Human Immunodeficiency Virus
IP Internet Protocol
VoV Victim of Violence
ISO/TS 25237:2008(E)
5 Requirements for privacy protection of identities in healthcare
5.1.1 Objectives of privacy protection
The objective of privacy protection as part of the Confidentiality objective of Security, is to prevent the
unauthorized or unwanted disclosure of information about a person which may further influence legal,
organizational and financial risk factors. Privacy protection is a subdomain of generic privacy protection that
by definition includes other privacy sensitive entities such as organizations. As privacy is the best regulated
and pervasive one, this conceptual model focuses on privacy. Protective solutions designed for privacy can
also be transposed for the privacy protection of other entities. This may be useful in countries where the
privacy of entities or organizations is regulated by law.
There are two objectives in the protection of personal data, one that is the protection of personal data in
interaction with on-line applications (e.g. web browsing) and at the other is the protection of collected personal
data in databases. This Technical Specification will restrict itself to the latter objective.
Data can be extracted from databases. The objective is to reduce the risk that the identities of the data
subjects are disclosed. Researchers work with “cases”, longitudinal histories of patients collected in time
and/or from different sources. For the aggregation of various data elements into the cases, it is however,
necessary to use a technique that enables aggregations without endangering the privacy of the data subjects
whose data are being aggregated. This can be achieved by pseudonymization of the data.
De-identification is used to reduce privacy risks in a wide variety of situations:
• Extreme de-identification is used for educational materials that will be made widely public, yet must
convey enough detail to be useful for medical education purposes. (There is an IHE profile for
automation assistance for performing this kind of de-identification. Much of the process is customized
to the individual patient and educational purpose.)
• Public health uses de-identified databases to track and understand diseases.
• Clinical trials use de-identification both to protect privacy and to avoid subconscious bias by removing
other information such as whether the patient received a placebo or an experimental drug.
• Slight de-identification is used in many clinical reviews, where the reviewers are kept ignorant of the
treating physician, hospital, patient, etc. both to reduce privacy risks and to remove subconscious
biases. This kind of de-identification only prevents incidental disclosure to reviewers. An intentional
effort will easily discover the patient identity, etc.
• When undertaking production of workload statistics or workload analysis within hospitals or of
treatments provided against contracts with commissioners or purchasers of health care services, it is
necessary to be able to separate individual patients without the need to know who the individual
patients are. This is an example of the use of de-identification within a business setting.
• The process of risk stratification (of re-hospitalisation for example) can be undertaken by using records
from primary and secondary care services for patients. The records are de-identified for the analysis,
but where the patients that are indicated as being of high risk, these patients can be re-identified by an
appropriate clinician to enable follow-up interventions.
5.1.2 General
De-identification is the general term for any process of removing the association between a set of identifying
data and the data subject with one or more intended use of the resulting data-set. Pseudonymization is a
subcategory of de-identification. The pseudonym is the means by which pseudonymized data are linked to the
same person or information systems without revealing the identity of the person. Pseudonymization can be
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
performed with or without the possibility of re-identifying the subject of the data (reversible or irreversible
pseudonymization). There are several use case scenarios in healthcare for pseudonymization with particular
applicability in increasing electronic processing of patient data together with increasing patient expectations
for privacy protection. Several examples of these are provided in Annex A.
It is important to note that as long as there are any psuedonymized data, there is some risk of unauthorized
re-identification. This is not unlike encryption, in that brute force can crack encryption, but the objective is to
make it so difficult that the cost is prohibitive. There is less experience with de-identification than encryption so
the risks are not as well understood.
5.1.3 De-Identification is a process to reduce risk.
The de-identification process must consider the Security and Privacy controls that will manage the resulting
data-set. It is rare to lower the risk so much that the data-set needs no ongoing security controls.

The prior diagram is a visualization of this de-identification process. This shows that the top-most concept is
de-identification, as a process. This process utilizes sub-processes: Pseudonymization and/or Anonymization.
These sub-processes use various tools that are specific to the type of data element they operate on, and the
method of risk reduction.
The starting state is that zero data are allowed to pass through the system. Each element must be justified by
the intended use of the resulting data-set. This intended use of the data-set greatly affects the de-identification
process.
5.1.3.1 Pseudonymization
De-Identification might leverage Pseudonymization where longitudinal consistency is needed. This might be to
keep a bunch of records together that should be associated with each other, where without this longitudinal
consistency they might get disassociated. This is useful to keep all of the records for a patient together, under
a pseudonym. This also can be used to assure that each time data are extracted into a de-identified set that
new entries are also associated with the same pseudonym. In Pseudonymization the algorithm used might be
ISO/TS 25237:2008(E)
intentionally reversible, or intentionally not-reversible. A reversible scheme might be a secret lookup-table that
where authorized can be used to discover the original identity. In non-reversable is a temporary table might be
used during the process, but is destroyed when the process completes.
5.1.3.2 Anonymization
Anonymization is the process and set of tools used where no longitudinal consistency is needed. The
Anonymization process is also used where Pseudonymization has been used to address the remaining data
attributes. Anonymization utilizes tools like Redaction, Removal, Blanking, Substitution, Randomization,
Shifting, Skewing, Truncation, Grouping, etc.

Each element allowed to pass must be justified. Each element must present the minimal risk, given the
intended use of the resulting data-set. Thus where the intended use of the resulting data-set does not require
fine-grain codes, a grouping of codes might be used.
5.1.3.3 Direct and Indirect Identifiers
De-Identification process identifies three kinds of data: Direct identifiers, which by themselves identify the
patient; indirect identifiers, which provide correlation when used with other indirect or external knowledge; and
non-identifying data, the rest of the data.

Usually a de-identification process is applied to a data-set, made up of entries that have many attributes. For
example a spreadsheet, made up of rows of data organized by column.

The de-identification process, including pseudonymization and anonymization, are applied to all the data.
Pseudonymization generally are used against direct identifiers, but might be used against indirect identifiers,
as appropriate to reduce risk while maintaining the longitudinal needs of the intended use of the resulting
data-set. Anonymization tools are used against all forms of data, as appropriate to reduce risk.

5.1.4 Privacy protection of entities
The process uses the confidentiality of personal data as a starting point, requiring that security be applied to
systems, processes and devices in order that confidentiality of the data subject’s personal data be protected.
Privacy legislation contains specifications on some of the concepts covered in this model. In the healthcare
context, the privacy protection of persons is much more complicated than the confidentiality protection of other
data, e.g., drug data in clinical trials, because a multiplicity of types of data can potentially help to identify the
data subject.
5.1.5 Personal data versus de-identified data
5.1.5.1 Definition of personal data
According to the Data Protection Directive (Directive 95/46/EC) of the European Parliament and of the Council
th [7]
of 24 October 1995 (European Data Protection Directive), “personal data” shall mean any information
relating to an identified or identifiable natural person (“data subject”); an identifiable person is one who can be
identified, directly or indirectly, in particular by reference to an identification number or to one or more factors
specific to his physical, physiological, mental, economic, cultural or social identity.
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
This concept is addressed in other national legislation with consideration for the same principles found in this
definition (e.g. HIPAA).
5.1.5.2 The idealized concept of identification and de-identification

Figure 1 — Identification of data subjects
This subclause describes an idealized concept of identification and de-identification. It is assumed that there
are no data outside the model e.g. that may be linked with data inside the model to achieve (indirect)
identification of data subjects.
In 5.1.5, potential information sources outside the data model will be taken into account. This is necessary in
order to discuss re-identification risks. Information and communication technology projects never picture data
that are not used within the model when covering functional design aspects. However, when focusing on
identifiability, critics bring in information that could be obtained by an attacker in order to identify data subjects,
or to gain more information on them (e.g. membership of a group).
As depicted in Figure 1, a data subject has a number of characteristics (e.g. name, date of birth, medical data)
that are stored in a medical database and that are personal data of the data subject. A data subject is
identified within a set of data subjects if they can be singled out. That means that a set of characteristics
associated with the data subject can be found that uniquely identifies this data subject. In some cases, only
one single characteristic is sufficient to identify the data subject (e.g. if the number is a unique national
registration number). In other cases, more than one characteristic is needed to single out a data subject, such
as when the address is used of a family member living at the same address. Some associations between
characteristics and data subjects are more persistent in time (e.g. a date of birth, location of birth) than others
(e.g. an e-mail address).
Figure 2 — Separation of personal data from payload data
From a conceptual point of view, personal data can be split up into two parts according to identifiability criteria
(see. Figure 2):
 payload data: the data part, containing characteristics that do not allow unique identification of the data
subject; conceptually, the payload contains anonymous data; (e.g. clinical measurements, machine
measurements)
 identifying data: the identifying part that contains a set of characteristics that allow unique identification of
the data subject (e.g. demographic data).
ISO/TS 25237:2008(E)
Note that the conceptual distinction between “identifying data” and “payload data” can lead to contradictions.
This is the case when directly identifying data are considered “payload data”. Any pseudonymization method
should strive to reduce the level of directly identifying data, e.g. by aggregating these data into groups. In
particular cases (e.g. date of birth of infants) where this is not possible, the risk should be pointed out in the
policy document. A following section of this document deals with the splitting of the data into the payload part
and the identifying part from a practical point of view, rather than from a conceptual point of view. From a
conceptual point of view it is sufficient that it is possible to obtain this division. It is important to note that the
distinction between identifying characteristics and payload are not absolute. Some data that is also identifying
might be needed for the research, e.g. year and month of birth. These distinctions are covered further on.
5.1.5.3 The concept of pseudonymization
The practice and advancement of medicine require that elements of private medical records be released for
teaching, research, quality control and other purposes. For both scientific and privacy reasons these record
elements need to be modified to conceal the identities of the subjects.
There is no one single de-identification procedure that will meet the diverse needs of all the medical uses
while providing identity concealment. Every record release process shall be subject to risk analysis to
evaluate:
a) the purpose for the data release (e.g. analysis);
b) the minimum information that shall be released to meet that purpose;
c) what the disclosure risks will be (including re-identification);
d) the information classification (e.g. tagging or labeling);
e) what release strategies are available.
From this, the details of the release process and the risk analysis, a strategy of identification concealment
shall be determined. This determination shall be performed for each new release process, although many
different release processes may select a common release strategy and details. Most teaching files will have
common characteristics of purpose and minimum information content. Many clinical drug trials will have a
common strategy with varying details. De-identification meets more needs than just confidentiality protection.
There are often issues such as single-blinded and double-blinded experimental procedures that also require
de-identification to provide the blinding. This will affect the decision on release procedures.
This subclause provides the terminology used for describing the concealment of identifying information.

Figure 3 — Anonymization
Anonymization (see Figure 3) is the process that removes the association between the identifying data set
and the data subject. This can be done in two different ways:
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
 by removing or transforming characteristics in the associated characteristics-data-set so that the
association is not unique anymore and relates to more than one data subject;
 by increasing the population in the data subjects set so that the association between the data set and the
data subject is not unique anymore.

Figure 4 — Pseudonymization
Pseudonymization (see Figure 4) removes the association with a data subject and adds an association
between a particular set of characteristics relating to the data subject and one or more pseudonyms.
From a functional point of view, pseudonymous data sets can be associated as the pseudonyms allow
associations between sets of characteristics, while disallowing association with the data subject. As a result it
becomes possible, e.g., to carry out longitudinal studies to build cases from real patient data while protecting
their identity.
In irreversible pseudonymization, the conceptual model does not contain a method to derive the association
between the data-subject and the set of characteristics from the pseudonym.

Figure 5 — Reversible pseudonymization
In reversible pseudonymization (see Figure 5), the conceptual model includes a way of re-associating the
data-set with the data subject.
There are two methods to achieve this goal:
a) derivation from the payload; this could be achieved by, for instance, encrypting identifiable information
along with the payload;
b) derivation from the pseudonym or via a lookup-table.
Reversible pseudonymization can be established in several ways whereby it is understood that the reversal of
the pseudonymization should only be done by an authorized entity in controlled circumstances. The policy
framework regarding re-identification is described in Clause 9. Reversible pseudonymization compared to
ISO/TS 25237:2008(E)
irreversible pseudonymization typically requires increased protection of the entity performing the
pseudonymization.
Anonymized data differ from pseudonymized data as pseudonymized data contain a method to group data
together based on criteria that are derived from the personal data from which they were derived.
5.1.6 Real world pseudonymization
5.1.6.1 Rationale
Subclause 5.1.4 depicts the conceptual approach to pseudonymize where concepts such as “associated”,
“identifiable”, “pseudonymous”, etc. are considered absolute. In practice, the risk for re-identification of data
sets is often difficult to assess. This subclause refines the concepts of pseudonymization and
unwanted/unintended identifiability. As a starting point, the European data privacy protection directive is here
referred to.
There are many regulations in many jurisdictions that require creation of de-identified data for various
purposes. There are also regulations that require protection of private information without specifying the
mechanisms to be used. These regulations generally use effort and difficulty related phrases, which is
appropriate given the rapidly changing degree of difficulty associated with de-identification technologies.
Statements such as “all the means likely reasonable” and “by any other person” are still too vague. Since the
definition of “identifiable” and “pseudonymous” depend upon the undefined behaviour (“all the means likely
reasonable”) of undefined actors (“by any other person”) the conceptual model in this document should
include “reasonable” assumptions about “all the means” likely deployed by “any other person” to associate
characteristics with data subjects.
The conceptual model will be refined to reflect differences in identifiability and the conceptual model will take
into account “observational databases” and “attackers”.
5.1.6.2 Levels of assurance of privacy protection
Current definitions lack precision in the description of terms such as “pseudonymous” or “identifiable”. It is
unrealistic to assume that all imprecision in the terminology can be removed, because pseudonymization is
always a matter of statistics. But the level of the risk for unauthorized re-identification can be estimated. The
scheme for the classification of this risk should take into account the likelihood of identifying the capability of
data as well as by a clear understanding of the entities in the model and their relationship to each other. The
risk model may in some cases be limited to minimizing the risk of accidental exposure or to eliminate bias in
situations of double-blinded studies, or the risks may be extended to the potential for malicious attacks. The
objective of this estimation shall be that privacy policies, for instance, can shift the “boundaries of imprecision”
and define within a concrete context what is understood by “identifiability” and as a result liabilities will be
easier to assess.
A classification is provided below, but further refinement is required, especially since quantification of re-
identification risks requires the establishment of mathematical models. Running one record through one
algorithm no matter how good the algorithm, still carries risks of being re-identifiable. A critical step in the risk
assessment process is the analysis of the resulting de-identified data set for any static groups that may be
used for re-identification. This is particularly important in cases where some identifiers are needed for the
intended use. This document does not specify such mathematical models, however, informative references
are provided in the Bibliography.
Instead of an idealized conceptual model that does not take into account data sources (known or unknown)
outside the data model, assumptions shall be made in the re-identification risk assessment method on what
data are available outside the model.
ICS 35.240.80
Price based on 57 pages
ISO/TS 25237:2008(E)
A real-life model should take into account, both directly and indirectly, identifying data. Each use case shall be
analysed to determine the information requirements for identifiers and to determine which identifiers can be
simply blanked, which can be blurred, which are needed with full integrity, and which will need to be
pseudonymized.
Three levels of the pseudonymization procedure, ensuring a certain level of privacy protection, are specified.
These assurance levels consider risks of re-identification based upon consideration of both directly and
indirectly identifying data. The assurance levels consider:
 level 1: the risks associated with the person identifying data elements;
 level 2: the risks associated with aggregating data variables;
 level 3: the risks associated with outliers in the populated database.
The re-identification risk assessment at all levels shall be established as a re-iterative process with regular re-
assessments (as defined in the privacy policies). As experienc
...


INTERNATIONAL ISO
STANDARD 25237
First edition
2017-01
Health informatics —
Pseudonymization
Informatique de santé — Pseudonymisation
Reference number
©
ISO 2017
© ISO 2017, Published in Switzerland
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized otherwise in any form
or by any means, electronic or mechanical, including photocopying, or posting on the internet or an intranet, without prior
written permission. Permission can be requested from either ISO at the address below or ISO’s member body in the country of
the requester.
ISO copyright office
Ch. de Blandonnet 8 • CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. +41 22 749 01 11
Fax +41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2017 – All rights reserved

Contents Page
Foreword .v
Introduction .vi
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Abbreviated terms . 6
5 Requirements for privacy protection of identities in healthcare . 7
5.1 Objectives of privacy protection . 7
5.2 General . 7
5.3 De-identification as a process to reduce risk . 8
5.3.1 General. 8
5.3.2 Pseudonymization . 8
5.3.3 Anonymization . 9
5.3.4 Direct and indirect identifiers . 9
5.4 Privacy protection of entities . 9
5.4.1 Personal data versus de-identified data . 9
5.4.2 Concept of pseudonymization .11
5.5 Real world pseudonymization .13
5.5.1 Rationale .13
5.5.2 Levels of assurance of privacy protection .14
5.6 Categories of data subject .16
5.6.1 General.16
5.6.2 Subject of care .16
5.6.3 Health professionals and organizations .16
5.6.4 Device data .16
5.7 Classification data .17
5.7.1 Payload data .17
5.7.2 Observational data .17
5.7.3 Pseudonymized data .17
5.7.4 Anonymized data .17
5.8 Research data .17
5.8.1 General.17
5.8.2 Generation of research data .18
5.8.3 Secondary use of personal health information .18
5.9 Identifying data .18
5.9.1 General.18
5.9.2 Healthcare identifiers .18
5.10 Data of victims of violence and publicly known persons .19
5.10.1 General.19
5.10.2 Genetic information .19
5.10.3 Trusted service .19
5.10.4 Need for re-identification of pseudonymized data .19
5.10.5 Pseudonymization service characteristics .20
6 Protecting privacy through pseudonymization .20
6.1 Conceptual model of the problem areas .20
6.2 Direct and indirect identifiability of personal information .21
6.2.1 General.21
6.2.2 Person identifying variables .21
6.2.3 Aggregation variables .21
6.2.4 Outlier variables .22
6.2.5 Structured data variables .22
6.2.6 Non-structured data variables .23
6.2.7 Inference risk assessment .23
6.2.8 Privacy and security .24
7 Re-identification process .24
7.1 General .24
7.2 Part of normal procedures .24
7.3 Exception.24
7.4 Technical feasibility .25
Annex A (informative) Healthcare pseudonymization scenarios .26
Annex B (informative) Requirements for privacy risk analysis .39
Annex C (informative) Pseudonymization process (methods and implementation) .49
Annex D (informative) Specification of methods and implementation .55
Annex E (informative) Policy framework for operation of pseudonymization services
(methods and implementation) .56
Annex F (informative) Genetic information .60
Bibliography .61
iv © ISO 2017 – All rights reserved

Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are
described in the ISO/IEC Directives, Part 1. In particular the different approval criteria needed for the
different types of ISO documents should be noted. This document was drafted in accordance with the
editorial rules of the ISO/IEC Directives, Part 2 (see www .iso .org/ directives).
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights. Details of
any patent rights identified during the development of the document will be in the Introduction and/or
on the ISO list of patent declarations received (see www .iso .org/ patents).
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation on the meaning of ISO specific terms and expressions related to conformity assessment,
as well as information about ISO’s adherence to the World Trade Organization (WTO) principles in the
Technical Barriers to Trade (TBT) see the following URL: www . i so .org/ iso/ foreword .html.
The committee responsible for this document is ISO/TC 215, Health informatics.
Introduction
Pseudonymization is recognized as an important method for privacy protection of personal health
information. Such services may be used nationally, as well as for trans-border communication.
Application areas include, but are not limited to:
— indirect use of clinical data (e.g. research);
— clinical trials and post-marketing surveillance;
— pseudonymous care;
— patient identification systems;
— public health monitoring and assessment;
— confidential patient-safety reporting (e.g. adverse drug effects);
— comparative quality indicator reporting;
— peer review;
— consumer groups;
— field service.
This document provides a conceptual model of the problem areas, requirements for trustworthy
practices, and specifications to support the planning and implementation of pseudonymization services.
The specification of a general workflow, together with a policy for trustworthy operations, serve
both as a general guide for implementers but also for quality assurance purposes, assisting users of
the pseudonymization services to determine their trust in the services provided. This guide will serve
to educate organizations so they can perform pseudonymization services themselves with sufficient
proficiency to achieve the desired degree of quality and risk reduction.
vi © ISO 2017 – All rights reserved

INTERNATIONAL STANDARD ISO 25237:2017(E)
Health informatics — Pseudonymization
1 Scope
This document contains principles and requirements for privacy protection using pseudonymization
services for the protection of personal health information. This document is applicable to organizations
who wish to undertake pseudonymization processes for themselves or to organizations who make a
claim of trustworthiness for operations engaged in pseudonymization services.
This document
— defines one basic concept for pseudonymization (see Clause 5),
— defines one basic methodology for pseudonymization services including organizational, as well as
technical aspects (see Clause 6),
— specifies a policy framework and minimal requirements for controlled re-identification (see
Clause 7),
— gives an overview of different use cases for pseudonymization that can be both reversible and
irreversible (see Annex A),
— gives a guide to risk assessment for re-identification (see Annex B),
— provides an example of a system that uses de-identification (see Annex C),
— provides informative requirements to an interoperability to pseudonymization services (see
Annex D), and
— specifies a policy framework and minimal requirements for trustworthy practices for the operations
of a pseudonymization service (see Annex E).
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content
constitutes requirements of this document. For dated references, only the edition cited applies. For
undated references, the latest edition of the referenced document (including any amendments) applies.
ISO 27799, Health informatics — Information security management in health using ISO/IEC 27002
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminological databases for use in standardization at the following addresses:
— IEC Electropedia: available at http:// www .electropedia .org/
— ISO Online browsing platform: available at http:// www .iso .org/ obp
3.1
access control
means of ensuring that the resources of a data processing system can be accessed only by authorized
entities in authorized ways
[SOURCE: ISO/IEC 2382:2015, 2126294]
3.2
anonymization
process by which personal data (3.37) is irreversibly altered in such a way that a data subject can no
longer be identified directly or indirectly, either by the data controller alone or in collaboration with
any other party
Note 1 to entry: The concept is absolute, and in practice, it may be difficult to obtain.
[SOURCE: ISO/IEC 29100:2011, 2.2, modified.]
3.3
anonymized data
data (3.14) that has been produced as the output of an anonymization (3.2) process
[SOURCE: ISO/IEC 29100:2011, 2.3, modified.]
3.4
anonymous identifier
identifier (3.27) of a person which does not allow the identification (3.26) of the natural person (3.34)
3.5
authentication
assurance of the claimed identity
3.6
attacker
person deliberately exploiting vulnerabilities in technical and non-technical security controls in order
to steal or compromise information systems and networks, or to compromise availability to legitimate
users of information system and network resources
[SOURCE: ISO/IEC 27033-1:2015, 3.3]
3.7
ciphertext
data (3.14) produced through the use of encryption, the semantic content of which is not available
without the use of cryptographic techniques
[SOURCE: ISO/IEC 2382:2015, 2126285]
3.8
confidentiality
property that information (3.29) is not made available or disclosed to unauthorized individuals, entities
or processes
[SOURCE: ISO 7498-2:1989, 3.3.16]
3.9
content-encryption key
cryptographic key used to encrypt the content of a communication
3.10
controller
natural or legal person, public authority, agency or any other body which, alone or jointly with others,
determines the purposes and means of the processing of personal data (3.40)
3.11
cryptography
discipline which embodies principles, means and methods for the transformation of data (3.14) in order
to hide its information content, prevent its undetected modification and/or prevent its unauthorized use
[SOURCE: ISO 7498-2:1989, 3.3.20]
2 © ISO 2017 – All rights reserved

3.12
cryptographic algorithm
method for the transformation of data (3.14) in order to hide its information content, prevent
its undetected modification and/or prevent its unauthorized use
3.13
cryptographic key management
key management
generation, storage, distribution, deletion, archiving and application of keys (3.31) in accordance with a
security policy (3.46)
[SOURCE: ISO 7498-2:1989, 3.3.33]
3.14
data
reinterpretable representation of information (3.29) in a formalized manner suitable for communication,
interpretation or processing
Note 1 to entry: Data can be processed by humans or by automatic means.
[SOURCE: ISO/IEC 2382:2015, 2121272]
3.15
data integrity
property that data (3.14) has not been altered or destroyed in an unauthorized manner
[SOURCE: ISO 7498-2:1989, 3.3.21]
3.16
data linking
matching and combining data (3.14) from multiple databases
3.17
data protection
technical and social regimen for negotiating, managing and ensuring informational privacy (3.39), and
security
3.18
data subject
person to whom data (3.14) refer
3.19
decryption
process of converting encrypted data (3.14) back into its original form so it can be understood
3.20
de-identification
general term for any process of reducing the association between a set of identifying data (3.14) and the
data subject (3.18)
3.21
directly identifying data
data (3.14) that directly identifies a single individual
Note 1 to entry: Direct identifiers are those data that can be used to identify a person without additional
information or with cross-linking through other information that is in the public domain.
3.22
disclosure
divulging of, or provision of access to, data (3.14)
Note 1 to entry: Whether the recipient actually looks at the data, takes them into knowledge or retains them, is
irrelevant to whether disclosure has occurred.
3.23
encryption
process of converting information (3.29) or data (3.14) into a cipher or code
3.24
healthcare identifier
subject of care identifier
identifier (3.27) of a person for primary use by a healthcare system
3.25
identifiable person
one who can be identified, directly or indirectly, in particular by reference to an identification number
or to one or more factors specific to his physical, physiological, mental, economic, cultural or social
identity
[SOURCE: Directive 95/46/EC]
3.26
identification
process of using claimed or observed attributes of an entity to single out the entity among other entities
in a set of identities
Note 1 to entry: The identification of an entity within a certain context enables another entity to distinguish
between the entities with which it interacts.
3.27
identifier
information (3.29) used to claim an identity, before a potential corroboration by a corresponding
authenticator
[SOURCE: ENV 13608-1:2000, 3.44]
3.28
indirectly identifying data
data (3.14) that can identify a single person only when used together with other indirectly
identifying data
Note 1 to entry: Indirect identifiers can reduce the population to which the person belongs, possibly down to one
if used in combination.
EXAMPLE Postcode, sex, age, date of birth.
3.29
information
knowledge concerning objects that within a certain context has a particular meaning
[SOURCE: ISO/IEC 2382:2015, 2121271, modified.]
3.30
irreversibility
situation when, for any passage from identifiable to pseudonymous, it is computationally unfeasible to
trace back to the original identifier (3.27) from the pseudonym (3.43)
4 © ISO 2017 – All rights reserved

3.31
key
sequence of symbols which controls the operations of encryption (3.23) and decryption (3.19)
[SOURCE: ISO 7498-2:1989, 3.3.32]
3.32
linkage of information objects
process allowing a logical association to be established between different information objects
3.33
longitudinal or lifetime personal health record
permanent, coordinated record of significant information, in chronological sequence
Note 1 to entry: It may include all historical data collected or be retrieved as a user designated synopsis of significant
demographic, genetic, clinical and environmental facts and events maintained within an automated system.
[SOURCE: ISO/TR 21089:2004, 3.61, modified]
3.34
natural person
real human being as opposed to a legal person which may be a private or public organization
3.35
person identification
process for establishing an association between an information object and a physical person
3.36
personal identifier
information with the purpose of uniquely identifying a person within a given context
3.37
personal data
information relating to an identified or identifiable natural person (3.34) (“data subject”)
[SOURCE: Directive 95/46/EC]
3.38
primary use of personal data
uses and disclosures (3.22) that are intended for the data (3.14) collected
3.39
privacy
freedom from intrusion into the private life or affairs of an individual when that intrusion results from
undue or illegal gathering and use of data (3.14) about that individual
[SOURCE: ISO/IEC 2382:2015, 2126263]
3.40
processing of personal data
operation or set of operations that is performed upon personal data (3.37), whether or not by automatic
means, such as collection, recording, organization, storage, adaptation or alteration, retrieval,
consultation, use, disclosure by transmission, dissemination or otherwise making available, alignment
or combination, blocking, erasure or destruction
[SOURCE: Directive 95/46/EC]
3.41
processor
natural or legal person, public authority, agency or any other body that processes personal data (3.37)
on behalf of the controller (3.10)
Note 1 to entry: See Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the
protection of individuals with regard to the processing of personal data and on the free movement of such data.
3.42
pseudonymization
particular type of de-identification (3.20) that both removes the association with a data subject (3.18)
and adds an association between a particular set of characteristics relating to the data subject and one
or more pseudonyms (3.43)
3.43
pseudonym
personal identifier (3.36) that is different from the normally used personal identifier and is used with
pseudonymized data to provide dataset coherence linking all the information about a subject, without
disclosing the real world person identity.
Note 1 to entry: This may be either derived from the normally used personal identifier in a reversible or
irreversible way or be totally unrelated.
Note 2 to entry: Pseudonym is usually restricted to mean an identifier that does not allow the direct derivation of
the normal personal identifier. Such pseudonymous information is thus functionally anonymous. A trusted third
party may be able to obtain the normal personal identifier from the pseudonym.
3.44
recipient
natural or legal person, public authority, agency or any other body to whom data (3.14) are disclosed
3.45
secondary use of personal data
uses and disclosures (3.22) that are different than the initial intended use for the data (3.14) collected
3.46
security policy
plan or course of action adopted for providing computer security
[SOURCE: ISO/IEC 2382:2015, 2126246]
3.47
trusted third party
security authority, or its agent, trusted by other entities with respect to security-related activities
[SOURCE: ISO/IEC 18014-1:2008, 3.20]
4 Abbreviated terms
DICOM Digital Imaging and Communication in Medicine
HIPAA Health Insurance Portability and Accountability Act
HIS Health Information System
HIV Human Immunodeficiency Virus
IP Internet Protocol
VoV Victim of Violence use
6 © ISO 2017 – All rights reserved

5 Requirements for privacy protection of identities in healthcare
5.1 Objectives of privacy protection
The objective of privacy protection as part of the confidentiality objective of security is to prevent
the unauthorized or unwanted disclosure of information about a person which may further influence
legal, organizational and financial risk factors. Privacy protection is a subdomain of generic privacy
protection that, by definition, includes other privacy sensitive entities such as organizations. As privacy
is the best regulated and pervasive one, this conceptual model focuses on privacy. Protective solutions
designed for privacy can also be transposed for the privacy protection of other entities. This may be
useful in countries where the privacy of entities or organizations is regulated by law.
There are two objectives in the protection of personal data; one that is the protection of personal data in
interaction with on-line applications (e.g. web browsing) and at the other is the protection of collected
personal data in databases. This document will restrict itself to the latter objective.
Data can be extracted from databases. The objective is to reduce the risk that the identities of the data
subjects are disclosed. Researchers work with “cases”, longitudinal histories of patients collected in
time and/or from different sources. For the aggregation of various data elements into the cases, it is,
however, necessary to use a technique that enables aggregations without endangering the privacy of the
data subjects whose data are being aggregated. This can be achieved by pseudonymization of the data.
De-identification is used to reduce privacy risks in a wide variety of situations.
Extreme de-identification is used for educational materials that will be made widely public, yet
should convey enough detail to be useful for medical education purposes (there is an IHE profile for
automation assistance for performing this kind of de-identification. Much of the process is customized
to the individual patient and educational purpose).
Public health uses de-identified databases to track and understand diseases.
Clinical trials use de-identification both to protect privacy and to avoid subconscious bias by removing
other information such as whether the patient received a placebo or an experimental drug.
Slight de-identification is used in many clinical reviews, where the reviewers are kept ignorant of the
treating physician, hospital, patient, etc. both to reduce privacy risks and to remove subconscious
biases. This kind of de-identification only prevents incidental disclosure to reviewers. An intentional
effort will easily discover the patient identity, etc.
When undertaking production of workload statistics or workload analysis within hospitals or of
treatments provided against contracts with commissioners or purchasers of health care services, it
is necessary to be able to separate individual patients without the need to know who the individual
patients are. This is an example of the use of de-identification within a business setting.
The process of risk stratification (of re-hospitalization, for example) can be undertaken by using records
from primary and secondary care services for patients. The records are de-identified for the analysis,
but where the patients that are indicated as being of high risk, these patients can be re-identified by an
appropriate clinician to enable follow-up interventions. For details on the healthcare pseudonymizaton,
see Annex A.
5.2 General
De-identification is the general term for any process of reducing the association between a set
of identifying data and the data subject with one or more intended use of the resulting data-set.
Pseudonymization is a subcategory of de-identification. The pseudonym is the means by which
pseudonymized data are linked to the same person or information systems without revealing
the identity of the person. De-identification inherently can limit the utility of the resulting data.
Pseudonymization can be performed with or without the possibility of re-identifying the subject of the
data (reversible or irreversible pseudonymization). There are several use case scenarios in healthcare
for pseudonymization with particular applicability in increasing electronic processing of patient data,
together with increasing patient expectations for privacy protection. Several examples of these are
provided in Annex A.
It is important to note that as long as there are any pseudonymized data, there is some risk of
unauthorized re-identification. This is not unlike encryption, in that brute force can crack encryption,
but the objective is to make it so difficult that the cost is prohibitive. There is less experience with de-
identification than encryption so the risks are not as well understood.
5.3 De-identification as a process to reduce risk
5.3.1 General
The de-identification process should consider the security and privacy controls that will manage the
resulting data-set. It is rare to lower the risk so much that the data-set needs no ongoing security
controls.
Figure 1 — Visualization of the de-identification process
Figure 1 is an informative diagram of a visualization of this de-identification process. This shows
that the topmost concept is de-identification, as a process. This process utilizes sub-processes:
pseudonymization and/or anonymization. These sub-processes use various tools that are specific to
the type of data element they operate on, and the method of risk reduction.
The starting state is that zero data are allowed to pass through the system. Each element should be
justified by the intended use of the resulting data-set. This intended use of the data-set greatly affects
the de-identification process.
5.3.2 Pseudonymization
De-identification might leverage pseudonymization where longitudinal consistency is needed. This
might be to keep a bunch of records together that should be associated with each other, where without
this longitudinal consistency, they might get disassociated. This is useful to keep all of the records
8 © ISO 2017 – All rights reserved

for a patient together, under a pseudonym. This also can be used to assure that each time data are
extracted into a de-identified set that new entries are also associated with the same pseudonym. In
pseudonymization, the algorithm used might be intentionally reversible or intentionally not-reversible.
A reversible scheme might be a secret lookup-table that where authorized can be used to discover the
original identity. In a non-reversible scheme, a temporary table might be used during the process, but is
destroyed when the process completes.
5.3.3 Anonymization
Anonymization is the process and set of tools used where no longitudinal consistency is needed.
The anonymization process is also used where pseudonymization has been used to address the
remaining data attributes. Anonymization utilizes tools like redaction, removal, blanking, substitution,
randomization, shifting, skewing, truncation, grouping, etc. Anonymization can lead to a reduced
possibility of linkage.
Each element allowed to pass should be justified. Each element should present the minimal risk, given
the intended use of the resulting data-set. Thus, where the intended use of the resulting data-set does
not require fine-grain codes, a grouping of codes might be used.
5.3.4 Direct and indirect identifiers
De-identification process addresses three kinds of data: direct identifiers, which by themselves identify
the patient; indirect identifiers, which provide correlation when used with other indirect or external
knowledge; and non-identifying data, the rest of the data.
Usually, a de-identification process is applied to a data-set, made up of entries that have many attributes.
For example, a spreadsheet made up of rows of data organized by column.
The de-identification process, including pseudonymization and anonymization, are applied to all the
data. Pseudonymization generally are used against direct identifiers, but might be used against indirect
identifiers, as appropriate to reduce risk while maintaining the longitudinal needs of the intended use
of the resulting data-set. Anonymization tools are used against all forms of data, as appropriate to
reduce risk.
5.4 Privacy protection of entities
5.4.1 Personal data versus de-identified data
5.4.1.1 Definition of personal data
According to Reference [18], “personal data” shall mean any information relating to an identified or
identifiable natural person (“data subject”); an identifiable person is one who can be identified, directly
or indirectly, in particular by reference to an identification number or to one or more factors specific to
his physical, physiological, mental, economic, cultural or social identity.
This concept is addressed in other national legislation with consideration for the same principles found
in this definition (e.g. HIPAA).
5.4.1.2 Idealized concept of identification and de-identification
Key
1 set of data subjects
2 set of characteristics
Figure 2 — Identification of data subjects
This subclause describes an idealized concept of identification and de-identification. It is assumed that
there are no data outside the model as shown in Figure 2, for example, that may be linked with data
inside the model to achieve (indirect) identification of data subjects.
In 5.4.1, potential information sources outside the data model will be taken into account. This is
necessary in order to discuss re-identification risks. Information and communication technology
projects never picture data that are not used within the model when covering functional design
aspects. However, when focusing on identifiability, critics bring in information that could be obtained
by an attacker in order to identify data subjects or to gain more information on them (e.g. membership
of a group).
As depicted in Figure 1, a data subject has a number of characteristics (e.g. name, date of birth, medical
data) that are stored in a medical database and that are personal data of the data subject. A data
subject is identified within a set of data subjects if they can be singled out. That means that a set of
characteristics associated with the data subject can be found that uniquely identifies this data subject.
In some cases, only one single characteristic is sufficient to identify the data subject (e.g. if the number is
a unique national registration number). In other cases, more than one characteristic is needed to single
out a data subject, such as when the address is used of a family member living at the same address.
Some associations between characteristics and data subjects are more persistent in time (e.g. a date of
birth, location of birth) than others (e.g. an e-mail address).
Key
1 identifying data
2 payload data
3 personal data
4 set of characteristics
Figure 3 — Separation of personal data from payload data
10 © ISO 2017 – All rights reserved

From a conceptual point of view, personal data can be split up into two parts according to identifiability
criteria (see Figure 3):
— payload data: the data part, containing characteristics that do not allow unique identification of
the data subject; conceptually, the payload contains anonymous data (e.g. clinical measurements,
machine measurements);
— identifying data: the identifying part that contains a set of characteristics that allow unique
identification of the data subject (e.g. demographic data).
Note that the conceptual distinction between “identifying data” and “payload data” can lead to
contradictions. This is the case when directly identifying data are considered “payload data”. Any
pseudonymization method should strive to reduce the level of directly identifying data, for example, by
aggregating these data into groups. In particular cases (e.g. date of birth of infants), where this is not
possible, the risk should be pointed out in the policy document. A following section of this document
deals with the splitting of the data into the payload part and the identifying part from a practical point
of view, rather than from a conceptual point of view. From a conceptual point of view, it is sufficient
that it is possible to obtain this division. It is important to note that the distinction between identifying
characteristics and payload are not absolute. Some data that is also identifying might be needed for the
research, e.g. year and month of birth. These distinctions are covered further on.
5.4.2 Concept of pseudonymization
The practice and advancement of medicine require that elements of private medical records be released
for teaching, research, quality control and other purposes. For both scientific and privacy reasons,
these record elements need to be modified to conceal the identities of the subjects.
There is no single de-identification procedure that will meet the diverse needs of all the medical uses
while providing identity concealment. Every record release process shall be subject to risk analysis to
evaluate the following:
a) the purpose for the data release (e.g. analysis);
b) the minimum information that shall be released to meet that purpose;
c) what the disclosure risks will be (including re-identification);
d) the information classification (e.g. tagging or labelling);
e) what release strategies are available.
From this, the details of the release process and the risk analysis, a strategy of identification
concealment shall be determined. This determination shall be performed for each new release process,
although many different release processes may select a common release strategy and details. Most
teaching files will have common characteristics of purpose and minimum information content. Many
clinical drug trials will have a common strategy with varying details. De-identification meets more
needs than just confidentiality protection. There are often issues such as single-blinded and double-
blinded experimental procedures that also require de-identification to provide the blinding. This will
affect the decision on release procedures.
This subclause provides the terminology used for describing the concealment of identifying information.
Key
1 data subject
2 set of characteristics
Figure 4 — Anonymization
Anonymization (see Figure 4) is the process that removes the association between the identifying data
set and the data subject. This can be done in two different ways:
— by removing or transforming characteristics in the associated characteristics-data-set so that the
association is not unique anymore and relates to more than one data subject and no direct relation
to an individual remains;
— by increasing the population in the data subjects set so that the association between the data set
and the data subject is not unique anymore and no direct relation to an individual.
Key
1 pseudonym(s)
2 set of characteristics
Figure 5 — Pseudonymization
Pseudonymization (see Figure 5) removes the association with a data subject and adds an association
between a particular set of characteristics relating to the data subject and one or more pseudonyms.
From a functional point of view, pseudonymous data sets can be associated as the pseudonyms allow
associations between sets of characteristics, while d
...


PROJET DE NORME INTERNATIONALE
ISO/DIS 25237
ISO/TC 215 Secrétariat: ANSI
Début de vote: Vote clos le:
2015-09-03 2015-12-03
Informatique de santé — Pseudonymization
Health informatics — Pseudonymisation
ICS: 35.240.80
TRAITEMENT PARRALLÈLE ISO/CEN
Le présent projet a été élaboré dans le cadre de l’Organisation internationale de
normalisation (ISO) et soumis selon le mode de collaboration sous la direction
de l’ISO, tel que défini dans l’Accord de Vienne.
Le projet est par conséquent soumis en parallèle aux comités membres de l’ISO et
aux comités membres du CEN pour enquête de cinq mois.
En cas d’acceptation de ce projet, un projet final, établi sur la base des observations
CE DOCUMENT EST UN PROJET DIFFUSÉ POUR
OBSERVATIONS ET APPROBATION. IL EST DONC reçues, sera soumis en parallèle à un vote d’approbation de deux mois au sein de
SUSCEPTIBLE DE MODIFICATION ET NE PEUT
l’ISO et à un vote formel au sein du CEN.
ÊTRE CITÉ COMME NORME INTERNATIONALE
AVANT SA PUBLICATION EN TANT QUE TELLE.
OUTRE LE FAIT D’ÊTRE EXAMINÉS POUR
Pour accélérer la distribution, le présent document est distribué tel qu’il est
ÉTABLIR S’ILS SONT ACCEPTABLES À DES
FINS INDUSTRIELLES, TECHNOLOGIQUES ET
parvenu du secrétariat du comité. Le travail de rédaction et de composition de
COMMERCIALES, AINSI QUE DU POINT DE VUE
texte sera effectué au Secrétariat central de l’ISO au stade de publication.
DES UTILISATEURS, LES PROJETS DE NORMES
INTERNATIONALES DOIVENT PARFOIS ÊTRE
CONSIDÉRÉS DU POINT DE VUE DE LEUR
POSSIBILITÉ DE DEVENIR DES NORMES
POUVANT SERVIR DE RÉFÉRENCE DANS LA
RÉGLEMENTATION NATIONALE.
Numéro de référence
LES DESTINATAIRES DU PRÉSENT PROJET
ISO/DIS 25237:2015(F)
SONT INVITÉS À PRÉSENTER, AVEC LEURS
OBSERVATIONS, NOTIFICATION DES DROITS
DE PROPRIÉTÉ DONT ILS AURAIENT
ÉVENTUELLEMENT CONNAISSANCE ET À
©
FOURNIR UNE DOCUMENTATION EXPLICATIVE. ISO 2015

ISO/DIS 25237:2015(F)
Sommaire Page
Avant-propos . iv
Introduction . v
1 Domaine d'application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles (et abréviations) . 7
5 Exigences concernant la protection du caractère privé des identités dans le domaine de
la santé . 7
6 ) . 24
7 Processus de ré-identification . 28
8 30
Annexe A (informative) Scénarios de pseudonymisation dans le domaine de la santé . 31
Annexe B (informative) Exigences pour l'analyse des risques liés au respect de la vie privée. 47
Annexe C (informative) Processus de pseudonymisation (méthodes et mise en œuvre) . 59
Annexe D (informative) Spécification des méthodes et mise en œuvre . 66
Annexe E (informative) Cadre politique pour l'exploitation des services de pseudonymisation
(méthodes et mise en œuvre) . 68
Généralités . 68
Politique de respect de la vie privée . 68
Pratiques fiables pour les opérations . 69
Mise en œuvre de pratiques fiables pour la ré-identification . 70
Bibliographie . 72

DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2015
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée
sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur
l’internet ou sur un Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à
l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2015 – Tous droits réservés

Sommaire Page
Avant-propos . iv
Introduction . v
1 Domaine d'application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Symboles (et abréviations) . 7
5 Exigences concernant la protection du caractère privé des identités dans le domaine de
la santé . 7
6 ) . 24
7 Processus de ré-identification . 28
8 30
Annexe A (informative) Scénarios de pseudonymisation dans le domaine de la santé . 31
Annexe B (informative) Exigences pour l'analyse des risques liés au respect de la vie privée. 47
Annexe C (informative) Processus de pseudonymisation (méthodes et mise en œuvre) . 59
Annexe D (informative) Spécification des méthodes et mise en œuvre . 66
Annexe E (informative) Cadre politique pour l'exploitation des services de pseudonymisation
(méthodes et mise en œuvre) . 68
Généralités . 68
Politique de respect de la vie privée . 68
Pratiques fiables pour les opérations . 69
Mise en œuvre de pratiques fiables pour la ré-identification . 70
Bibliographie . 72

Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général confiée
aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du
comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont décrites
dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents critères
d'approbation requis pour les différents types de documents ISO. Le présent document a été rédigé
conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2
(voir www.iso.org/directives).
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de ne
pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant les références
aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de l'élaboration du document
sont indiqués dans l'Introduction et/ou dans la liste des déclarations de brevets reçues par l'ISO
(voir www.iso.org/brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l'intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la signification des termes et expressions spécifiques de l'ISO liés à l'évaluation de la
conformité, ou pour toute information au sujet de l'adhésion de l'ISO aux principes de l'OMC concernant les
obstacles techniques au commerce (OTC), voir le lien suivant : Avant-propos — Informations
supplémentaires.
Le comité chargé de l'élaboration du présent document est l'ISO/TC 215, Informatique de santé.
L'ISO/TS 25237 a été élaborée par le comité technique ISO/TC 215, Informatique de santé.

Introduction
La pseudonymisation est reconnue comme une méthode importante de protection des informations de santé
à caractère personnel. Les services associés peuvent être utilisés aussi bien au plan national que pour la
communication transfrontière.
Les domaines d'application concernent, sans s'y limiter, les secteurs suivants :
 l'utilisation indirecte des données cliniques (par exemple, la recherche) ;
 les essais cliniques et la surveillance post-marketing ;
 les soins pseudonymes ;
 les systèmes d'identification des patients ;
 la surveillance et l'évaluation de la santé publique ;
 les dossiers confidentiels sur la sécurité des patients (par exemple, les effets indésirables d'un
médicament) ;
 les rapports comparatifs fondés sur des indicateurs de qualité ;
 le contrôle par les pairs ;
 les groupes de consommateurs ;
 l'assistance technique.
La présente Spécification technique fournit un modèle conceptuel des aspects en jeu, des exigences en
matière de pratiques fiables ainsi que des spécifications pour la planification et la mise en œuvre des services
de pseudonymisation.
La spécification d'un workflow général et d'une politique en matière d'opérations fiables servira de guide
général pour la mise en œuvre ainsi qu'à des fins d'assurance qualité, et aidera l'utilisateur des services de
pseudonymisation à déterminer la confiance qu'il peut accorder aux prestations assurées. Ce guide permettra
aux organismes d'éducation d'exécuter eux-mêmes des services de pseudonymisation, avec des
compétences suffisantes pour atteindre le degré voulu de qualité et de réduction des risques.

ISO/TS 25237:2015(F)
Informatique de santé — Pseudonymisation
1 Domaine d'application
La présente Spécification technique établit un certain nombre de principes et d'exigences visant à garantir la
protection de la vie privée, grâce à des services de pseudonymisation ayant pour objet de protéger les
informations de santé à caractère personnel. La présente Spécification technique est applicable aux
organismes qui souhaitent s'engager dans des processus de pseudonymisation pour eux-mêmes et aux
organismes qui se déclarent dignes de confiance pour engager des opérations dans des services de
pseudonymisation.
La présente Spécification technique :
 définit un concept de base pour la pseudonymisation ;
 donne une vue d'ensemble des différents cas d'utilisation où l'opération de pseudonymisation peut être
réversible ou irréversible ;
 définit une méthodologie de base pour les services de pseudonymisation, y compris au niveau des
aspects organisationnels et techniques ;
 fournit un guide pour l'évaluation des risques en cas de ré-identification ;
 spécifie un cadre politique et des exigences minimales en matière de pratiques fiables pour un service de
pseudonymisation ;
 spécifie un cadre politique et des exigences minimales pour la ré-identification contrôlée.
2 Références normatives
Les documents ci-après, dans leur intégralité ou non, sont des références normatives indispensables à
l'application du présent document. Pour les références datées, seule l'édition citée s'applique. Pour les
références non datées, la dernière édition du document de référence s'applique (y compris les éventuels
amendements).
ISO 27799, Informatique de santé — Management de la sécurité de l'information relative à la santé en
utilisant l'ISO/IEC 27002
IHE Healthcare De-Identification Handbook: 2014
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s'appliquent.
3.1
contrôle d'accès
ensemble des moyens garantissant que seules les entités autorisées peuvent accéder aux ressources d'un
système informatique, et seulement d'une manière autorisée
[ISO/IEC 2382-8:1998, définition 08.04.01]
i © ISO 2015 – Tous droits réservés

ISO/TS 25237:2015(F)
3.2
anonymisation
processus par lequel des données à caractère personnel sont altérées irréversiblement, de telle façon que la personne
concernée ne puisse plus être identifiée, directement ou indirectement, par le responsable du traitement des données,
seul ou en collaboration avec une autre partie
NOTE Ce concept est absolu et peut, dans la pratique, être difficile à mettre en œuvre.
NOTE Adapté de l'ISO/IEC 29100:2011, Technologies de l'information — Techniques de sécurité — Cadre privé.
3.3
données anonymisées
données de sortie produites par un processus d'anonymisation
NOTE Adapté de l'ISO/IEC 29100:2011, Technologies de l'information — Techniques de sécurité — Cadre privé.
3.4
identifiant anonyme
identifiant d'une personne ne permettant pas d’identifier la personne physique
3.5
authentification
établissement de la validité de l'identité déclarée
3.6
attaquant
personne cherchant à exploiter les vulnérabilités potentielles d'un système biométrique
[ISO/IEC 19792:2009(en)]
3.7
cryptogramme, texte chiffré
données résultant d'un chiffrement et dont le contenu sémantique n'est pas disponible sans recours à des
techniques cryptographiques
[ISO/IEC 2382-8:1998, définition 08.03.08]
3.8
confidentialité
propriété d'une information qui n'est ni disponible, ni divulguée aux personnes, entités ou processus non
autorisés
[ISO 7498-2:1989, définition 3.3.16]
3.9
clé de chiffrement de contenu
clé cryptographique utilisée pour chiffrer le contenu d'une communication
3.10
responsable du traitement
personne physique ou morale, autorité publique, service ou tout autre organisme qui, seul ou conjointement
avec d'autres, détermine les finalités et les moyens du traitement de données à caractère personnel
3.11
cryptographie
discipline incluant les principes, moyens et méthodes de transformation des données, dans le but de cacher
leur contenu, d'empêcher que leur modification passe inaperçue et/ou d'empêcher leur utilisation non
autorisée
[ISO 7498-2:1989, définition 3.3.20]
ii © ISO 2015 – Tous droits réservés

ISO/TS 25237:2015(F)
3.12
algorithme cryptographique
chiffre méthode permettant de transformer des données dans le but d’en masquer la quantité d’information,
d'empêcher que la modification de celle-ci ne soit pas détectée et/ou d'en prévenir une utilisation non
autorisée
3.13
gestion de clés
gestion de clés cryptographiques
production, stockage, distribution, suppression, archivage et application de clés conformément à la politique
de sécurité (3.43)
[ISO 7498-2:1989, définition 3.3.33]
3.14
intégrité des données
propriété assurant que des données n'ont pas été modifiées ou détruites de façon non autorisée
[ISO 7498-2:1989, définition 3.3.21]
3.15
liage de données
appariement et combinaison de données issues de plusieurs bases de données
3.16
protection des données
organisation technique et sociale permettant de négocier, gérer et garantir le caractère privé et la sécurité des
informations
3.17
personne concernée
personne à laquelle se rapportent les données
3.18
déchiffrement
reconstitution, à partir d'un cryptogramme, des données originales correspondantes
[ISO/IEC 2382-8:1998, définition 08.03.04]
NOTE Un cryptogramme peut être chiffré une deuxième fois ; dans ce cas, un déchiffrement unique ne restitue pas
le texte en clair original.
3.19
désidentification
terme général qui désigne tout processus réduisant l'association entre un ensemble de données
d'identification et la personne concernée
3.20
données d'identification directe
données qui identifient directement un individu
NOTE Les identifiants directs sont les données qui peuvent être utilisées pour identifier une personne sans
informations supplémentaires ou par recoupement avec d'autres informations du domaine public.
ISO/TS 25237:2015(F)
3.21
divulgation
le fait de révéler des données ou d’y donner accès
NOTE Le fait que le destinataire regarde réellement les données, les transforme en connaissances ou les conserve,
est sans importance vis-à-vis de la réalisation de la communication.
3.22
chiffrement
transformation cryptographique de données produisant un cryptogramme (3.6)
[ISO 7498-2:1989, définition 3.3.27]
NOTE Voir cryptographie (3.10).
3.23
identifiant du sujet de soins
identifiant de soins de santé
identifiant d'une personne, destiné à être principalement utilisé par un système de soins de santé
3.24
personne identifiable
personne qui peut être identifiée, directement ou indirectement, notamment par référence à un numéro
d'identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique,
psychique, économique, culturelle ou sociale
[Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des
personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de
ces données]
3.25
identification
processus consistant à utiliser des attributs déclarés ou observés d'une entité pour distinguer cette entité
parmi d'autres dans un ensemble d'identités
NOTE L'identification d'une entité dans un contexte déterminé permet à une autre entité de différencier les entités
avec lesquelles elle interagit.
3.26
identifiant
information utilisée pour déclarer une identité, avant corroboration potentielle par un authentifiant
correspondant (tel qu'utilisé dans le présent document)
[ENV 13608-1]
3.27
données d'identification indirecte
données qui ne peuvent identifier une personne que lorsqu'elles sont utilisées conjointement avec d'autres
données d'identification indirecte
NOTE Les identifiants indirects peuvent réduire à un individu la population à laquelle la personne appartient, s'ils
sont utilisés en combinaison.
EXEMPLES Code postal, sexe, âge, date de naissance.
iv © ISO 2015 – Tous droits réservés

ISO/TS 25237:2015(F)
3.28
information
connaissance concernant un objet qui, dans un contexte déterminé, a une signification particulière
[ISO/IEC 2382-1:1993]
NOUVEAU TERME
donnée
représentation réinterprétable d'une information sous une forme conventionnelle convenant à la communication, à
l'interprétation ou au traitement

NOTE Les données peuvent être traitées par des moyens humains ou automatiques.
[ISO/IEC 2382-1:1993]
3.29
irréversibilité
pour toute transformation d'identifiable en pseudonyme, situation dans laquelle il est informatiquement
irréalisable de remonter à l'identifiant d'origine en partant du pseudonyme
3.30
clé
série de symboles commandant les opérations de chiffrement (3.21) et de déchiffrement (3.17)
[ISO 7498-2:1989, définition 3.3.32]
3.31
liage d'objets d'information
processus permettant d'établir une association logique entre différents objets d'information
3.32
personne physique
être humain par opposition à personne morale, laquelle peut être un organisme privé ou public

3.33
identification de personne
processus établissant une association entre un objet d'information et une personne physique
3.34
identifiant personnel
information permettant d'identifier une même et unique personne dans un contexte donné
3.35
données à caractère personnel
toute information concernant une personne physique identifiée ou identifiable (« personne concernée »)
[Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des
personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de
ces données]
3.36
principale utilisation des données à caractère personnel
utilisation des données à caractère personnel pour dispenser des soins de santé
ISO/TS 25237:2015(F)
3.37
respect de la vie privée
garantie de l'absence d'intrusion dans la vie privée ou les affaires d'un individu dans la mesure où cette
intrusion résulte de la collecte et de l'utilisation illégales et non fondées de données relatives à cet individu
[ISO/IEC 2382-8:1998, définition 08.01.23]
3.38
traitement de données à caractère personnel
toute opération ou ensemble d'opérations effectuées ou non à l'aide de procédés automatisés et appliquées à
des données à caractère personnel, telles que la collecte, l'enregistrement, l'organisation, la conservation,
l'adaptation ou la modification, l'extraction, la consultation, l'utilisation, la communication par transmission,
diffusion ou toute autre forme de mise à disposition, le rapprochement ou l'interconnexion, ainsi que le
verrouillage, l'effacement ou la destruction
[Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des
personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de
ces données]
3.39
sous-traitement
personne physique ou morale, autorité publique, service ou tout autre organisme qui traite des données à
caractère personnel pour le compte du responsable du traitement
[Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des
personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de
ces données]
3.40
pseudonymisation
type particulier de désidentification qui à la fois, supprime la corrélation avec lapersonne concernée et ajoute
une association entre un ensemble donné de caractéristiques concernant la personne concernée et un ou
plusieurs pseudonymes
3.41
pseudonyme
identifiant personnel différent de l'identifiant personnel normalement utilisé et employé avec des données
pseudonymisées pour assurer la cohérence de l'ensemble de données, reliant ainsi toutes les informations
relatives à une personne concernée, sans communiquer la véritable identité de la personne
NOTE 1 Le pseudonyme peut être dérivé de l'identifiant personnel normalement utilisé, de manière réversible ou
irréversible, ou n'avoir aucun rapport avec ce dernier.
NOTE 2 Le terme de pseudonyme se limite généralement à désigner un identifiant qui ne permet pas la dérivation
directe de l'identifiant personnel normal. De telles informations pseudonymes sont donc fonctionnellement anonymes. Une
tierce partie de confiance peut être en mesure d'obtenir l'identifiant personnel normal à partir du pseudonyme.
3.42
destinataire
personne physique ou morale, autorité publique, service ou tout autre organisme qui reçoit communication de
données
vi © ISO 2015 – Tous droits réservés

ISO/TS 25237:2015(F)
3.43
utilisation indirecte, secondaire, des données à caractère personnel
On entend par utilisation indirecte, une utilisation qui diverge de l'usage initialement prévu pour les
données collectées.
3.44
politique de sécurité
plan ou programme d'action adopté pour assurer la sécurité informatique
[ISO/IEC 2382-8:1998, définition 08.01.06]
3.45
tierce partie de confiance
autorité de sécurité, ou son mandataire, à qui d’autres entités accordent leur confiance pour des activités en
rapport avec la sécurité
[ISO/IEC 18014-1:2008]
4 Symboles (et abréviations)
HIPAA Loi américaine sur la transférabilité des régimes d'assurance-maladie et l'imputabilité des données
sensibles [Health Insurance Portability and Accountability Act]
SIH Système d'information hospitalier
VIH Virus de l'immunodéficience humaine
IP Protocole Internet [Internet Protocol]
VoV Victime de violence
5 Exigences concernant la protection du caractère privé des identités dans le
domaine de la santé
5.1.1 Objectifs de la protection de la vie privée
L'objectif de la protection de la vie privée, en tant qu'objectif de sécurité visant à garantir la confidentialité, est
d'empêcher la communication non autorisée ou non souhaitée d'informations sur une personne, lesquelles
peuvent en outre influer sur des facteurs de risque juridiques, organisationnels et financiers. La protection de
la vie privée est un sous-domaine du droit générique au respect de la vie privée qui, par définition, englobe
d'autres entités sensibles au respect du caractère privé des données, telles que les organisations. Étant
donné que l'aspect « respect de la vie privée » est le mieux réglementé et le plus répandu, ce modèle
conceptuel met l'accent sur le respect du caractère privé des données. Des solutions de protection conçues
pour le respect de la vie privée peuvent également être transposées pour la protection des données sensibles
d'autres entités. Cela peut être utile dans les pays où le caractère privé des données des entités ou des
organisations est réglementé par la loi.
La protection des données à caractère personnel a deux objectifs dont l'un consiste à protéger les données à
caractère personnel en interaction avec des applications en ligne (par exemple, navigation Web) et l'autre, à
protéger les données à caractère personnel collectées dans des bases de données. La présente Spécification
technique se limitera à ce dernier objectif.
ISO/TS 25237:2015(F)
Les données peuvent être extraites de bases de données. L'objectif est de réduire le risque que l'identité des
personnes concernées soit communiquée. Les chercheurs travaillent sur des « cas », études longitudinales
de patients collectées dans le temps et/ou provenant de différentes sources. Pour la compilation des
différents éléments de données constitutifs des cas, il est toutefois nécessaire d'utiliser une technique qui
permette d'agréger les données des personnes concernées, sans nuire à leur vie privée. Pour y parvenir, il
est possible de recourir à la pseudonymisation des données.
La désidentification est utilisée pour réduire les risques de non-respect de la vie privée dans un large éventail
de situations :
 La désidentification extrême est utilisée pour les matériels éducatifs qui seront largement rendus
publics, et qui doivent néanmoins transmettre suffisamment de détails pour être utiles à des fins
d'éducation médicale. (Il existe un profil IHE d'assistance à l'automatisation pour la réalisation de ce
type de désidentification. Une grande partie du processus est adaptée au patient et à l’objectif
poursuivi en éducation médicale.)
 Les organismes de santé publique utilisent des bases de données désidentifiées pour suivre et
comprendre les maladies.
 Les essais cliniques utilisent la désidentification, à la fois pour protéger la vie privée et pour éviter les
biais subconscients en supprimant d'autres informations comme, par exemple, l'administration au
patient d'un placebo ou d'un médicament expérimental.
 La désidentification légère est utilisée dans de nombreuses études cliniques, où les évaluateurs ne
savent pas qui est le médecin traitant, l'hôpital, le patient, etc., à la fois pour réduire les risques de
non-respect de la vie privée et pour éliminer les biais subconscients. Ce type de désidentification
empêche uniquement la communication fortuite des données aux évaluateurs. Un effort délibéré peut
facilement permettre de découvrir l'identité du patient, etc.
 Lorsqu'il faut produire des statistiques ou des analyses sur la charge de travail dans les hôpitaux ou
dans le cadre de traitements délivrés au titre de contrats avec des administrateurs ou des acheteurs
de services de soins de santé, il est nécessaire de pouvoir séparer les différents patients, sans avoir
besoin de savoir qui ils sont individuellement. Voici un exemple de l'utilisation de la désidentification
dans un cadre commercial.
 Le processus de stratification des risques (de réhospitalisation, par exemple) peut être engagé à partir
des dossiers de soins de santé primaires et secondaires des patients. Les dossiers sont désidentifiés
pour l'analyse, mais lorsque les patients sont signalés comme étant à haut risque, ces patients
peuvent alors être réidentifiés par un médecin compétent pour permettre des actions de suivi.
5.1.2 Généralités
La désidentification est le terme général désignant tout processus de suppression de l'association entre un
ensemble de données d'identification et la personne concernée, avec une ou plusieurs utilisations prévues de
l'ensemble de données obtenu. La pseudonymisation est subordonnée à la désidentification. Le pseudonyme
est le moyen par lequel des données pseudonymisées sont liées à une même personne ou à des systèmes
d'information sans révéler l'identité de ladite personne. La pseudonymisation peut être exécutée avec ou sans
possibilité de ré-identifier la personne concernée (pseudonymisation réversible ou irréversible). Il y a plusieurs
scénarios de cas d'utilisation de la pseudonymisation dans les soins de santé, notamment dans le traitement
électronique sans cesse croissant des données patient, couplé avec des attentes en matière de respect de la
vie privée, toujours plus importantes du côté des patients. Plusieurs exemples sont fournis à l'Annexe A.
Il est important de noter que, tant qu'il y a des données pseudonymisées, il y a un certain risque de ré-
identification non autorisée. Ce n'est pas très différent du chiffrement, qui peut être cassé par force brute,
mais l'objectif est de rendre l'opération tellement difficile que le coût en soit prohibitif. Du fait que la
désidentification est un concept plus récent que le chiffrement, les risques ne sont pas aussi bien compris.
viii © ISO 2015 – Tous droits réservés

ISO/TS 25237:2015(F)
5.1.3 La désidentification est un processus de réduction des risques
Le processus de désidentification doit tenir compte des contrôles de sécurité et de respect de la vie privée qui
détermineront l'ensemble de données obtenu. Il est rare de réduire le risque à un point tel que l'ensemble de
données n'ait pas besoin de contrôles de sécurité permanents.

Anglais Français
De-identification Désidentification
Longitudinal consistency? Cohérence longitudinale ?
Pseudonymization Pseudonymisation
Too high Trop forts
Anonymization Anonymisation
Reversible, one-way Réversible, dans un seul sens
Suppression, substitution, appauvrissement,
Removal, Substitute, Fuzzing, Generalization généralisation
Risk Assessment Évaluation des risques
Low enough Suffisamment faibles
Done Exécuté
Yes Oui
No Non
Le schéma ci-dessus est une représentation graphique du processus de désidentification. Il révèle que le
concept de niveau supérieur est la désidentification, en tant que processus. Ce processus utilise des sous-
processus : la pseudonymisation et/ou l'anonymisation. Ces sous-processus utilisent différents outils, qui sont
spécifiques au type d'élément de données sur lequel ils agissent, et à la méthode de réduction des risques.
ISO/TS 25237:2015(F)
L'état de départ correspond au moment où les données à zéro sont autorisées à traverser le système.
Chaque élément doit être justifié par l'utilisation prévue de l'ensemble de données obtenu. Cette utilisation
prévue de l'ensemble de données a une grande incidence sur le processus de désidentification.
5.1.3.1 Pseudonymisation
La désidentification peut tirer avantage de la pseudonymisation lorsqu'une cohérence longitudinale est
nécessaire. Il peut s'agir de conserver un ensemble de dossiers qu'il convient d'associer les uns aux autres et
qui, sans cette cohérence longitudinale, pourraient être séparés. Il est ainsi possible de regrouper tous les
dossiers d'un patient sous un même pseudonyme. Cela peut également être utilisé pour garantir que, chaque
fois que des données sont extraites en un ensemble désidentifié, les nouvelles entrées sont également
associées au même pseudonyme. Dans la pseudonymisation, l'algorithme utilisé peut être intentionnellement
réversible ou intentionnellement non réversible. Un schéma réversible peut être une table de correspondance
secrète qui, avec autorisation, peut être utilisée pour découvrir l'identité originale. Si le schéma est non
réversible, une table temporaire peut être utilisée durant le processus, mais est détruite dès que le processus
est terminé.
5.1.3.2 Anonymisation
L'anonymisation est le processus et le jeu d'outils utilisés lorsque aucune cohérence longitudinale n'est
nécessaire. Le processus d'anonymisation est également utilisé lorsque l'on a eu recours à la
pseudonymisation pour traiter les attributs de données restants. L'anonymisation utilise des outils tels que la
rédaction, la suppression, l'appauvrissement, la substitution, la randomisation, le déplacement, le détour, la
troncature, le regroupement, etc.
Chaque élément autorisé à traverser doit être justifié. Chaque élément doit présenter le minimum de risque,
compte tenu de l'utilisation prévue de l'ensemble de données obtenu. Ainsi, lorsque l'utilisation prévue de
l'ensemble de données obtenu n'exige pas de codes à grain fin, il est possible de regrouper des codes.
5.1.3.3 Identifiants directs et indirects
Le processus de désidentification identifie trois types de données : les identifiants directs qui, à eux seuls,
identifient le patient ; les identifiants indirects, qui permettent d'établir des corrélations lorsqu'ils sont utilisés
avec d'autres éléments de connaissance, indirects ou externes ; et les données non identifiantes, c'est-à-dire
le reste des données.
En règle générale, un processus de désidentification est appliqué à un ensemble de données, constitué
d'entrées avec de nombreux attributs. Par exemple, une feuille de calcul, constituée de lignes de données
classées par colonne.
Le processus de désidentification, y compris la pseudonymisation et l'anonymisation, est appliqué à toutes les
données. La pseudonymisation est généralement utilisée sur des identifiants directs, mais peut être utilisée
sur des identifiants indirects, le cas échéant, pour réduire les risques tout en maintenant les besoins
longitudinaux de l'utilisation prévue de l'ensemble de données obtenu. Les outils d'anonymisation sont utilisés
sur toutes les formes de données, selon les modalités appropriées pour réduire les risques.
5.1.4 Protection de la vie privée des entités
Le processus utilise la confidentialité des données à caractère personnel comme point de départ, exigeant
que la sécurité soit appliquée aux systèmes, processus et appareils afin que la confidentialité des données à
caractère personnel de la personne concernée soit protégée. La législation qui encadre le respect de la vie
privée détermine certains des concepts couverts dans ce modèle. Dans le contexte des soins de santé, la
protection de la vie privée des personnes est beaucoup plus compliquée que la protection de la confidentialité
d'autres données, par exemple, des données sur les médicaments dans les essais cliniques, car une
multiplicité de types de données peut potentiellement aider à identifier la personne concernée.
x © ISO 2015 – Tous droits réservés

ISO/TS 25237:2015(F)
5.1.5 Données à caractère personnel versus données désidentifiées
5.1.5.1 Définition des données à caractère personnel
La Directive sur la protection des données (Directive 95/46/CE) du Parlement européen et du Conseil du
[7]
24 octobre 1995 (Directive européenne sur la protection des données) définit les « données à caractère
personnel » comme suit : toute information concernant une personne physique identifiée ou identifiable
(« personne concernée ») ; est réputée identifiable une personne qui peut être identifiée, directement ou
indirectement, notamment par référence à un numéro d'identification ou à un ou plusieurs éléments
spécifiques, propres à son identité physique, physiologique, psychique, économique, culturelle ou sociale.
Ce concept est traité dans d'autres législations nationales, qui tiennent compte des mêmes principes que
ceux énoncés dans la présente définition (par exemple, l'HIPAA).
5.1.5.2 Le concept idéalisé de l'identification et de la désidentification

Anglais Français
Set of data subjects Ensemble de personnes concernées
Set of characteristics Ensemble de caractéristiques
Figure 1 — Identification des personnes concernées
Ce paragraphe décrit un concept idéalisé de l'identification et de la désidentification. Il est supposé qu'il n'y a
pas de données à l'extérieur du modèle qui puissent, par exemple, être liées à des données à l'intérieur du
modèle, qui permettraient de réaliser une identification (indirecte) des personnes concernées.
Au paragraphe 5.1.5, les sources potentielles d'informations extérieures au modèle de données seront prises
en compte, afin de pouvoir discuter des risques de ré-identification. Les projets de technologies de
l'information et de la communication ne décrivent jamais les données qui ne sont pas utilisées dans le
modèle, lorsqu'ils couvrent les aspects de conception fonctionnelle. Toutefois, lorsqu'on se concentre sur
l'identifiabilité, les critiques mettent en évidence les informations qui pourraient être obtenues par un
attaquant, pour identifier les personnes concernées ou pour recueillir plus d'informations sur celles-ci (par
exemple, l'appartenance à un groupe).
Comme illustré à la Figure 1, une personne concernée possède un certain nombre de caractéristiques (telles
que ses nom, date de naissance, données médicales) qui sont stockées dans une base de données médicale
et constituent les données à caractère personnel de la personne concernée. Une personne concernée est
identifiée parmi un ensemble de personnes concernées, si ces personnes peuvent être différenciées. Cela
signifie qu'il est possible de trouver un ensemble de caractéristiques associées à la personne concernée, qui
identifie cette personne. Dans certains cas, une seule caractéristique est suffisante pour identifier la personne
concernée (par exemple, si le numéro est un numéro d'enregistrement national unique). Dans d'autres cas,
plusieurs caractéristiques sont nécessaires pour distinguer une personne concernée, par exemple lorsqu'une
adresse est utilisée pour plusieurs membres d'une même famille. Certaines associations entre les
caractéristiques et les personnes concernées sont plus persistantes dans le temps (par exemple, date de
naissance, lieu de naissance) que d'autres (par exemple, adresse e-mail).
ISO/TS 25237:2015(F)
Anglais Français
Identifying data Données d'identification
Payload data Données utiles
(personal data) (données à caractère personnel)
Set of characteristics Ensemble de caractéristiques
Figure 2 — Séparation des données à caractère personnel des données utiles
D'un point de vue conceptuel, les données à caractère personnel peuvent être divisées en deux parties, selon
les critères d'identifiabilité (voir Figure 2) :
 les données utiles : partie des données contenant les caractéristiques qui ne permettent pas d'identifier
de manière unique la personne concernée ; théoriquement, la charge utile contient des données
anonymes (par exemple, mesures cliniques, mesures électroniques) ;
 les données d'identification : partie identifiante qui contient un ensemble de caractéristiques permettant
d'identifier de manière unique la personne concernée (par exemple, données démographiques).
Noter que la distinction conceptuelle entre « données d'identification » et « données utiles » peut mener à des
contradictions. Tel est le cas lorsque les données d'identification directe sont considérées comme des
« données utiles ». Il convient que toute méthode de pseudonymisation s'efforce de réduire le niveau des
données d'identification directe, par exemple, en agrégeant ces données par groupes. Dans les cas
particuliers (par exemple, la date de naissance des nourrissons) où cela n'est pas possible, il convient que le
risque soit souligné dans le document directeur. Une section ultérieure du présent document traite de la
séparation des données en une partie « données utiles » et une partie « données d'identification » d'un point
de vue pratique, et non d'un point de vue conceptuel. D'un point de vue conceptuel, il suffit que cette division
soit réalisable. Il est important de noter que la distinction entre les caractéristiques d'identification et les
données utiles n'est pas absolue. Certaines données, qui servent également à identifier, peuvent être
nécessaires à la recherche, par exemple, l'année et le mois de naissance. Ces distinctions sont abordées
plus loin.
5.1.5.3 Le concept de pseudonymisation
La pratique et les progrès de la médecine exigent que des éléments de dossiers médicaux privés soient
rendus consultables à des fins d'enseignement, de recherche, de contrôle de la qualité, et autres. Pour des
raisons à la fois scientifiques et de respect de la vie privée, ces éléments de dossiers doivent être modifiés
pour dissimuler l'identité des personnes.
Il n'existe pas de procédure de désidentification unique, qui puisse répondre aux divers besoins de tous les
usages médicaux, tout en garantissant le masquage de l'identité. Chaque processus de libération d'un dossier
doit être soumis à une analyse des risques pour évaluer :
a) l'objectif nécessitant la transmission des données (par exemple, l'analyse) ;
b)
...


NORME ISO
INTERNATIONALE 25237
Première édition
2017-01
Informatique de santé —
Pseudonymisation
Health informatics — Pseudonymization
Numéro de référence
©
ISO 2017
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2017, Publié en Suisse
Droits de reproduction réservés. Sauf indication contraire, aucune partie de cette publication ne peut être reproduite ni utilisée
sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie, l’affichage sur
l’internet ou sur un Intranet, sans autorisation écrite préalable. Les demandes d’autorisation peuvent être adressées à l’ISO à
l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Ch. de Blandonnet 8 • CP 401
CH-1214 Vernier, Geneva, Switzerland
Tel. +41 22 749 01 11
Fax +41 22 749 09 47
copyright@iso.org
www.iso.org
ii © ISO 2017 – Tous droits réservés

Sommaire Page
Avant-propos .v
Introduction .vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Abréviations . 7
5 Exigences concernant la protection du caractère privé des identités dans
le domaine de la santé . 7
5.1 Objectifs de la protection de la vie privée . 7
5.2 Généralités . 8
5.3 La désidentification en tant que processus de réduction des risques . 8
5.3.1 Généralités . 8
5.3.2 Pseudonymisation . 9
5.3.3 Anonymisation.10
5.3.4 Identifiants directs et indirects .10
5.4 Protection de la vie privée des entités .10
5.4.1 Données à caractère personnel versus données désidentifiées .10
5.4.2 Concept de pseudonymisation .12
5.5 Pseudonymisation dans le monde réel .15
5.5.1 Justification .15
5.5.2 Niveaux d’assurance de la protection de la vie privée . .15
5.6 Catégories de personnes concernées .17
5.6.1 Généralités .17
5.6.2 Sujet des soins .18
5.6.3 Professionnels et organismes de santé.18
5.6.4 Données communiquées par des appareils .18
5.7 Données de classification .19
5.7.1 Données utiles .19
5.7.2 Données d’observations .19
5.7.3 Données pseudonymisées .19
5.7.4 Données anonymisées . .19
5.8 Données destinées à la recherche .19
5.8.1 Généralités .19
5.8.2 Génération de données destinées à la recherche .20
5.8.3 Utilisation secondaire d’informations de santé à caractère personnel .20
5.9 Données d’identification .20
5.9.1 Généralités .20
5.9.2 Identifiants de soins de santé .20
5.10 Données des victimes de violence et des personnes connues du public .21
5.10.1 Généralités .21
5.10.2 Informations génétiques .21
5.10.3 Service de confiance .21
5.10.4 Besoin de ré-identification des données pseudonymisées .21
5.10.5 Caractéristiques des services de pseudonymisation .22
6 Protection de la vie privée grâce à la pseudonymisation .23
6.1 Modèle conceptuel des domaines problématiques .23
6.2 Identifiabilité directe et indirecte des informations à caractère personnel .23
6.2.1 Généralités .23
6.2.2 Variables d’identification de la personne .23
6.2.3 Variables d’agrégation . .24
6.2.4 Variables extrêmes .25
6.2.5 Variables de données structurées .25
6.2.6 Variables de données non structurées .25
6.2.7 Évaluation des risques d’inférence .26
6.2.8 Respect de la vie privée et sécurité .27
7 Processus de ré-identification .27
7.1 Généralités .27
7.2 Procédure normale .27
7.3 Exception.27
7.4 Faisabilité technique .28
Annexe A (informative) Scénarios de pseudonymisation dans le domaine de la santé .29
Annexe B (informative) Exigences pour l’analyse des risques liés au respect de la vie privée .43
Annexe C (informative) Processus de pseudonymisation (méthodes et mise en œuvre) .54
Annexe D (informative) Spécification des méthodes et mise en œuvre .60
Annexe E (informative) Cadre politique pour l’exploitation des services de
pseudonymisation (méthodes et mise en œuvre) .62
Annexe F (informative) Informations génétiques.66
Bibliographie .67
iv © ISO 2017 – Tous droits réservés

Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (IEC) en ce qui
concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier de prendre note des différents
critères d’approbation requis pour les différents types de documents ISO. Le présent document a été
rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir www
.iso .org/ directives).
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable
de ne pas avoir identifié de tels droits de propriété et averti de leur existence. Les détails concernant
les références aux droits de propriété intellectuelle ou autres droits analogues identifiés lors de
l’élaboration du document sont indiqués dans l’Introduction et/ou dans la liste des déclarations de
brevets reçues par l’ISO (voir www .iso .org/ brevets).
Les appellations commerciales éventuellement mentionnées dans le présent document sont données
pour information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un
engagement.
Pour une explication de la signification des termes et expressions spécifiques de l’ISO liés à
l’évaluation de la conformité, ou pour toute information au sujet de l’adhésion de l’ISO aux principes
de l’OMC concernant les obstacles techniques au commerce (OTC), voir le lien suivant: Avant-propos —
Informations supplémentaires.
Le comité chargé de l’élaboration du présent document est l’ISO/TC 215, Informatique de santé.
Introduction
La pseudonymisation est reconnue comme une méthode importante de protection des informations de
santé à caractère personnel. Les services associés peuvent être utilisés aussi bien au plan national que
pour la communication transfrontière.
Les domaines d’application concernent, sans s’y limiter, les secteurs suivants:
— l’utilisation indirecte des données cliniques (par exemple recherche);
— les essais cliniques et la surveillance post-marketing;
— les soins pseudonymes;
— les systèmes d’identification des patients;
— la surveillance et l’évaluation de la santé publique;
— les dossiers confidentiels sur la sécurité des patients (par exemple effets indésirables d’un
médicament);
— les rapports comparatifs fondés sur des indicateurs de qualité;
— le contrôle par les pairs;
— les groupes de consommateurs;
— l’assistance technique.
Le présent document fournit un modèle conceptuel des aspects en jeu, des exigences en matière de
pratiques fiables, ainsi que des spécifications pour la planification et la mise en œuvre des services de
pseudonymisation.
La spécification d’un workflow général, associé à une politique de fiabilisation des opérations, servira
de guide général pour la mise en œuvre ainsi que pour l’assurance qualité, et aidera l’utilisateur des
services de pseudonymisation à déterminer la confiance qu’il peut accorder aux prestations assurées.
Ce guide permettra de former les organismes afin qu’ils puissent assurer eux-mêmes les services de
pseudonymisation, avec des compétences suffisantes pour atteindre le degré voulu de qualité et de
réduction des risques.
vi © ISO 2017 – Tous droits réservés

NORME INTERNATIONALE ISO 25237:2017(F)
Informatique de santé — Pseudonymisation
1 Domaine d’application
Le présent document établit un certain nombre de principes et d’exigences visant à garantir la
protection de la vie privée, grâce à des services de pseudonymisation ayant pour objet de protéger les
informations de santé à caractère personnel. Le présent document est applicable aux organismes qui
souhaitent s’engager dans des processus de pseudonymisation pour eux-mêmes et aux organismes qui
se déclarent dignes de confiance pour engager des opérations dans des services de pseudonymisation.
Le présent document:
— définit un concept de base pour la pseudonymisation (voir Article 5);
— définit une méthodologie de base pour les services de pseudonymisation, y compris au niveau des
aspects organisationnels et techniques (voir Article 6);
— spécifie un cadre politique et des exigences minimales pour la ré-identification contrôlée
(voir Article 7);
— donne une vue d’ensemble des différents cas d’utilisation où l’opération de pseudonymisation peut
être réversible ou irréversible (voir Annexe A);
— fournit un guide pour l’évaluation des risques en cas de ré-identification (voir Annexe B);
— donne un exemple de système qui utilise la désidentification (voir Annexe C);
— fournit des exigences informatives pour l’interopérabilité des services de pseudonymisation
(voir Annexe D); et
— spécifie un cadre politique et des exigences minimales favorisant des pratiques fiables pour un
service de pseudonymisation (voir Annexe E).
2 Références normatives
Les documents suivants cités dans le texte constituent, pour tout ou partie de leur contenu, des
exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour les
références non datées, la dernière édition du document de référence s’applique (y compris les éventuels
amendements).
ISO 27799, Informatique de santé — Management de la sécurité de l’information relative à la santé en
utilisant l’ISO/IEC 27002
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en
normalisation, consultables aux adresses suivantes:
— IEC Electropedia: disponible à l’adresse http:// www .electropedia .org/ .
— ISO Online browsing platform: disponible à l’adresse http:// www .iso .org/ obp.
3.1
contrôle d’accès
ensemble des moyens garantissant que seules les entités autorisées peuvent accéder aux ressources
d’un système informatique, et seulement d’une manière autorisée
[SOURCE: ISO/IEC 2382:2015, 2126294]
3.2
anonymisation
processus par lequel des données à caractère personnel (3.37) sont altérées irréversiblement, de telle
façon que la personne concernée ne puisse plus être identifiée, directement ou indirectement, par le
responsable du traitement des données, seul ou en collaboration avec une autre partie
Note 1 à l’article: Ce concept est absolu et peut, dans la pratique, être difficile à mettre en œuvre.
[SOURCE: ISO/IEC 29100:2011, 2.2, modifiée]
3.3
données anonymisées
données (3.14) de sortie produites par un processus d’anonymisation (3.2)
[SOURCE: ISO/IEC 29100:2011, 2.3, modifiée]
3.4
identifiant anonyme
identifiant (3.27) d’une personne ne permettant pas l’identification (3.26) de la personne physique (3.34)
3.5
authentification
établissement de la validité de l’identité déclarée
3.6
attaquant
personne exploitant délibérément les vulnérabilités des contrôles de sécurité techniques et non
techniques, afin de piller ou de compromettre les réseaux et les systèmes d’information ou d’empêcher
les utilisateurs légitimes d’accéder aux ressources de ces réseaux et systèmes
[SOURCE: ISO/IEC 27033-1:2015, 3.3]
3.7
cryptogramme, texte chiffré
données (3.14) résultant d’un chiffrement et dont le contenu sémantique n’est pas disponible sans
recours à des techniques cryptographiques
[SOURCE: ISO/IEC 2382:2015, 2126285]
3.8
confidentialité
propriété d’une information (3.29) qui n’est ni disponible, ni divulguée aux personnes, entités ou
processus non autorisés
[SOURCE: ISO 7498-2:1989, 3.3.16]
3.9
clé de chiffrement de contenu
clé cryptographique utilisée pour chiffrer le contenu d’une communication
3.10
responsable du traitement
personne physique ou morale, autorité publique, service ou tout autre organisme qui, seul ou
conjointement avec d’autres, détermine les finalités et les moyens du traitement de données à caractère
personnel (3.40)
2 © ISO 2017 – Tous droits réservés

3.11
cryptographie
discipline incluant les principes, moyens et méthodes de transformation des données (3.14), dans le
but de cacher leur contenu, d’empêcher que leur modification passe inaperçue et/ou d’empêcher leur
utilisation non autorisée
[SOURCE: ISO 7498-2:1989, 3.3.20]
3.12
algorithme cryptographique
méthode permettant de transformer des données (3.14), dans le but de cacher leur contenu,
d’empêcher que leur modification passe inaperçue et/ou d’empêcher leur utilisation non autorisée
3.13
gestion de clés cryptographiques
gestion de clés
production, stockage, distribution, suppression, archivage et application de clés (3.31) conformément à
la politique de sécurité (3.46)
[SOURCE: ISO 7498-2:1989, 3.3.33]
3.14
donnée
représentation réinterprétable d’une information (3.29) sous une forme conventionnelle convenant à la
communication, à l’interprétation ou au traitement
Note 1 à l’article: Les données peuvent être traitées par des moyens humains ou automatiques.
[SOURCE: ISO/IEC 2382:2015, 2121272]
3.15
intégrité des données
propriété assurant que des données (3.14) n’ont pas été modifiées ou détruites de façon non autorisée
[SOURCE: ISO 7498-2:1989, 3.3.21]
3.16
liage de données
appariement et combinaison de données (3.14) issues de plusieurs bases de données
3.17
protection des données
organisation technique et sociale permettant de négocier, gérer et garantir le caractère privé (3.39) et la
sécurité des informations
3.18
personne concernée
personne à laquelle se rapportent les données (3.14)
3.19
déchiffrement
processus visant à convertir des données (3.14) chiffrées pour les ramener à leur forme d’origine, de
manière à pouvoir les comprendre
3.20
désidentification
terme général qui désigne tout processus réduisant l’association entre un ensemble de données (3.14)
d’identification et la personne concernée (3.18)
3.21
données d’identification directe
données (3.14) qui identifient directement un individu
Note 1 à l’article: Les identifiants directs sont les données qui peuvent être utilisées pour identifier une personne
sans informations supplémentaires ou par recoupement avec d’autres informations du domaine public.
3.22
communication
fait de révéler des données (3.14) ou d’y donner accès
Note 1 à l’article: Le fait que le destinataire regarde réellement les données, les transforme en connaissances ou
les conserve, est sans importance vis-à-vis de la réalisation de la communication.
3.23
chiffrement
processus de conversion d’informations (3.29) ou de données (3.14) en un bloc chiffré ou un code
3.24
identifiant de soins de santé
identifiant du sujet des soins
identifiant (3.27) d’une personne, destiné à être principalement utilisé par un système de soins de santé
3.25
personne identifiable
personne qui peut être identifiée, directement ou indirectement, notamment par référence à un
numéro d’identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique,
physiologique, psychique, économique, culturelle ou sociale
[SOURCE: Directive 95/46/EC]
3.26
identification
processus consistant à utiliser des attributs déclarés ou observés d’une entité pour distinguer cette
entité parmi d’autres dans un ensemble d’identités
Note 1 à l’article: L’identification d’une entité dans un contexte déterminé permet à une autre entité de différencier
les entités avec lesquelles elle interagit.
3.27
identifiant
information (3.29) utilisée pour déclarer une identité, avant corroboration potentielle par un
authentifiant correspondant
[SOURCE: ENV 13608-1:2000, 3.44]
3.28
données d’identification indirecte
données (3.14) qui ne peuvent identifier une personne que lorsqu’elles sont utilisées conjointement avec
d’autres données d’identification indirecte
Note 1 à l’article: Les identifiants indirects peuvent réduire à un individu la population à laquelle la personne
appartient, s’ils sont utilisés en combinaison.
EXEMPLE Code postal, sexe, âge, date de naissance.
3.29
information
connaissance concernant un objet qui, dans un contexte déterminé, a une signification particulière
[SOURCE: ISO/IEC 2382:2015, 2121271, modifiée]
4 © ISO 2017 – Tous droits réservés

3.30
irréversibilité
pour toute transformation d’identifiable en pseudonyme, situation dans laquelle il est informatiquement
irréalisable de remonter à l’identifiant (3.27) d’origine en partant du pseudonyme (3.43)
3.31
clé
série de symboles commandant les opérations de chiffrement (3.23) et de déchiffrement (3.19)
[SOURCE: ISO 7498-2:1989, 3.3.32]
3.32
liage d’objets d’information
processus permettant d’établir une association logique entre différents objets d’information
3.33
dossier personnel de santé longitudinal ou à vie
dossier coordonné permanent regroupant des informations importantes, classées par ordre
chronologique
Note 1 à l’article: Ce dossier peut inclure toutes les données historiques collectées ou être extrait sous forme de
synthèse définie par l’utilisateur, regroupant des faits et des événements démographiques, génétiques, cliniques
et environnementaux marquants, conservés dans un système automatisé.
[SOURCE: ISO/TR 21089:2004, 3.61, modifiée]
3.34
personne physique
être humain par opposition à personne morale, laquelle peut être un organisme privé ou public
3.35
identification de personne
processus établissant une association entre un objet d’information et une personne physique
3.36
identifiant personnel
information permettant d’identifier une même et unique personne dans un contexte donné
3.37
données à caractère personnel
information concernant une personne physique (3.34) identifiée ou identifiable («personne concernée»)
[SOURCE: Directive 95/46/EC]
3.38
principale utilisation des données à caractère personnel
utilisations et communications (3.22) prévues pour les données (3.14) collectées
3.39
respect de la vie privée
garantie de l’absence d’intrusion dans la vie privée ou les affaires d’un individu dans la mesure où cette
intrusion résulte de la collecte et de l’utilisation illégales et non fondées de données (3.14) relatives à cet
individu
[SOURCE: ISO/IEC 2382:2015, 2126263]
3.40
traitement de données à caractère personnel
opération ou ensemble d’opérations effectuées ou non à l’aide de procédés automatisés et appliquées
à des données à caractère personnel (3.37), telles que la collecte, l’enregistrement, l’organisation, la
conservation, l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la communication
par transmission, diffusion ou toute autre forme de mise à disposition, le rapprochement ou
l’interconnexion, ainsi que le verrouillage, l’effacement ou la destruction
[SOURCE: Directive 95/46/EC]
3.41
sous-traitement
personne physique ou morale, autorité publique, service ou tout autre organisme qui traite des données
à caractère personnel (3.37) pour le compte du responsable du traitement (3.10)
Note 1 à l’article: Voir la Directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative
à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre
circulation de ces données.
3.42
pseudonymisation
type particulier de désidentification (3.20) qui, à la fois, supprime la corrélation avec la personne
concernée et ajoute une association entre un ensemble donné de caractéristiques ayant trait à la
personne concernée et un ou plusieurs pseudonymes (3.43)
3.43
pseudonyme
identifiant personnel (3.36) différent de l’identifiant personnel normalement utilisé et employé avec des
données pseudonymisées pour assurer la cohérence de l’ensemble de données, reliant ainsi toutes les
informations relatives à une personne concernée, sans communiquer la véritable identité de la personne
Note 1 à l’article: Le pseudonyme peut être dérivé de l’identifiant personnel normalement utilisé, de manière
réversible ou irréversible, ou n’avoir aucun rapport avec ce dernier.
Note 2 à l’article: Le terme de pseudonyme se limite généralement à désigner un identifiant qui ne permet
pas la dérivation directe de l’identifiant personnel normal. De telles informations pseudonymes sont donc
fonctionnellement anonymes. Une tierce partie de confiance peut être en mesure d’obtenir l’identifiant personnel
normal à partir du pseudonyme.
3.44
destinataire
personne physique ou morale, autorité publique, service ou tout autre organisme qui reçoit
communication de données (3.14)
3.45
utilisation secondaire des données à caractère personnel
utilisations et communications (3.22) qui divergent de l’usage initialement prévu pour les données (3.14)
collectées
3.46
politique de sécurité
plan ou programme d’action adopté pour assurer la sécurité informatique
[SOURCE: ISO/IEC 2382:2015, 2126246]
3.47
tierce partie de confiance
autorité de sécurité, ou son mandataire, à qui d’autres entités accordent leur confiance pour des
activités en rapport avec la sécurité
[SOURCE: ISO/IEC 18014-1:2008, 3.20]
6 © ISO 2017 – Tous droits réservés

4 Abréviations
DICOM Imagerie numérique et communication en médecine [Digital Imaging and Communication
in Medicine]
HIPAA Loi américaine sur la transférabilité des régimes d’assurance-maladie et l’imputabilité
des données sensibles [Health Insurance Portability and Accountability Act]
SIS Système d’information de santé
VIH Virus de l’immunodéficience humaine
IP Protocole Internet [Internet Protocol]
VoV Victime de violence
5 Exigences concernant la protection du caractère privé des identités dans
le domaine de la santé
5.1 Objectifs de la protection de la vie privée
L’objectif de la protection de la vie privée, en tant qu’objectif de sécurité visant à garantir la
confidentialité, est d’empêcher la communication non autorisée ou non souhaitée d’informations sur
une personne, lesquelles peuvent en outre influer sur des facteurs de risque juridiques, organisationnels
et financiers. La protection de la vie privée est un sous-domaine du droit générique au respect de la vie
privée qui, par définition, englobe d’autres entités sensibles au respect du caractère privé des données,
telles que les organismes. Étant donné que l’aspect «respect de la vie privée» est le mieux réglementé
et le plus répandu, ce modèle conceptuel met l’accent sur le respect du caractère privé des données. Des
solutions de protection conçues pour le respect de la vie privée peuvent également être transposées
pour la protection des données sensibles d’autres entités. Cela peut être utile dans les pays où le
caractère privé des données des entités ou des organismes est réglementé par la loi.
La protection des données à caractère personnel a deux objectifs: l’un qui consiste à protéger les
données à caractère personnel interagissant avec des applications en ligne (par exemple, navigation
Web) et l’autre qui consiste à protéger les données à caractère personnel collectées dans des bases de
données. Le présent document se limitera à ce dernier objectif.
Les données peuvent être extraites de bases de données. L’objectif est de réduire le risque que l’identité
des personnes concernées soit communiquée. Les chercheurs travaillent sur des «cas», antécédents
longitudinaux de patients, collectés avec le temps et/ou provenant de différentes sources. Pour la
compilation des différents éléments de données constitutifs des cas, il est, toutefois, nécessaire
d’utiliser une technique qui permette d’agréger les données des personnes concernées, sans nuire à leur
vie privée. Pour y parvenir, il est possible de recourir à la pseudonymisation des données.
La désidentification est utilisée pour réduire les risques liés au respect de la vie privée dans un large
éventail de situations.
Une désidentification extrême est utilisée pour le matériel pédagogique qui sera largement rendu
public, et dont il convient néanmoins qu’il transmette suffisamment de détails pour être utile à des fins
d’éducation médicale. (Il existe un profil IHE d’assistance à l’automatisation pour la réalisation de ce
type de désidentification. Une grande partie du processus est adaptée au patient et à l’objectif poursuivi
en éducation médicale.)
Les organismes de santé publique utilisent des bases de données désidentifiées pour suivre et
comprendre les maladies.
Les essais cliniques utilisent la désidentification à la fois pour protéger la vie privée et pour éviter les
biais subconscients en supprimant d’autres informations comme, par exemple, l’administration au
patient d’un placebo ou d’un médicament expérimental.
Une désidentification légère est utilisée dans de nombreuses études cliniques, où on ne révèle pas aux
évaluateurs qui est le médecin traitant, l’hôpital, le patient, etc., à la fois pour réduire les risques liés au
respect de la vie privée et pour éliminer les biais subconscients. Ce type de désidentification empêche
uniquement la communication fortuite des données aux évaluateurs. Un effort délibéré peut facilement
permettre de découvrir l’identité du patient, etc.
Lorsqu’il faut produire des statistiques ou des analyses sur la charge de travail dans les hôpitaux ou
dans le cadre de traitements délivrés au titre de contrats avec des administrateurs ou des acheteurs de
services de soins de santé, il est nécessaire de pouvoir séparer les différents patients, sans avoir besoin
de savoir qui ils sont individuellement. Voici un exemple d’utilisation de la désidentification dans un
cadre commercial.
Le processus de stratification des risques (de réhospitalisation, par exemple) peut être engagé à partir
des dossiers de services de soins principaux et secondaires des patients. Les dossiers sont désidentifiés
pour l’analyse, mais lorsque les patients sont signalés comme étant à haut risque, ces patients peuvent
être réidentifiés par un médecin compétent pour permettre des actions de suivi. Pour plus de détails
sur la pseudonymisation dans le domaine de la santé, voir l’Annexe A.
5.2 Généralités
La désidentification est le terme général qui désigne tout processus réduisant l’association
entre un ensemble de données d’identification et la personne concernée, avec une ou plusieurs
utilisations prévues pour l’ensemble de données obtenu. La pseudonymisation est subordonnée à la
désidentification. Le pseudonyme est le moyen par lequel des données pseudonymisées sont liées à une
même personne ou à des systèmes d’information sans que l’identité de ladite personne soit révélée. La
désidentification peut limiter de façon inhérente l’utilité des données résultantes. La pseudonymisation
peut être exécutée avec ou sans possibilité de réidentifier la personne concernée (pseudonymisation
réversible ou irréversible). Il existe plusieurs scénarios de cas d’utilisation de la pseudonymisation dans
le domaine de la santé, notamment dans le traitement électronique sans cesse croissant des données
patient, couplé à des attentes en matière de protection de la vie privée toujours plus importantes du
côté des patients. Plusieurs exemples sont fournis à l’Annexe A.
Il est important de noter que, tant qu’il y a des données pseudonymisées, il existe un risque de ré-
identification non autorisée. Ce n’est pas très différent du chiffrement, qui peut être cassé par force
brute, mais l’objectif est de rendre l’opération tellement difficile que le coût en soit prohibitif. Du fait
que la désidentification est un concept plus récent que le chiffrement, les risques associés ne sont pas
aussi bien compris.
5.3 La désidentification en tant que processus de réduction des risques
5.3.1 Généralités
Il convient que le processus de désidentification tienne compte des contrôles de sécurité et de respect
de la vie privée qui s’appliqueront à l’ensemble de données obtenu. Il est rare de réduire les risques à un
point tel que l’ensemble de données n’ait pas besoin de contrôles de sécurité permanents.
8 © ISO 2017 – Tous droits réservés

Figure 1 — Représentation graphique du processus de désidentification
La Figure 1 est un schéma informatif représentant le processus de désidentification. Elle révèle que le
concept de niveau supérieur est la désidentification en tant que processus. Ce processus utilise des sous-
processus: la pseudonymisation et/ou l’anonymisation. Ces sous-processus utilisent différents outils,
qui sont spécifiques au type d’élément de données sur lequel ils agissent et à la méthode de réduction
des risques utilisée.
L’état de départ correspond à celui où aucune donnée n’est autorisée à traverser le système. Il convient
que chaque élément soit justifié par l’utilisation prévue pour l’ensemble de données obtenu. L’utilisation
prévue pour l’ensemble de données a une grande incidence sur le processus de désidentification.
5.3.2 Pseudonymisation
La désidentification peut tirer avantage de la pseudonymisation lorsqu’une cohérence longitudinale
est nécessaire. Il peut s’agir de conserver un ensemble de dossiers qu’il convient d’associer les uns
aux autres et qui, sans cette cohérence longitudinale, pourraient être séparés. Il est ainsi possible de
regrouper tous les dossiers d’un patient sous un même pseudonyme. Cela peut également permettre
de garantir que, chaque fois que des données sont extraites en un ensemble désidentifié, les nouvelles
entrées sont aussi associées au même pseudonyme. En pseudonymisation, l’algorithme utilisé peut être
intentionnellement réversible ou intentionnellement non réversible. Un schéma réversible peut être
une table de correspondance secrète qui, sous réserve d’autorisation, peut être utilisée pour découvrir
l’identité d’origine. Dans un schéma non réversible, une table temporaire peut être utilisée durant le
processus, mais elle est détruite dès que le processus est terminé.
5.3.3 Anonymisation
L’anonymisation est le processus et le jeu d’outils utilisés lorsqu’aucune cohérence longitudinale
n’est nécessaire. On utilise également le processus d’anonymisation lorsque l’on a eu recours à la
pseudonymisation pour traiter les attributs de données restants. L’anonymisation utilise des outils tels
que la rédaction, la suppression, le masquage, la substitution, la randomisation, le déplacement, le détour,
la troncature, le regroupement, etc. L’anonymisation peut mener à une possibilité réduite de liens.
Il convient que chaque élément autorisé à traverser soit justifié. Il convient que chaque élément présente
le minimum de risque, compte tenu de l’utilisation prévue pour l’ensemble de données obtenu. Ainsi,
lorsque l’utilisation prévue pour l’ensemble de données obtenu n’exige pas de codes à grain fin, il est
possible de regrouper des codes.
5.3.4 Identifiants directs et indirects
Le processus de désidentification traite trois types de données: les identifiants directs, qui, à eux seuls,
identifient le patient; les identifiants indirects, qui permettent d’établir des corrélations lorsqu’ils sont
utilisés avec d’autres éléments de connaissance indirects ou externes; et les données non identifiantes,
c’est-à-dire les données restantes.
En règle générale, un processus de désidentification est appliqué à un ensemble de données, constitué
d’entrées avec de nombreux attributs. Par exemple, une feuille de calcul constituée de lignes de données
classées par colonnes.
Le processus de désidentification, y compris la pseudonymisation et l’anonymisation, est appliqué à
toutes les données. La pseudonymisation est généralement utilisée sur des identifiants directs, mais
elle peut être utilisée sur des identifiants indirects, le cas échéant, pour réduire les risques tout en
continuant de répondre aux besoins longitudinaux de l’utilisation prévue pour l’ensemble de données
obtenu. Les outils d’anonymisation sont utilisés sur toutes les formes de données, selon les modalités
appropriées pour réduire les risques.
5.4 Protection de la vie privée des entités
5.4.1 Données à caractère personnel versus données désidentifiées
5.4.1.1 Définition des données à caractère personnel
La Référence [18] définit les «données à caractère personnel» comme suit: toute information concernant
une personne physique identifiée ou identifiable («personne concernée»); est réputée identifiable
une personne qui peut être identifiée, directement ou indirectement, notamment par référence à un
numéro d’identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique,
physiologique, psychique, économique, culturelle ou sociale.
Ce concept est traité dans d’autres législations nationales, qui tiennent compte des principes énoncés
dans la présente définition (par exemple, la loi HIPAA).
10 © ISO 2017 – Tous droits réservés

5.4.1.2 Concept idéalisé d’identification et de désidentification
Légende
1 ensemble de personnes concernées
2 ensemble de caractéristiques
Figure 2 — Identification des personnes concernées
Le présent paragraphe décrit un concept idéalisé d’identification et de désidentification. Il y est supposé
qu’il n’y a pas de données à l’extérieur du modèle illustré à la Figure 2, qui puissent, par exemple, être
liées à des données à l’intérieur du modèle et permettre de réaliser une identification (indirecte) des
personnes concernées.
En 5.4.1, les sources potentielles d’information extérieures au modèle de données seront prises en
compte, afin de pouvoir discuter des risques de ré-identification. Les projets de technologies de
l’information et de la communication ne décrivent jamais les données qui ne sont pas utilisées dans le
modèle, lorsqu’ils couvrent les aspects de conception fonctionnelle. Toutefois, lorsqu’on se concentre
sur l’identifiabilité, les critiques mettent en évidence les informations qui pourraient être obtenues par
un attaquant, pour identifier les personnes concernées ou pour recueillir plus d’informations sur celles-
ci (par exemple, l’appartenance à un groupe).
Comme illustré à la Figure 1, une personne concernée possède un certain nombre de caractéristiques
(telles que ses nom, date de naissance et données médicales) qui sont stockées dans une base de
données médicale et constituent les données à caractère personnel de cette personne. Une personne
concernée est identifiée parmi un ensemble de personnes concernées si ces personnes peuvent être
différenciées. Cela signifie qu’il est possible de trouver un ensemble de caractéristiques associées à
la personne concernée, qui identifie cette personne de manière unique. Dans certains cas, une seule
caractéristique suffit pour identifier la personne concernée (par exemple, si le numéro est un numéro
d’enregistrement national unique). Dans d’autres cas, plusieurs caractéristiques sont nécessaires pour
distinguer une personne concerné
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...