Language resource management — Lexical markup framework (LMF) — Part 1: Core model

This document establishes the core model of the lexical markup framework (LMF), a metamodel for representing data in monolingual and multilingual lexical resources used with computer applications. LMF provides mechanisms that allow the development and integration of a variety of electronic lexical resource types.

Gestion des ressources linguistiques — Cadre de balisage lexical (LMF) — Partie 1: Modèle de base

Le présent document établit le modèle de base du cadre de balisage lexical (LMF), un métamodèle permettant de représenter les données dans des ressources lexicales monolingues et multilingues utilisées avec des applications informatiques. LMF fournit des mécanismes qui permettent d’élaborer et d’intégrer une grande diversité de types de ressources lexicales électroniques.

Upravljanje jezikovnih virov - Ogrodje za označevanje leksikonov (LMF) - 1. del: Jedrni model

Ta dokument določa jedrni model ogrodja za označevanje leksikonov (LMF), tj. metamodel za predstavljanje podatkov v enojezičnih in večjezičnih leksikalnih virih, ki se uporabljajo z računalniškimi aplikacijami.
Ogrodje za označevanje leksikonov zagotavlja mehanizme, ki omogočajo razvoj in integracijo številnih vrst elektronskih leksikalnih virov.

General Information

Status
Published
Publication Date
14-Jan-2024
Current Stage
6060 - International Standard published
Start Date
15-Jan-2024
Due Date
27-Oct-2023
Completion Date
15-Jan-2024

Relations

Effective Date
06-Jun-2022

Overview

ISO 24613-1:2024 - "Language resource management - Lexical markup framework (LMF) - Part 1: Core model" defines the core metamodel for representing monolingual and multilingual lexical resources used in software applications. It specifies the abstract structures, class hierarchy and data category mechanisms that enable interoperable, reusable computational lexicons for natural language processing (NLP), translation and other language technologies.

Key topics and technical requirements

  • Core metamodel (LMF core package): defines primary classes such as LexicalResource, Lexicon, LexicalEntry, Form, OrthographicRepresentation, GrammaticalInformation, Sense and Definition.
  • UML-based modelling: LMF uses Unified Modelling Language (UML) to describe class relationships, inheritance and cardinalities for consistent implementation.
  • Data categories and selection (DCS): prescribes how to select and attach standardized data categories (e.g., part of speech, script, definition) to model elements; supports user‑defined categories when needed.
  • Class inheritance and attributes: guidance on inheritance, LMF attributes and object instantiation to create specialised subclasses of lexical structures.
  • Cross-reference (CrossREF) model: mechanisms for inter-entry linking (e.g., synonyms, compositions) and constraints on cross‑references. Note: the 2024 edition refined CrossREF semantics and removed implementation‑specific attributes.
  • Extension and integration methods: principles for extending the core model, simplifying models for specific use cases, and comparing/merging lexica.
  • Normative references: integrates relevant coding standards such as ISO 639 (language codes) and ISO 15924 (script codes).

Practical applications and users

ISO 24613-1:2024 is designed for anyone building, exchanging or integrating electronic lexical resources:

  • NLP and AI engineers building tokenizers, lemmatizers, morphological analyzers and semantic components.
  • Computational linguists and lexicographers creating structured lexica or enriched dictionaries.
  • Machine translation and MT post‑editing teams needing interoperable lexical data across languages.
  • Software developers and metadata architects implementing lexicon formats, exchange pipelines or lexicon merging tools.
  • Language technology vendors and research labs seeking standardized representations for corpus annotation and lexicon reuse.

Benefits include improved interoperability, easier data exchange, and simplified merging of diverse lexical resources to create scalable multilingual language assets.

Related standards

  • ISO 24613 series (LMF extensions)
  • ISO 16642 (terminology exchange considerations)
  • ISO 639 (language codes) and ISO 15924 (script codes)

Keywords: ISO 24613-1:2024, Lexical Markup Framework, LMF, language resource management, lexical resources, computational lexicons, NLP, UML, data categories, lexicon interoperability.

Standard

ISO 24613-1:2024 - Language resource management — Lexical markup framework (LMF) — Part 1: Core model Released:15. 01. 2024

English language
14 pages
sale 15% off
Preview
sale 15% off
Preview
Standard

ISO 24613-1:2024 - Gestion des ressources linguistiques — Cadre de balisage lexical (LMF) — Partie 1: Modèle de base Released:2/2/2024

French language
14 pages
sale 15% off
Preview
sale 15% off
Preview

Get Certified

Connect with accredited certification bodies for this standard

BSI Group

BSI (British Standards Institution) is the business standards company that helps organizations make excellence a habit.

UKAS United Kingdom Verified

NYCE

Mexican standards and certification body.

EMA Mexico Verified

Sponsored listings

Frequently Asked Questions

ISO 24613-1:2024 is a standard published by the International Organization for Standardization (ISO). Its full title is "Language resource management — Lexical markup framework (LMF) — Part 1: Core model". This standard covers: This document establishes the core model of the lexical markup framework (LMF), a metamodel for representing data in monolingual and multilingual lexical resources used with computer applications. LMF provides mechanisms that allow the development and integration of a variety of electronic lexical resource types.

This document establishes the core model of the lexical markup framework (LMF), a metamodel for representing data in monolingual and multilingual lexical resources used with computer applications. LMF provides mechanisms that allow the development and integration of a variety of electronic lexical resource types.

ISO 24613-1:2024 is classified under the following ICS (International Classification for Standards) categories: 01.020 - Terminology (principles and coordination); 35.240.30 - IT applications in information, documentation and publishing. The ICS classification helps identify the subject area and facilitates finding related standards.

ISO 24613-1:2024 has the following relationships with other standards: It is inter standard links to ISO 24613-1:2019. Understanding these relationships helps ensure you are using the most current and applicable version of the standard.

ISO 24613-1:2024 is available in PDF format for immediate download after purchase. The document can be added to your cart and obtained through the secure checkout process. Digital delivery ensures instant access to the complete standard document.

Standards Content (Sample)


SLOVENSKI STANDARD
01-november-2024
Nadomešča:
SIST ISO 24613-1:2019
Upravljanje jezikovnih virov - Ogrodje za označevanje leksikonov (LMF) - 1. del:
Jedrni model
Language resource management — Lexical markup framework (LMF) — Part 1: Core
model
Gestion des ressources linguistiques — Cadre de balisage lexical (LMF) — Partie 1:
Modèle de base
Ta slovenski standard je istoveten z: ISO 24613-1:2024
ICS:
01.020 Terminologija (načela in Terminology (principles and
koordinacija) coordination)
01.140.20 Informacijske vede Information sciences
35.240.30 Uporabniške rešitve IT v IT applications in information,
informatiki, dokumentiranju in documentation and
založništvu publishing
2003-01.Slovenski inštitut za standardizacijo. Razmnoževanje celote ali delov tega standarda ni dovoljeno.

International
Standard
ISO 24613-1
Second edition
Language resource management —
2024-01
Lexical markup framework (LMF) —
Part 1:
Core model
Gestion des ressources linguistiques — Cadre de balisage lexical
(LMF) —
Partie 1: Modèle de base
Reference number
© ISO 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Key standards used by LMF . 3
4.1 Unicode .3
4.2 Language coding .3
4.3 Script coding .3
4.4 Unified modelling language .3
5 The LMF model . 3
5.1 General .3
5.2 Class inheritance and data category selection procedures .4
5.2.1 Class inheritance .4
5.2.2 LMF attributes .4
5.2.3 Data category selection (DCS) .4
5.2.4 User-defined data categories . .4
5.3 LMF core package .4
5.3.1 General .4
5.3.2 LexicalResource class .5
5.3.3 GlobalInformation class .5
5.3.4 Lexicon class .6
5.3.5 LexiconInformation class .6
5.3.6 LexicalEntry class .6
5.3.7 Form class .6
5.3.8 OrthographicRepresentation class .6
5.3.9 GrammaticalInformation class .6
5.3.10 Sense class .6
5.3.11 Definition class .7
5.4 Cross reference (CrossREF) model .7
5.4.1 General .7
5.4.2 CrossREF class .7
5.4.3 CrossREFConstraint class .7
5.5 Methods for data category selection and subclass creation .7
5.5.1 General .7
5.5.2 Generalization.7
5.5.3 Object instantiation .8
5.5.4 Design choices.8
5.5.5 Data categories for orthographic representation .8
5.5.6 Principles for model simplification .9
5.6 LMF extension use .9
5.6.1 General .9
5.6.2 Lexicon comparison.10
Annex A (informative) Data category examples .11
Bibliography . 14

iii
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out through
ISO technical committees. Each member body interested in a subject for which a technical committee
has been established has the right to be represented on that committee. International organizations,
governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of ISO document should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use of (a)
patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed patent
rights in respect thereof. As of the date of publication of this document, ISO had not received notice of (a)
patent(s) which may be required to implement this document. However, implementers are cautioned that
this may not represent the latest information, which may be obtained from the patent database available at
www.iso.org/patents. ISO shall not be held responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO's adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology, Subcommittee
SC 4, Language resource management.
This second edition cancels and replaces the first edition (ISO 24613-1:2019), which has been technically
revised.
The main changes are as follows:
— several changes have been made to Figure 1 “LMF core package”, as follows:
— the OrthographicRepresentation class associations with the Form and Definition classes previously
had a cardinality of 1 to 1, which did not correctly represent the intent of the UML model; the revision
of the cardinality to 1 to 0.* in each case now provides a correct model;
— the type: intern/extern attribute-value pair is no longer included in the CrossREF class since it
described linking processes relevant for implementations, not associations relevant for a metamodel;
— the full names relationship values in the CrossREF class, “synonym/composition” replace the
abbreviations, “syn/compo”;
— the class names in Figure 1 are now harmonized with the LMF style;
— relevant information has been moved from the tables in ISO 24613-2:2020 to Table A.1, meaning that the
latter now contains more complete examples of values and attributes allocated to classes first introduced
in this document.
A list of all parts in the ISO 24613 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.

iv
Introduction
Optimizing the production, maintenance and extension of electronic lexical resources is one of the crucial
aspects impacting human language technologies (HLTs) in general and natural language processing (NLP) in
particular, as well as human-oriented translation technologies. A second crucial aspect involves optimizing
the process leading to their integration in applications. Lexical markup framework (LMF) is an abstract
metamodel that provides a common, standardized framework for the construction of computational
lexicons. LMF ensures the encoding of linguistic information in a way that enables reusability in different
applications and for different tasks. LMF provides a common, shared representation of lexical instances,
including morphological, syntactic and semantic aspects.
The goals of LMF are:
— to provide a common model for the creation and use of electronic lexical resources ranging from small to
large in scale;
— to manage the exchange of data between and among these resources; and
— to facilitate the merging of large numbers of different individual electronic resources to form extensive
global electronic resources.
The ultimate goal of LMF is to create a modular structure that will facilitate true content interoperability
across all aspects of electronic lexical resources.
[5]
LMF supports existing lexical resource models such as Genelex, the EAGLES International Standard for
[6] [12]
Language Engineering (ISLE), Multilingual ISLE Lexical Entry (MILE) models, Text Encoding Initiative
[10] [9]
(TEI) guidelines, Ontolex and the Language Base Exchange (LBX) serialization together with the US
[7]
Government Wordscape On-Line Dictionary system .
[11]
LMF uses unified modelling language (UML) modelling processes. The LMF core package describes the
basic hierarchy of information of a lexical entry, including information on the word form. The core package
is supplemented by various resources that are part of the definition of LMF. These resources include:
— specific data categories used by the variety of resource types associated with LMF (both those data
categories relevant to the metamodel itself, and those associated with the extensions to the core package
in additional LMF parts. See Annex A for data category examples);
— the constraints governing the relationship of these data categories to the metamodel and to its extensions;
— standard procedures for expressing these categories and thus for anchoring them on the structural
skeleton of LMF and relating them to the respective extension models;
— the vocabularies used by LMF that describe how to extend LMF through linkage to a variety of specific
resources (extensions) and methods for analysing and designing such linked systems.
LMF parts are expressed in a framework that describes the reuse of the LMF core components (such as
structures, data categories and vocabularies) in conjunction with the additional components required for a
specific resource.
The ISO 24613 series is designed to coordinate closely with ISO 16642.

v
International Standard ISO 24613-1:2024(en)
Language resource management — Lexical markup
framework (LMF) —
Part 1:
Core model
1 Scope
This document establishes the core model of the lexical markup framework (LMF), a metamodel for
representing data in monolingual and multilingual lexical resources used with computer applications.
LMF provides mechanisms that allow the development and integration of a variety of electronic lexical
resource types.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content constitutes
requirements of this document. For dated references, only the edition cited applies. For undated references,
the latest edition of the referenced document (including any amendments) applies.
ISO 639, Code for individual languages and language groups
ISO 15924, Information and documentation — Codes for the representation of names of scripts
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
data category
DC
class of data items that are closely related from a formal or semantic point of view
EXAMPLE /part of speech/, /subject field/, /definition/.
Note 1 to entry: A data category can be viewed as a generalization of the notion of a field in a database.
Note 2 to entry: In running text, such as this document, data category names are enclosed in forward slashes (e.g. /
part of speech/).
[SOURCE: ISO 30042:2019, 3.8, modified — admitted term “DC” added.]
3.2
word form
instantiation of a lexeme (3.5) in a syntactic context

3.3
grammatical feature
property associated with a word form (3.2) to describe one of its grammatical attributes
EXAMPLE grammaticalGender.
3.4
lemma
lemmatized form
canonical form
word form (3.2) chosen to represent a lexeme (3.5)
Note 1 to entry: In many European languages, the lemma is usually the singular for a noun if there is a variation
in number, the masculine form if there is a variation in gender and the infinitive for all verbs. In some languages,
certain nouns are defective in the singular form, in which case the plural is chosen. In Arabic, for a verb, the lemma
is sometimes considered as being the third person singular with the accomplished aspect. In other approaches it is
considered as being the root.
3.5
lexeme
abstract unit generally associated with a set of word forms (3.2) sharing common properties, such as
morphologic, morphosyntactic, semantic, or phonetic properties
3.6
lexical resource
lexical database
database consisting of one or several lexicons (3.7)
3.7
lexicon
resource comprising lexical entries for one or several languages
Note 1 to entry: A special language lexicon or a lexicon prepared for a specific natural language processing (3.9)
application can comprise a specific subset of a language.
3.8
multiword expression
MWE
lexeme (3.5) made up of a sequence of two or more lexemes that has properties that are not necessarily
predictable from the properties of the individual lexemes or their normal mode of combination
EXAMPLE “To kick the bucket”, an idiomatic expression which means to die rather than to hit a bucket with one’s
foot. An idiomatic expression is a subtype of MWE whose properties are not predictable from the properties of the
individual lexemes.
Note 1 to entry: An MWE can be a compound, a fragment of a sentence or a sentence. The group of lexemes making up
an MWE can be continuous or discontinuous. It is not always possible to mark an MWE with a part of speech (3.11).
3.9
natural language processing
NLP
computer science field covering knowledge and techniques involved in the processing and analysis of
linguistic data by a computer
3.10
orthography
systematic way of spelling or writing lexemes (3.5) that conforms to a conventionalized use
Note 1 to entry: Usually, the notion of orthography covers standardized spellings of alphabetic languages, such as
standard UK or US English, or reformed German spelling, as well as hieroglyphic or syllabic writing systems. For the
purpose of this document, variations such as transliterations of languages in non-native scripts (3.12), stenographic
renderings or representations in the International Phonetic Alphabet are also subsumed under the notion of
orthography.
3.11
part of speech
lexical category
word class
category assigned to a lexeme (3.5) based on its grammatical properties
EXAMPLE Typical parts of speech for European languages include noun, verb, adjective, adverb, preposition, etc.
3.12
script
set of graphic characters used for the written form of one or
...


International
Standard
ISO 24613-1
Second edition
Language resource management —
2024-01
Lexical markup framework (LMF) —
Part 1:
Core model
Gestion des ressources linguistiques — Cadre de balisage lexical
(LMF) —
Partie 1: Modèle de base
Reference number
© ISO 2024
All rights reserved. Unless otherwise specified, or required in the context of its implementation, no part of this publication may
be reproduced or utilized otherwise in any form or by any means, electronic or mechanical, including photocopying, or posting on
the internet or an intranet, without prior written permission. Permission can be requested from either ISO at the address below
or ISO’s member body in the country of the requester.
ISO copyright office
CP 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Geneva
Phone: +41 22 749 01 11
Email: copyright@iso.org
Website: www.iso.org
Published in Switzerland
ii
Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 1
4 Key standards used by LMF . 3
4.1 Unicode .3
4.2 Language coding .3
4.3 Script coding .3
4.4 Unified modelling language .3
5 The LMF model . 3
5.1 General .3
5.2 Class inheritance and data category selection procedures .4
5.2.1 Class inheritance .4
5.2.2 LMF attributes .4
5.2.3 Data category selection (DCS) .4
5.2.4 User-defined data categories . .4
5.3 LMF core package .4
5.3.1 General .4
5.3.2 LexicalResource class .5
5.3.3 GlobalInformation class .5
5.3.4 Lexicon class .6
5.3.5 LexiconInformation class .6
5.3.6 LexicalEntry class .6
5.3.7 Form class .6
5.3.8 OrthographicRepresentation class .6
5.3.9 GrammaticalInformation class .6
5.3.10 Sense class .6
5.3.11 Definition class .7
5.4 Cross reference (CrossREF) model .7
5.4.1 General .7
5.4.2 CrossREF class .7
5.4.3 CrossREFConstraint class .7
5.5 Methods for data category selection and subclass creation .7
5.5.1 General .7
5.5.2 Generalization.7
5.5.3 Object instantiation .8
5.5.4 Design choices.8
5.5.5 Data categories for orthographic representation .8
5.5.6 Principles for model simplification .9
5.6 LMF extension use .9
5.6.1 General .9
5.6.2 Lexicon comparison.10
Annex A (informative) Data category examples .11
Bibliography . 14

iii
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out through
ISO technical committees. Each member body interested in a subject for which a technical committee
has been established has the right to be represented on that committee. International organizations,
governmental and non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely
with the International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
The procedures used to develop this document and those intended for its further maintenance are described
in the ISO/IEC Directives, Part 1. In particular, the different approval criteria needed for the different types
of ISO document should be noted. This document was drafted in accordance with the editorial rules of the
ISO/IEC Directives, Part 2 (see www.iso.org/directives).
ISO draws attention to the possibility that the implementation of this document may involve the use of (a)
patent(s). ISO takes no position concerning the evidence, validity or applicability of any claimed patent
rights in respect thereof. As of the date of publication of this document, ISO had not received notice of (a)
patent(s) which may be required to implement this document. However, implementers are cautioned that
this may not represent the latest information, which may be obtained from the patent database available at
www.iso.org/patents. ISO shall not be held responsible for identifying any or all such patent rights.
Any trade name used in this document is information given for the convenience of users and does not
constitute an endorsement.
For an explanation of the voluntary nature of standards, the meaning of ISO specific terms and expressions
related to conformity assessment, as well as information about ISO's adherence to the World Trade
Organization (WTO) principles in the Technical Barriers to Trade (TBT), see www.iso.org/iso/foreword.html.
This document was prepared by Technical Committee ISO/TC 37, Language and terminology, Subcommittee
SC 4, Language resource management.
This second edition cancels and replaces the first edition (ISO 24613-1:2019), which has been technically
revised.
The main changes are as follows:
— several changes have been made to Figure 1 “LMF core package”, as follows:
— the OrthographicRepresentation class associations with the Form and Definition classes previously
had a cardinality of 1 to 1, which did not correctly represent the intent of the UML model; the revision
of the cardinality to 1 to 0.* in each case now provides a correct model;
— the type: intern/extern attribute-value pair is no longer included in the CrossREF class since it
described linking processes relevant for implementations, not associations relevant for a metamodel;
— the full names relationship values in the CrossREF class, “synonym/composition” replace the
abbreviations, “syn/compo”;
— the class names in Figure 1 are now harmonized with the LMF style;
— relevant information has been moved from the tables in ISO 24613-2:2020 to Table A.1, meaning that the
latter now contains more complete examples of values and attributes allocated to classes first introduced
in this document.
A list of all parts in the ISO 24613 series can be found on the ISO website.
Any feedback or questions on this document should be directed to the user’s national standards body. A
complete listing of these bodies can be found at www.iso.org/members.html.

iv
Introduction
Optimizing the production, maintenance and extension of electronic lexical resources is one of the crucial
aspects impacting human language technologies (HLTs) in general and natural language processing (NLP) in
particular, as well as human-oriented translation technologies. A second crucial aspect involves optimizing
the process leading to their integration in applications. Lexical markup framework (LMF) is an abstract
metamodel that provides a common, standardized framework for the construction of computational
lexicons. LMF ensures the encoding of linguistic information in a way that enables reusability in different
applications and for different tasks. LMF provides a common, shared representation of lexical instances,
including morphological, syntactic and semantic aspects.
The goals of LMF are:
— to provide a common model for the creation and use of electronic lexical resources ranging from small to
large in scale;
— to manage the exchange of data between and among these resources; and
— to facilitate the merging of large numbers of different individual electronic resources to form extensive
global electronic resources.
The ultimate goal of LMF is to create a modular structure that will facilitate true content interoperability
across all aspects of electronic lexical resources.
[5]
LMF supports existing lexical resource models such as Genelex, the EAGLES International Standard for
[6] [12]
Language Engineering (ISLE), Multilingual ISLE Lexical Entry (MILE) models, Text Encoding Initiative
[10] [9]
(TEI) guidelines, Ontolex and the Language Base Exchange (LBX) serialization together with the US
[7]
Government Wordscape On-Line Dictionary system .
[11]
LMF uses unified modelling language (UML) modelling processes. The LMF core package describes the
basic hierarchy of information of a lexical entry, including information on the word form. The core package
is supplemented by various resources that are part of the definition of LMF. These resources include:
— specific data categories used by the variety of resource types associated with LMF (both those data
categories relevant to the metamodel itself, and those associated with the extensions to the core package
in additional LMF parts. See Annex A for data category examples);
— the constraints governing the relationship of these data categories to the metamodel and to its extensions;
— standard procedures for expressing these categories and thus for anchoring them on the structural
skeleton of LMF and relating them to the respective extension models;
— the vocabularies used by LMF that describe how to extend LMF through linkage to a variety of specific
resources (extensions) and methods for analysing and designing such linked systems.
LMF parts are expressed in a framework that describes the reuse of the LMF core components (such as
structures, data categories and vocabularies) in conjunction with the additional components required for a
specific resource.
The ISO 24613 series is designed to coordinate closely with ISO 16642.

v
International Standard ISO 24613-1:2024(en)
Language resource management — Lexical markup
framework (LMF) —
Part 1:
Core model
1 Scope
This document establishes the core model of the lexical markup framework (LMF), a metamodel for
representing data in monolingual and multilingual lexical resources used with computer applications.
LMF provides mechanisms that allow the development and integration of a variety of electronic lexical
resource types.
2 Normative references
The following documents are referred to in the text in such a way that some or all of their content constitutes
requirements of this document. For dated references, only the edition cited applies. For undated references,
the latest edition of the referenced document (including any amendments) applies.
ISO 639, Code for individual languages and language groups
ISO 15924, Information and documentation — Codes for the representation of names of scripts
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
ISO and IEC maintain terminology databases for use in standardization at the following addresses:
— ISO Online browsing platform: available at https:// www .iso .org/ obp
— IEC Electropedia: available at https:// www .electropedia .org/
3.1
data category
DC
class of data items that are closely related from a formal or semantic point of view
EXAMPLE /part of speech/, /subject field/, /definition/.
Note 1 to entry: A data category can be viewed as a generalization of the notion of a field in a database.
Note 2 to entry: In running text, such as this document, data category names are enclosed in forward slashes (e.g. /
part of speech/).
[SOURCE: ISO 30042:2019, 3.8, modified — admitted term “DC” added.]
3.2
word form
instantiation of a lexeme (3.5) in a syntactic context

3.3
grammatical feature
property associated with a word form (3.2) to describe one of its grammatical attributes
EXAMPLE grammaticalGender.
3.4
lemma
lemmatized form
canonical form
word form (3.2) chosen to represent a lexeme (3.5)
Note 1 to entry: In many European languages, the lemma is usually the singular for a noun if there is a variation
in number, the masculine form if there is a variation in gender and the infinitive for all verbs. In some languages,
certain nouns are defective in the singular form, in which case the plural is chosen. In Arabic, for a verb, the lemma
is sometimes considered as being the third person singular with the accomplished aspect. In other approaches it is
considered as being the root.
3.5
lexeme
abstract unit generally associated with a set of word forms (3.2) sharing common properties, such as
morphologic, morphosyntactic, semantic, or phonetic properties
3.6
lexical resource
lexical database
database consisting of one or several lexicons (3.7)
3.7
lexicon
resource comprising lexical entries for one or several languages
Note 1 to entry: A special language lexicon or a lexicon prepared for a specific natural language processing (3.9)
application can comprise a specific subset of a language.
3.8
multiword expression
MWE
lexeme (3.5) made up of a sequence of two or more lexemes that has properties that are not necessarily
predictable from the properties of the individual lexemes or their normal mode of combination
EXAMPLE “To kick the bucket”, an idiomatic expression which means to die rather than to hit a bucket with one’s
foot. An idiomatic expression is a subtype of MWE whose properties are not predictable from the properties of the
individual lexemes.
Note 1 to entry: An MWE can be a compound, a fragment of a sentence or a sentence. The group of lexemes making up
an MWE can be continuous or discontinuous. It is not always possible to mark an MWE with a part of speech (3.11).
3.9
natural language processing
NLP
computer science field covering knowledge and techniques involved in the processing and analysis of
linguistic data by a computer
3.10
orthography
systematic way of spelling or writing lexemes (3.5) that conforms to a conventionalized use
Note 1 to entry: Usually, the notion of orthography covers standardized spellings of alphabetic languages, such as
standard UK or US English, or reformed German spelling, as well as hieroglyphic or syllabic writing systems. For the
purpose of this document, variations such as transliterations of languages in non-native scripts (3.12), stenographic
renderings or representations in the International Phonetic Alphabet are also subsumed under the notion of
orthography.
3.11
part of speech
lexical category
word class
category assigned to a lexeme (3.5) based on its grammatical properties
EXAMPLE Typical parts of speech for European languages include noun, verb, adjective, adverb, preposition, etc.
3.12
script
set of graphic characters used for the written form of one or more languages
EXAMPLE Hiragana, Katakana, Latin, Cyrillic.
Note 1 to entry: The description of scripts ranges from a high-level classification such as hieroglyphic or syllabic
writing systems versus alphabets to a more precise classification like Roman versus Cyrillic. Scripts are defined by a
list of values taken from ISO 15924.
[SOURCE: ISO/IEC 10646:2020, 3.48, modified — Example and Note 1 to entry have been added.]
4 Key standards used by LMF
4.1 Unicode
LMF is Unicode-compliant and presumes that all data are used according to the Unicode character encoding
...


Norme
internationale
ISO 24613-1
Deuxième édition
Gestion des ressources
2024-01
linguistiques — Cadre de balisage
lexical (LMF) —
Partie 1:
Modèle de base
Language resource management — Lexical markup framework
(LMF) —
Part 1: Core model
Numéro de référence
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2024
Tous droits réservés. Sauf prescription différente ou nécessité dans le contexte de sa mise en œuvre, aucune partie de cette
publication ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique,
y compris la photocopie, ou la diffusion sur l’internet ou sur un intranet, sans autorisation écrite préalable. Une autorisation peut
être demandée à l’ISO à l’adresse ci-après ou au comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 401 • Ch. de Blandonnet 8
CH-1214 Vernier, Genève
Tél.: +41 22 749 01 11
E-mail: copyright@iso.org
Web: www.iso.org
Publié en Suisse
ii
Sommaire Page
Avant-propos .iv
Introduction .vi
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 1
4 Principales normes utilisées par LMF . 3
4.1 Unicode .3
4.2 Codage des langues .3
4.3 Codage des scripts .3
4.4 Langage de modélisation unifié .3
5 Modèle LMF . 4
5.1 Généralités .4
5.2 Héritage de classes et procédures de sélection des catégories de données .4
5.2.1 Héritage de classes .4
5.2.2 Attributs LMF .4
5.2.3 Sélection des catégories de données (DCS) .4
5.2.4 Catégories de données définies par l’utilisateur .4
5.3 Paquetage de base de LMF .4
5.3.1 Généralités .4
5.3.2 Classe LexicalResource.5
5.3.3 Classe GlobalInformation .5
5.3.4 Classe Lexicon .6
5.3.5 Classe LexiconInformation.6
5.3.6 Classe LexicalEntry .6
5.3.7 Classe Form .6
5.3.8 Classe OrthographicRepresentation .6
5.3.9 Classe GrammaticalInformation .6
5.3.10 Classe Sense .7
5.3.11 Classe Definition .7
5.4 Modèle de références croisées (CrossREF) .7
5.4.1 Généralités .7
5.4.2 Classes CrossREF .7
5.4.3 Classe CrossREFConstraint.7
5.5 Méthodes de sélection de catégories de données et de création de sous-classes .7
5.5.1 Généralités .7
5.5.2 Généralisation .8
5.5.3 Instanciation d’objets .8
5.5.4 Choix de conception .8
5.5.5 Catégories de données pour la représentation orthographique .9
5.5.6 Principes de simplification des modèles .9
5.6 Utilisation des extensions LMF .9
5.6.1 Généralités .9
5.6.2 Comparaison de lexiques .10
Annexe A (informative) Exemples de catégories de données .11
Bibliographie . 14

iii
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux
de normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général
confiée aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire
partie du comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (IEC) en ce qui concerne la normalisation électrotechnique.
Les procédures utilisées pour élaborer le présent document et celles destinées à sa mise à jour sont
décrites dans les Directives ISO/IEC, Partie 1. Il convient, en particulier, de prendre note des différents
critères d'approbation requis pour les différents types de documents ISO. Le présent document a
été rédigé conformément aux règles de rédaction données dans les Directives ISO/IEC, Partie 2 (voir
www.iso.org/directives).
L’ISO attire l’attention sur le fait que la mise en application du présent document peut entraîner l’utilisation
d’un ou de plusieurs brevets. L’ISO ne prend pas position quant à la preuve, à la validité et à l’applicabilité de
tout droit de brevet revendiqué à cet égard. À la date de publication du présent document, l’ISO n'avait pas
reçu notification qu’un ou plusieurs brevets pouvaient être nécessaires à sa mise en application. Toutefois,
il y a lieu d’avertir les responsables de la mise en application du présent document que des informations
plus récentes sont susceptibles de figurer dans la base de données de brevets, disponible à l'adresse
www.iso.org/brevets. L’ISO ne saurait être tenue pour responsable de ne pas avoir identifié tout ou partie de
tels droits de propriété.
Les appellations commerciales éventuellement mentionnées dans le présent document sont données pour
information, par souci de commodité, à l’intention des utilisateurs et ne sauraient constituer un engagement.
Pour une explication de la nature volontaire des normes, la signification des termes et expressions
spécifiques de l'ISO liés à l'évaluation de la conformité, ou pour toute information au sujet de l'adhésion de
l'ISO aux principes de l’Organisation mondiale du commerce (OMC) concernant les obstacles techniques au
commerce (OTC), voir www.iso.org/avant-propos.
Le présent document a été élaboré par le comité technique ISO/TC 37, Langage et terminologie, sous-comité
SC 4, Gestion des ressources linguistiques.
Cette deuxième édition annule et remplace la première édition (ISO 24613-1:2019), qui a fait l’objet d’une
révision technique.
Les principales modifications sont les suivantes:
— plusieurs changements ont été apportés à la Figure 1 «Paquetage de base de LMF», à savoir:
— les associations entre la classe OrthographicRepresentation et les classes Form et Definition avaient
précédemment une cardinalité de 1 à 1 qui ne représentait pas correctement l’intention du modèle
UML; la révision de la cardinalité en 1 à 0.* dans chaque cas fournit un modèle désormais correct;
— la paire attribut-valeur de type intern/extern n’est plus incluse dans la classe CrossREF car elle
décrivait des processus d’enchaînement pertinents pour des implémentations, et non des associations
pertinentes pour un métamodèle;
— les valeurs complètes de relation entre les noms dans la classe CrossREF, «synonym/composition»
remplacent les abréviations «syn/compo»;
— les noms de classes de la Figure 1 sont désormais harmonisés au style LMF;
— les informations pertinentes ont été transférées des tableaux de l’ISO 24613-2:2020 dans le Tableau A.1,
ce qui signifie que ce dernier contient désormais des exemples plus complets de valeurs et d’attributs
alloués aux classes d’abord présentées dans le présent document.
Une liste de toutes les parties de la série ISO 24613 se trouve sur le site web de l’ISO.

iv
Il convient que l’utilisateur adresse tout retour d’information ou toute question concernant le présent
document à l’organisme national de normalisation de son pays. Une liste exhaustive desdits organismes se
trouve à l’adresse www.iso.org/fr/members.html.

v
Introduction
L’optimisation de la production, de la mise à jour et de l’extension des ressources lexicales électroniques est
l’un des aspects cruciaux ayant un impact sur les technologies du langage humain (HLT) en général et sur le
traitement du langage naturel (NLP) en particulier, ainsi que sur les technologies de traduction proche du
langage courant. Un second aspect crucial implique l’optimisation du processus conduisant à leur intégration
dans des applications. Le cadre de balisage lexical (LMF) est un métamodèle abstrait qui fournit un cadre
normalisé commun pour la construction de lexiques informatiques. LMF assure le codage des informations
linguistiques d’une manière qui permet de les réutiliser dans différentes applications et pour différentes
tâches. LMF fournit une représentation partagée, commune, d’instances lexicales, y compris les aspects
morphologiques, syntaxiques et sémantiques.
LMF a pour but:
— de fournir un modèle commun pour la création et l’utilisation des ressources lexicales électroniques de
petite à grande échelle;
— de gérer l’échange des données entre et parmi ces ressources; et
— de faciliter la fusion de nombreuses ressources électroniques individuelles différentes afin de former de
vastes ressources électroniques globales.
Le but ultime de LMF est de créer une structure modulaire qui facilitera l’interopérabilité réelle des contenus
à travers tous les aspects des ressources lexicales électroniques.
[5]
LMF prend en charge les modèles de ressources lexicales existants tels que Genelex , ISLE (International
[6] [12]
Standard for Language Engineering) d’EAGLES , les modèles MILE (Multilingual ISLE Lexical Entry) , les
[10] [9]
lignes directrices de la TEI (Text Encoding Initiative) , Ontolex et la sérialisation LBX (Language Base
[7]
Exchange) associée au système Wordscape On-Line Dictionary du gouvernement américain .
[11]
LMF utilise des processus de modélisation du langage de modélisation unifié (UML) . Le paquetage de
base de LMF décrit la hiérarchie de base des informations d’une entrée lexicale, y compris les informations
sur le mot-forme. Le paquetage de base est complété par diverses ressources qui font partie de la définition
de LMF. Ces ressources comprennent:
— des catégories de données spécifiques utilisées par la diversité des types de ressources associés à LMF,
à la fois les catégories de données pertinentes pour le métamodèle lui-même, et celles associées aux
extensions du paquetage de base dans des parties supplémentaires de LMF. Voir l’Annexe A pour des
exemples de catégories de données);
— les contraintes régissant la relation entre ces catégories de données et le métamodèle et ses extensions;
— les procédures normalisées pour exprimer ces catégories et pour les ancrer ainsi au squelette structurel
de LMF et les associer aux modèles d’extension respectifs;
— les vocabulaires employés par LMF pour décrire les possibilités d’extension de LMF par rattachement à
une diversité de ressources spécifiques (extensions) et de méthodes pour analyser et concevoir de tels
systèmes associés.
Les parties de LMF sont exprimées dans un cadre qui décrit la réutilisation des composants de base de LMF
(tels que les structures, les catégories de données et les vocabulaires) conjointement avec les composants
supplémentaires requis pour une ressource spécifique.
La série ISO 24613 est conçue pour être utilisée en coopération étroite avec l’ISO 16642.

vi
Norme internationale ISO 24613-1:2024(fr)
Gestion des ressources linguistiques — Cadre de balisage
lexical (LMF) —
Partie 1:
Modèle de base
1 Domaine d’application
Le présent document établit le modèle de base du cadre de balisage lexical (LMF), un métamodèle permettant
de représenter les données dans des ressources lexicales monolingues et multilingues utilisées avec des
applications informatiques.
LMF fournit des mécanismes qui permettent d’élaborer et d’intégrer une grande diversité de types de
ressources lexicales électroniques.
2 Références normatives
Les documents suivants sont cités dans le texte de sorte qu’ils constituent, pour tout ou partie de leur
contenu, des exigences du présent document. Pour les références datées, seule l’édition citée s’applique. Pour
les références non datées, la dernière édition du document de référence s'applique (y compris les éventuels
amendements).
ISO 639, Code pour les langues individuelles et les groupes de langues
ISO 15924, Information et documentation — Codes pour la représentation des noms d'écritures
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
L’ISO et l’IEC tiennent à jour des bases de données terminologiques destinées à être utilisées en normalisation,
consultables aux adresses suivantes:
— ISO Online browsing platform: disponible à l’adresse https:// www .iso .org/ obp
— IEC Electropedia: disponible à l’adresse https:// www .electropedia .org/
3.1
catégorie de données
DC
classe d’éléments de données étroitement liés d’un point de vue formel ou sémantique
EXEMPLE /partie du discours/, /domaine/, /définition/.
Note 1 à l'article: Une catégorie de données peut être considérée comme une généralisation de la notion d’un domaine
dans une base de données.
Note 2 à l'article: Dans le corps du texte, tel que le présent document, les noms des catégories de données sont encadrés
par des barres de fraction (par exemple /partie du discours/).
[SOURCE: ISO 30042:2019, 3.8, modifié – Le terme admis «DC» a été ajouté.]

3.2
mot-forme
instanciation d’un lexème 3.5) dans un contexte syntaxique
3.3
trait grammatical
propriété associée à un mot-forme (3.2) pour décrire l’un de ses attributs grammaticaux
EXEMPLE grammaticalGender.
3.4
lemme
forme lemmatisée
forme canonique
mot-forme (3.2) choisi pour représenter un lexème (3.5)
Note 1 à l'article: Dans de nombreuses langues européennes, le lemme est généralement le singulier pour un nom
s’il y a une variation en nombre, la forme masculine s’il y a une variation en genre et l’infinitif pour tous les verbes.
Dans plusieurs langues, certains noms n’ont pas de forme au singulier, auquel cas le pluriel est choisi. En arabe, pour
un verbe, le lemme est parfois considéré comme étant la troisième personne du singulier à l’aspect accompli. Dans
d’autres approches, il est considéré comme étant la racine.
3.5
lexème
unité abstraite généralement associée à un ensemble de mots-formes (3.2) partageant des propriétés
communes, telles que des propriétés morphologiques, morpho-syntaxiques, sémantiques ou phonétiques
3.6
ressource lexicale
base de données lexicale
base de données constituée d’un ou plusieurs lexiques (3.7)
3.7
lexique
ressource comprenant des entrées lexicales pour une ou plusieurs langues
Note 1 à l'article: Un lexique linguistique spécial ou un lexique élaboré pour une application spécifique de traitement
du langage naturel (3.9) peut comporter un sous-ensemble spécifique d’une langue.
3.8
expression multi-mot
MWE
lexème (3.5) composé d’une séquence d’au moins deux lexèmes et dont les propriétés ne sont pas
nécessairement prévisibles à partir de celles des lexèmes individuels ou de leur mode de combinaison normal
EXEMPLE «Passer l’arme à gauche», une expression idiomatique qui signifie mourir plutôt que déplacer une
arme. Une expression idiomatique est un sous-type d’expression multi-mot dont les propriétés ne sont pas prévisibles
à partir des propriétés des lexèmes individuels.
Note 1 à l'article: Une expression multi-mot peut être un mot composé, un fragment de phrase ou une phrase. Le groupe
de lexèmes formant une expression multi-mot peut être continu ou discontinu. Il n’est pas toujours possible de baliser
une expression multi-mot avec une partie du discours (3.11).
3.9
traitement du langage naturel
traitement des langues naturelles
NLP
domaine informatique couvrant les connaissances et les techniques utilisées pour le traitement et l’analyse
des données linguistiques par un ordinateur

3.10
orthographe
manière systématique d’épeler ou d’écrire des lexèmes (3.5) selon un usage formalisé
Note 1 à l'article: En général, la notion d’orthographe couvre des écritures normalisées de langues alphabétiques,
telles que l’anglais américain ou britannique traditionnel, ou bien l’orthographe allemande réformée, ainsi que les
systèmes d’écriture hiéroglyphiques ou syllabiques. Pour les besoins du présent document, la notion d’orthographe
sous-entend des variations telles que des translittérations de langues en scripts (3.12) non natifs, des comptes-rendus
sténographiques ou des représentations dans l’alphabet phonétique international.
3.11
partie du discours
catégorie lexicale
classe de mots
catégorie assignée à un lexème (3.5) sur la base de ses propriétés grammaticales
EXEMPLE Les parties types du discours dans les langues européennes comprennent: nom, verbe, adjectif,
adverbe, préposition, etc.
3.12
script
ensemble de caractères graphiques utilisé pour la forme écrite d’une ou plusieurs langues
EXEMPLE L’hiragana, le katakana, le latin, le cyrillique.
Note 1 à l'article: La description des scripts va d’une classification de haut niveau telle que les systèmes d’écriture
hiéroglyphiques ou syllabiques par rapport aux alphabets, jusqu’à une classification plus précise telle que le romain
par rapport au cyrillique. Les scripts sont définis par une liste des valeurs extraites de l’ISO 15924.
[SOURCE: ISO/IEC 10646:2020, 3.48, modifié — L’exemple et la Note 1 à l’article ont été ajoutés.]
4 Principales normes utilisées par LMF
4.1 Unicode
LMF est conforme à Unicode et suppose que toutes les données sont utilisées conformément aux codages des
caractères Unicode spécifiés dans l’ISO/IEC 10646.
4.2 Codage des langues
Les identifiants de langues utilisés dans les ressources conformes à LMF doivent satisfaire aux critères
spécifiés dans l’ISO 639. Plusieurs problèmes impliquant la combinaison du code de langue et du code de
pays ont été traités dans des normes externes soutenues par la communauté technologique. Il convient de
[8]
consulter l’édition actuelle des meilleures pratiques courantes (BCP) 47 de l’IETF .
4.3 Codage des scripts
Lorsque le code de script n’est pas inclus dans l’identifiant de langue, les identifiants de scripts doivent être
conformes aux critères spécifiés dans l’ISO 15924.
4.4 Langage
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...