ISO/TR 4870:1991
(Main)Acoustics — The construction and calibration of speech intelligibility tests
Acoustics — The construction and calibration of speech intelligibility tests
Describes: a) the methods for the construction of speech tests for the measurement of the intelligibility of transmitted speech; b) a reference communication system and the necessary test conditions.
Acoustique — Élaboration et étalonnage des tests d'intelligibilité de parole
General Information
- Status
- Withdrawn
- Publication Date
- 17-Dec-1991
- Withdrawal Date
- 17-Dec-1991
- Technical Committee
- ISO/TC 43/SC 1 - Noise
- Drafting Committee
- ISO/TC 43/SC 1 - Noise
- Current Stage
- 9599 - Withdrawal of International Standard
- Start Date
- 27-May-2010
- Completion Date
- 14-Feb-2026
Relations
- Effective Date
- 10-Feb-2026
- Effective Date
- 10-Feb-2026
Buy Documents
ISO/TR 4870:1991 - Acoustics -- The construction and calibration of speech intelligibility tests
ISO/TR 4870:1991 - Acoustique -- Élaboration et étalonnage des tests d'intelligibilité de parole
ISO/TR 4870:1991 - Acoustique -- Élaboration et étalonnage des tests d'intelligibilité de parole
Get Certified
Connect with accredited certification bodies for this standard

NSF International
Global independent organization facilitating standards development and certification.
CIS Institut d.o.o.
Personal Protective Equipment (PPE) certification body. Notified Body NB-2890 for EU Regulation 2016/425 PPE.

Kiwa BDA Testing
Building and construction product certification.
Sponsored listings
Frequently Asked Questions
ISO/TR 4870:1991 is a technical report published by the International Organization for Standardization (ISO). Its full title is "Acoustics — The construction and calibration of speech intelligibility tests". This standard covers: Describes: a) the methods for the construction of speech tests for the measurement of the intelligibility of transmitted speech; b) a reference communication system and the necessary test conditions.
Describes: a) the methods for the construction of speech tests for the measurement of the intelligibility of transmitted speech; b) a reference communication system and the necessary test conditions.
ISO/TR 4870:1991 is classified under the following ICS (International Classification for Standards) categories: 13.140 - Noise with respect to human beings. The ICS classification helps identify the subject area and facilitates finding related standards.
ISO/TR 4870:1991 has the following relationships with other standards: It is inter standard links to EN 60268-16:1998, EN 60268-16:2003. Understanding these relationships helps ensure you are using the most current and applicable version of the standard.
ISO/TR 4870:1991 is available in PDF format for immediate download after purchase. The document can be added to your cart and obtained through the secure checkout process. Digital delivery ensures instant access to the complete standard document.
Standards Content (Sample)
ISO
TECHNICAL
TR 4870
REPORT
First edition
199 l-1 2-l 5
-------m----e
Acoustics - The construction and calibration of
Speech intelligibility tests
Acoustique - l?iaboration et etalonnage des tests d ’intelligibilite de
Parole
--
---I_ --
-- .----
--- ----~-_ ----.--.----- ----- - -.-.- ---m--w----
~---
--.-----
-.- -~
--- --
Reference number
---- ---
----_-__.- .___ -__--. _- lSO/TR 4870: 1991 (E)
_._-. ._._ _ __ _ _. ._-
Foreword
ISO (the international Organization for Standardization) is a worldwide
federation of national Standards bodies (ISO member bodies). The work
of preparing International Standards is normally carried out through ISO
technical committees. Esch member body interested in a subject for
which a technical committee has been established has the right to be
represented on that committee. International organizations, govern-
mental and non-governmental, in liaison with ISO, also take part in the
work. ISO collaborates closely with the International Electrotechnical
Commission (IEC) on all matters of electrotechnical standardization.
The main task of technical committees is to prepare International Stan-
dards, but in exceptional circumstances a technical committee may
propose the publication of a Technical Report of one of the following
types:
- type 1 hen the required support cannot be obtained for th
,w e publi-
cation of an I nternational Standard despite repeated efforts;
- type 2, when the subject is still under technical development or
where for any other reason there is the future but not immediate
possibility of an agreement on an International Standard;
- type 3, when a technical committee has collected data of a different
kind from that which is normally published as an International Stan-
dard ( “state of the art ”, for example).
Technical Reports of types 1 and 2 are subject to review within three
years of publication, to decide whether they tan be transformed into
International Standards. Technical Reports of type 3 do not necessarily
have to be reviewed until the data they provide are considered to be no
longer valid or useful.
ISO/TR 4870, which is a Technical Report of type 3, was prepared by
Technical Committee ISO/TC 43, Acoustics.
lt contains data which are valuable in Speech intelligibility testing, but
it is not expected to become an International Standard.
Annexes A and B of this Technical Report are for information only.
0 ISO 1991
All rights reservecf. No part of this publication may be reproduced or utilized in any form
or by any means, electronie or mechanical, including photocopying and microfilm, without
Permission in writing from the publisher.
International Organization for Standardization
Case Postale 56 l CH-1211 Geneve 20 l Switzerland
Printed in Switzerland
ISWTR 4870:1991 (E)
Introduction
A variety 03' perccptual tests have becii dcveloped i n thc pst for
thc assessment of the intelligibility of Speech communications as affected
by spectral, amplitude, and temporal distortions of the Speech Signal and
by noise that arises from or in the acoustical, electrical (if any), and
ear receptor path used for transmitting and transducing Speech from a
talker to a listener. The principal tests developed for this purpose have
been called Speech intelligibility tests and will be later defined in detail.
Beyond factors related to the talkers, listeners, and a given commun-
ication System, there are two factors common to all Speech intelligibility
tests that have a significantinfluence on the scores obtained from a test
evaluation.
These two common factors are: the Speech material employed
(1)
in the tests, and
(2) for a given type of Speech material, the total number
of-alternative members of that material the listeners expect to be presented
during a test. Without some knowledge about the contribution of these two
factors to the scores obtained on a given Speech intelligibility test
meaningful comparisons and interrelations ca t be made with respect to the
nno
test s ‘cores obtained in different investigat ion s of Speech intelligibility.
It is the purpose of this document to standardize fundamental methods
for the construction and calibration of Speech intelligibility tests in ways
that reveal the contributions to the test scores of the two common factors
Also, illustrative examples of recommended types of Speech
mentioned above.
test materials possibly suited for such purposes as Speech audiometry, the
or an electro-acoustic transmission System are
evaluation of room acoustics,
given.
The communication of thoughts and concepts through spoken languages
is a broad and complex Operation that is influenced by many other factors
than the intelligibility based on the perception of acoustical features of
the Speech Signal. However, the basic feature of Speech communication is an
acoustical Signal, and the greater the understanding of the Speech derivable
from perceptions of certain acoustical relations within the Signals, the more
effective and general tan be the communication process, Intelligibility tests
are aimed at the evaluation of the ability of a communication System or
component,
including the auditory mechanism of a listener, to effectively
transmit basic acoustical information that is instrumental to the correct
perception of Speech.
This page intentionally ieft blank
TECHNICAL REPORT
Acoustics - The construction and calibration of Speech
intelligibility tests
SCOPE
1.
1.1 The present document is concerned with the description of:
(a) methods for the construction of Speech tests for the '-
measurement of the intelligibility of Speech transmitted
by an analog or combination analog and digital communi-
cation System;
(b) a reference communication System and test conditions
'.
necessary to the development, calibration, and inter-
pretation of the results of standardized intelligibility
tests.
1.2 The description of specific Speech tests and related test pro-
cedures and measurements that are most appropriate for a give,n test
application arc beyond the scope of this document.
DEFINITIONS FOR PRESENT PURPOSES
2,
2.1. Speech Sound
These
A Speech Sound is the smallest identified unit of Speech.
units of Speech tan be categorized into two general classes known
Consonants that are, on occasion,
as vowels (V) and consonants (C).
used as vowels in forming syllables of Speech will, for purposes of '
be classified and included under
this document on those occasions,
the label V.
2.2 Syllable
A syllable is a pronounceable unit of Speech consisting of a vowel
or a -combination of a vowel with one or more consonants.
2.3 Polvsvllable
" w
c
A polysyllable is a series of more than one syllable pronounced with
liaison between syllables.
ISWTR 4870:1991 (E)
Werd
2.4
A werd is a n~nosvl 1;lbic or polys~ll:~bic uni t o i' Speech that has
. .
an accepted me:lning t;o the lis tencrs.
2.5 Logatom
A logatom is a monosyllabic or polysyllabic unit that has no
meaning to the listeners.
2.6 Test Sound
r\ particular Speech Sound to be used in accordance to defined rules
to form test items.
Test Item
2.7
A particular monosyllabic or polysyllabic logatom, or word,to be
used in accordance with defined rules for intelligibility measure-
ments.
2.8 Set of Test Sounds
The particular test Sounds that have been taken from the total
set of possible (in a certain language) or given (according to
major frequency in a certain language or according to certain rules)
Sounds, to form test items, The set of test Sounds often is sub-
divided,dependent on the Position of the proper test Sound in the
test itcm,into sets of initial, central, and final test Sounds.
Set of Test, Items
2.9
The particular logatoms or words that have been selected according
to defined rules from the total amount of possible or given logatoms
or words to be used for intelligibility measurements.
2.10 Subset Item
A Speech Sound, logatom, orword,. to be used in accordance with defined
.
ruies for intelligibility measurements.
2.11 Phonemic Structure of Speech
Phonemic structure refers to the relative frequency of occurrence of
different Speech Sounds and their positions relative to other Speech
soundsl in the syllables and words of a certain language.
2.12 "Phonetically Balanced" Lists
So called "phonetically balanced" (correct definition: phonemically
balanced) lists are achieved when each list contains about the Same
proportion of the various classes or types of Speech Sounds as are
ISCVTR 4870:1991 (E)
found to be, or presumed to be, present in specified Speech communi-
cation with a given language.
c
2.13 Test List
.
A number of specially selected test items presented and scored as a
Single test. Typically, for open or pseudo-open test lists, a
relatively large set of items is divided into a number of lists each
containing an equal number of test items. Typically for the closed-
set lists a number of subset ensembles are grouped together on one
list.
2.14 Open Test List
Open lists of test items are made of items drawn randomly from the
total set each time a list of test items is to be presented to
listeners. Typically a listener writes on an answer sheet each test
item the listener believes was presented.
Note:
In Order to insure that the phonemic structure in the total
set appears properly in the test lists, it is necessary not
to replace the items drawn randomly for one test list back
into the total set of items Prior to the random selection of
items for succeeding lists.
2.15 Pseudo-open Test List
Pseudo-open lists of test items are made of items drawn on the basis
of some specified set of phonemic rules, from the total set of items.
The groupings of items within each test list, but not their sequential
Order, thus drawn is maintained for successive uses of the lists.
Typically, a listener writes on an answer sheet each testitem the
listener believes was presented.
2.16 Repeat Test Items
Items within each open and pseudo-open test lists that are presented
more than once within a list.
2.17 Pseudo-open List Scrambling
test 1iSt arc reordered On a
The items assigned to each pseudo-open
random basis within each scrambling of each test list, to provide a
number of sequences of items for each test list which are novel, or
seem to be novel, to the listeners.
2.18 Closed-Set List
Closed ensembles of the Order of 2 to 10 items per subset, are dis-
played visually to listeners during the test.
One itkm of each sub-
set is presented acoustically to the listener during a test, at which
ISCVTR 4870:1991 (E)
. . time the listener indicates, typically by a check mark on an- answer
sheet, which item of the visually displayed subsets involved was most
probably presented acoustically.
Note:
.
The subset ensemble is characterized by one Speech Sound that is the
nucleus of every test item in it.
All the test items in a given
ensemble are initiated (or terminated) by the Same Speech Sound and
are terminated (or initiated) by different Speech Sounds.
2.19 Apparent Message Set Size
Apparent message set size refers to the number of alternative answers
(to the presented items) presumed by a listener to be available as
possibly correct answers to each item presented during an intelligibility
test on the basis of the listener's knowledge of the total number of test
items available to the speaker for presentation.
2.20 Real Message Set Size
Real message set size refers to the number of possible alternative
answers by a listener to each item presented during an intelligibility
test on the basis of the total number of items having audible phonemic
similarities with each test items and which are within the set of test
items available to the speaker for presentation.
2.21 Intelligible Speech Sound, Logatom, or Werd
A Speech Sound logatom or word is defined as being intelligible
when it is correctly perceived by a listener,
,
2.22 Percent Speech Intelligibility
Percent Speech intelligibility is the percentage of items on a list
correctly identified by a listener or group of listeners corrected
for Chance identifications dictated by
the number of alternative answers per item available to the listener.
This number is taken for the open or psetido-open test lists to be the
number of items in the total message set from which the test lists are
drawn'; for the small closed set lists, this number is taken to be the
_ number of subset items or alternatives in a sub-set (note, not list size).
In formula this tan be expressed as follows:
W
Iin%=- (R 1
T -N-l
where T is the number of items in test and N is number of alternatives
to each item. R is number of items right, W the number wrong. The
last term is the correction for Chance in item identification.
ISB/TR 4870:1991(E)
. .
. Note 1:
By Chance is meant that the listener is able to correctly
guess a certain number of test items inasmuch as the listener
knows, because of treining or test formst,. the identity .of
all the possible alternative answers for each test item Pre-
sented. For example,
if the message-set consists of but 5
words, the listener would, on the average, Score one out of
five correct, or 2QO/c, merely by guessing the identity of each
test item.
Note 2: Under good listening conditions and high intelligibility
scores, the size of the real,
as opposed to the apparent
set size 0 f open or pseudo-open test list forma t, is of minor
concern, b ecause , as reflected in the last term of the formula
for calculating percent Speech intelligibility, the correction
for Chance is negligible when most items are correctly per-
As the listening conditions and, accordingly, the
ceived.
intelligibility scores are degraded, the real message set size
approaches the apparent size; i.e., the number of alternative
responses is perceived as being much larger in number than is
the case under good listening conditions. For tests in which
C~W number of qparent alternative ans~ers to cach test
itclll prescntcd to the listener is greatcr thcl.n about 50;
the correction for Chance becomes negligible and percent
Speech intelligibility tan be taken as the percent items
correct on a test.
Example 1. If there are 50 test items on an open or pseudo open
test list with each item having 1000 alternatives
and 26 of the 50 test ittims were answered correctly
and 24 of the items were answered incorrectly, the
percent of Speech intelligibilitv would be 52%.
(109/50 (26 - 24/1000)= 51.952% ., or, to round Off,
52%)
Example 2. If there are 50 small-closed set test items each consisting
of 5 alternative subset items, and 26 of the 50 test
items were answered correctly and 24 of the items were
answered incorrectly, percent Speech intelligibility
would be 40%,(100/50 (26 - 24/4) = 40%.)
2.23 Carrier Sentence or Phrase
A sentence or Phrase of at least 4 words and that contains a test
item but such that the correct understanding of the test item is not
dependent upon the context or meaning*of the sentence in which it
1 it embedded.
Note 1: The purpose of the carrier sentence is to provide: (1)
the talker with means of enunciating the words in a natura1
manner and a controlled and measurable level of effort;
(2) a regular temporal Separation of test items of suf-
ficient duration to permit listeners to decide and record
ISCVTR 4870:1991(E)
their answers to each perceived test item; .and (3) ‘to pro-
vide a
"steady" stream of Speech Sounds that would be
natura1 and necessary to provide Operation of certain
electronie devices, such as automatic gain controls, and/or
the acoustic reverberations that would be present in a room.
Note 2: An example of an English carrier sentence used in some Speech
intelligibility tests is "You will mark (or write) '(test
item) now," It is important that the Speech Sound immedi-
ately preceding the test items be pronounceable without
liaison withthe test items, otherwise a variable inter-
action between that Sound and different test items will
occur and influence the perception of the test item,
2.24 Vocal Effort of Talker in Terms of Measured Sound Level of Speech
The vocal effort used by the talker in a Speech intelligibility test
is measured in terms of the arithmetic average of the maximum Sound
level reached during each of the test items, or the words of the
carrier Phrase,
respectively (see 3.7 below). The Sound pressure
level will be A-weighted and measured with a Sound level meter complying
with IEC 651 type 1, set on S characteristic and observed at, or referred
to, a Point 1 meter in front of, and level with, the talker's
lips when speaking in a free-field, or effective (in terms of there
being no adverse reverberation effects on the understandability of -
the Speech) free-field being present at that Position.
2 25 .
Rate of Talking
. . .
The carrier sentence or Phrase and the test items will be uttered by
the talker in a normal fashion. Normally continuous Speech is uttered
at a rate of approximately 5 syllables per second.
2.26 Idealized Speech Spectrum
Figure 1 Shows the idealized spectrum level of male voices at the level
typical for
everyday talking and listening conditions.
Note: The average of the maxima SPL, A-weighted, slow meter,
Per
word of conversation typically equals 65 dB at one meter *
in front of the talker in a business Office environment I
and 55 dB for conversations in the home.
#
2.26.1 Table of Idealized Speech Spectrum
The spectrum level relative to 400 Hz of the idealized Speech shown
in Fig. 1 is as follows at the frequencies specified.
125 Hz -6.0 dB
-1.0 dB
250 Hz
400 Hz 0 dB
500 Hz +0.5 dB
1000 Hz -10.0 dB
2000 Hz -22.0 dB
4000 Hz -34.0 dB
6300 Hz -43.0 dB
CP
IDEALliEDvSPFECH SPECTRUM-MALE VOICES.
a
TRUE LONG TERM rms LEVEL OVERALL
c
AND APPROXIMATE AVERAGE MAXIMUM -
-Pl
k
SPL PER \vORD, A-WEIGHTED, SLOW-METER
- a,
rdx ,
EQUALS 65, dß.
8 I
'LIrd 4o
c,
m E
-
0 20
-
:ti
hk 0
2s
3 Q)
Q) E
4 -20
SPECTRUM
g
k
LEVEL OF THE THRESHOLD OF
-IJ
-
-40
- AUDIBILITY FOR SOUNDS HAVING
iii
-
- CONTINUOUS SPECTRA
1 I l IIIIII I I 11.1,
L
-60
2 3 4 5 6 789 2 3 4 56789
,
100 1000 10,000
FREQUENCY IN Hz
FIGURE 1 IDEALIZED SPEECH SPECTRUM AND SPECTRUM LEVEL OF
AUDIBJLITY FOR CONTINUOUS SPECTRA SOUNDS. SPEECH
LEVEL SHOWN IS FOR TYPICAL EVERYDAY LISTENING
.
AND TALKING CONDITIONS AND IS ABOUT 10 dB HIGHER
THAN T-HE LEVEL FOUND UNDER QUiET CONVERSATIONAL
.
CONDITIONS.
The sWch spectrum shown by the soiid, to 2500 Hz and dashed
line above 2500 Hz
has been incorporated into a Standard.
for the cakulation of the Articulation Index (Ref. 1) . The solid CUve
from 125 10 6300 Hz is dcemed to be more proper on thc basis of
wem Studies IRef. 2) and is the idealized Speech spect;rum
recormnenckd fm- present purposes.
Speech Level at the Listeners' Ears
2.27
The Speech level with no noise present and with earphone listening
is to be expressed as the arithmetic average of the maximum Sound
levels (frequency weighted A, time weighted S) reached during each
test time.
This level is to be estimated from coupler calibrations
as specified in IEC Publication 318.
Speech-shaped Masking Noise
2.28
Speech-shaped masking noise is defined as random white noise filtered
such that its spectrum level falls within + 1 dB over the frequenoy
r-ge of 125 to 6300 HZ of the idealized Speech spectrum for male
1 and the values shown
voices shown by the upper solid curve in Fig.
in table of 2.26.1, except that this will fall Off at the rate of at
least 6 dB below 125 Hz and above 6300 Hz.
Chis spectrm shape tan be approximated with a third
Note i:
Order filter.
ISCVTR 4870:1991 (E)
Note 2:
One purpose of this definition is to provide a noise
spectrum that is somewhat representative of ehe everyday
real-life noises, including the babble of many voices,
that often interfere with Speech cormnunications.
Note 3: A second purpose of using a Speech-shaped masking noise
is that it equally interferes, on a temporal-average
basis,
with speech in all regions of the acoustical
spectrum.
2.29 Noise Level at the Listeneu& Ears .
The noise level, with no Speech present and with earphone listening
is to be expressed as the arithmetic average of Sound levels (A-
weighted, slow meter Action) reached during the moments when each
test item would be present. This level is to be estimated from
Standard coupler calibrations as specified in IEC P&lication 318,
2.30 Speech-to-Noise Ratio .
Speech-to-noise ratio is the numcrical differente between the Sound
level of the Speech Signal compared to the Sound level of the noise
when each are measured separately and at or referred to the Same
acoustical or electrical Point in a communication System.
2.31 Non-distorting Reference Speech Transmission System
For present and practical purposes a transmission System will be deemed
free of any significant distortion effects upon the transmitted Speech
Signal when: (1) its frequency response characteristics are uniform
(+ 2 dB) over the frequency range of 125 to 6300 Hz; (2) the noise
floor, on a spectrum level basis, is at least 40 dB below the spectrum
level of undistorted Speech at all frequencies from 125 to 6300 Hz for
the Speech at its average A-weighted Sound pressure level, slow meter
action (see 2.27 and 2.28 above); and (3) harmonic distortion does
not exceed 1% with pure-tone input Signals at frequencies from 125 to
6300 Hz at input levels, A-weighted, that exceed by up to 18 dB the
input Speech Signal. This reference transmission System is to be
capable of 50 dB linear dynamic range with Signal and noise each
measured on a spectrum level basis and providing Speech to the listener's
ears at a Sound level of 65 dB, as defined in 2.27 above.
3. RECOMMENDED TYPES OF TEST MATERIALS AND PROCEDURES FOR THEIR
PREPARATION AND CALIBRATION
3.1 Larqe Set Tests
One type of intelligibility test recommended for evaluating the
effectiveness of Systems used for normal Speech communication
requires the use of a set of at least 1000 meaningful words or at
least 6SO logatoms presented for conducting the test under several
test conditions. It is recommended that the Chosen large set of
items be separated into pseudo-open lists of at least 50 items each,
each list should contain the Same number of each type of phonemes
in similar positions in the words or logatoms and in about the Same
Overall proportions as tan be best estimated, and achieved with the
ISWTR 4870:1991 (E)
Chosen test items,
for the everyday Speech of the lariguage. Esch
list should contain at least one item that is presented more than
once within the list-
Note 1: Because of differentes among languages with respect to the
relative number of monosyllabic and polysyllabic words
occurring in the language,
it is not feasible to recommend
that only one type of syllabic structure (monosyllabic or
polysyllabic) 'be utilized in the construction of these
tests.
Note 2: The choice as to whether open-Set or pseudo-open set test
lists are to be cönstructed for a given test Situation
depends on how carefully the user wishes to maintain balance
in the test evaluation,
the number of Systems or variables
to be evaluated, and the amount of testing time or expense that
tan be devoted to the test evaluation.
Small Closed-Sets
A second type of test recommended for Speech intelligibility utilizes
the small closed-set fonnat. In this format test items are organized
into lists of small subsets (the subset size tan vary for different
test materials, typically ranging from 2 to 10 alternatives) in which all
and always at the Same Position within
but one of the Speech Sounds,
the syllable, is varied. It is recommended that the number of Chosen
small closed subsets be sufficiently large to test all, or nearly all,
consonantal types, and syllabic positions, with at least several dif-
ferent vowels, and that each subset contain as many alternative response
answers as feasible.
Note 1: This test format tan be responded to easily by the listener
because the subsets tan be visually displayed so that the
listener merely Checks or indicates which item of the
visually displayed subsets the listener thinks corresponds
to the item presented audibly.
Note 2: As a result of the forced choice format with the displayed
answers available to the listeners, th& training time is a
matter of but a few minutes before Performance reaches a
level that remains consistent, with a given communication
System and test conditions, for an indefinite period of time
for each listener. Accordingly, the test-retest reliability
is very good.
Note 3:
It is to be noted that the small message set format permits
one to readily identify the confusions that occur among the
phonemes and that this information is sometimes of value in
the diagnosis of the ability of a Speech communications
System to transmit specific phonemic characteristics of Speech.
ISCVTR 4870:1991(E)
3.3 Calibration Function with Reference System and Masking Noise
For present purposes, the relation between percent Speech intelligi-
bility test scores and signal-to-noise ratios at the listeners' ears,
is to be called a "Speech intelligibility test calibration functi&".
It is recommended that the reference transmission System defined in
Paragraph 2.31, the noise defined in 2.28 and the Speech as defined
in 2.26, be used as the Standard for the calibration of all Speech
intelligibility tests.
3.4 Noise Mixing
The noise is to be electrically mixed with the Speech Signal Prior to
its transduction to an acoustical ferm for presentation to the listener,
The Speech will be presented at a level of 65 dB (see 2.27') and the
e
noise for different tests,
at levels of 71, 65, 59, 53 and 47.dB, or
Speech-to-noise ratios of -6, 0, +6, +12, and +18 dB (see 2.30). A
schematic block diagram of this reference calibration test System is
given in Figure 2.
Talker
3.5
The training and tests will be conducted with at least one male and
one female talker, each having Speech deemed by test or expert
opinion to be typical of a given nationality and language.
3.6 Recording of Tests
The tests will be recorded with the talker in a part of the field in
which the reverberant Sound is neglig
...
ISO
RAPPORT
TECHNIQUE TR 4870
Première édition
1991-12-15
------~ w-e---
-------
Acoustique - Élaboration et étalonnage des
tests d’intelligibilité de parole
Acoustics - Tl7e construction and calih-ation of speech intelligibility
îests
Numéro de référence
ISO/TR 4870: 199 1 (F)
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fiJdération
mondiale d’organismes nationaux de normalisation (comités membres
de I’ISO). L’élaboration des Normes internationales est en général
confiée aux comités techniques de I’ISO. Chaque comité membre inté-
ressé par une étude a le droit de faire partie du comité technique créé
à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec I’ISO participent également aux tra-
vaux. L’ISO collabore étroitement avec la Commission électrotechnique
internationale (El) en ce qui concerne la normalisation électrotech-
nique.
La tâche principale des comités techniques est d’élaborer les Normes
internationales, mais, exceptionnellement, un comité technique peut
proposer la publication d’un rapport technique de l’un des types sui-
vants:
- type 1, lorsque, en dépit de maints efforts, l’accord requis ne peut
être réalisé en faveur de la publication d’une Norme internationale;
- type 2, lorsque le sujet en question est encore en cours de dévelop-
pement technique ou lorsque, pour toute autre raison, “a possibilits
d’un accord pour la publication d’une Norme internationale peut être
envisagée pour l’avenir mais pas dans l’immédiat;
- type 3, lorsqu’un comité technique a réuni des donnkes de nature
différente de celles qui sont normalement publiées comme Normes
internationales (ceci pouvant comprendre des informations sur l’état
de la technique, par exemple).
Les rapports techniques des types 1 et 2 font l’objet d’un ncruvel examen
trois ans au plus tard après leur publication afin de dcicider éven-
tuellement de leur transformation en Normes internationales. Les rap-
ports techniques du type 3 ne doivent pas nécessairement être révisés
avant que les données fournies ne soient plus jugées valables ou utiles.
L’ISO/TR 4870, rapport technique du type 3, a été élaboré par le comité
technique ISO/TC 43, Acoustique.
II contient des données qui peuvent être évaluées par des tesls d’intel-
ligibilité de parole mais n’est pas prevu d’être transformé en Norme
internationale.
Les annexes A et B du présent Rapport technique sont données uni-
quement à titre d’information.
0 ISO 1991
Droits de reproduction réservés. Aucune partie de cette publication ne peut être repro-
duite ni utilisée sous quelque forme que ce soit et par aucun procédé, élwlronique ou
mécanique, y compris la photocopie et les microfilms, sans l’accord kwit de Gditcur.
Organisation internationale de normalisation
Case Postale 56 + CH-121 1 Genève 20 * Suisse
Imprimé en Suisse
ii
ISO/TR 4870:i 991 (F)
Introduction
Divers tests perceptifs ont été élabores par le passé en vue d'évaluer
affectée par les distorsions
l%ntelligibilité des communications orales,
spectrales, temporelles et dkmplitude du signal de parole ainsi que par
les bruits apparaissant lors de la transmission acoustique et du codage
electrique (le cas échéant), et auditifs de la parole d'un locuteur & un
auditeur. Les principaux tests établis a cet effet sont appelés tests
d'intelligibilité de parole et seront définis ultérieurement de manière
détaillée.
aux auditeurs et a un système
En dehors des facteurs lies aux locuteurs,
deux facteurs sont communs a tous les tests
donne de communication,
d'intelligibilité de parole et ont une influence importante sur les
Ces deux facteurs communs sont : (1) le matériau
résultats obtenus.
vocal,
et (21, pour un type donné de matériau vocal,
le nombre total de
différents éléments de ce matériau que les auditeurs s'attendent à se voir
présenter au cours de l'essai.
Sans une certaine connaissance de l'influence
de ces deux facteurs sur les résultats d'un test donné d'intelligibilité de
parole, il n'est pas possible d'établir de comparaisons ni de relations
significatives entre les résultats des tests obtenus dans différentes
recherches sur l'intelligibilité de la parole.
Le présent document a pour objet de normaliser des méthodes fondamentales
d'élaboration et d'étalonnage des tests d*intelligibilite de parole qui
mettent en évidence les contributions des deux facteurs communs mentionnes
ci-dessus aux résultats de tests. Le document donne également des exemples
illustratifs des types de matériaux vocaux recommandes par les tests pouvant
éventuellement convenir pour des besoins tels que ceux de l'audiométrie
vocale, de l%aluation de l'acoustique d'une salle ou d'un système de
transmission électro-acoustique.
La communication de pensées et de concepts par le moyen des langues parlées
constitue une opération vaste et complexe, est influencée par de
qui
nombreux facteurs autres que de lfkt,elligibili$é, fondée sur la per-
ception des caractéristiques acoustiques du signal vocal. Néanmoins, la
caractéristique fondamentale de la communication parlée est un signal
acoustique, et plus la compréhension de la parole dérivée des perceptions
de certaines relations acoustiques dans les signaux est grande, plus le
processus de communication peut être efficace et complet. L'objet des
essais d'intelligibilité est d'évaluer l'aptitude d'un système de communication
ou d~kn de ces 6léments, y compris l'appareil auditif de l'auditeur, à
transmettre de manière efficace l'information acoustique de base qui
contribue à la perception correcte de la parole.
IC
RAPPORT TECHNIQUE ISO/TR 4870:1991 (F)
Acoustique - Élaboration et étalonnage des tests
d’intelligibilité de parole
1 OBJET
1.1 Le présent document traite de la description :
(a) des méthodes d'élaboration d'essais vocaux pour mesurer l*intelligi-
bilité de la parole transmise par le moyen d'un système de communi-
cation analogique ou par un système combiné analogique et numérique.
(b) d'un système de communication de référence et des conditions d'essai
nécessaires pour l'élaboration, l'étalonnage ainsi que l'interprétation
des résultats de tests normalisés d'intelligibilité.
1.2 La description d'essais vocaux particuliers ainsi que des procédures
de test correspondanteset des mesures convenant le mieux pour l'appli-
cation d'un test donné, ne fait pas partie du domaine d'application
de ce document.
2 DEFINITIONS APPLICABLES DANS LE PRESENT DOCUMENT
2.1 Phonème
Un phonème est la plus petite unité de parole identifiée. Ces unités de
parole peuvent être classées en deux classes générales, appelées voyelles
(V) et consonnes (C). Les consonnes occasionnellement utilisées en tant
que voyelles pour former des syllabes seront, dans ce cas, pour les besoins
de ce document, classées et incluses dans la catégorie V.
2.2 Syllabe
Une syllabe est une unité de parole prononçable composée d'une voyelle
OU d'une combinaison d'une voyelle et d'une ou plusieurs consonnes.
2.3 Polysyllabe
Une polysyllabe est une série de plus d'une syllabe prononcée en liant
les syllabes.
2.4 Mot
Un mot est une unité monosyllabique ou polysyllabique de parole ayant une
signification reconnue pour les auditeurs.
2.5 Logatome
Un logatome est une unité monosyllabique ou polysyllabique n'ayant pas de
signification pour les auditeurs.
2.6 Son test
particulier devant être utilisé conformément à des règles définies
Phonème
pour former.des éléments d&:test (item test).
2.7 Elément de test (item test)
Logatome ou mot monosyllabique ou polysyllabique, devant être utilisé
d'intelligibilité.
conformément à des règles définies pour les mesures
2.8 Corpus'de sons tests
Sons tests particuliers qui ont été choisis, dans la série totale de sons
possibles (dans une certaine langue) ou donnés (conformément à leur plus
grande fréquence dans une certaine langue ou conformément à certaines règles),
tests est souvent
en vue de former des éléments de test. La série de sons
test
particulier dans l'élément de test,
subdivisée, selon la position du son
en séries à sons tests initiaux 9 centra= ou finaux.
2.9 Corpus d'éléments de test
Logatomes ou mots particuliers, choisis conformément à des règles définies
dans le nombre total des logatomes ou des mots possibles ou donnés, en vue
de leur utilisation pour les mesures d'intelligibilité.
2.10 Elément de sous ensemble
logatome ou mot, devant être utilisé conformément à des règles
Phonème,
définies pour les mesures d'intelligibilité.
2.11 Structure phonémique de la parole
La structure phonémique concerne la fréquence relative d'occurence de
divers phonèmes ainsi que leurs positions relatives par rapport à d'autres
phonèmes, dans les syllabes et les mots d'une certaine langue.
2.12 Listes "phonétiquement équilibrées"
On obtient des listes dites "phonétiquement équilibrées" (définition correcte :
phonémiquement équilibrées) lorsque chaque liste contient environ la même
proportion des diverses classes ou types de phonèmes qui sont, ou sont
supposés être, présents dans une communication parlée particulière dans une
certaine langue.
2.13 Liste de -test
Eléments de test spécialement choisis, présentés et e-values
comme
constituant un seul test. Pour les listes de test ouvertes ou pseudo
ouvertes, on répartit habituellement un corpus relativement important
d'éléments de test sur plusieurs listes contenant chacune un nombre
égal d'éléments de test. Par définition,pour les listes de test fermées,
plusieurs corpus de sous-ensembles sont regroupés sur une seule liste.
2.14 Liste ouverte
Les listes ouvertes d'éléments de test sont constituées d'éléments prélevés
au hasard dans le corpus
total chaque fois qu'il faut présenter une liste
d'éléments de test a des auditeurs. Normalement, l'auditeur écrit sur une
feuille de réponse chaque élément de test qu'il pense avoir été présenté.
Afin d'être sûr que la structure phonémique de Pensemble total
Note :
apparaisse bien dans les listes de test, il ne faut pas remettre
les éléments de test prélevés au hasard pour une liste de test dans
le corpus total des élémentsavant de prélever au hasard des éléments
pour les listes suivantes.
2.15 Liste pseudo-ouverte
Les listes pseudo-ouvertes d'éléments de test sont constituées d'éléments
prélevés dans le corpus total des éLléments,sur la base d'un ensemble spécifié
de règles phonémiques. Les groupements des éléments à l'intérieur de chaque
liste de test ainsi prélevés, mais nan pas leur ordre séquentiel, est conservé
en vue des utilisations successives des listes. Normalement, l'auditeur écrit
SUT une feuille de réponse chaque élément de test qu’il pense avoir &,é présenté
2.16 Eléments de test répétés
Eléments figurant sur chaque liste ouverte ou pseudo-ouverte, qui
sont présentés plus d'une fois par liste.
2.17 Réorganisation des listes pseudo-ouvertes
Les éléments attribués à chaque liste pseudo-ouverte sont réordonnés
au hasard dans chaque réorganisation de chaque liste afin de fournir
aux auditeurs plusieurs séquences d'éléments pour chaqueliste, qui
soient nouvelles ou qui semblent être nouvelles.
2.18 Liste fermée
fermés de l'ordre de 2 à 10 éléments par sous-ensemble, sont
Des corpus
présentés visuellement aux auditeurs pendant le test. Un élément de chaque
sous-ensemble est ensuite présenté acoustiquement & l*auditeur et
a ce moment-là,
l'auditeur indique, en général en cochant une feuille de
lSO/TR 4870:1991 (F)
réponse, l'élément figurant dans les sous-ensembles concernés présentés
.
visuellement, qui a été le plus probablement présenté acoustiquement.
Note : Le corpus des sous-ensembles est caractérisé par un phonème
qui
est l*élément de base de chaque élément de test y figurant. Tous les
éléments de test faisant partie d'un ensemble donné commencent (ou
finissent) par le même phonème
et finissent (ou commencent) par des
phonèmes
différents.
2.19 Taille apparente d'un corpus 8
La taille apparenterd'un corpus est le nombre de réponses
différentes (pour les éléments présentés) supposées par l'auditeur pouvoir être
utilisées comme réponses correctes pour chaque élément présenté au cours
d'un essai d'intelligibilité, l'auditeur étant informé du nombre total
d'éléments.
2.20 Taille réelle d'un corpus
La taille réelle d'un corpus est -le nombre de réponses différentes
possibles d'un auditeur pou. chaque élément prés.enté au cours
d'un test d'intelligibilité sur la base du nombre total d%léments
présentant des similarités phonémiques audibles avec chaque élément
de test et qui font partie du corpus d*éléments de test dont dispose
le locuteur pour la présentation.
2.21 Phonème, logatome ou mot intelligible
Un phonème, un logatome ou un mot est défini comme étant intelligible
lorsqu'il est correctement perçu par un auditeur.
2.22 Pourcentage d'intelligibilité de la parole
Le pourcentage d'intelligibilité de la parole est le pourcentage d'éléments
d'une liste correctement identifiés par un auditeur ou un groupe d'auditeurs,
corrige en fonction des identifications dues au hasard liées au nombre
de réponses différentes par élément possibles
pour l'auditeur. Pour les
listes ouvertes ou pseudo-ouvertes, ce nombre est considéré comme étant le
nombre d'éléments de l'ensemble du message complet dont sont extraites les
listes de test ; pour les petites listes fermées, ce nombre est .
considéré comme etant le nombre d'éléments de sous-ensemble ou d'alternatives
dans un sous-ensemble (à noter qu'il ne s'agit pas de la taille de la liste).
Cela peut être exprimé par la formule suivante :
100 W
-----
-B-m-
Ien$ =
(R - )
T
N-l
où T est le nombre d'éléments du test,
et N est le nombre d'alternatives
pour chaque élément. R est le nombre de bonnes réponses et W est le nombre
de mauvaises réponses.
Le dernier terme est la correction à apporter pour
l'identification au hasard de l'élément.
Note 1 : Par hasard, il est entendu que l'auditeur est capable de deviner
correctement un certain nombre d'élémentsde test dans la mesure
où l'auditeur connait, par suite d'entrainement ou en raison du
du type du test, -, l'identité de toutes les réponses alternatives
possibles pour chaque élément de test présenté. Par exemple, si
I
le corpus ne comprend que 5 mots, Fauditeur pourrait
en donner, en moyenne,
un sur cinq correctement, soit 20 $,
simplement en devinant l'identité de chaque élément de-test.
Note 2 :
Dans de bonnes conditions d'écoute et avec un haut niveau
dtintelligibiIit6, la taille réelle d%ne liste ouverte .
ou pseudo-ouverte,
Par rap2orta sa taille apparente-;'a.
peu d'importance, car,
comme cela apparait dans le dernier terme de
la formule pour le calcul du pourcentage dYntelligibilité de la
parole, la correction a apporter pour éliminer le hasard estn&@igeable
lorsque la plus grande partie des éléments est correctement perçue.
Lorsque les conditions d'écoute et par conséquent, les taux
dVintelligibilit6 se dégradent, la taille réelle du corpus
se rapproche de sa apparente ; c'est-à-dire que le nombre
taille
de réponses alternatives est perçu comme étant beaucoup plus important
que cela n'est le cas dans de bonnes conditions d'écoute. Pour les
essais dans le nombre apparent de réponses alternatives
lesquels
pour chaque élément de test présenté à l'auditeur est supérieur à
environ 50, la correction pour tenir compte du hasard devient
ISOITR 4870:1991 (F)
négligeable et le pourcentage d'intelligibilité de la parole peut
être considéré comme étant lepourcentagede réponses correctes dans
un test.
.
Exemple 1 : si 50 éléments de test figurent sur une liste ouverte
ou pseudo-ouverte, chaque élément présentant 1000 alternatives,
s'il a été répondu correctement pour 26 des 50 éléments de test
et s'il a été répondu incorrectement pour 24 des éléments, le
pourcentage d'intelligibilité de la parole serait de 52 $
G?o (26 - 241/1000) = 51.952 $, soit, en arrondissant : 52 k).
(
Exemple 2 : s'il y a 50 éléments de test de petits corpus fermés dont
chacun comprend 5 éléments de sous-ensembles alternatifs,
s'il a été répondu correctement pour 26 des 50 éléments de test
et s'il a été répondu incorrectement pour 24 des éléments, le
pourcentage d'intelligibilité serait de 40 %
100 (26 - 24/4) = 40 %).
(
2.23 Phrase ou expression porteuse
Phrase ou expression d'au moins 4 mots et contenant un élément de test,
mais telle que la compréhension correcte de l*élément de test ne dépende
pas du contexte ou du sens de la phrase dans laquelle il est placé.
Note 1 : L'objet de la phraseporteuseest de fournir : (1) le moyen, peur
le locuteur, d'énoncer les mots d'une manière naturelle et 2 un
niveau d'effortvocalcontrôlé et mesurable ; (2) une séparation tempo-
relle régulière des éléments de test d'une durée suffisante pour
permettre aux auditeurs de decider et de noter leurs réponses pour
chaque élément de,-.kest perçu ; et (3) de fournir un flux *k$gulierTV
de phonèmes qui soient naturels et nécessaires pour permettre
le fonctionnement de certains dispositifs électroniques, tels que
les dispositifs automatiques de contrôle de gain, et/ou les réver-
bérations acoustiques éventuelles dans la pièce.
Note 2 : Un exemple d'une phrase porteuse utilisée pour certains essais
d*intelligibilité de la parole est : *'Vous cocherez (CU écrirez)
(l'élément de test) maintenant,*~. Il est important que le phonème
ISO/TR 48703 991 (F)
précédant immédiatement les Glements de test soit prononçable sans
faire de liaison avec les éléments de test, dans le cas contraire
il se produira me interaction variable entre ce son et les différents
éléments de -test qui influencera la perception de l'élément de test.
2.24 Effort vocal du locuteur en termes de niveau de pression acoustique
mesuré de la parole.
L'effort vocal utilisé par le lo,cuteur, dans un L%est d'intelligibilité
de parole, est mesuré par 1 a moyenne arithmétique des niveaux maximaux
de pression acoustique atteints pour chsque Clément de test, ou I$x pour
chaque mot de la phraseporteuse (voir 3.7 ci-dessous). Le niveau de pression
acoustique sera pondéré A,
mesuré avec un sonomètre conforme aux spécifications
de la classe 1 de la publication CE1 651, réglé sur la caractéristique
temporelle S, et relevé, ou rapporté à un point situé à 1 m en face, et au
niveau des lèvres du locuteur lorsque celui-ci parle en champ libre, ou bien
considéré comme libre (dans le sens de l'absence d'effets de réverbération
sur ltintelligibilité de la parole) en ce point.
2.25 Débit de parole
La phrase ou llexpressionporteuse ainsi que les éléments de test seront
énoncés par le locuteur d'une manière normale. Un parlé continu est
normalement énoncé avec un débit d'environ 5 syllabes par seconde.
2.26 Spectre conventionnel de la parole
La figure 1 montre le niveau spectral conventionnel de voix masculines à un
niveau représentatif des conditions depayp1ee-k d*ecoute quotidie~es.
Note : La moyenne des niveaux maximaux de pression acoustique pondérés A,
mesurés avec la caractéristique temporelle S,dela conversation est
habituellement de 65 dB à un mètre en face du locuteur dans un
environnement de bureau et de 55 dB pour les conversations dans un
appartement privé.
80* \
I lIIllI[
I 1 I I’1lI’
- Sp&trk conventionnel de la parole. -
Niveau global d3 lafraleur efficace
Voix masculines.
60 -
e approchée des
Sur une. longue période .et
*l-i s! - -
=a,
-60 1 II 111111 1 1 LIII.
5 6 789 2 3 4 56789
2 3 4
1000 10,000
FIGURE 1 : Spectre conventionnel de la parole et niveau spectral liminaire
d'audition de sons & des spectres continus. Le niveau de parole
gndiqué correspond aux conditions.représentatives de parole
et d%coute quotidienne et est d'environ 10 dB supérieur au
niveau correspondant aux conditions de conversation dans le calme.
Le spectre de parole figuré par la ligne continue, jusqu'à
2 500 Hz et par la ligne en pointillé au-dessus de 2 500 Hz,
a été inelu
dans une norme pour le calcul de l'indice
d'articulation (Réf.1). La courbe continue de 125 à 6 300 Hz
est considérée comme plus adéquate selon des études récentes
(Rbf,2) et représente le spectre conventionnel de la parole
recommandé dans le cadre du présent document.
2.26.1 Valeurs du spectre conventionnel de la parole
Le niveau spectral conventionneldelaparole delafigure 1 , aux fréquences
spécifiées ci-dessous, correspond:
aux valeurs suivantes, exprimées en
valeurs relatives par rapport à 400 Hz :
125 Hz - 6,0 dB
250 Hz - 1,0 dB
400 Hz 0 dB
500 Hz + 0,5 dB
1 000 Hz -10,O dB
2 000 Hz -22,0 dB
4 000 Hz
-34,O dB
6 300 Hz
-43,O dB
2.27 Niveau de parole aux oreilles de l'auditeur
Le niveau de parole, en l'absence de bruit et pour une écoute avec
écouteur, doit être exprimé par la moyenne arithmétique des niveaux
maximaux de pression acoustique (pondération fréquentielle A, pondé-
ration temporelle S) atteints au cours de chaque test. Ce niveau doit
être évalué à partir des données d'étalonnage d'un coupleur normalisé
comme indiqué dans la Publication CE1 318.
2.28 Bruit de masque à spectre de parole .-
Le bruit de masque 2 Spectre de ParO& est défini comme étant un bruct
blanc aléatoire filtré de telle manière que son niveau spectral soit à
2 1 dB près, sur la gamme de 125 HZ à 6 300 Hz,identique auspectreconventionnel
de la parole pour les voix masculines tel qu*.indiqué par la courbe supérieure
en trait plein de la figure 1 et par les valeurs indiquées dans le tableau
du 2.26.1, mais en décroissant avec une pente d'au moins 6 dB par octave
au-dessous de 125 HZ et au-dessus de 6 300 Hz,
Note 1 : Cette forme de spectre peut être obtenue approximativement avec
un filtre de troisième ordre.
Note 2 : Un des buts de cette définition est de fournir un spectre de bruit
.
assez représentatif des bruits de la vie réelle de tous les jours,
y compris le bruit résultant de plusieurs voix, qui interfèrent
souvent avec les communications orales.
Note 3 : La deuxième raison pour utiliser un bruit de masque à spectre de
parole, est qu'il interfère de façon équivalente, en moyenne dans
dans le temps, avecla parole, dans toutes les parties du spectre
acoustique.
2.29 Niveau de bruit aux oreilles de l'auditeur
Le niveau de bruit, en l'absence de parole et pour un tes-11 avec écouteurs
doit être exprimé en tant que moyenne arithmétiquedes niveaux de bruit
(pondération A, caractéristique temporelle S) atteints pendant les moments
où chaque élément de test pourrait être présenté. Ce niveau doit être estimé
à partir des données d'étalonnage d'un coupleur normalisé comme indiqué dans
la Publication 318 de la CEI.
2.30 Rapport parole sur bruit
Le rapport parole sur bruit est la différence numérique entre le niveau
de pression acoustique du signal vocal et le niveau de pression acoustique
du bruit, lorsque chacun d'eux est mesuré séparément au mêmepojnt (ou par
référence au même point) acoustique ou électrique d'un système de communication.
2.31 Système de transmission de référence de la parole sans distorsion
Pour les besoins actuels et en pratique,
un système de transmission sera
considéré comme ne présentant pas d'effets de distorsion significatifs sur
le signal vocal transmis lorsque : (1) les caractéristiques de la réponse en
fréquence sont uniformes (2 2 dB) sur la gamme de fréquences de 125 Hz à
6 300 Hz ; (2) le b ruit de fond du point de vue niveau spectral est d'au moins
40 dB inférieur au niveau spectral de la parole émise à son niveau moyen
de pression acoustique pondéré A, mesuré avec la caractéristique temporelle S
sans distorsion aux fréquences comprises
(voir 2.27 et 2.28 ci-dessus),
entre 125 HZ et 6 300 HZ.;
.
et (3) la distorsion harmonique pour des signaux d'entrée sinusoïdaux de
fréquences comprises entre 125 Hz et 6 300 Hz ne dépasse pas 1 $ pour des
niveaux d'entrée pondérés A supérieurs d'au moins 18 dB au niveau d'entrée
du signal vocal. Ce système de transmission de référence doit posséder une
gamme dynamique linéaire de 50 dB pour les niveaux spectraux de signal et de
bruit et doit délivrer la parole aux oreilles de l'auditeur à un niveau de
pression acoustique de 65 dB, comme défini en 2.27 ci-dessus.
3 TYPES DE MATERIAUX DE TESTS RECOMMANDES ET PROCEDURES POUR LEUR PREPARATION
ET LEUR ETALONNAGE.
3.1 Tests sur grands corpus
Un type de test d'intelligibilité recommandé pour l*évaluation de l'efficacité
des dispositifs utilisés pour la communication parlée normale exige l'emploi
d'un corpus d'au moins 1 000 mots ayant un sens ou d'au moins 650 logatomes
présentés en vue de la conduite du test dans plusieurs conditions d'essai.
Il est recommandé de répartir le corpus d*éléments choisi en listes
pseudo-ouvertes d'au moins 50 éléments chacune, chaque liste devrait comprendre
le même nombre de chaque type de phonème en positions similaires dans les mots
ou logatomes et dans les mêmes proportions générales environ, que dans la
parole courante autant qu'on peut l%valuer au mieux et lfobtenir, avec les
éléments de test choisis. Chaque liste devrait contenir au moins un élément
présenté plusieurs fois dans la liste.
Note 1 : Etant donné les différences existant entre les langues en ce qui
concerne le nombre relatif de mots monosyllabiques et polysyllabiques
apparaissant dans la langue, il n'est pas possible de recommander
l'utilisation d'un seul type de structure syllabique (monosyllabique
ou polysyllabique) dans l'établissement de ces essais.
Note 2 : La question de savoir si l'on doit établir des listes
ouvertes ou pseudo-ouvertes pour une situation donnée d'essai, dépend
du soin avec lequel l'utilisateur désire maintenir un équilibre
du nombre de systèmes ou de variables
dans l'évaluation du test,
à évaluer et du temps ou du budget disponible, pour l'évaluation
du test.
3.2 Essais avec petits corpus fermés
Un deuxième type d'essai recommandé pour l'intelligibilité de la parole,
utilise le format du petit corpus fermé. Dans ce format, les éléments de test
sont classés dans des listes de petits sous-ensembles (la dimension du sous-
en général comprise
ensemble peut varier pour différents matériaux de test,
entre 2 et 10 alternatives) dans lesquels on fait varier tous les Phonèmes
sauf un, et toujours à la même place dans la syllabe. Il est recommandé que le
nombre de petits sous-ensembles fermés soit suffisamment important, pour que
l'on puisse essayer tous, ou presque tous, les types de consonnes, et positions
syllabiques, avec au moins plusieurs voyelles différentes, et que chaque sous-
ensemble contienne autant de réponses alternatives que possible.
: Il est facile
Note 1
pour l'auditeur de répondre à ce type d’essai,
car les sous-ensembles peuvent être affiches visuellement de sorte
que l'auditeur ne fait que vérifier ou indiquer quel élément des
sous-ensembles affichés visuellement lui semble correspondre à
l'élément présenté acoustiquement.
Note 2 : En raison du format de choix imposé avec les réponses affichées à la
disposition des auditeurs,
la durée d'apprentissage est réduite à
quelques minutes avant que la performance atteigne un niveau qui
demeure constant, pour un système donné de communication et pour
des conditions d'essai données,
pendant une période de temps indéter-
minée pour chaque auditeur. En conséquence, la fiabilité par essai -
contre essai est excellente.
Note 3 : Il convient de noter que le format de petits corpus
permet d'identifier rapidement les confusions entre phonèmes et que
cette information présente quelquefois de la valeur dans le diagnostic
de l'aptitude d'un système de communication orale à transmettre des
caractéristiques phonémiques spécifiques de la parole.
3.3 Fonction d'étalonnage avec système de référence et bruit de masque
Pour les besoinsdu présent document, la relation entre les résultats de pur-.
centage d'intelligibilité de la parole et les rapports signal/bruit aux
oreilles de l'auditeur doit être dénommée une *'fonction d'étalonnage d'un
test d'intelligibilité de Il est recommandé d'utiliser le système
parole?
de transmission de référence défini au paragraphe 2.31, le bruit défini au
paragraphe 2.28 et la parole définie au paragraphe 2.26, comme base d*étalon-
nage pour tous les tests d'intelligibilité de la parole.
3.4 Mixage du bruit
Le bruit doit être incorporé électriquement au signal de parole avant
sa transduction sous forme acoustique pour présentation à l'auditeur. La
parole sera présentée au niveau de 65 dB (voir 2.27) et le bruit pour
différents essais aux niveaux de71,65,59,53et 47d~, soit avec des rapports
parole/bruit de -6, 0, +6, +12 et 18 dB (voir 2.30). Une représentation
schématique de ce système d'étalonnage de référence pour essais est donnée
dans la figure 2,
m
Microphone d*entr*
pour la parole 1
Enregistre./
Lecture de
. la parole
_
(câblés en phase)
t
I l
v
mise en
Atténuateur
forme
v
.
.
Figure 2 - Système de transmission de la parole avec une source de bruit de
masque pour l'étalonnage des tests 'd'intelligibilité de parole.
3.5 Locuteurs
on utilisera au moins un locuteur
Pour l'apprentissage et pour les tests
dont le parler est considéré sur la base
masculin et un locuteur féminin,
comme caractéristiques d'une
d'essais ou d'après l'opinion d'experts,
nationalité et d'une langue données.
3.6 Enregistrement des tests
Les tests le locuteur se trouvant dans un champ
seront enregistrés,
dans lequel le son reverbéré est négligeable, avec un microphone et sur un
support exempt de distorsion d'amplitude et q
...
ISO
RAPPORT
TECHNIQUE TR 4870
Première édition
1991-12-15
------~ w-e---
-------
Acoustique - Élaboration et étalonnage des
tests d’intelligibilité de parole
Acoustics - Tl7e construction and calih-ation of speech intelligibility
îests
Numéro de référence
ISO/TR 4870: 199 1 (F)
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fiJdération
mondiale d’organismes nationaux de normalisation (comités membres
de I’ISO). L’élaboration des Normes internationales est en général
confiée aux comités techniques de I’ISO. Chaque comité membre inté-
ressé par une étude a le droit de faire partie du comité technique créé
à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec I’ISO participent également aux tra-
vaux. L’ISO collabore étroitement avec la Commission électrotechnique
internationale (El) en ce qui concerne la normalisation électrotech-
nique.
La tâche principale des comités techniques est d’élaborer les Normes
internationales, mais, exceptionnellement, un comité technique peut
proposer la publication d’un rapport technique de l’un des types sui-
vants:
- type 1, lorsque, en dépit de maints efforts, l’accord requis ne peut
être réalisé en faveur de la publication d’une Norme internationale;
- type 2, lorsque le sujet en question est encore en cours de dévelop-
pement technique ou lorsque, pour toute autre raison, “a possibilits
d’un accord pour la publication d’une Norme internationale peut être
envisagée pour l’avenir mais pas dans l’immédiat;
- type 3, lorsqu’un comité technique a réuni des donnkes de nature
différente de celles qui sont normalement publiées comme Normes
internationales (ceci pouvant comprendre des informations sur l’état
de la technique, par exemple).
Les rapports techniques des types 1 et 2 font l’objet d’un ncruvel examen
trois ans au plus tard après leur publication afin de dcicider éven-
tuellement de leur transformation en Normes internationales. Les rap-
ports techniques du type 3 ne doivent pas nécessairement être révisés
avant que les données fournies ne soient plus jugées valables ou utiles.
L’ISO/TR 4870, rapport technique du type 3, a été élaboré par le comité
technique ISO/TC 43, Acoustique.
II contient des données qui peuvent être évaluées par des tesls d’intel-
ligibilité de parole mais n’est pas prevu d’être transformé en Norme
internationale.
Les annexes A et B du présent Rapport technique sont données uni-
quement à titre d’information.
0 ISO 1991
Droits de reproduction réservés. Aucune partie de cette publication ne peut être repro-
duite ni utilisée sous quelque forme que ce soit et par aucun procédé, élwlronique ou
mécanique, y compris la photocopie et les microfilms, sans l’accord kwit de Gditcur.
Organisation internationale de normalisation
Case Postale 56 + CH-121 1 Genève 20 * Suisse
Imprimé en Suisse
ii
ISO/TR 4870:i 991 (F)
Introduction
Divers tests perceptifs ont été élabores par le passé en vue d'évaluer
affectée par les distorsions
l%ntelligibilité des communications orales,
spectrales, temporelles et dkmplitude du signal de parole ainsi que par
les bruits apparaissant lors de la transmission acoustique et du codage
electrique (le cas échéant), et auditifs de la parole d'un locuteur & un
auditeur. Les principaux tests établis a cet effet sont appelés tests
d'intelligibilité de parole et seront définis ultérieurement de manière
détaillée.
aux auditeurs et a un système
En dehors des facteurs lies aux locuteurs,
deux facteurs sont communs a tous les tests
donne de communication,
d'intelligibilité de parole et ont une influence importante sur les
Ces deux facteurs communs sont : (1) le matériau
résultats obtenus.
vocal,
et (21, pour un type donné de matériau vocal,
le nombre total de
différents éléments de ce matériau que les auditeurs s'attendent à se voir
présenter au cours de l'essai.
Sans une certaine connaissance de l'influence
de ces deux facteurs sur les résultats d'un test donné d'intelligibilité de
parole, il n'est pas possible d'établir de comparaisons ni de relations
significatives entre les résultats des tests obtenus dans différentes
recherches sur l'intelligibilité de la parole.
Le présent document a pour objet de normaliser des méthodes fondamentales
d'élaboration et d'étalonnage des tests d*intelligibilite de parole qui
mettent en évidence les contributions des deux facteurs communs mentionnes
ci-dessus aux résultats de tests. Le document donne également des exemples
illustratifs des types de matériaux vocaux recommandes par les tests pouvant
éventuellement convenir pour des besoins tels que ceux de l'audiométrie
vocale, de l%aluation de l'acoustique d'une salle ou d'un système de
transmission électro-acoustique.
La communication de pensées et de concepts par le moyen des langues parlées
constitue une opération vaste et complexe, est influencée par de
qui
nombreux facteurs autres que de lfkt,elligibili$é, fondée sur la per-
ception des caractéristiques acoustiques du signal vocal. Néanmoins, la
caractéristique fondamentale de la communication parlée est un signal
acoustique, et plus la compréhension de la parole dérivée des perceptions
de certaines relations acoustiques dans les signaux est grande, plus le
processus de communication peut être efficace et complet. L'objet des
essais d'intelligibilité est d'évaluer l'aptitude d'un système de communication
ou d~kn de ces 6léments, y compris l'appareil auditif de l'auditeur, à
transmettre de manière efficace l'information acoustique de base qui
contribue à la perception correcte de la parole.
IC
RAPPORT TECHNIQUE ISO/TR 4870:1991 (F)
Acoustique - Élaboration et étalonnage des tests
d’intelligibilité de parole
1 OBJET
1.1 Le présent document traite de la description :
(a) des méthodes d'élaboration d'essais vocaux pour mesurer l*intelligi-
bilité de la parole transmise par le moyen d'un système de communi-
cation analogique ou par un système combiné analogique et numérique.
(b) d'un système de communication de référence et des conditions d'essai
nécessaires pour l'élaboration, l'étalonnage ainsi que l'interprétation
des résultats de tests normalisés d'intelligibilité.
1.2 La description d'essais vocaux particuliers ainsi que des procédures
de test correspondanteset des mesures convenant le mieux pour l'appli-
cation d'un test donné, ne fait pas partie du domaine d'application
de ce document.
2 DEFINITIONS APPLICABLES DANS LE PRESENT DOCUMENT
2.1 Phonème
Un phonème est la plus petite unité de parole identifiée. Ces unités de
parole peuvent être classées en deux classes générales, appelées voyelles
(V) et consonnes (C). Les consonnes occasionnellement utilisées en tant
que voyelles pour former des syllabes seront, dans ce cas, pour les besoins
de ce document, classées et incluses dans la catégorie V.
2.2 Syllabe
Une syllabe est une unité de parole prononçable composée d'une voyelle
OU d'une combinaison d'une voyelle et d'une ou plusieurs consonnes.
2.3 Polysyllabe
Une polysyllabe est une série de plus d'une syllabe prononcée en liant
les syllabes.
2.4 Mot
Un mot est une unité monosyllabique ou polysyllabique de parole ayant une
signification reconnue pour les auditeurs.
2.5 Logatome
Un logatome est une unité monosyllabique ou polysyllabique n'ayant pas de
signification pour les auditeurs.
2.6 Son test
particulier devant être utilisé conformément à des règles définies
Phonème
pour former.des éléments d&:test (item test).
2.7 Elément de test (item test)
Logatome ou mot monosyllabique ou polysyllabique, devant être utilisé
d'intelligibilité.
conformément à des règles définies pour les mesures
2.8 Corpus'de sons tests
Sons tests particuliers qui ont été choisis, dans la série totale de sons
possibles (dans une certaine langue) ou donnés (conformément à leur plus
grande fréquence dans une certaine langue ou conformément à certaines règles),
tests est souvent
en vue de former des éléments de test. La série de sons
test
particulier dans l'élément de test,
subdivisée, selon la position du son
en séries à sons tests initiaux 9 centra= ou finaux.
2.9 Corpus d'éléments de test
Logatomes ou mots particuliers, choisis conformément à des règles définies
dans le nombre total des logatomes ou des mots possibles ou donnés, en vue
de leur utilisation pour les mesures d'intelligibilité.
2.10 Elément de sous ensemble
logatome ou mot, devant être utilisé conformément à des règles
Phonème,
définies pour les mesures d'intelligibilité.
2.11 Structure phonémique de la parole
La structure phonémique concerne la fréquence relative d'occurence de
divers phonèmes ainsi que leurs positions relatives par rapport à d'autres
phonèmes, dans les syllabes et les mots d'une certaine langue.
2.12 Listes "phonétiquement équilibrées"
On obtient des listes dites "phonétiquement équilibrées" (définition correcte :
phonémiquement équilibrées) lorsque chaque liste contient environ la même
proportion des diverses classes ou types de phonèmes qui sont, ou sont
supposés être, présents dans une communication parlée particulière dans une
certaine langue.
2.13 Liste de -test
Eléments de test spécialement choisis, présentés et e-values
comme
constituant un seul test. Pour les listes de test ouvertes ou pseudo
ouvertes, on répartit habituellement un corpus relativement important
d'éléments de test sur plusieurs listes contenant chacune un nombre
égal d'éléments de test. Par définition,pour les listes de test fermées,
plusieurs corpus de sous-ensembles sont regroupés sur une seule liste.
2.14 Liste ouverte
Les listes ouvertes d'éléments de test sont constituées d'éléments prélevés
au hasard dans le corpus
total chaque fois qu'il faut présenter une liste
d'éléments de test a des auditeurs. Normalement, l'auditeur écrit sur une
feuille de réponse chaque élément de test qu'il pense avoir été présenté.
Afin d'être sûr que la structure phonémique de Pensemble total
Note :
apparaisse bien dans les listes de test, il ne faut pas remettre
les éléments de test prélevés au hasard pour une liste de test dans
le corpus total des élémentsavant de prélever au hasard des éléments
pour les listes suivantes.
2.15 Liste pseudo-ouverte
Les listes pseudo-ouvertes d'éléments de test sont constituées d'éléments
prélevés dans le corpus total des éLléments,sur la base d'un ensemble spécifié
de règles phonémiques. Les groupements des éléments à l'intérieur de chaque
liste de test ainsi prélevés, mais nan pas leur ordre séquentiel, est conservé
en vue des utilisations successives des listes. Normalement, l'auditeur écrit
SUT une feuille de réponse chaque élément de test qu’il pense avoir &,é présenté
2.16 Eléments de test répétés
Eléments figurant sur chaque liste ouverte ou pseudo-ouverte, qui
sont présentés plus d'une fois par liste.
2.17 Réorganisation des listes pseudo-ouvertes
Les éléments attribués à chaque liste pseudo-ouverte sont réordonnés
au hasard dans chaque réorganisation de chaque liste afin de fournir
aux auditeurs plusieurs séquences d'éléments pour chaqueliste, qui
soient nouvelles ou qui semblent être nouvelles.
2.18 Liste fermée
fermés de l'ordre de 2 à 10 éléments par sous-ensemble, sont
Des corpus
présentés visuellement aux auditeurs pendant le test. Un élément de chaque
sous-ensemble est ensuite présenté acoustiquement & l*auditeur et
a ce moment-là,
l'auditeur indique, en général en cochant une feuille de
lSO/TR 4870:1991 (F)
réponse, l'élément figurant dans les sous-ensembles concernés présentés
.
visuellement, qui a été le plus probablement présenté acoustiquement.
Note : Le corpus des sous-ensembles est caractérisé par un phonème
qui
est l*élément de base de chaque élément de test y figurant. Tous les
éléments de test faisant partie d'un ensemble donné commencent (ou
finissent) par le même phonème
et finissent (ou commencent) par des
phonèmes
différents.
2.19 Taille apparente d'un corpus 8
La taille apparenterd'un corpus est le nombre de réponses
différentes (pour les éléments présentés) supposées par l'auditeur pouvoir être
utilisées comme réponses correctes pour chaque élément présenté au cours
d'un essai d'intelligibilité, l'auditeur étant informé du nombre total
d'éléments.
2.20 Taille réelle d'un corpus
La taille réelle d'un corpus est -le nombre de réponses différentes
possibles d'un auditeur pou. chaque élément prés.enté au cours
d'un test d'intelligibilité sur la base du nombre total d%léments
présentant des similarités phonémiques audibles avec chaque élément
de test et qui font partie du corpus d*éléments de test dont dispose
le locuteur pour la présentation.
2.21 Phonème, logatome ou mot intelligible
Un phonème, un logatome ou un mot est défini comme étant intelligible
lorsqu'il est correctement perçu par un auditeur.
2.22 Pourcentage d'intelligibilité de la parole
Le pourcentage d'intelligibilité de la parole est le pourcentage d'éléments
d'une liste correctement identifiés par un auditeur ou un groupe d'auditeurs,
corrige en fonction des identifications dues au hasard liées au nombre
de réponses différentes par élément possibles
pour l'auditeur. Pour les
listes ouvertes ou pseudo-ouvertes, ce nombre est considéré comme étant le
nombre d'éléments de l'ensemble du message complet dont sont extraites les
listes de test ; pour les petites listes fermées, ce nombre est .
considéré comme etant le nombre d'éléments de sous-ensemble ou d'alternatives
dans un sous-ensemble (à noter qu'il ne s'agit pas de la taille de la liste).
Cela peut être exprimé par la formule suivante :
100 W
-----
-B-m-
Ien$ =
(R - )
T
N-l
où T est le nombre d'éléments du test,
et N est le nombre d'alternatives
pour chaque élément. R est le nombre de bonnes réponses et W est le nombre
de mauvaises réponses.
Le dernier terme est la correction à apporter pour
l'identification au hasard de l'élément.
Note 1 : Par hasard, il est entendu que l'auditeur est capable de deviner
correctement un certain nombre d'élémentsde test dans la mesure
où l'auditeur connait, par suite d'entrainement ou en raison du
du type du test, -, l'identité de toutes les réponses alternatives
possibles pour chaque élément de test présenté. Par exemple, si
I
le corpus ne comprend que 5 mots, Fauditeur pourrait
en donner, en moyenne,
un sur cinq correctement, soit 20 $,
simplement en devinant l'identité de chaque élément de-test.
Note 2 :
Dans de bonnes conditions d'écoute et avec un haut niveau
dtintelligibiIit6, la taille réelle d%ne liste ouverte .
ou pseudo-ouverte,
Par rap2orta sa taille apparente-;'a.
peu d'importance, car,
comme cela apparait dans le dernier terme de
la formule pour le calcul du pourcentage dYntelligibilité de la
parole, la correction a apporter pour éliminer le hasard estn&@igeable
lorsque la plus grande partie des éléments est correctement perçue.
Lorsque les conditions d'écoute et par conséquent, les taux
dVintelligibilit6 se dégradent, la taille réelle du corpus
se rapproche de sa apparente ; c'est-à-dire que le nombre
taille
de réponses alternatives est perçu comme étant beaucoup plus important
que cela n'est le cas dans de bonnes conditions d'écoute. Pour les
essais dans le nombre apparent de réponses alternatives
lesquels
pour chaque élément de test présenté à l'auditeur est supérieur à
environ 50, la correction pour tenir compte du hasard devient
ISOITR 4870:1991 (F)
négligeable et le pourcentage d'intelligibilité de la parole peut
être considéré comme étant lepourcentagede réponses correctes dans
un test.
.
Exemple 1 : si 50 éléments de test figurent sur une liste ouverte
ou pseudo-ouverte, chaque élément présentant 1000 alternatives,
s'il a été répondu correctement pour 26 des 50 éléments de test
et s'il a été répondu incorrectement pour 24 des éléments, le
pourcentage d'intelligibilité de la parole serait de 52 $
G?o (26 - 241/1000) = 51.952 $, soit, en arrondissant : 52 k).
(
Exemple 2 : s'il y a 50 éléments de test de petits corpus fermés dont
chacun comprend 5 éléments de sous-ensembles alternatifs,
s'il a été répondu correctement pour 26 des 50 éléments de test
et s'il a été répondu incorrectement pour 24 des éléments, le
pourcentage d'intelligibilité serait de 40 %
100 (26 - 24/4) = 40 %).
(
2.23 Phrase ou expression porteuse
Phrase ou expression d'au moins 4 mots et contenant un élément de test,
mais telle que la compréhension correcte de l*élément de test ne dépende
pas du contexte ou du sens de la phrase dans laquelle il est placé.
Note 1 : L'objet de la phraseporteuseest de fournir : (1) le moyen, peur
le locuteur, d'énoncer les mots d'une manière naturelle et 2 un
niveau d'effortvocalcontrôlé et mesurable ; (2) une séparation tempo-
relle régulière des éléments de test d'une durée suffisante pour
permettre aux auditeurs de decider et de noter leurs réponses pour
chaque élément de,-.kest perçu ; et (3) de fournir un flux *k$gulierTV
de phonèmes qui soient naturels et nécessaires pour permettre
le fonctionnement de certains dispositifs électroniques, tels que
les dispositifs automatiques de contrôle de gain, et/ou les réver-
bérations acoustiques éventuelles dans la pièce.
Note 2 : Un exemple d'une phrase porteuse utilisée pour certains essais
d*intelligibilité de la parole est : *'Vous cocherez (CU écrirez)
(l'élément de test) maintenant,*~. Il est important que le phonème
ISO/TR 48703 991 (F)
précédant immédiatement les Glements de test soit prononçable sans
faire de liaison avec les éléments de test, dans le cas contraire
il se produira me interaction variable entre ce son et les différents
éléments de -test qui influencera la perception de l'élément de test.
2.24 Effort vocal du locuteur en termes de niveau de pression acoustique
mesuré de la parole.
L'effort vocal utilisé par le lo,cuteur, dans un L%est d'intelligibilité
de parole, est mesuré par 1 a moyenne arithmétique des niveaux maximaux
de pression acoustique atteints pour chsque Clément de test, ou I$x pour
chaque mot de la phraseporteuse (voir 3.7 ci-dessous). Le niveau de pression
acoustique sera pondéré A,
mesuré avec un sonomètre conforme aux spécifications
de la classe 1 de la publication CE1 651, réglé sur la caractéristique
temporelle S, et relevé, ou rapporté à un point situé à 1 m en face, et au
niveau des lèvres du locuteur lorsque celui-ci parle en champ libre, ou bien
considéré comme libre (dans le sens de l'absence d'effets de réverbération
sur ltintelligibilité de la parole) en ce point.
2.25 Débit de parole
La phrase ou llexpressionporteuse ainsi que les éléments de test seront
énoncés par le locuteur d'une manière normale. Un parlé continu est
normalement énoncé avec un débit d'environ 5 syllabes par seconde.
2.26 Spectre conventionnel de la parole
La figure 1 montre le niveau spectral conventionnel de voix masculines à un
niveau représentatif des conditions depayp1ee-k d*ecoute quotidie~es.
Note : La moyenne des niveaux maximaux de pression acoustique pondérés A,
mesurés avec la caractéristique temporelle S,dela conversation est
habituellement de 65 dB à un mètre en face du locuteur dans un
environnement de bureau et de 55 dB pour les conversations dans un
appartement privé.
80* \
I lIIllI[
I 1 I I’1lI’
- Sp&trk conventionnel de la parole. -
Niveau global d3 lafraleur efficace
Voix masculines.
60 -
e approchée des
Sur une. longue période .et
*l-i s! - -
=a,
-60 1 II 111111 1 1 LIII.
5 6 789 2 3 4 56789
2 3 4
1000 10,000
FIGURE 1 : Spectre conventionnel de la parole et niveau spectral liminaire
d'audition de sons & des spectres continus. Le niveau de parole
gndiqué correspond aux conditions.représentatives de parole
et d%coute quotidienne et est d'environ 10 dB supérieur au
niveau correspondant aux conditions de conversation dans le calme.
Le spectre de parole figuré par la ligne continue, jusqu'à
2 500 Hz et par la ligne en pointillé au-dessus de 2 500 Hz,
a été inelu
dans une norme pour le calcul de l'indice
d'articulation (Réf.1). La courbe continue de 125 à 6 300 Hz
est considérée comme plus adéquate selon des études récentes
(Rbf,2) et représente le spectre conventionnel de la parole
recommandé dans le cadre du présent document.
2.26.1 Valeurs du spectre conventionnel de la parole
Le niveau spectral conventionneldelaparole delafigure 1 , aux fréquences
spécifiées ci-dessous, correspond:
aux valeurs suivantes, exprimées en
valeurs relatives par rapport à 400 Hz :
125 Hz - 6,0 dB
250 Hz - 1,0 dB
400 Hz 0 dB
500 Hz + 0,5 dB
1 000 Hz -10,O dB
2 000 Hz -22,0 dB
4 000 Hz
-34,O dB
6 300 Hz
-43,O dB
2.27 Niveau de parole aux oreilles de l'auditeur
Le niveau de parole, en l'absence de bruit et pour une écoute avec
écouteur, doit être exprimé par la moyenne arithmétique des niveaux
maximaux de pression acoustique (pondération fréquentielle A, pondé-
ration temporelle S) atteints au cours de chaque test. Ce niveau doit
être évalué à partir des données d'étalonnage d'un coupleur normalisé
comme indiqué dans la Publication CE1 318.
2.28 Bruit de masque à spectre de parole .-
Le bruit de masque 2 Spectre de ParO& est défini comme étant un bruct
blanc aléatoire filtré de telle manière que son niveau spectral soit à
2 1 dB près, sur la gamme de 125 HZ à 6 300 Hz,identique auspectreconventionnel
de la parole pour les voix masculines tel qu*.indiqué par la courbe supérieure
en trait plein de la figure 1 et par les valeurs indiquées dans le tableau
du 2.26.1, mais en décroissant avec une pente d'au moins 6 dB par octave
au-dessous de 125 HZ et au-dessus de 6 300 Hz,
Note 1 : Cette forme de spectre peut être obtenue approximativement avec
un filtre de troisième ordre.
Note 2 : Un des buts de cette définition est de fournir un spectre de bruit
.
assez représentatif des bruits de la vie réelle de tous les jours,
y compris le bruit résultant de plusieurs voix, qui interfèrent
souvent avec les communications orales.
Note 3 : La deuxième raison pour utiliser un bruit de masque à spectre de
parole, est qu'il interfère de façon équivalente, en moyenne dans
dans le temps, avecla parole, dans toutes les parties du spectre
acoustique.
2.29 Niveau de bruit aux oreilles de l'auditeur
Le niveau de bruit, en l'absence de parole et pour un tes-11 avec écouteurs
doit être exprimé en tant que moyenne arithmétiquedes niveaux de bruit
(pondération A, caractéristique temporelle S) atteints pendant les moments
où chaque élément de test pourrait être présenté. Ce niveau doit être estimé
à partir des données d'étalonnage d'un coupleur normalisé comme indiqué dans
la Publication 318 de la CEI.
2.30 Rapport parole sur bruit
Le rapport parole sur bruit est la différence numérique entre le niveau
de pression acoustique du signal vocal et le niveau de pression acoustique
du bruit, lorsque chacun d'eux est mesuré séparément au mêmepojnt (ou par
référence au même point) acoustique ou électrique d'un système de communication.
2.31 Système de transmission de référence de la parole sans distorsion
Pour les besoins actuels et en pratique,
un système de transmission sera
considéré comme ne présentant pas d'effets de distorsion significatifs sur
le signal vocal transmis lorsque : (1) les caractéristiques de la réponse en
fréquence sont uniformes (2 2 dB) sur la gamme de fréquences de 125 Hz à
6 300 Hz ; (2) le b ruit de fond du point de vue niveau spectral est d'au moins
40 dB inférieur au niveau spectral de la parole émise à son niveau moyen
de pression acoustique pondéré A, mesuré avec la caractéristique temporelle S
sans distorsion aux fréquences comprises
(voir 2.27 et 2.28 ci-dessus),
entre 125 HZ et 6 300 HZ.;
.
et (3) la distorsion harmonique pour des signaux d'entrée sinusoïdaux de
fréquences comprises entre 125 Hz et 6 300 Hz ne dépasse pas 1 $ pour des
niveaux d'entrée pondérés A supérieurs d'au moins 18 dB au niveau d'entrée
du signal vocal. Ce système de transmission de référence doit posséder une
gamme dynamique linéaire de 50 dB pour les niveaux spectraux de signal et de
bruit et doit délivrer la parole aux oreilles de l'auditeur à un niveau de
pression acoustique de 65 dB, comme défini en 2.27 ci-dessus.
3 TYPES DE MATERIAUX DE TESTS RECOMMANDES ET PROCEDURES POUR LEUR PREPARATION
ET LEUR ETALONNAGE.
3.1 Tests sur grands corpus
Un type de test d'intelligibilité recommandé pour l*évaluation de l'efficacité
des dispositifs utilisés pour la communication parlée normale exige l'emploi
d'un corpus d'au moins 1 000 mots ayant un sens ou d'au moins 650 logatomes
présentés en vue de la conduite du test dans plusieurs conditions d'essai.
Il est recommandé de répartir le corpus d*éléments choisi en listes
pseudo-ouvertes d'au moins 50 éléments chacune, chaque liste devrait comprendre
le même nombre de chaque type de phonème en positions similaires dans les mots
ou logatomes et dans les mêmes proportions générales environ, que dans la
parole courante autant qu'on peut l%valuer au mieux et lfobtenir, avec les
éléments de test choisis. Chaque liste devrait contenir au moins un élément
présenté plusieurs fois dans la liste.
Note 1 : Etant donné les différences existant entre les langues en ce qui
concerne le nombre relatif de mots monosyllabiques et polysyllabiques
apparaissant dans la langue, il n'est pas possible de recommander
l'utilisation d'un seul type de structure syllabique (monosyllabique
ou polysyllabique) dans l'établissement de ces essais.
Note 2 : La question de savoir si l'on doit établir des listes
ouvertes ou pseudo-ouvertes pour une situation donnée d'essai, dépend
du soin avec lequel l'utilisateur désire maintenir un équilibre
du nombre de systèmes ou de variables
dans l'évaluation du test,
à évaluer et du temps ou du budget disponible, pour l'évaluation
du test.
3.2 Essais avec petits corpus fermés
Un deuxième type d'essai recommandé pour l'intelligibilité de la parole,
utilise le format du petit corpus fermé. Dans ce format, les éléments de test
sont classés dans des listes de petits sous-ensembles (la dimension du sous-
en général comprise
ensemble peut varier pour différents matériaux de test,
entre 2 et 10 alternatives) dans lesquels on fait varier tous les Phonèmes
sauf un, et toujours à la même place dans la syllabe. Il est recommandé que le
nombre de petits sous-ensembles fermés soit suffisamment important, pour que
l'on puisse essayer tous, ou presque tous, les types de consonnes, et positions
syllabiques, avec au moins plusieurs voyelles différentes, et que chaque sous-
ensemble contienne autant de réponses alternatives que possible.
: Il est facile
Note 1
pour l'auditeur de répondre à ce type d’essai,
car les sous-ensembles peuvent être affiches visuellement de sorte
que l'auditeur ne fait que vérifier ou indiquer quel élément des
sous-ensembles affichés visuellement lui semble correspondre à
l'élément présenté acoustiquement.
Note 2 : En raison du format de choix imposé avec les réponses affichées à la
disposition des auditeurs,
la durée d'apprentissage est réduite à
quelques minutes avant que la performance atteigne un niveau qui
demeure constant, pour un système donné de communication et pour
des conditions d'essai données,
pendant une période de temps indéter-
minée pour chaque auditeur. En conséquence, la fiabilité par essai -
contre essai est excellente.
Note 3 : Il convient de noter que le format de petits corpus
permet d'identifier rapidement les confusions entre phonèmes et que
cette information présente quelquefois de la valeur dans le diagnostic
de l'aptitude d'un système de communication orale à transmettre des
caractéristiques phonémiques spécifiques de la parole.
3.3 Fonction d'étalonnage avec système de référence et bruit de masque
Pour les besoinsdu présent document, la relation entre les résultats de pur-.
centage d'intelligibilité de la parole et les rapports signal/bruit aux
oreilles de l'auditeur doit être dénommée une *'fonction d'étalonnage d'un
test d'intelligibilité de Il est recommandé d'utiliser le système
parole?
de transmission de référence défini au paragraphe 2.31, le bruit défini au
paragraphe 2.28 et la parole définie au paragraphe 2.26, comme base d*étalon-
nage pour tous les tests d'intelligibilité de la parole.
3.4 Mixage du bruit
Le bruit doit être incorporé électriquement au signal de parole avant
sa transduction sous forme acoustique pour présentation à l'auditeur. La
parole sera présentée au niveau de 65 dB (voir 2.27) et le bruit pour
différents essais aux niveaux de71,65,59,53et 47d~, soit avec des rapports
parole/bruit de -6, 0, +6, +12 et 18 dB (voir 2.30). Une représentation
schématique de ce système d'étalonnage de référence pour essais est donnée
dans la figure 2,
m
Microphone d*entr*
pour la parole 1
Enregistre./
Lecture de
. la parole
_
(câblés en phase)
t
I l
v
mise en
Atténuateur
forme
v
.
.
Figure 2 - Système de transmission de la parole avec une source de bruit de
masque pour l'étalonnage des tests 'd'intelligibilité de parole.
3.5 Locuteurs
on utilisera au moins un locuteur
Pour l'apprentissage et pour les tests
dont le parler est considéré sur la base
masculin et un locuteur féminin,
comme caractéristiques d'une
d'essais ou d'après l'opinion d'experts,
nationalité et d'une langue données.
3.6 Enregistrement des tests
Les tests le locuteur se trouvant dans un champ
seront enregistrés,
dans lequel le son reverbéré est négligeable, avec un microphone et sur un
support exempt de distorsion d'amplitude et q
...












Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...