Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s — Part 3: Audio

Specifies the coded representation of high quality audio for storage media and the method for decoding of high quality audio signals. Is intended for application to digital storage media providing a total continuous transfer rate of about 1,5 Mbit/s for both audio and video bitstreams, such as CD, DAT and magnetic hard disc, and for sampling rates of 32 kHz, 44,1 kHz, and 48 kHz.

Technologies de l'information — Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'à environ 1,5 Mbit/s — Partie 3: Audio

La présente partie de l'ISO/CEI 11172 spécifie la représentation codée d'un signal audio de haute qualité, pour son enregistrement sur les supports de stockage numérique, ainsi que le processus de décodage. L'entrée du codeur et la sortie du décodeur sont compatibles avec les normes MIC existantes, telles que celles des disques compacts (CD) et des bandes magnétiques audio numériques (DAT). La présente partie de l'ISO/CEI 11172 est destinée à être appliquée à un support de stockage numérique assurant un débit de transfert total continu d'environ 1,5 Mbit/s des trains binaires audio et vidéo, tels que les CD, les DAT et les disques durs magnétiques. Le support de stockage peut être connecté directement au décodeur, ou par l'intermédiaire d'autres moyens tels que des lignes de communication transportant le train binaire multiplexé ISO 11172 défini dans l'ISO/CEI 11172-1. La présente partie de l'ISO/CEI 11172 est prévue pour des fréquences d'échantillonnage de 32 kHz, 44,1 kHz et 48 k

General Information

Status
Published
Publication Date
11-Aug-1993
Current Stage
9093 - International Standard confirmed
Start Date
23-Jun-2021
Completion Date
30-Oct-2025
Ref Project
Standard
ISO/IEC 11172-3:1993 - Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s
English language
150 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-3:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
164 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO/IEC 11172-3:1993 - Technologies de l'information -- Codage de l'image animée et du son associé pour les supports de stockage numérique jusqu'a environ 1,5 Mbit/s
French language
164 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


I NTERNAT I O NA L
ISOIIEC
S TA N DA R D
I1 172-3
First edition
1993-08-01
Information technology - Coding of
moving pictures and associated audio for
digital storage media at up to about
1,5 Mbit/s -
Part 3:
Audio
Technologies de l'information - Codage de l'image animee et du son
associe pour les supports de stockage numerique jusqu'd environ
1,5 MbiVs -
Partie 3: Audio
Reference number
ISO/IEC 11 172-3:1993(E)
ISOAEC 11 172-3: 1993 (E)
Contents
Page
III troduc tion. .
..................................... v
Section 1: General .
............................ 1
.........................
1.1 Scope . 1
1.2 Normative references. . . 1
Section 2: Techiiical elements. . . 2
2.1 Defiiiitioiis . . 2
2.2 Symbols and abbreviations. . . 10
2.3 Method of describing bitstream syntax 12
2.4 R eq U ire inen ts . . . 14
A II II ex es
A Diagrams . . . . 38
B Tables . .
C The encodiug process . .
D Psychoacoustic models . .IO9
E Bit sensitivity to errors. . 140
OISO/IEC 1993
All rights reserved. No part of this publicatiori inay be reproduced or utilized in any form or by
any ~neaiis, electronic or nech ha ni cal, i~icluding photocopying and microfilm, without
permission in writiiig from the publisher.
ISOAEC Copyright Office Case Postale 56 CH 121 1 Genève 20 Switzerland
Printed in Switzerland.
ii
O ISO/IEC
ISO/IEC 11 172-3: 1993 (E)
F Error concealment 142
.............................................................................
G Joint stereo coding 143
...........................................................................
H List of patent holders . 147
iii
ISO/IEC 11 172-3: 1993 (E)
8 ISO/IEC
Foreword
IS0 (the International Organization for Standardization) and IEC (the Inter-
national Electrotechnical Commission) form the specialized system for
worldwide standardization. National bodies that are members of IS0 or
IEC participate in the development of International Standards through
technical committees established by the respective organization to deal
with particular fields of technical activity. IS0 and IEC technical com-
mittees collaborate in fields of mutual interest. Other international organ-
izations, governmental and non-governmental, in liaison with IS0 and IEC,
also take part in the work.
In the field of information technology, IS0 and IEC have established a joint
technical committee, ISO/IEC JTC 1. Draft International Standards adopted
by the joint technical committee are circulated to national bodies for vot-
ing. Publication as an International Standard requires approval by at least
75 YO of the national bodies casting a vote.
International Standard iSO/IEC 11 172-3 was prepared by Joint Technical
Committee ISO/IEC JTC 1, lnformation technology, Sub-committee SC 29,
Coded representation of audio, picture, multimedia and hypermedia infor-
mation.
ISO/lEC 11 172 consists of the following parts, under the general title In-
formation technology - Coding of moving pictures and associated audio
for digital storage media at up to about 1,5 MbiVs:
- Part 1: Systems
- Part2: Video
- Part 3: Audio
- Part 4: Compliance testing
Annexes A and B form an integral part of this part of ISO/IEC 11 172. An-
nexes C, D, E, F, G and H are for information only.
iv
O ISO/IEC
ISO/IEC 11 172-3: 1993 (E)
Introduction
Note: Readers interested in an overview of MPEG Audio should read this Introduction and then proceed to
annex A (Diagrams) (and annex C (The encoding process) before reading the normative clauses 1 and 2.
To aid in the understanding of the specification of the stored compressed bitstream and its decoding, a
sequence of encoding, storage and decoding is described.
0.1 Encoding
The encoder processes the digital audio signal and produces the compressed bitstream for storage. The
encoder algorithm is not standardized, and may use various means for encoding such as estimation of the
auditory masking threshold, qu(mtization, and scaling. However, the encoder output must be such that a
decoder conforming to the specifications of clause 2.4 will produce audio suitable for the intended
application.
PCM
encoded
audio samples
bitstream
32 44,l 48kHz
quanrizer
f ra
.I,:--
4 and 4 pacnllly I
4 psychoacoustic
model
t
ISOAEC 11172-3
encoder
I
ancillary data
Figure 1 -- Sketch of the basic structure of an encoder
Figure 1 illustrates the basic structure of a audio encoder. Input audio samples are fed into the encoder. The
mapping creates a filtered and subsampled represenwion of the input audio stream. The mapped samples
may be Galled either subb Layer ID). A psychoacoustic model creates a set of data to control the quantizer and coding. These data are
different depending on the actual coder implemenWion. One possibility is to use an estimation of the
masking threshold to do this quantizer control. The quantizer and coding block creates a set of coding
symbols from the mapped input samples. Again, this block can depend on the encoding system. The block
'frame packing' assembles the actual bitstream from the output &zta of the other blocks, and adds other
information (e.g. error correction) if necessary.
There are four different modes possible, single chmnel, dual channel (two independent audio signals coded
within one bitstrean), stereo (left and right signals of a stereo pair coded within one bitstream), and Joint
Stereo (left and right signals of a stereo pair coded within one bitstrean with the stereo irrelevancy and
redundancy exploited).
V
ISOAEC 11 172-3: 1993 (E)
O ISOAEC
0.2 Layers
Depending on the application, different layers of the coding system with increasing encoder complexity and
performance can be used. An ISOAEC 11172-3 Audio Layer N decoder is able to decode bitstream data
which has been encoded in Layer N and all layers below N.
Layer I
This layer contains the basic mapping of the digital audio input into 32 subbands, fixed segmentation to
format the data into blocks, a psychoacoustic model to determine the adaptive bit allocation, and
quantization using block companding and formatting. The theoretical minimum encoding/decoding delay for
Layer I is about 19 ms.
Layer JI
This layer provides additional coding of bit allocation, scalefactors and samples. Different framing is used.
The theoretical minimum encoding/decoding delay for Layer II is about 35 ms.
Layer III
This layer introduces inmased frequency resolution based on a hybrid filterb (nonuniform) quantizer, adaptive segmentation and entropy coding of the quantized values. The theoretical
minimum encoding/decoding delay for Layer III is about 59 ms.
Joint Stereo coding ~a~i be added as an additional feature to any of the layers.
0.3 Storage
Various streams of encoded video, encoded audio, synchronization data, systems data and auxiliary data may
be stored together on a storage medium. Editing of the audio will be easier if the edit point is constrained to
coincide with an addressable point.
Access to storage may involve remote access over a communication system. Access is assumed to be
controlled by a functional unit other th,an the audio decoder itself. This control unit accepts user ~omm~ands,
reads and interprets dm base structure information, reads the stored information from the media,
demultiplexes non-audio information aid passes the stored audio bitstream to the audio decoder at the
required rate.
0.4 Decoding
The decoder accepts the compressed audio bitstream in the syntax defined in 2.4.1, decodes the data elements
according to 2.4.2, and uses the information to produce digital audio output according to 2.4.3.
I I PCM
audio samples
32 44,l 48kHz
bitstream encoded I n n I I
trame inverse
b
reconstruction
unpacking mapping
1-1- -1
ISOAEC 1 1172-3 decoder
I
I I
ancillary data
Figure 2 -- Sketch of the basic structure of a decoder
Figure 2 illustrates the basic smcture of a audio decoder. Bitstrerun dm is fed into the decoder. The
bitstream unpacking and decoding block does error detection if error-check is applied in the encoder (see
2.4.2.4). The bitstream &?ta are unpacked to recover the various pieces of information. The
reconstruction block reconstructs the quantized version of the set of mapped samples. The inverse
mapping transforms these mapped samples back into uniform PCM.
vi
INTERNATIONAL STANDARD ISoAEC ISO/IEC 11 172-3: 1993 (E)
Information technology - Coding of moving
pictures and associated audio for digital storage
media at up to about 1,5 Mbit/s -
Part 3:
Audio
Section 1: General
1.1 Scope
This part of ISOmEC 11172 specifies the coded representation of high quality audio for storage media and
the method for decoding of high quality audio sigwils. The input of the encoder and the output of the decoder
are compatible with existing PCM standards such as standard Compact Disc and Digital Audio Tape.
This part of the ISO/IEC 11 172 is intended for application to digital storage media providing a total
continuous transfer rate of about 1,s Mbits/sec for both audio and video bitstreams, such as CD, DAT and
magnetic hard disc. The storage media irt?y either be connected directly to the decoder, or via other means
such as communication lines and the ISO/IEC 11 172 multiplexed stream defined in ISO/IEC 11 172-1.
This p'art of ISO/IEC 11 172 is intended for sampling rates of 32 kHz, 44,l kHz, and 48 kHz.
1 .2 Normative references
The following International Standards contain provisions which, through reference in this text, constitute
provisions of this part of ISO/IEC 11 172. At the time of publication, the editions indicated were valid.
All standards are subject to revision, and parties to agreements based on this part of ISOAEC 11 172 are
encouraged to investigate the possibility of applying the most recent editions of the standards indicated
below. Meinbers of IEC aid IS0 maintzn registers of currently valid International Standards.
ISOAEC 11172-1:1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 Mbith - Part I System.
ISO/IEC 11 172-2: 1993 Information technology - Coding of moving pictures and associated audio for digital
storage media at up to about 1,s Mbids - Part 2: Video.
CCIR Recommendition 601-2 Encoding parameters of digital television for studios.
CCIR Report 624-4 Characteristics of systems for monochrome and colour television.
CCIR Recommendation 648 Recording of audio signals.
CCIR Report 955-2 Sound broadcasting by satellite for portable and mobile receivers, including Annex IV
Surnmary description of Advanced Digital System II.
CCIn Recommendation J.17 Pre-emphasis used on Sound-Programme Circuits.
IEEE Draft Stmdaud P1180/D2 1990 Specijïcation for the irnplemntation of 8x 8 inverse discrete cosine
transfonn ".
IEC publication 908:1987 CD Digital Audio System.

ISO/IEC 11 172-3: 1993 (E)
O ISO/IEC
Section 2: Technical elements
2.1 Definitions
For the purposes of ISO/IEC 11 172, the following definitions apply. If specific to a part, this is noted in
square brackets.
2.1.1 ac coefficient [video]: Any DCT coefficient for which the frequency in one or both dimensions
is non-zero.
2.1.2 access unit [system]: In the case of compressed audio an access unit is an audio access unit. In
the case of compressed video an access unit is the coded representation of a picture.
2.1.3 adaptive segmentation [audio]: A subdivision of the digital representation of an audio signal
in variable segments of time.
2.1.4 adaptive bit allocation [audio]: The assignment of bits to subbands in a time and frequency
varying fashion according to a psychoacoustic model.
2.1.5 adaptive noise allocation [audio]: The assignment of coding noise to frequency bands in a
time and frequency varying fashion according to a psychoacoustic model.
2.1.6 alias [audio]: Mirrored signal component resulting from sub-Nyquist sampling.
2.1.7 analysis filterbank [audio]: Filterbank in the encoder that transforms a broadband PCM audio
signal into a set of subsampled subband samples.
2.1.8 audio access unit [audio]: For Layers I and II an audio access unit is defined as the smallest
part of the encoded bitstream which GQI be decoded by itself, where decoded means "fully recoiistructed
sound". For Layer III an audio access unit is part of the bitsue'm that is decodable with the use of
previously acquired main information.
2.1.9 audio buffer [audio]: A buffer in the system Luget decoder for storage of compressed audio data.
2.1.10 audio sequence [audio]: A non-interrupted series of audio frames in which the following
parameters are not changed:
-ID
- Layer
- Sampling Frequency
- For Layer I and II: Bitrate index
2.1.11 backward motion vector [video]: A motion vector that is used for motion compensation
from a reference picture at a later time in display order.
2.1.12 Bark [audio]: LJnit of critical band rate. The Bark scale is a non-linear mapping of the frequency
scale over the audio rcange closely corresponding with the frequency selectivity of the human ear across the
band.
2.1.13 bidirectionally predictive-coded picture; B-picture [video]: A picture that is coded
using motion compensated prediction from a past and/or future reference picture.
2.1.14 bitrate: The rate at which the compressed bitstrean is delivered from the storage medium to the
input of a decoder.
2.1.15 block companding [audio]: Normalizing of the digitxl representation of an audio signal
within a certain time period.
2.1.16 block [video]: An 8-row by 8-column orthogonal block of pels.
2.1.17 bound [audio]: The lowest subband in which intensity stereo coding is used.
O ISO/IEC
ISOAEC 11172-3: 1993 (E)
2.1.18 byte aligned: A bit in a coded bitstream is byte-aligned if its position is a multiple of &bits
from the fvst bit in the stream.
2.1.19 byte: Sequence of %bits.
2.1.20 channel: A digital medium that stores or transports an ISO/IEC 11 172 stream.
2.1.21 channel [audio]: The left and right channels of a stereo signal
2.1.22 chrominance (component) [video]: A matrix, block or single pel representing one of the
two colour difference signals related to the primary colours in the manner defined in CCIR Rec 601, The
used for the colour difference signals are Cr and Cb.
symbols
2.1.23 coded audio bitstream [audio]: A coded representation of an audio signal as specified in this
part of ISOilEC 11 172.
2.1.24 coded video bitstream [video]: A coded represenLition of a series of one or more pictures as
specified in ISOIIEC 1 1 172-2.
2.125 coded order [video]: The order in which the pictures are stored and decoded. This order is not
necessarily the same as the display order.
2.1.26 coded representation: A &?ta element as represented in its encoded form.
2.1.27 coding parameters [video]: The set of user-definable parameters that characterize a coded video
bitstream. Bitstreams are characterised by coding paraneters. Decoders (?re chatacterised by the bitstreams
that they are capable of decoding.
2.1.28 component [video]: A matrix, block or single pel from one of the three matrices (luminance
and two chrominaice) that make up a picture.
2.1.29 compression: Reduction in the number of bits used to represent an item of data.
2.1.30 constant bitrate coded video [video]: A compressed video bitstream with a constant
average bitrate.
2.1.31 constant bitrate: Operation where the bitrate is constant from start to finish of the compressed
bits Ueam.
2.1.32 constrained parameters [video]: The values of the set of coding parameters defined in
Of ISO/IEC 11 172-2.
2.4.3.2
2.1.33 constrained system parameter stream (CSPS) [system]: An ISO/IEC 11 172
multiplexed stream for which the constraints defined in 2.4.6 of ISO/IEC 11 172-1 apply.
2.1.34 CRC: Cyclic redundancy code.
2.1.35 critical band rate [audio]: Psychoacoustic function of frequency. At a given audible
frequency it is proportional to the number of critical bands below that frequency. The units of the critical
band rate scale are Barks.
2.1.36 critical band [audio]: Psychoacoustic measure in the spectral domain which corresponds to the
frequency selectivity of the human ear. This selectivity is expressed in Bark.
2.1.37 data element: An item of data as represented before encoding aid after decoding.
2.138 dc-coefficient [video]: The DCT coefficient for which the frequency is zero in both
dimensions.
1 ISO/IEC 11172-3: 1993 (E)
O ISO/IEC
2.1.39 dc-coded picture; D-picture [video]: A picture that is coded using only information from
itself. Of the DCT coefficients in the coded representation, only the dc-coefficients are present.
2.1.40 DCT coefficient: The amplitude of a specific cosine basis function.
2.1.41 decoded stream: The decoded reconstruction of a compressed bitstream.
2.1.42 decoder input buffer [video]: The first-in first-out (FIFO) buffer specified in the video
buffering verifier.
2.1.43 decoder input rate [video]: The &U rate specified in the video buffering verifier and encoded
in the coded video bitstream.
2.1.44 decoder: An embodiment of a decoding process.
2.1.45 decoding (process): The process defined in ISO/uEC 11172 that reads an input coded bitstream
and produces decoded pictures or audio samples.
2.1.46 decoding time-stamp; DTS [system]: A field that may be present in a packet header that
indicates the time that an access unit is decoded in the system target decoder.
2.1.47 de-emphasis [audio]: Filtering applied to an audio signal after storage or transmission to undo
a linear distortion due to emphasis.
2.1.48 dequantization [video]: The process of rescaling the qu representation in the bitstream has been decoded and before they are presented to the inverse DCT.
2.1.49 digital storage media; DSM: A digital storage or transmission device or system.
2.1.50 discrete cosine transform; DCT [video]: Either the forward discrete cosine transform or the
inverse discrete cosine transform. The DCT is an invertible, discrete orthogonal misformation. The
inverse DCT is defined in annex A of ISO/IEC 11172-2.
2.1.51 display order [video]: The order in which the decoded pictures should be displayed. Normally
this is the me order in which they were presented at the input of the encoder.
2.1.52 dual channel mode [audio]: A mode, where two audio chilnnels with independent programme
contents (e.g. bilingual) are encoded within one bitstream. The coding process is the same as for the stereo
mode.
2.1.53 editing: The process by which one or more compressed bitstreams are manipulated to produce a
new compressed bitstream. Conforming edited bitstreams must meet the requirements defined in this
ISO/IEC 11172.
2.1.54 elementary stream [system]: A generic tenn for one of the coded video, coded audio or other
coded bitstmms.
2.1.55 emphasis [audio]: Filtering applied to improve the signal-to-noise ratio at high frequencies.
2.1.56 encoder: An embodiment of (an encoding process.
2.1.57 encoding (process): A process, not specified in ISO/IEC 11172, that reads a stream of input
pictures or audio samples and produces a valid coded bitstream as defined in ISO/IEC 11 172.
2.1.58 entropy coding: Variable length lossless coding of the digital representltion of a signal to
reduce redundancy.
2.1.59 fast forward playback [video]: The process of displaying a sequence, or parts of a sequence,
of pictures in display-order faster than real-time.
O ISOAEC
ISO/IEC 1 11 72-3: 1993 (E)
2.1.60 FFT: Fast Fourier Transformation. A fast algorithm for performing a discrete Fourier transform
(an orthogonal transform).
2.1.61 filterbank [audio]: A set of band-pass filters covering the entire audio frequency range.
2.1.62 fiied segmentation [audio]: A subdivision of the digital representation of an audio signal
into fixed segments of time.
2.1.63 forbidden: The term "forbidden" when used in the clauses defining the coded bitstream indicates
that the value shall never be used. This is usually to avoid emulation of stut codes.
2.1.64 forced updating [video]: The process by which macroblocks are intra-coded from time-to-time
to ensure that mismatch errors between the inverse DCT processes in encoders and decoders cannot build up
excessively.
2.1.65 forward motion vector [video]: A motion vector that is used for motion compensation from
a reference picture at an earlier time in display order.
2.1.66 frame [audio]: A pIvt of the audio signal that corresponds to audio PCM &unples from an
Audio Access Unit.
2.1.67 free format [audio]: Any bitrate other than the defined bitrates that is less than the maximum
valid bitrate for each layer.
2.1.68 future reference picture [video]: The future reference picture is the reference picture that
occurs at a later tirne than the current picture in display order.
2.1.69 granules [Layer II] [audio]: The set of 3 consecutive subband s'amples from all 32 subbands
that are considered together before quantization. They correspond to 96 PCM samples.
2.1.70 granules [Layer III] [audio]: 576 frequency lines that carry their own side information.
2.1.71 group of pictures [video]: A series of one or more coded pictures intended to assist random
access. The group of pictures is one of the layers in the coding syntax defined in ISO/IEC 11172-2.
2.1.72 Hann window [audio]: A time function applied sample-by-sample to a block of audio samples
before Fourier transformation.
2.1.73 Huffman coding: A specific method for entropy coding.
2.1.74 hybrid filterbank [audio]: A serial combination of subband filterbank and MDCT.
2.1.75 IMDCT [audio]: Inverse Modified Discrete Cosine Transform.
2.1.76 intensity stereo [audio]: A method of exploiting stereo irrelevance or redundancy in
stereophonic audio prograrmnes based on retaining at high frequencies only the energy envelope of the right
and left channels.
2.1.77 interlace [video]: The property of conventional television pictures where alternating lines of
the picture represent different instances in time.
2.1.78 intra coding [video]: Coding of a macroblock or picture that uses information only from that
macroblock or picture.
2.1.79 intra-coded picture; I-picture [video]: A picture coded using information only from itself.
2.1.80 ISO/IEC 11172 (multiplexed) stream [system]: A bitstream composed of zero or more
elementary streams combined in the manner defined in ISO/IEC 11172-1.
ISOAEC 11 172-3: 1993 (E)
O ISOAEC
2.1.81 joint stereo coding [audio]: Any method that exploits stereophonic irrelevance or
stereophonic redundancy.
2.1.82 joint stereo mode [audio]: A mode of the audio coding algorithm using joint stereo coding.
2.1.83 layer [audio]: One of the levels in the coding hierarchy of the audio system defined in this part
of ISO/IEC 11172.
2.1.84 layer [video and systems]: One of the levels in the data hierarchy of the video and system
1 1172-1 and ISO/IEC 11 172-2.
specifications defined in ISOIIEC
2.1.85 luminance (component) [video]: A matrix, block or single pel representing a monochrome
representation of the signal and related to the primary colours in the manner defined in CCIR Rec 601. The
symbol used for luminance is Y.
2.1.86 macroblock [video]: The four 8 by 8 blocks of luminance data and the two corresponding 8 by
8 blocks of chrominance data coming from a 16 by 16 section of the luminance component of the picture.
Macroblock is sometimes used to refer to the pel data and sometimes to the coded representation of the pel
values and other data elements defined in the inacroblock layer of the syntax defined in ISOIIEC 11 172-2.
The ustige is clear from the context.
2.1.87 mapping [audio]: Conversion of an audio signal from time to frequency domain by subband
filtering and/or by MDCT.
2.1.88 masking [audio]: A property of the human auditory system by which mi audio signal c perceived in the presence of another audio signal .
2.1.89 masking threshold [audio]: A function in frequency and time below which an audio signal
cannot be perceived by the human auditory system.
2.1.90 MDCT [audio]: Modified Discrete Cosine Transform.
2.1.91 motion compensation [video]: The use of motion vectors to improve the efficiency of the
prediction of pel values. The prediction uses motion vectors to provide offsets into the past andor future
reference pictures containing previously decoded pel values that are used to form the prediction error signal.
2.1.92 motion estimation [video]: The process of estimating motion vectors during the encoding
process.
2.1.93 motion vector [video]: A two-dimensional vector used for motion compensation that provides
an offset from the coordinate position in the current picture to the coordinates in a reference picture.
2.1.94 MS stereo [audio]: A method of exploiting stereo irrelevance or redundancy in stereophonic
audio programmes based on coding the sum and difference signal instead of the left and right channels.
2.1.95 non-intra coding [video]: Coding of a macroblock or picture that uses information both from
itself and from macroblocks and pictures occurring at other times.
2.1.96 non-tonal component [audio]: A noise-like component of an audio signal.
2.1.97 Nyquist sampling: Sampling at or above twice the m 2.1.98 pack [system]: A pack consists of a pack header followed by one or more packets. It is a layer
in the system coding syntax described in ISO/IEC 11172-1.
2.1.99 packet data [system]: Contiguous bytes of data from an elementmy stream present in a packet.
2.1.100 packet header [system]: The data structure used to convey information about the elementary
stream data contained in the packet data.
O ISO/IEC
ISO/IEC 11 172-3: 1993 (E)
2.1.101 packet [system]: A packet consists of a header followed by a number of contiguous bytes
from an elementary data stream. It is a layer in the system coding syntax described in ISO/IEC 11172-1.
2.1.102 padding [audio]: A method to adjust the average length in time of an audio frame to the
duration of the corresponding PCM samples, by conditionally adding a slot to the audio frame.
2.1.103 past reference picture [video]: The past reference picture is the reference picture that occurs
at an earlier time than the current picture in display order.
2.1.104 pel aspect ratio [video]: The ratio of the nominal vertical height of pel on the display to its
nominal horizontal width.
2.1.105 pel [video]: Picture element.
2.1.106 picture period [video]: The reciprocal of the picture rate.
2.1.107 picture rate [video]: The nominal rate at which pictures should be output from the decoding
process.
2.1.108 picture [video]: Source, coded or reconstructed image data. A source or reconstructed picture
consists of three rectangular matrices of 8-bit numbers representing the luminance and two chrominance
signals. The Picture layer is one of the layers in the coding syntax defined in ISO/IEC 11 172-2. Note that
the term "picture" is always used in ISO/IEC 11 172 in preference to the terms field or fmne.
2.1.109 polyphase filterbank [audio]: A set of equal b'andwidth filters with special phase
interrelationships, allowing for an efficient implementation of the filterbank.
2.1.110 prediction [video]: The use of a predictor to provide an estimate of the pel value or data
element currently being decoded.
2.1.111 predictive-coded picture; P-picture [video]: A picture that is coded using motion
compensated prediction from the past reference picture.
2.1.112 prediction error [video]: The difference between the actual value of a pel or data element and
its predictor.
2.1.113 predictor [video]: A linear combination of previously decoded pel values or data elements.
2.1.114 presentation time-stamp; PTS [system]: A field that may be present in a packet header
that a presentation unit is presented in the system target decoder.
that indicates the time
2.1.115 presentation unit; PU [system]: A decoded audio access unit or a decoded picture.
2.1.116 psychoacoustic model [audio]: A mathematical model of the masking behaviour of the
human auditory system.
2.1.117 quantization matrix [video]: A set of sixty-four 8-bit values used by the dequantizer.
2.1.118 quantized DCT coefficients [video]: DCT coefficients before dequantization. A variable
length coded representation of quantized DCT coefficients is stored as part of the compressed video
bitstream.
2.1.119 quantizer scalefactor [video]: A &?ta element represented in the bitstrean and used by the
decoding process to scale the dequantization.
2.1.120 random access: The process of beginning to read and decode the coded bitstream at an arbitrary
point.
ISOAEC 11172-3: 1993 (E)
O ISOAEC
2.1.121 reference picture [video]: Reference pictures are the nearest adjacent I- or P-pictures to the
current picture in display order.
2.1.122 reorder buffer [video]: A buffer in the system target decoder for storage of a reconstructed I-
picture or a reconstructed P-picture.
2.1.123 requantization [audio]: Decoding of coded subband samples in order to recover the original
quantized values.
2.1.124 reserved: The tern "reserved" when used in the clauses defining the coded bitstream indicates
that the value may be used in the future for ISOEC defined extensions.
2.1.125 reverse playback [video]: The process of displaying the picture sequence in the reverse of
display order.
2.1.126 scalefactor band [audio]: A set of frequency lines in Layer III which are scaled by one
scalefac tor.
2.1.127 scalefactor index [audio]: A numerical code for a scalefactor.
2.1.128 scalefactor [audio]: Factor by which a set of values is scaled before qu'antization.
2.1.129 sequence header [video]: A block of &?ta in the coded bitstream containing the coded
representation of a number of data elements.
2.1.130 side information: Information in the bitstream necess 2.1.131 skipped macroblock [video]: A macroblock for which no data are stored.
2.1.132 slice [video]: A series of macroblocks. It is one of the layers of the coding syntax defined in
ISO/IEC 11 172-2.
2.1.133 slot [audio]: A slot is in Layers II and III one byte.
2.1.134 source stream: A single non-multiplexed stream of samples before compression coding.
2.1.135 spreading function [audio]: A function that describes the frequency spread of masking.
2.1.136 start codes [system and video]: 32-bit codes embedded in that coded bitstream that are
unique. They are used for several purposes including identifying some of the layers in the coding syntax.
2.1.137 STD input buffer [system]: A first-in first-out buffer at the input of the system target
decoder for storage of compressed &?ta from elementary sueams before decoding.
2.1.138 stereo mode [audio]: Mode, where two audio channels which form a stereo pair (left and
right) are encoded within one bitsueam. The coding process is the same as for the dual channel mode.
2.1.139 stuffing (bits); stuffing (bytes) : Code-words that may be inserted into the compressed
bitstream that are discarded in the decoding process. Their purpose is to increase the bitrate of the stream.
2.1.140 subband [audio]: Subdivision of the audio frequency band.
2.1.141 subband filterbank [audio]: A set of band filters covering the entire audio frequency range.
In this PM of ISOEC 11 172 the subband filterbank is a polyphase filterbank.
2.1.142 subband samples [audio]: The subband filterbank within the audio encoder creates a filtered
and subsampled representation of the input audio stream. The filtered samples are dled subband samples.
8 ISO/IEC
ISO/IEC 11172-3: 1993 (E)
From 384 time-consecutive input audio samples, 12 time-consecutive subband samples are generated within
each of the 32 subbands.
2.1.143 syncword [audio]: A 12-bit code embedded in the audio bitstream that identifes the start of a
fiame.
2.1.144 synthesis filterbank [audio]: Filterbank in the decoder that reconstructs a PCM audio
signal from subband samples.
2.1.145 system header [system]: The system header is a data structure defined in ISO/IEC 11172-1
that carries information summarising the system characteristics of the ISO/IEC 11172 multiplexed stream.
2.1.146 system target decoder; STD [system]: A hypothetical reference model of a decoding
process used to describe the semantics of an ISO/IEC 11 172 multiplexed bitstream.
2.1.147 time-stamp [system]: A term that indicates the time of an event.
2.1.148 triplet [audio]: A set of 3 consecutive subband smnples from one subband. A triplet from
each of the 32 subb 2.1.149 tonal component [audio]: A sinusoid-like component of an audio signal.
2.1.150 variable bitrate: Operation where the bitrate v,uies with time during the decoding of a
compressed bitstream.
2.1.151 variable length coding; VLC: A reversible procedure for coding that assigns shorter code-
words to frequent events and longer code-words to less frequent events.
2.1.152 video buffering verifier; VBV [video]: A hypothetical decoder that is conceptually
connected to the output of the encoder. Its purpose is to provide a constraint on the variability of the data
rate that 2.1.153 video sequence [video]: A series of one or more groups of pictures. It is one of the layers of
the coding syntax defined in ISO/IEC 11 172-2.
2.1.154 zig-zag scanning order [video]: A specific sequential ordering of the DCT coefficients from
(approximately) the lowest spatial frequency to the highest.
ISOAEC 11 172-3: 1993 (E)
0 ISOAEC
2.2 Symbols and abbreviations
The mathematical operators used to describe this International Standard are similar to those used in the C
progl-dmming language. However, integer division with truncation and rounding are specifically defined.
The bitwise operators are defined assuming twos-complement representation of integers. Numbering and
counting loops generally begin from zero.
2.2.1 Arithmetic operators
Addition.
Subtraction (as a binary operator) or negation (as a unary operator).
Increment.
Decrement.
Multiplication.
Power.
Integer division with truncation of the result toward zero. For example, 714 and -71-4 are
truncated to 1 and -7/4 and 71-4 are truncated to -1.
Integer division with rounding to the nearest integer. Half-integer values are rourided away
from zero unless otherwise specified. For example 3/12 is rounded to 2, and -3//2 is rounded
to -2.
Integer division with truncation of the result towards -m.
I x I = x when x >O
Absolute value.
I x I =O when x == O
I x I = -x when x < O
Modulus operator. Defined only for positive numbers.
Sign(x) = 1 x >O
O x==o
-1 x Nearest integer operator. Returns the ne‘uest integer value to the real-valued argument. Half-
integer values are rounded away from zero.
Sine.
Cosine.
Exponential.
Square root.
LogCarithm to base ten.
Logarithm to base e.
Logarithm to base 2.
2.2.2 Logical operators
Il Logical OR.
&& Logical AND.
O ISOAEC
ISO/IEC 11 172-3: 1993 (E)
1 Logical NOT
2.2.3 Relational operators
> Greater than.
r-
Greater than or equal to.
< Less than.
<=
Less than or equal to.
!= Not equal to.
max [,.,.,;I the maximum value in the argument list.
,min [, .,I
the minimum value in the argument list.
2.2.4 Bitwise operators
A twos complement nunbet representation is assumed where the bitwise operators are used.
& AND
I OR
>>
Shift right with sign extension.
<<
Shift left with zero fill.
2.2.5 Assignment
- - Assignment operator.
2.2.6 Mnemonics
The follouri~i~g mnemonics are defined to describe the different chta types used in the coded bit-stream.
bslbf Bit string, left bit first, where "left" is the order in which bit strings are written in
ISO/IEC 11172. Bit strings are written ils a string of 1s and Os within single quote
marks, e.g. '1000 0001'. Blanks within a bit string are for ease of reading and have no
significance.
ch Channel. If ch has the value O, the left channel of a stereo signal or the fist of two
independent signals is indicated. (Audio)
ncfr Number of channels; equal to 1 for single-channel mode, 2 in other modes. (Audio)
Gr'vlule of 3 * 32 subbaind samples in audio Layer II, 18 * 32 sub-band samples in
gr
audio Layer III. (Audio)
The main-data portion of the bitstream contiIins the scalefactors, Huffman encoded
rnain-dm
data, aid ancillary information, (Audio)
The location in the bitsuean of the beginning of the main-&ta for the frame. The
main-dak?_beg
location is equal to the ending location of the previous frame's m;un-data plus one bit.
It is Gdculated from the maindata-end value of the previous frame. (Audio)
The number of main-&&t bits used for scalefactors. (Audio)
pardlength
ISOAEC 11 172-3: 1993 (E)
O ISO/IEC
xpchof
Remainder polynomial coefficients, highest order first. (Audio)
sb Subband. (Audio)
sblimit The number of the lowest sub-b scfsi Scalefactor selection information. (Audio)
switch-point-l
Number of scalefactor bald (long block scalefactor band) from which point on window
switching is used. (Audio)
switch-point-s Number of scalefactor baud (short block scalefactor band) from which point on window
switching is used. (Audio)
uimsbf Unsigned integer, most significant bit first.
vlclbf
Variable length code, left bit fust, where "left" refers to the order in which the VLC
codes are written.
window Number of the actual time slot in case of block_type==2, O I window S 2. (Audio)
The byte order of multi-byte words is most significant byte first.
2.2.7 Constants
x 3,'14159265358 .
e 2,'11828 182845 .
2.3 Method of describing bitstream syntax
The bitstream refrieved by the decoder is described in 2.4.1. Each dztz item in the bitstrean is in bold type.
It is described by its name, its length in bits, and a mnemonic for its type and order of transmissiion.
The action ~zused by a decoded dztz element in a bitstrean depends on the value of that dm element and
on data elements previously decoded. The decoding of the dzta elements and definition of the state variables
used in their decoding are described in 2.4.2. The following constructs are used to express the conditions
when data elemtmts are present, aid are in nonnal type:
Note this syntax uses the 'C'-code convention that a variable or expression evaluating to a non-zero value is
equivalent to a condition that is me.
while ( condition ) ( If the condition is true, then the group of data elements occurs next
da ta-element in the daLi stream. This repeats until the condition is not me.
...
do(
da ta-eleme nt The dztiz element always occurs at least once.
...
] while ( condition ) The clam element is repeated until the condition is not true.
If the condition is Vue, then the first group of dat? elements occurs
if ( condition) (
data-element next in the &?LI stream.
I
If the condition is not true, then the second group of dm elements
else (
da ta-eleme nt occurs next in the dam stream.
...
O ISOAEC
ISOAEC 11 172-3: 1993 (E)
fol: (exprl; expr2; expr3) ( exprl is an expression specifying the initialization of the loop. Normally it
data-elemen t
specifies the initial state of the counter. expr2 is a condition specifying a test
...
made before each iteration of the loop. The loop terminates when the condition
is not true. expr3 is an expression that is performed at the end of each iteration
of the loop, normally it increments a counter.
Note that the most common usage of this construct is as follows:
for ( i = O; i c n; i++) ( The group of data elements occurs n times. Conditional constructs
data-element within the group of data elements may depend on the value of the
... loop control variable i, which is set to zero for the first occurrence,
inaemented to one for the second occurrence, and so forth.
As noted, the group of data elements may contain nested conditional constructs. For compactness, the ( }
may be omitted when only one data element follows.
data-element [I
data-element 0 is an array of data The number of dari? elements is indicated by
the context.
da ta-element [ n] dak?-element [n] is the n+lth element of an array of daci.
data-element [m][n] data-element [m][nl is the m+l,n+l th element of a two-dimensional 'way of
&?til.
dala-element [I][m][n] &?ta-element [l][m][n] is the l+l,m+l,ntl th element of a three-dimensional
anay of data.
data-element [m.n] is the inclusive range of bits between bit m and bit n in the data-element.
While the syntax is expressed in procedural terms, it should not be ilssumed that 2.4.3 implements a
satisfactory decoding procedure. In particular, it defines a correct and error-free input bitsueam. Actual
decoders inust include a means to look for SLW codes in order to begin decoding correctly.
Definition of bytealigned function
The function bytealigned 0 returns 1 if the current position is on a byte bound,ary, that is the next bit in the
bitstream is the first bit in a byte. Otherwise it returns O.
Definition of nextbits function
Th€: function nextbits () pennits comparison of a bit suing with the next bits to be decoded in the
bitstream.
Definition of next-start-code function
The: next-start-code function removes .my zero bit and zero byte stuffing and locates the next stat code.
-
- Syntax No. of bits Mnemonic
next-start-code0 (
while ( !bytealignedo )
1 'O'
zero-bit
while ( nextbits() != 'O000 O000 O000 O000 0000 0001' 1
8 '00000000'
zero-byte
This function checks whether the current position is bytealigned. If it is not, zero stuffing bits are present.
Aftx that any number of zero bytes may be present before the start-code. Therefore start-codes are always
byt1:aligned and inay be preceded by any number of zero stuffing bits.
ISO/IEC 1 11 72-31 1993 (E)
O ISO/IEC
2.4 Requirements
2.4.1 Specification of the coded audio bitstream syntax
2.4.1.1 Audio sequence
No. of bits Mnemonic
audio sequena()
while (nextbits()==syncword) (
2.4.1.2 Audio frame
No. of bits Mnemonic
error-chec kO
ancillary-I Lata0
2.4.1.3 Header
Syntax No. of bits Mnemonic
header0
(
12 bslbf
syncword
1 bslbf
ID
2 bslbf
layer
1 bslbf
protection-bit
4 bslbf
bitrate- index
2 bslbf
sampling-frequency
1 bslbf
padding,-bit
private-bit 1 bslbf
2 bslbf
mode
2 bslbf
mode-extension
1 bslbf
copyrigli t
1 bslbf
originallcopy
2 bslbf
emphasis
2.4.1.4 Error check
No. of bits Mnemonic
if (protectionbit==O)
16 rpchof
crc-check
II
L I
0 SO/IEC ISO/IEC 11 172-3: 199
...


NORME ISO/CEI
INTERNATIONALE 11172-3
Première édition
1993-08-01
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ Ii5 Mbit/s -
Partie 3:
Audio
Information technology - Coding of moving pictures and associated
audio for digital storage media at up to about 1,5 Mbit/s -
Part 3: Audio
Numéro de référence
lSO/CEI 1 II 72-3:1993(F)
ISO/CEI 11172-3:1993 (F)
Sommaire
Page
. . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Avant-propos
iv
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 1 : Généralités
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Objet
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Références normatives
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 2 : Eléments techniques
...........................................................................................
2.1 Définitions
...................................................................
2.2 Symboles et abréviations
................. 14
23 . Méthode de description de la syntaxe du train binaire
2.4 Spécifications .
Annexes
A Organigrammes et schémas .
B Tables .
C Processus de codage .
D Modèles psychoacoustiques .
E Sensibilité des bits aux erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F Dissimulation des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
G
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
H Liste des détenteurs de brevets
0 ISO/CEI 1993
Droits de reproduction reservés. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii
o ISO/CEI ISO/CEI 11172-31993 (F)
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de US0 et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec 1’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, 1’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-3 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ I,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A et B font partie intégrante de la présente partie de
l’ISO/CEI 11172. Les annexes C, D, E , F, G et H sont données uniquement à titre
d’information.
. . .
III
0 ISOKEI
ISO/CEI 11172-31993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Audio MPEG peut
lire cette introduction, puis passer à l’annexe A (Organigrammes et schémas) et à l’annexe C
(Processus de codage), avant de revenir aux articles normatifs 1 et 2.
La description du codage, du stockage et du décodage d’une séquence audio, donnée ci-après, est
destinée à faciliter la compréhension de la spécification du train binaire comprimé stocké et de son
décodage.
0.1
Codage
Le codeur traite le signal audio numérique et génère le train binaire comprimé à stocker.
L’algorithme du codeur n’est pas normalisé, ce dernier pouvant utiliser divers moyens de codage tels
l’estimation du seuil de masquage auditif, la quantification et la mise à l’échelle. La sortie du codeur
doit cependant être telle qu’un décodeur conforme à la spécification de 2.4 produise un signal audio
approprié à l’application prévue.
train
échantillons
.
\ f
audio MIC binaire
32, 41,l 48 kHz codé
quantification
*, paquetage
mappage
et
modèle
psycho-
codeur
ISO/CEI 11172
données auxilliaires
Figure 1 - Schéma de la structure de base d’un codeur
La figure 1 représente la structure de base d’un codeur audio. Les échantillons audio d’entrée sont
introduits dans le décodeur. Le bloc “mappage” crée une représentation filtrée et sous-échantillonnée
du train audio d’entrée. Les échantillons mappés sont appelés échantillons en sous-bande (dans la
Couche 1 ou II, voir ci-après) ou échantillons en sous-bande transformés (dans la Couche III). Le
bloc “quantification et codage” est contrôlé par un ensemble de données généré par un “modèle
psychoacoustique”. Ces données diffèrent selon la réalisation effective du codeur. Une possibilité est
d’utiliser une estimation du seuil de masquage pour opérer le contrôle de la quantification. Le bloc
“quantification et codage” génère un ensemble de symboles de codage à partir des échantillons
d’entrée mappés. La réalisation de ce bloc dépend, elle aussi, du système de codage. Le bloc
“paquetage des trames” construit le train binaire réel à partir des données de sortie des autres blocs,
en leur ajoutant, si nécessaire, d’autres informations (par exemple, de correction d’erreur).
iv
o lSO/CEI ISO/CEI 1117203:1993 (F)
Quatre modes différents sont possibles : à un seul canal, à deux canaux (deux signaux audio
indépendants codés en un même train binaire) stéréo (signaux gauche et droit des deux voies stéréo
codés en un même train binaire) et stéréo combiné (signaux gauche et droit des deux voies stéréo,
codés en un même train binaire, en exploitant la redondance et la présence d’éléments non pertinents
pour la stéréo).
02 . Couches
Selon l’application, différentes couches du système de codage, de complexité et de performances de
codage croissantes, peuvent être utilisées. Un décodeur de la Couche audio N ISO/CEI 11172-3 est
capable de décoder les données du train binaire qui ont été codées dans la Couche N et dans toutes
les couches de niveaux inférieurs.
Couche 1:
Cette couche contient le mappage de base de l’entrée audio numérique en 32 sous-bandes, la
segmentation fUre de formatage des données en blocs, un modèle psycho-acoustique de détermination
de l’affectation binaire adaptative, et la quantification par compression-expansion et formatage en
blocs. Le retard minimum théorique de codage/décodage de la Couche 1 est d’environ 19 ms.
Couche II :
Cette couche assure un codage additionnel de l’affectation binaire, des facteurs d’échelle et des
échantillons. Un tramage différent est utilisé. Le retard minimum théorique de codage/décodage de
la Couche II est d’environ 35 ms.
Couche III :
Cette couche introduit une augmentation de résolution en fréquence, basée sur un banc de filtres
hybride. Elle ajoute une quantifrcation différente (non-uniforme), une segmentation adaptative et un
codage entropique des valeurs quantifiées.Le retard minimum théorique de codage/décodage de la
Couche III est d’environ 59 ms.
Le codage stéréo combiné peut être ajouté, comme fonction additionnelle, à n’importe quelle couche.
03 . Stockage
Divers trains binaires vidéo codés, audio codés, de données de synchronisation, de données système
et de données annexes peuvent être enregistrés ensemble sur un support de stockage. L’édition du
signal audio est facilitée si le point de raccord est tenu de coïncider avec un point adressage.
L’accès au support de stockage peut impliquer un accès à distance par un système de communication.
L’accès est supposé contrôlé par une unité fonctionnelle différente du décodeur audio proprement
dit. Cette unité de contrôle accepte des commandes de l’utilisateur, lit et interprète les informations
structurelles d’une base de données, lit les informations stockées sur le support, démultiplexe les
informations non-audio et communique, au débit requis, le train binaire audio stocké, au décodeur
audio.
.
Le décodeur reçoit le train binaire audio comprimé selon la syntaxe définie en 2.4.1, décode les
éléments de données selon 2.4.2 et utilise les informations pour produire la sortie audio numérique,
selon 2.4.3.
V
ISO/CEI 11172-3:1993 (F) o ISO/CEI
échantillons
train
I
. \
f , f
audio MIC
binaire
32, 41,l 48 kHz
décorticage
codé
mappage
I
des a reconstruction L b -
inverse
trames
\ l A t l
décodeur ISO/CEI 11172
données auxilliaires
f
Figure 2 - Schéma de la structure de base d’un décodeur
La figure 2 représente la structure de base d’un codeur audio. Les données du train binaire entrent
dans le décodeur. Le bloc “décorticage et décodage du train binaire” procède à une détection d’erreur
si un mot de contrôle d’erreur a été généré par le codeur (voir 2.4.2.4). Les données du train binaire
sont décortiquées pour récupérer les divers éléments d’information. Le bloc “reconstruction”
reconstruit la version quantifiée de l’ensemble des échantillons mappés. Le bloc “mappage inverse”
retransforme ces échantillons mappés en une MIC uniforme.

NORME INTERNATIONALE @ IsO/CEI ISO/CEI 11172-3:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 lVlbit/s -
Partie 3:
Audio
Section 1 : Généralités
11 . Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée d’un signal audio de haute
qualité, pour son enregistrement sur les supports de stockage numérique, ainsi que le processus de
décodage. L’entrée du codeur et la sortie du décodeur sont compatibles avec les normes MIC
existantes, telles que celles des disques compacts (CD) et des bandes magnétiques audio numériques
(DAT).
La présente partie de l’ISO/CEI 11172 est destinée à être appliquée à un support de stockage
numérique assurant un débit de transfert total continu d’environ 1,5 Mbit/s des trains binaires audio
et vidéo, tels que les CD, les DAT et les disques durs magnétiques. Le support de stockage peut être
connecté directement au décodeur, ou par l’intermédiaire d’autres moyens tels que des lignes de
communication transportant le train binaire multiplexé ISO 11172 défini dans l’ISO/CEI 111724. La
présente partie de l’ISO/CEI 11172 est prévue pour des fréquences d’échantillonnage de 32 kHz,
44,l kHz et 48 kHz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172.1:1993, Technologies de l’information -
Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-2:1993, Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 2 : vidéo.
Recommandation CCIR 601-2, Paramètres de codage de télévision numérique pour studios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodifitsion du son par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué II.
Recommandation CCITT 3.17, Préaccentuation utilisée sur les circuits du programme son.
Projet de norme IEEE PllSO/D2 1990, Spécifications de mise en oeuvre de la transfomzation en
cosinus discrète inverse 8x8.
CE1 908:1987, Système audio numérique CD.

ISO/CEI 11172031993 (F) 0 ISO/CEI
Section 2 : Eléments techniques
21 l Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
en anglais est entre crochets maigres, en italiques. La partie à laquelle une définition est
éventuellement spécifique est indiquée entre crochets gras.
: Tout coefficient DCT dont la fréquence est non
2.1.1 coefficient AC [ac coeficient] [vidéo]
nulle dans au moins une dimension.
2.12 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4
affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du résultant d’un échantillonnage à une
signal,
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis jilterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio bujfer] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- ID,
couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.

0 ISO/CEI ISO/CEI 1117203:1993 (F)
image codée par prédiction bidirectionnelle ; image B [bidirectionall’y predictive-coded
2.1.13
picture; B-pictzue] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
2.1.14 débit binaire [bitrate] : Debit auquel le train binaire comprimé est reçu du support de
stockage à l’entree d’un décodeur.
2.1.1s compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [borrnd] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilise.
2.1.18 calé à l’octet [byte aZi@ed] : Un bit d’un train binaire codé est calé à l’octet si sa position à
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.1.20 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.1.21 voie [charmer] [audio] : Voie gauche ou droite d’un signal stéréo.
2.1.22 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associes aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.1.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans la présente partie de l’ISO/CEI 11172.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans l’ISO/CEI 11172-2.
Ordre dans lequel les images sont stockées et
2.1025 ordre de codage [coded order] [vidéo] :
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.1.26 représentation codée [coded representation] [vidéo] : Elément de données, tel que
représenté dans sa forme codée.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.1.28 composante [comportent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29 compression [compression] : Réduction du nombre de bits utilisés pour représenter
élément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [cowtrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2 de l’ISO/CEI 11172-2.

0 ISO/CEI
ISO/CEI 11172-33 993 (F)
2.133 train binaire à paramètres système. restreints (CSPS) [constrained system parameter stream
(CSPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6. de l’ISO/CEI 11172-1.
2.134 CRC [Cyclic redundancy code; CRC] : Code à redondance cyclique.
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
bande critique [critical band] [audio] : Mesure psychoacoustique relevant du domaine
2.136
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
çoefflcient DC [dc-coeficient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
2.138
les deux dimensions.
image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
2.139
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coeff7cient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input buffer] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44 décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire codé d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding rime-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47
désaccentuation [de-empltasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequantization] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSM] : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50 transformation en cosinus discrète ;
DCT [discrete cosinus transfomz; DCTJ [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A de
l’ISO/CEI 11172-2.
o lSO/CEI ISO/CEI 11172-3: 1993 (F)
ordre d’affkhage [display order] [vidéo] : Ordre dans lequel les images décodées devraient
2.1.51
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
2.1.52
mode à deux canaux [dual channel mode] [audio] : Mode dans lequel deux canaux audio
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
pour produire un nouveau train binaire comprimé. Les trains binaires édités conformes doivent
répondre aux spécifications définies dans l’ISO/CEI 11172.
: Terme générique pour désigner
2.1.54 train binaire élémentaire [elementav stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
2.1.55 accentuation [empJzasis] [audio] : Filtrage appliqué à un signal audio avant stockage ou
transmission, pour améliorer le rapport signal/bruit aux fréquences élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
2.1.58 codage entropique [entropy coding] : Codage de longueur variable, bruit, de la
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59
accéléré avant Ifast forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Transfonit; FFTj : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres Blterbank] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62
segmentation fixe [frxed segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fixes.
2.1.63 interdit(e) [forbidden] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique Iforced updating] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant üo,ward motion vecto] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l’ordre d’affichage.
2.1.66 trame vrame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67 format libre vree format] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future plture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.

lSO/CEl 11172~31993 (F) 0 lSO/CEI
2.1.69 granules [Couche II] [granules [Layer 1111 [audio] : L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] [granules [Layer 111]1 [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
2.1.71 groupe d’images igroup of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans l’ISO/CEI 11172-2.
2.1.72
fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Huflnan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [Itybrid jZterbank] [audio] : Combinaison en série d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [hverse Modified Discrete Cosinus Transfonn] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; I-picture] [vidéo] : Image codée en
utilisant uniquement ses propres informations.
2.1.80 train binaire (multiplexé) ISO/CEI 11172 [ISO/CEI 11172 (multiplexed) stream]
[système] : Train binaire composé de zéro, un ou plusieurs trains binaires élémentaires, combinés
comme défini dans l’ISO/CEI 11172-1.
2.1.81. codage stéréo combiné Ljoint stereo coding] [audio] : Toute méthode exploitant le caractère
non significatif ou la redondance de la stéréophonie.
2.1.82 mode stéréo combiné boint stereo mode] [audio] : Mode de l’algorithme de codage audio,
utilisant le codage stéréo combiné.
2.1.83 couche [Zayer] [audio] : Un des niveaux de la hiérarchie de codage du système audio défini
dans la présente partie de l’ISO/CEI 11172.
2.1.84 couche [Iayer] [vidéo et système] : Un des niveaux de la hiérarchie de données des
spécifications vidéo et système, définies dans la présente partie de l’ISO/CEI 11172 et dans
l’ISO/CEI 11172-2.
2.1.85 luminance (composante) [Zuminance (component)] [vidéo] : Matrice, bloc ou échantillon de
pixels constituant une représentation monochrome des signaux, et associé aux couleurs primaires,
comme défini dans la Recommandation du CCIR 601. Le symbole utilisé pour la luminance est Y.
2.1.86 macrobloc [macroblock] [vidéo] : Les quatre blocs 8 x 8 de données de luminance et les
deux blocs 8 x 8 correspondants de données de chrominance, provenant d’une section 16 x 16 de la
composante de luminance de l’image. Le macrobloc est utilisé tantôt pour se référer aux données du
pixel, tantôt pour se référer à la représentation codée du pixel et à d’autres éléments de données
définis dans la Couche Macrobloc de la syntaxe spécifiée dans l’ISO/CEI 11172-2. L’utilisation de ce
mot est clairement déterminée d’après le contexte.

o ISO/CEI ISO/CEI 11172-3: 1993 (F)
2.1.87 mappage [mapping] [audio] : Conversion d’un signal audio d’un domaine temporel dans un
domaine fréquenciel par filtrage en sous-bande et/ou par MDCT.
2.1.88 masquage [masking] [audio] : Propriété du système auditif humain, exprimant le fait qu’un
signal audio ne peut pas être perçu en présence d’un autre signal audio.
2.1.89 seuil de masquage [masking threshold] [audio] : Niveau, fonction de la fréquence et du
temps, en-dessous duquel un signal audio ne peut pas être perçu par le système auditif humain.
2.1.90 MDCT [Modified Discrete Cosine Transfomz; MDCT] [audio] : Transformation en cosinus
discrète modifiée.
2.1.91 compensation du mouvement [motion compensation] [vidéo] : Utilisation de vecteurs
mouvement pour améliorer l’efficacité de prédiction des valeurs des pixels. La prédiction utilise, pour
former le signal d’erreur, des vecteurs mouvement fournissant des décalages par rapport à des images
de référence antérieures et/ou futures, contenant des pixels déjà décodés.
2.1.92 estimation du mouvement [motion estimation] [vidéo] : Processus d’estimation des vecteurs
mouvement lors du processus de codage.
2.1.93 vecteur mouvement [motion vector] [vidéo] : Vecteur à deux dimensions utilisé pourla
fournissant un décalage entre la position (déterminée par ses
compensation du mouvement,
coordonnées) dans l’image courante et la position dans une image de référence.
2.1.94 stéréo MS [MS stereo] [audio] : Méthode d’exploitation du caractère non significatif ou de
la redondance stéréophonique de programmes audio stéréo, et basée sur le codage des signaux de
somme et de différence, au lieu des voies droite et gauche.
2.1.95 codage (en mode) non-intra [non-intra coding] [vidéo] : Codage d’un macrobloc ou d’une
image, qui utilise des informations provenant à la fois de ce macrobloc ou de cette image, et de
macroblocs et d’images se présentant à d’autres moments.
non tonale [rzon [audio] : Composante de type bruit d’un
2.1.96 com posante -tort a1 con2poltel2 t]
signal audio.
2.1.97 échantillonnage de Nyquist [Nyquist samplirig] : Echantillonnage à une fréquence double de
la largeur de bande maximale d’un signal, ou supérieure.
2.1.98 pack [pack] [système] : Un pack consiste en un en-tête de pack suivi d’un ou plusieurs
paquets. La Couche Pack de la syntaxe de codage système est décrite dans l’ISO/CEI 11172-1.
2.1.99 : Octets de données consécutifs d’un train
données d’un paquet [yacket data] [système]
binaire élémentaire, contenus dans un paquet.
2.1.100 en-tête de paquet [pack header] [système] : Structure de données utilisée pour véhiculer des
informations sur les données du train binaire élémentaire contenu dans les données du paquet.
2.1.101 paquet [packet] [système] : Un paquet consiste en un en-tête suivi d’un certain nombre
d’octets appartenant à un train de données élémentaire. La Couche Paquet de la syntaxe de codage
système est décrite dans l’ISO/CEI 11172-l.
2.1.102 bourrage [yadding] [audio] : Méthode d’adaptation de la longueur temporelle moyenne
d’une trame audio à la durée des échantillons MIC correspondants, par concaténationnelle
conditionnelle d’un segment à la trame audio.
2.1.103 image de référence antérieure [past refererzce pictzrre] [vidéo] : Image de référence située à
un moment antérieur à l’image courante, dans l’ordre d’affichage.
2.1.104 facteur d’aspect du pixel [yef aspect ratio] [vidéo] : Rapport de la hauteur (verticale)
nominale du pixel affiché, à sa largeur (horizontale) nominale.
0 lSO/CEI
ISO/CEI 11172-3:1993 (F)
2.1.105 pixel [pel] [vidéo] : Elément d’image.
2.1.106 période d’image [pictzueperiod] [vidéo] : Inverse de la fréquence d’image.
Fréquence nominale à laquelle des images
2.1.107 fréquence d’image Ipicture rate] [vidéo] :
devraient se présenter à la sortie du processus de décodage.
2.1.108 image [image] [vidéo] : Données d’image source, codée ou reconstruite. Une image consiste
en trois matrices rectangulaires de nombres de 8 bits représentant le signal de luminance et les deux
signaux de chrominance. La Couche Image est l’une des couches de la syntaxe de codage définie dans
l’ISO/CEI 11172-2. A noter que, dans l’ISO/CEI 11172, le terme “image” est toujours utilisé de
préférence à “trame”.
2.1.109 banc de filtres polyphase [polyphase filter banc] [audio] : Ensemble de filtres de même
largeur de bande, présentant entre eux des relations de phase spécifiques, permettant une réalisation
efficace du banc de filtres
2.1.110 prédiction Iprediction] [vidéo] : Utilisation d’un prédicteur pour fournir une estimation du
pixel ou de l’élément de données en cours de décodage.
2.1.111 image codée par prédiction ; image P [yrediction coded picture; P-picture] [vidéo] : Image
codée en utilisant une prédiction compensée en mouvement d’après l’image de référence antérieure.
: Différence entre la valeur réelle d’un pixel
2.1.112 erreur de prédiction [yrediction errer] [vidéo]
ou d’un élément de données et son prédicteur.
2.1.113 prédicteur [predictor] [vidéo] : Combinaison linéaire de pixels ou d’éléments de données
préalablement décodés.
2.1.114 estampille de présentation ; PTS [presentatiou tirne-starnp; PTS] [système] : Champ
pouvant figurer dans un en-tête de paquet pour indiquer le moment auquel une unité de présentation
est sensée être présentée dans le Décodeur de Référence Système.
2.1.115 unité de présentation ; PU [yresentatiorz unit; Pu] : Unité d’accès audio décodée ou image
décodée.
2.1.116 modèle psychoacoustique [psychoacoustic mode21 [audio] : Modèle mathématique du
comportement en matière de masquage, du système auditif humain.
2.1.117 matrice de quantification [quantization matrix] [vidéo] : Ensemble de 64 valeurs de 8 bits,
utilisées pour la mise à l’échelle lors de la déquantification.
2.1.118 coefficients DCT quantifiés [quantized DCT coefficients] : Coefficient DCT avant
déquantification. Une représentation codée à longueur variable, des coefficients DCT quantifiés, est
stockée comme partie du train binaire vidéo comprimé.
2.1.119 facteur d’échelle de quantification [quantizer scalefactor] : Elément de données représenté
dans le train binaire et utilisé par le processus de décodage pour déterminer la mise à l’échelle lors
de la déquantification.
2.1.120 accès direct [random access] : Processus consistant à commencer la lecture et le décodage
du train binaire codé en un point arbitraire de ce train
2.1.121 image de référence [reference pictzue] [vidéo] : Les images de référence sont les images 1 ou
P les plus proches de l’image courante, dans l’ordre de balayage.
2.1.122 tampon de remise en ordre [reorder buffer] [vidéo] : Mémoire-tampon du Décodeur de
Référence Système, utilisée pour le stockage d’une image 1 reconstruite et/ou d’une image P
reconstruite.
2.1.123 requantifïcation [requantizatiorz] [audio] :
Décodage d’échantillons en sous-bande codés
pour rétablir les valeurs quantifiées initiales.
ISO/CEI 1117203:1993 (F)
0 lSO/CEI
2.1.124 réservé(e) [reserved] : L’adjectif “réservé” est utilisé dans les articles définissant le train
binaire codé pour indiquer que la valeur concernée pourra être utilisée ultérieurement pour des
extensions définies par l’ISO/CEI.
2.1.125 restitution arrière [reverse playback] [vidéo] : Processus d’affichage de la séquence
d’images en ordre inverse de l’ordre d’affichage normal.
2.1.126 bande de facteur d’échelle [scalefactor band] [audio] : Ensemble de raies de la Couche III,
auxquelles est appliqué un même facteur d’échelle.
2.1.127 indice de facteur d’échelle [scalefactor index] [audio] : Code numérique d’un facteur
d’échelle.
2.1.128 facteur d’échelle [scalefactor] [audio] : Facteur de mise à l’échelle d’un ensemble de valeurs
avant quantification.
: Bloc de données du train binaire codé
2.1.129 en-tête de séquence [sequence header] [vidéo]
contenant la représentation codée d’un certain nombres d’éléments de données.
2.1.130 informations annexes si e i72fon92atiorts] : Informations du train binaire codé, nécessaires
1 d
pour le contrôle du décodeur.
2.1.131 macrobloc sauté [skipped macroblock] [vidéo] : Macrobloc pour lequel aucune donnée n’est
stockée.
2.1.132 bande [vidéo] : Suite de macroblocs. La Couche Bande est une des couches de la syntaxe de
codage définie dans l’ISO/CEI 11172-2.
2.1.133 segment [slot] [audio] : Partie élémentaire du train binaire. Dans la Couche 1, le segment
est égal à quatre octets ; dans les Couches II et III, il est égal à un octet.
2.1.134 train binaire source [source streanz] : Train unique d’échantillons non-multiplexé, avant
codage avec compression.
2.1.135 fonction d’étalement de la cochlée [spreading function] [audio] : Fonction décrivant
l’étendue en fréquence du masquage.
2.1.136 codes de début [start codes] [système et vidéo] : Codes uniques de 32 bits insérés dans le
train binaire codé. Ils ont plusieurs rôles, dont l’identification de certaines des couches de la syntaxe
de codage.
2.1.137 tampon d’entrée du STD [STD input bufer] [système] : Première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), située à l’entrée du Décodeur de Référence
Système et destinée au stockage avant décodage des données comprimées provenant des trains
binaires élémentaires.
2.1.138 mode stéréo [stereo mode] [audio] : Mode dans lequel les deux voies audio (gauche et
droite) formant une paire stéréo sont codées dans un même train binaire. Le processus de codage est
le même que pour le mode à deux canaux.
2.1.139 bourrage (bits de) ; bourrage (octets de) [stufing (bits); stufing (bytes)] : Mots de code
pouvant être insérés dans le train binaire comprimé, qui seront détruits lors du décodage. Ils servent
à augmenter le débit binaire du train binaire.
2.1.140 sous-bande [audio] : Subdivision de la bande de fréquence audio.
2.1.141 banc de filtres en sous-bande [srrbband jilterbank] [audio] : Ensemble de filtres passe-
bande, couvrant tout le spectre de fréquence audio. Dans la présente partie de l’ISO/CEI 11172, le
banc de filtres en sous-bande est un banc de filtres polyphase.

o lSO/CEI
ISO/CEI 1117203:1993 (F)
2.1.142 échantillons en sous-bande [subband samples] [audio] : Le banc de filtres en sous-bande
du codeur audio créée une représentation filtrée et sous-échantillonnée du train binaire audio
d’entrée. Ces échantillons filtrés sont appelés échantillons en sous-bande. Dans chacune des 32 sous-
bandes, 12 échantillons en sous-bande consécutifs sont générés à partir de 384 échantillons audio
consécutifs d’entrée.
2.1.143 mot de synchronisation [syncword] [audio] : Code de 12 bits insérés dans le train binaire
audio pour indiquer le début d’une trame.
: Banc de filtres du décodeur qui
2.1.144 banc de filtres de synthèse [synthesis fzlterbank] [audio]
reconstruit un signal MIC audio à partir d’échantillons en sous-bande.
2.1.145 en-tête système [system header] [système] : L’en-tête système est la structure de données
définie dans l’ISO/CEI 11172-1, qui véhicule des informations résumant les caractéristiques système
du train binaire multiplexé ISO/CEI 11172
2.1.146 Décodeur de Référence Système ; STD [systenz tacet decoder; STD] [système] : Modèle de
référence hypothétique d’un processus de décodage, utilisé pour décrire la sémantique d’un train
binaire multiplexé ISO/CEI 11172.
2.1.147 estampille [time-stamp] [système] : Terme indiquant le moment auquel est sensé se
produire un événement.
2.1.148 triplet [tripZet] [audio] : Ensemble de trois échantillons en sous-bande consécutifs relatifs à
une même sous-bande. La réunion des triplets de chacune des 32 sous-bandes forme une granule.
2.1.149 composante tonale [tonal corizponent] [audio] : Composante sinusoïdale d’un signal audio.
2.1.150 débit binaire variable [variable bitrate] : Qualifie une opération dont le débit binaire varie
avec le temps, durant le décodage d’un train binaire comprimé.
2.1.151 codage à longueur variable ; VLC [variable Zength coding; VZCI : Procédure réversible de
codage, affectant des mots de code plus courts aux événements fréquents et des mots de code plus
longs aux événements moins fréquents.
2.1.152 vérificateur de tamponnage vidéo ; VBV [video bufering verifier; mlr] [vidéo] : Décodeur
hypothétique, théoriquement connecté à la sortie du codeur. Son objet est de limiter la variabilité du
débit binaire qu’un codeur ou qu’un processus d’édition peuvent produire.
2.1.153 séquence vidéo [video sequence] [vidéo] : Groupe d’images ou séquence de plusieurs
groupes d’images.
2.1.154 ordre de balayage en zigzag [zig-zag scanuing order] [vidéo] : Ordre de succession spécifique
des coefficients DCT, (approximativement) de la fréquence spatiale la plus basse à la plus élevée.
ISO/CEI 11172-3:1993 (F)
o lSO/CEI
22 . Symboles et abréviations
Les opérateurs arithmétiques utilisés dans les descriptions de la présent
...


NORME ISO/CEI
INTERNATIONALE 11172-3
Première édition
1993-08-01
Technologies de l’information - Codage
de l’image animée et du son associé pour
les supports de stockage numérique
jusqu’à environ Ii5 Mbit/s -
Partie 3:
Audio
Information technology - Coding of moving pictures and associated
audio for digital storage media at up to about 1,5 Mbit/s -
Part 3: Audio
Numéro de référence
lSO/CEI 1 II 72-3:1993(F)
ISO/CEI 11172-3:1993 (F)
Sommaire
Page
. . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Avant-propos
iv
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 1 : Généralités
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Objet
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Références normatives
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Section 2 : Eléments techniques
...........................................................................................
2.1 Définitions
...................................................................
2.2 Symboles et abréviations
................. 14
23 . Méthode de description de la syntaxe du train binaire
2.4 Spécifications .
Annexes
A Organigrammes et schémas .
B Tables .
C Processus de codage .
D Modèles psychoacoustiques .
E Sensibilité des bits aux erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F Dissimulation des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
G
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
H Liste des détenteurs de brevets
0 ISO/CEI 1993
Droits de reproduction reservés. Sauf prescription différente, aucune partie de cette publi-
cation ne peut être reproduite ni utilisée sous quelque forme que ce soit et par aucun pro-
cédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l’accord
écrit de l’éditeur.
lSO/CEI Copyright Office l Case Postale 56 l CH-l 211 Genève 20 l Suisse
Version française tirée en 1994
Imprimé en Suisse
ii
o ISO/CEI ISO/CEI 11172-31993 (F)
Avant-propos
LIS0 (Organisation internationale de normalisation) et la CE1 (Commission
électrotechnique internationale) forment le système spécialisé de normalisation
mondiale. Les organismes nationaux membres de 1’ISO ou de la CE1 participent
au développement de Normes internationales par l’intermédiaire des comités
techniques créés par l’organisation concernée afin de s’occuper des différents
domaines particuliers de l’activité technique. Les comités techniques de US0 et de
la CE1 collaborent dans des domaines d’intérêt commun. D’autres organisations
internationales, gouvernementales ou non gouvernementales, en liaison avec 1’ISO
et la CE1 participent également aux travaux.
Dans le domaine des technologies de l’information, 1’ISO et la CE1 ont créé un
comité technique mixte, I’ISOKEI JTC 1. Les projets de Normes internationales
adoptés par le comité mixte sont soumis aux organismes nationaux pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au
moins des organismes nationaux votants.
La Norme internationale ISOKEI 11172-3 a été élaborée par le comité technique
ISOKEI JTC 1, Technologies de l’information, sous-comité SC 29, Codage du
son, de l’image, de l’information multimédia et hypermédia.
L’ISOKEI 11172 comprend les parties suivantes, présentées sous le titre général
Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu ‘à environ I,5 Mbit/s:
- Partie 1: Systèmes
- Partie 2: Vidéo
- Partie 3: Audio
- Partie 4: Tests de conformité
Les annexes A et B font partie intégrante de la présente partie de
l’ISO/CEI 11172. Les annexes C, D, E , F, G et H sont données uniquement à titre
d’information.
. . .
III
0 ISOKEI
ISO/CEI 11172-31993 (F)
Introduction
NOTE - Le lecteur intéressé par une présentation générale de la Couche Audio MPEG peut
lire cette introduction, puis passer à l’annexe A (Organigrammes et schémas) et à l’annexe C
(Processus de codage), avant de revenir aux articles normatifs 1 et 2.
La description du codage, du stockage et du décodage d’une séquence audio, donnée ci-après, est
destinée à faciliter la compréhension de la spécification du train binaire comprimé stocké et de son
décodage.
0.1
Codage
Le codeur traite le signal audio numérique et génère le train binaire comprimé à stocker.
L’algorithme du codeur n’est pas normalisé, ce dernier pouvant utiliser divers moyens de codage tels
l’estimation du seuil de masquage auditif, la quantification et la mise à l’échelle. La sortie du codeur
doit cependant être telle qu’un décodeur conforme à la spécification de 2.4 produise un signal audio
approprié à l’application prévue.
train
échantillons
.
\ f
audio MIC binaire
32, 41,l 48 kHz codé
quantification
*, paquetage
mappage
et
modèle
psycho-
codeur
ISO/CEI 11172
données auxilliaires
Figure 1 - Schéma de la structure de base d’un codeur
La figure 1 représente la structure de base d’un codeur audio. Les échantillons audio d’entrée sont
introduits dans le décodeur. Le bloc “mappage” crée une représentation filtrée et sous-échantillonnée
du train audio d’entrée. Les échantillons mappés sont appelés échantillons en sous-bande (dans la
Couche 1 ou II, voir ci-après) ou échantillons en sous-bande transformés (dans la Couche III). Le
bloc “quantification et codage” est contrôlé par un ensemble de données généré par un “modèle
psychoacoustique”. Ces données diffèrent selon la réalisation effective du codeur. Une possibilité est
d’utiliser une estimation du seuil de masquage pour opérer le contrôle de la quantification. Le bloc
“quantification et codage” génère un ensemble de symboles de codage à partir des échantillons
d’entrée mappés. La réalisation de ce bloc dépend, elle aussi, du système de codage. Le bloc
“paquetage des trames” construit le train binaire réel à partir des données de sortie des autres blocs,
en leur ajoutant, si nécessaire, d’autres informations (par exemple, de correction d’erreur).
iv
o lSO/CEI ISO/CEI 1117203:1993 (F)
Quatre modes différents sont possibles : à un seul canal, à deux canaux (deux signaux audio
indépendants codés en un même train binaire) stéréo (signaux gauche et droit des deux voies stéréo
codés en un même train binaire) et stéréo combiné (signaux gauche et droit des deux voies stéréo,
codés en un même train binaire, en exploitant la redondance et la présence d’éléments non pertinents
pour la stéréo).
02 . Couches
Selon l’application, différentes couches du système de codage, de complexité et de performances de
codage croissantes, peuvent être utilisées. Un décodeur de la Couche audio N ISO/CEI 11172-3 est
capable de décoder les données du train binaire qui ont été codées dans la Couche N et dans toutes
les couches de niveaux inférieurs.
Couche 1:
Cette couche contient le mappage de base de l’entrée audio numérique en 32 sous-bandes, la
segmentation fUre de formatage des données en blocs, un modèle psycho-acoustique de détermination
de l’affectation binaire adaptative, et la quantification par compression-expansion et formatage en
blocs. Le retard minimum théorique de codage/décodage de la Couche 1 est d’environ 19 ms.
Couche II :
Cette couche assure un codage additionnel de l’affectation binaire, des facteurs d’échelle et des
échantillons. Un tramage différent est utilisé. Le retard minimum théorique de codage/décodage de
la Couche II est d’environ 35 ms.
Couche III :
Cette couche introduit une augmentation de résolution en fréquence, basée sur un banc de filtres
hybride. Elle ajoute une quantifrcation différente (non-uniforme), une segmentation adaptative et un
codage entropique des valeurs quantifiées.Le retard minimum théorique de codage/décodage de la
Couche III est d’environ 59 ms.
Le codage stéréo combiné peut être ajouté, comme fonction additionnelle, à n’importe quelle couche.
03 . Stockage
Divers trains binaires vidéo codés, audio codés, de données de synchronisation, de données système
et de données annexes peuvent être enregistrés ensemble sur un support de stockage. L’édition du
signal audio est facilitée si le point de raccord est tenu de coïncider avec un point adressage.
L’accès au support de stockage peut impliquer un accès à distance par un système de communication.
L’accès est supposé contrôlé par une unité fonctionnelle différente du décodeur audio proprement
dit. Cette unité de contrôle accepte des commandes de l’utilisateur, lit et interprète les informations
structurelles d’une base de données, lit les informations stockées sur le support, démultiplexe les
informations non-audio et communique, au débit requis, le train binaire audio stocké, au décodeur
audio.
.
Le décodeur reçoit le train binaire audio comprimé selon la syntaxe définie en 2.4.1, décode les
éléments de données selon 2.4.2 et utilise les informations pour produire la sortie audio numérique,
selon 2.4.3.
V
ISO/CEI 11172-3:1993 (F) o ISO/CEI
échantillons
train
I
. \
f , f
audio MIC
binaire
32, 41,l 48 kHz
décorticage
codé
mappage
I
des a reconstruction L b -
inverse
trames
\ l A t l
décodeur ISO/CEI 11172
données auxilliaires
f
Figure 2 - Schéma de la structure de base d’un décodeur
La figure 2 représente la structure de base d’un codeur audio. Les données du train binaire entrent
dans le décodeur. Le bloc “décorticage et décodage du train binaire” procède à une détection d’erreur
si un mot de contrôle d’erreur a été généré par le codeur (voir 2.4.2.4). Les données du train binaire
sont décortiquées pour récupérer les divers éléments d’information. Le bloc “reconstruction”
reconstruit la version quantifiée de l’ensemble des échantillons mappés. Le bloc “mappage inverse”
retransforme ces échantillons mappés en une MIC uniforme.

NORME INTERNATIONALE @ IsO/CEI ISO/CEI 11172-3:1993(F)
Technologies de l’information - Codage de l’image
animée et du son associé pour les supports de stockage
numérique jusqu’à environ 1,5 lVlbit/s -
Partie 3:
Audio
Section 1 : Généralités
11 . Objet
La présente partie de l’ISO/CEI 11172 spécifie la représentation codée d’un signal audio de haute
qualité, pour son enregistrement sur les supports de stockage numérique, ainsi que le processus de
décodage. L’entrée du codeur et la sortie du décodeur sont compatibles avec les normes MIC
existantes, telles que celles des disques compacts (CD) et des bandes magnétiques audio numériques
(DAT).
La présente partie de l’ISO/CEI 11172 est destinée à être appliquée à un support de stockage
numérique assurant un débit de transfert total continu d’environ 1,5 Mbit/s des trains binaires audio
et vidéo, tels que les CD, les DAT et les disques durs magnétiques. Le support de stockage peut être
connecté directement au décodeur, ou par l’intermédiaire d’autres moyens tels que des lignes de
communication transportant le train binaire multiplexé ISO 11172 défini dans l’ISO/CEI 111724. La
présente partie de l’ISO/CEI 11172 est prévue pour des fréquences d’échantillonnage de 32 kHz,
44,l kHz et 48 kHz.
1.2 Références normatives
Les normes suivantes contiennent des dispositions qui, par suite de la référence qui en est faite,
constituent des dispositions valables de la présente partie de l’ISO/CEI 11172. Au moment de la
publication, les éditions indiquées étaient en vigueur. Toute norme est sujette à révision et les parties
prenantes d’accords fondés sur la présente partie de l’ISO/CEI 11172 sont invités à rechercher la
possibilité d’appliquer les éditions les plus récentes des normes indiquées ci-après. Les membres de
la CE1 et de I’ISO possèdent le registre des Normes internationales en vigueur à un moment donné.
ISO/CEI 11172.1:1993, Technologies de l’information -
Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie I : Systèmes.
ISO/CEI 11172-2:1993, Technologies de l’information - Codage de l’image animée et du son associé
pour les supports de stockage numérique jusqu’à environ 1,s Mbit/s - Partie 2 : vidéo.
Recommandation CCIR 601-2, Paramètres de codage de télévision numérique pour studios.
Rapport CCIR 624-4, Caractéristiques des systèmes de télévision monochrome et en couleur.
Recommandation CCIR 648, Enregistrement des signaux audio.
Rapport CCIR 955-2, Radiodifitsion du son par satellite pour les récepteurs portables et mobiles,
comprenant l’annexe IV, Description résumée du système numérique évolué II.
Recommandation CCITT 3.17, Préaccentuation utilisée sur les circuits du programme son.
Projet de norme IEEE PllSO/D2 1990, Spécifications de mise en oeuvre de la transfomzation en
cosinus discrète inverse 8x8.
CE1 908:1987, Système audio numérique CD.

ISO/CEI 11172031993 (F) 0 ISO/CEI
Section 2 : Eléments techniques
21 l Définitions
Les définitions suivantes s’appliquent, pour les besoins de l’ISO/CEI 11172. L’expression équivalente
en anglais est entre crochets maigres, en italiques. La partie à laquelle une définition est
éventuellement spécifique est indiquée entre crochets gras.
: Tout coefficient DCT dont la fréquence est non
2.1.1 coefficient AC [ac coeficient] [vidéo]
nulle dans au moins une dimension.
2.12 unité d’accès [access unit] [système] : Unité d’accès audio, dans le cas d’un signal audio
comprimé. Représentation codée d’une image, dans le cas d’un signal vidéo comprimé.
2.13 segmentation adaptative [adaptative segmentation] [audio] : Subdivision de la
représentation numérique d’un signal audio en segments temporels variables.
2.1.4
affectation binaire adaptative [adaptative bit allocation] [audio] : Affectation des bits à des
sous-bandes, variant avec le temps et la fréquence selon un modèle psychoacoustique.
2.1.5 répartition adaptative du bruit [adaptative noise allocation] [audio] : Répartition du bruit
de codage entre des bandes de fréquence, variant avec le temps et la fréquence selon un modèle
psychoacoustique.
2.1.6 alias [alias] [audio] : Composante en miroir du résultant d’un échantillonnage à une
signal,
fréquence inférieure à la fréquence de Nyquist.
2.1.7 banc de filtres d’analyse [analysis jilterbank] [audio] : Banc de filtres du codeur, qui
transforme un signal audio MIC à large bande en un ensemble d’échantillons en sous-bande sous-
échantillonnés.
2.1.8 unité d’accès audio [audio access unit] [audio] : Pour les Couches 1 et II, l’unité d’accès
audio est définie comme la plus petite partie d’un train binaire codé qui peut être décodée par elle-
même, ce décodage impliquant une “reconstruction intégrale du son”. Pour la Couche III, l’unité
d’accès est la partie du train binaire qui est décodable en utilisant des informations principales de ce
train binaire, acquises auparavant.
2.1.9 tampon audio [audio bujfer] [audio] : Mémoire tampon du Décodeur de Référence
Système, de stockage des données audio comprimées.
2.1.10 séquence audio [audio sequence] [audio] : Suite ininterrompue de trames audio dans
laquelle les paramètres suivants sont constants :
- ID,
couche,
- fréquence d’échantillonnage,
- pour les Couches 1 et II : indice de débit binaire.
2.1.11 vecteur mouvement arrière [backward motion vector] [vidéo] : Vecteur mouvement utilisé
pour la compensation du mouvement, d’après une image de référence se situant à un instant ultérieur
dans l’ordre d’affichage.
2.1.12 Bark [Bark] [audio] : Unité de taux de bande critique (tonie). L’échelle en Barks est une
application non linéaire de l’échelle de fréquence sur la gamme audio correspondant étroitement à la
sélectivité en fréquence de l’oreille humaine sur la bande.

0 ISO/CEI ISO/CEI 1117203:1993 (F)
image codée par prédiction bidirectionnelle ; image B [bidirectionall’y predictive-coded
2.1.13
picture; B-pictzue] [vidéo] : Image codée en utilisant une prédiction compensée du mouvement,
d’après une image de référence antérieure et/ou future.
2.1.14 débit binaire [bitrate] : Debit auquel le train binaire comprimé est reçu du support de
stockage à l’entree d’un décodeur.
2.1.1s compression-expansion par blocs [block companding] [audio] : Normalisation de la
représentation numérique d’un signal audio, à l’intérieur d’un certain intervalle temporel.
2.1.16 bloc [block] [vidéo] : Bloc orthogonal de pixels de 8 rangées sur 8 colonnes.
2.1.17 sous-bande limite [borrnd] [audio] : Sous-bande la plus basse dans laquelle le codage en
mode stéréo intensité est utilise.
2.1.18 calé à l’octet [byte aZi@ed] : Un bit d’un train binaire codé est calé à l’octet si sa position à
partir du premier bit de ce train binaire, est un multiple de 8 bits.
2.1.19 octet [byte] : Suite de huit bits.
2.1.20 canal [channel] : Support numérique qui stocke ou transporte un train binaire
ISO/CEI 11172.
2.1.21 voie [charmer] [audio] : Voie gauche ou droite d’un signal stéréo.
2.1.22 chrominance (composante) [chrominance (component)] [vidéo] : Matrice, bloc ou
échantillon de pixels représentant un des deux signaux de différences de couleur associes aux
couleurs primaires, comme défini dans la Recommandation du CCIR 601. Les symboles utilisés pour
les signaux de différence de couleur sont Cr et Cb.
2.1.23 train binaire audio codé [coded audio bitstream] [audio] : Représentation codée d’un signal
audio, telle que spécifiée dans la présente partie de l’ISO/CEI 11172.
2.1.24 train binaire vidéo codé [coded video bitstream] [vidéo] : Représentation codée d’une image
ou d’une séquence d’images, telle que spécifiée dans l’ISO/CEI 11172-2.
Ordre dans lequel les images sont stockées et
2.1025 ordre de codage [coded order] [vidéo] :
décodées. Cet ordre n’est pas nécessairement le même que l’ordre d’affichage.
2.1.26 représentation codée [coded representation] [vidéo] : Elément de données, tel que
représenté dans sa forme codée.
2.1.27 paramètres de codage [codingparameters] [vidéo] : L’ensemble de paramètres définissables
par l’utilisateur, qui caractérisent un train binaire vidéo codé. Les trains binaires sont caractérisés par
des paramètres de codage. Les décodeurs sont caractérisés par les trains binaires qu’ils sont capables
de décoder.
2.1.28 composante [comportent] [vidéo] : Matrice, bloc ou échantillon de données de pixels de
l’une des trois matrices (une de luminance et deux de chrominance) qui constituent une image.
2.1.29 compression [compression] : Réduction du nombre de bits utilisés pour représenter
élément de données.
2.130 vidéo codée à débit binaire constant [constant bitrate coded video] [vidéo] : Train binaire
vidéo comprimé présentant un débit binaire moyen constant.
2.131 débit binaire constant [constant bitrate] : Caractérise une opération pour laquelle le débit
binaire est constant du début à la fin du train binaire comprimé.
2.132 paramètres restreints [cowtrained parameters] [vidéo] : Valeurs des paramètres de codage
de l’ensemble défini en 2.4.3.2 de l’ISO/CEI 11172-2.

0 ISO/CEI
ISO/CEI 11172-33 993 (F)
2.133 train binaire à paramètres système. restreints (CSPS) [constrained system parameter stream
(CSPS)] [système] : Train binaire multiplexé ISO/CEI 11172 auquel s’appliquent les restrictions
définies en 2.4.6. de l’ISO/CEI 11172-1.
2.134 CRC [Cyclic redundancy code; CRC] : Code à redondance cyclique.
2.135 taux de bande critique (tonie) [critical band rate] [audio] : Fonction psychoacoutique de la
fréquence. A une fréquence audible donnée, elle est proportionnelle au nombre de bandes critiques
en-dessous de cette fréquence. L’unité de taux de bande critique est le Bark.
bande critique [critical band] [audio] : Mesure psychoacoustique relevant du domaine
2.136
spectral et correspondant à la sélectivité en fréquence de l’oreille humaine. Cette sélectivité est
exprimée en Barks.
2.137 élément de données [data element] : Elément de données, tel que est représenté avant
codage et après décodage.
çoefflcient DC [dc-coeficient] [vidéo] : Le coefficient DCT dont la fréquence est nulle dans
2.138
les deux dimensions.
image codée DC ; image D [dc-coded picture; D-picture] [vidéo] : Image codée en utilisant
2.139
uniquement ses propres informations. Parmi les coefficients DCT de sa représentation codée, seuls
figurent les coefficients DC.
2.1.40 coefficient DCT [DCT coeff7cient] : Amplitude d’une fonction spécifique de base cosinus.
2.1.41 train binaire décodé [decoded stream] : Reconstruction décodée d’un train binaire
comprimé.
2.1.42 tampon d’entrée du décodeur [decoder input buffer] [vidéo] : La première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), spécifiée dans le vérificateur de tamponnage
vidéo.
2.1.43 débit d’entrée du décodeur [decoder input rate] [vidéo] : Débit de données spécifié dans le
vérificateur de tamponnage vidéo et codé dans le train binaire vidéo codé.
2.1.44 décodeur [decoder] : Réalisation d’un processus de décodage.
2.1.45 processus de décodage [decoding(process)] : Processus défini dans l’ISO/CEI 11172, qui lit
un train binaire codé d’entrée, pour produire des images décodées ou des échantillons audio.
2.1.46 estampille de décodage ; DTS [decoding rime-stamp; DST] [système] : Champ qui peut
figurer dans un en-tête de paquet pour indiquer le moment auquel une unité d’accès est sensée être
décodée dans le Décodeur de Référence Système.
2.1.47
désaccentuation [de-empltasis] [audio] : Filtrage appliqué à un signal audio après stockage
ou transmission, pour annuler une distorsion linéaire résultant de l’accentuation.
2.1.48 déquantification [dequantization] [vidéo] : Processus de remise à l’échelle des coefficients
DCT quantifiés, après décodage de leur représentation dans le train binaire, et avant leur
présentation à la DCT inverse.
2.1.49 support de stockage numérique ; DSM [digital storage media; DSM] : Dispositif ou système
de stockage ou de transmission numérique.
2.1.50 transformation en cosinus discrète ;
DCT [discrete cosinus transfomz; DCTJ [vidéo] :
Transformation en cosinus discrète directe ou transformation en cosinus discrète inverse. La DCT est
une transformation orthogonale discrète réversible. La DCT inverse est définie dans l’annexe A de
l’ISO/CEI 11172-2.
o lSO/CEI ISO/CEI 11172-3: 1993 (F)
ordre d’affkhage [display order] [vidéo] : Ordre dans lequel les images décodées devraient
2.1.51
être affichées, normalement le même que celui dans lequel elles ont été présentées à l’entrée du
codeur.
2.1.52
mode à deux canaux [dual channel mode] [audio] : Mode dans lequel deux canaux audio
contenant des programmes indépendants (par exemple, bilingues) sont codés dans un même train
binaire. Le processus de codage est le même que pour le mode stéréo.
2.1.53 édition [editing] : Processus de manipulation d’un ou plusieurs trains binaires comprimés,
pour produire un nouveau train binaire comprimé. Les trains binaires édités conformes doivent
répondre aux spécifications définies dans l’ISO/CEI 11172.
: Terme générique pour désigner
2.1.54 train binaire élémentaire [elementav stream] [système]
un des trains binaires binaires codés vidéo, audio ou autres.
2.1.55 accentuation [empJzasis] [audio] : Filtrage appliqué à un signal audio avant stockage ou
transmission, pour améliorer le rapport signal/bruit aux fréquences élevées.
2.1.56 codeur [encoder] : Réalisation d’un processus de codage
2.1.57 processus de codage [encoding(process)] : Processus, non spécifié dans l’ISO/CEI 11172,
qui lit un train d’images d’entrée ou d’échantillons audio, pour produire un train binaire codé valide,
tel que défini dans l’ISO/CEI 11172.
2.1.58 codage entropique [entropy coding] : Codage de longueur variable, bruit, de la
représentation numérique d’un signal, pour en réduire la redondance.
2.1.59
accéléré avant Ifast forward playback] [vidéo] : Mode de restitution d’une séquence ou de
parties d’une séquence d’images, dans l’ordre d’affichage, plus rapide qu’en temps réel.
2.1.60 FFT [Fast Fourier Transfonit; FFTj : Transformation de Fourier rapide. Algorithme rapide
de transformation de Fourier discrète (transformation orthogonale).
2.1.61 banc de filtres Blterbank] [audio] : Ensemble de filtres passe-bande, couvrant tout le
spectre de fréquence audio.
2.1.62
segmentation fixe [frxed segmentation] [audio] : Subdivision de la représentation numérique
d’un signal audio en intervalles temporels fixes.
2.1.63 interdit(e) [forbidden] : Dans les articles de définition du train binaire codé, l’adjectif
“interdit” indique qu’une valeur ne doit jamais être utilisée, généralement pour éviter l’émulation de
codes de début.
2.1.64 rafraîchissement systématique Iforced updating] [vidéo] : Processus de codage périodique
des macroblocs en mode intra, visant à éviter une accumulation excessive des erreurs résultant de la
non-concordance entre les processus DCT inverses, opérés respectivement dans les codeurs et les
décodeurs.
2.1.65 vecteur mouvement avant üo,ward motion vecto] [vidéo] : Vecteur mouvement utilisé pour
la compensation du mouvement, d’après une image de référence, située à un instant antérieur dans
l’ordre d’affichage.
2.1.66 trame vrame] [audio] : Partie du signal audio correspondant aux échantillons MIC audio
d’une unité d’accès audio.
2.1.67 format libre vree format] [audio] : Tout train binaire ou partie de train binaire conforme à
la syntaxe audio prescrite dans l’ISO/CEI 11172-3 est dit en format libre si son débit binaire est
différent des débits binaires définis pour chaque couche, et inférieur au débit binaire maximum défini
pour les dites couches.
2.1.68 image de référence future plture reference image] [vidéo] : Image de référence située à un
instant ultérieur à celui de l’image courante, dans l’ordre d’affichage.

lSO/CEl 11172~31993 (F) 0 lSO/CEI
2.1.69 granules [Couche II] [granules [Layer 1111 [audio] : L’ensemble des 3 échantillons
consécutifs en sous-bande, pour les 32 sous-bandes considérées dans leur ensemble avant
quantification. Ils correspondent à 96 échantillons MIC.
2.1.70 granules [Couche III] [granules [Layer 111]1 [audio] : 576 raies qui véhiculent leurs propres
informations annexes.
2.1.71 groupe d’images igroup of pictures] [vidéo] : Image ou séquence d’images, destinées à
faciliter l’accès direct. La Couche Groupe d’images est l’une des couches de la syntaxe de codage
définie dans l’ISO/CEI 11172-2.
2.1.72
fenêtre de Hann [Hann window] [audio] : Fonction temporelle appliquée échantillon par
échantillon à un bloc d’échantillons audio avant transformation de Fourier.
2.1.73 codage de Huffman [Huflnan coding] : Méthode spécifique de codage entropique
2.1.74 banc de filtres hybride [Itybrid jZterbank] [audio] : Combinaison en série d’un banc de
filtres en sous-bande et d’une MDCT.
2.1.75 IMDCT [hverse Modified Discrete Cosinus Transfonn] [audio] : Transformation en cosinus
discrète modifiée inverse.
2.1.76 stéréo intensité [intensity strereo] [audio] : Méthode d’exploitation du caractère non
significatif ou de la redondance de la stéréophonie dans des programmes audio stéréo, et dont le
principe est de ne conserver l’enveloppe énergétique des voies droite et gauche, qu’aux fréquences
élevées.
2.1.77 entrelacement [interlace] [vidéo] : Propriété des images de télévision classique, dans
lesquelles les lignes représentent alternativement des occurences temporelles d’images différentes.
2.1.78 codage (en mode) intra [intra coding] [vidéo] : Codage par compression d’un macrobloc ou
d’une image, utilisant uniquement des informations de ce macrobloc ou de cette image.
2.1.79 image à codage intra ; image 1 [intra-coded picture; I-picture] [vidéo] : Image codée en
utilisant uniquement ses propres informations.
2.1.80 train binaire (multiplexé) ISO/CEI 11172 [ISO/CEI 11172 (multiplexed) stream]
[système] : Train binaire composé de zéro, un ou plusieurs trains binaires élémentaires, combinés
comme défini dans l’ISO/CEI 11172-1.
2.1.81. codage stéréo combiné Ljoint stereo coding] [audio] : Toute méthode exploitant le caractère
non significatif ou la redondance de la stéréophonie.
2.1.82 mode stéréo combiné boint stereo mode] [audio] : Mode de l’algorithme de codage audio,
utilisant le codage stéréo combiné.
2.1.83 couche [Zayer] [audio] : Un des niveaux de la hiérarchie de codage du système audio défini
dans la présente partie de l’ISO/CEI 11172.
2.1.84 couche [Iayer] [vidéo et système] : Un des niveaux de la hiérarchie de données des
spécifications vidéo et système, définies dans la présente partie de l’ISO/CEI 11172 et dans
l’ISO/CEI 11172-2.
2.1.85 luminance (composante) [Zuminance (component)] [vidéo] : Matrice, bloc ou échantillon de
pixels constituant une représentation monochrome des signaux, et associé aux couleurs primaires,
comme défini dans la Recommandation du CCIR 601. Le symbole utilisé pour la luminance est Y.
2.1.86 macrobloc [macroblock] [vidéo] : Les quatre blocs 8 x 8 de données de luminance et les
deux blocs 8 x 8 correspondants de données de chrominance, provenant d’une section 16 x 16 de la
composante de luminance de l’image. Le macrobloc est utilisé tantôt pour se référer aux données du
pixel, tantôt pour se référer à la représentation codée du pixel et à d’autres éléments de données
définis dans la Couche Macrobloc de la syntaxe spécifiée dans l’ISO/CEI 11172-2. L’utilisation de ce
mot est clairement déterminée d’après le contexte.

o ISO/CEI ISO/CEI 11172-3: 1993 (F)
2.1.87 mappage [mapping] [audio] : Conversion d’un signal audio d’un domaine temporel dans un
domaine fréquenciel par filtrage en sous-bande et/ou par MDCT.
2.1.88 masquage [masking] [audio] : Propriété du système auditif humain, exprimant le fait qu’un
signal audio ne peut pas être perçu en présence d’un autre signal audio.
2.1.89 seuil de masquage [masking threshold] [audio] : Niveau, fonction de la fréquence et du
temps, en-dessous duquel un signal audio ne peut pas être perçu par le système auditif humain.
2.1.90 MDCT [Modified Discrete Cosine Transfomz; MDCT] [audio] : Transformation en cosinus
discrète modifiée.
2.1.91 compensation du mouvement [motion compensation] [vidéo] : Utilisation de vecteurs
mouvement pour améliorer l’efficacité de prédiction des valeurs des pixels. La prédiction utilise, pour
former le signal d’erreur, des vecteurs mouvement fournissant des décalages par rapport à des images
de référence antérieures et/ou futures, contenant des pixels déjà décodés.
2.1.92 estimation du mouvement [motion estimation] [vidéo] : Processus d’estimation des vecteurs
mouvement lors du processus de codage.
2.1.93 vecteur mouvement [motion vector] [vidéo] : Vecteur à deux dimensions utilisé pourla
fournissant un décalage entre la position (déterminée par ses
compensation du mouvement,
coordonnées) dans l’image courante et la position dans une image de référence.
2.1.94 stéréo MS [MS stereo] [audio] : Méthode d’exploitation du caractère non significatif ou de
la redondance stéréophonique de programmes audio stéréo, et basée sur le codage des signaux de
somme et de différence, au lieu des voies droite et gauche.
2.1.95 codage (en mode) non-intra [non-intra coding] [vidéo] : Codage d’un macrobloc ou d’une
image, qui utilise des informations provenant à la fois de ce macrobloc ou de cette image, et de
macroblocs et d’images se présentant à d’autres moments.
non tonale [rzon [audio] : Composante de type bruit d’un
2.1.96 com posante -tort a1 con2poltel2 t]
signal audio.
2.1.97 échantillonnage de Nyquist [Nyquist samplirig] : Echantillonnage à une fréquence double de
la largeur de bande maximale d’un signal, ou supérieure.
2.1.98 pack [pack] [système] : Un pack consiste en un en-tête de pack suivi d’un ou plusieurs
paquets. La Couche Pack de la syntaxe de codage système est décrite dans l’ISO/CEI 11172-1.
2.1.99 : Octets de données consécutifs d’un train
données d’un paquet [yacket data] [système]
binaire élémentaire, contenus dans un paquet.
2.1.100 en-tête de paquet [pack header] [système] : Structure de données utilisée pour véhiculer des
informations sur les données du train binaire élémentaire contenu dans les données du paquet.
2.1.101 paquet [packet] [système] : Un paquet consiste en un en-tête suivi d’un certain nombre
d’octets appartenant à un train de données élémentaire. La Couche Paquet de la syntaxe de codage
système est décrite dans l’ISO/CEI 11172-l.
2.1.102 bourrage [yadding] [audio] : Méthode d’adaptation de la longueur temporelle moyenne
d’une trame audio à la durée des échantillons MIC correspondants, par concaténationnelle
conditionnelle d’un segment à la trame audio.
2.1.103 image de référence antérieure [past refererzce pictzrre] [vidéo] : Image de référence située à
un moment antérieur à l’image courante, dans l’ordre d’affichage.
2.1.104 facteur d’aspect du pixel [yef aspect ratio] [vidéo] : Rapport de la hauteur (verticale)
nominale du pixel affiché, à sa largeur (horizontale) nominale.
0 lSO/CEI
ISO/CEI 11172-3:1993 (F)
2.1.105 pixel [pel] [vidéo] : Elément d’image.
2.1.106 période d’image [pictzueperiod] [vidéo] : Inverse de la fréquence d’image.
Fréquence nominale à laquelle des images
2.1.107 fréquence d’image Ipicture rate] [vidéo] :
devraient se présenter à la sortie du processus de décodage.
2.1.108 image [image] [vidéo] : Données d’image source, codée ou reconstruite. Une image consiste
en trois matrices rectangulaires de nombres de 8 bits représentant le signal de luminance et les deux
signaux de chrominance. La Couche Image est l’une des couches de la syntaxe de codage définie dans
l’ISO/CEI 11172-2. A noter que, dans l’ISO/CEI 11172, le terme “image” est toujours utilisé de
préférence à “trame”.
2.1.109 banc de filtres polyphase [polyphase filter banc] [audio] : Ensemble de filtres de même
largeur de bande, présentant entre eux des relations de phase spécifiques, permettant une réalisation
efficace du banc de filtres
2.1.110 prédiction Iprediction] [vidéo] : Utilisation d’un prédicteur pour fournir une estimation du
pixel ou de l’élément de données en cours de décodage.
2.1.111 image codée par prédiction ; image P [yrediction coded picture; P-picture] [vidéo] : Image
codée en utilisant une prédiction compensée en mouvement d’après l’image de référence antérieure.
: Différence entre la valeur réelle d’un pixel
2.1.112 erreur de prédiction [yrediction errer] [vidéo]
ou d’un élément de données et son prédicteur.
2.1.113 prédicteur [predictor] [vidéo] : Combinaison linéaire de pixels ou d’éléments de données
préalablement décodés.
2.1.114 estampille de présentation ; PTS [presentatiou tirne-starnp; PTS] [système] : Champ
pouvant figurer dans un en-tête de paquet pour indiquer le moment auquel une unité de présentation
est sensée être présentée dans le Décodeur de Référence Système.
2.1.115 unité de présentation ; PU [yresentatiorz unit; Pu] : Unité d’accès audio décodée ou image
décodée.
2.1.116 modèle psychoacoustique [psychoacoustic mode21 [audio] : Modèle mathématique du
comportement en matière de masquage, du système auditif humain.
2.1.117 matrice de quantification [quantization matrix] [vidéo] : Ensemble de 64 valeurs de 8 bits,
utilisées pour la mise à l’échelle lors de la déquantification.
2.1.118 coefficients DCT quantifiés [quantized DCT coefficients] : Coefficient DCT avant
déquantification. Une représentation codée à longueur variable, des coefficients DCT quantifiés, est
stockée comme partie du train binaire vidéo comprimé.
2.1.119 facteur d’échelle de quantification [quantizer scalefactor] : Elément de données représenté
dans le train binaire et utilisé par le processus de décodage pour déterminer la mise à l’échelle lors
de la déquantification.
2.1.120 accès direct [random access] : Processus consistant à commencer la lecture et le décodage
du train binaire codé en un point arbitraire de ce train
2.1.121 image de référence [reference pictzue] [vidéo] : Les images de référence sont les images 1 ou
P les plus proches de l’image courante, dans l’ordre de balayage.
2.1.122 tampon de remise en ordre [reorder buffer] [vidéo] : Mémoire-tampon du Décodeur de
Référence Système, utilisée pour le stockage d’une image 1 reconstruite et/ou d’une image P
reconstruite.
2.1.123 requantifïcation [requantizatiorz] [audio] :
Décodage d’échantillons en sous-bande codés
pour rétablir les valeurs quantifiées initiales.
ISO/CEI 1117203:1993 (F)
0 lSO/CEI
2.1.124 réservé(e) [reserved] : L’adjectif “réservé” est utilisé dans les articles définissant le train
binaire codé pour indiquer que la valeur concernée pourra être utilisée ultérieurement pour des
extensions définies par l’ISO/CEI.
2.1.125 restitution arrière [reverse playback] [vidéo] : Processus d’affichage de la séquence
d’images en ordre inverse de l’ordre d’affichage normal.
2.1.126 bande de facteur d’échelle [scalefactor band] [audio] : Ensemble de raies de la Couche III,
auxquelles est appliqué un même facteur d’échelle.
2.1.127 indice de facteur d’échelle [scalefactor index] [audio] : Code numérique d’un facteur
d’échelle.
2.1.128 facteur d’échelle [scalefactor] [audio] : Facteur de mise à l’échelle d’un ensemble de valeurs
avant quantification.
: Bloc de données du train binaire codé
2.1.129 en-tête de séquence [sequence header] [vidéo]
contenant la représentation codée d’un certain nombres d’éléments de données.
2.1.130 informations annexes si e i72fon92atiorts] : Informations du train binaire codé, nécessaires
1 d
pour le contrôle du décodeur.
2.1.131 macrobloc sauté [skipped macroblock] [vidéo] : Macrobloc pour lequel aucune donnée n’est
stockée.
2.1.132 bande [vidéo] : Suite de macroblocs. La Couche Bande est une des couches de la syntaxe de
codage définie dans l’ISO/CEI 11172-2.
2.1.133 segment [slot] [audio] : Partie élémentaire du train binaire. Dans la Couche 1, le segment
est égal à quatre octets ; dans les Couches II et III, il est égal à un octet.
2.1.134 train binaire source [source streanz] : Train unique d’échantillons non-multiplexé, avant
codage avec compression.
2.1.135 fonction d’étalement de la cochlée [spreading function] [audio] : Fonction décrivant
l’étendue en fréquence du masquage.
2.1.136 codes de début [start codes] [système et vidéo] : Codes uniques de 32 bits insérés dans le
train binaire codé. Ils ont plusieurs rôles, dont l’identification de certaines des couches de la syntaxe
de codage.
2.1.137 tampon d’entrée du STD [STD input bufer] [système] : Première mémoire-tampon
d’algorithme “premier entré, premier sorti” (FIFO), située à l’entrée du Décodeur de Référence
Système et destinée au stockage avant décodage des données comprimées provenant des trains
binaires élémentaires.
2.1.138 mode stéréo [stereo mode] [audio] : Mode dans lequel les deux voies audio (gauche et
droite) formant une paire stéréo sont codées dans un même train binaire. Le processus de codage est
le même que pour le mode à deux canaux.
2.1.139 bourrage (bits de) ; bourrage (octets de) [stufing (bits); stufing (bytes)] : Mots de code
pouvant être insérés dans le train binaire comprimé, qui seront détruits lors du décodage. Ils servent
à augmenter le débit binaire du train binaire.
2.1.140 sous-bande [audio] : Subdivision de la bande de fréquence audio.
2.1.141 banc de filtres en sous-bande [srrbband jilterbank] [audio] : Ensemble de filtres passe-
bande, couvrant tout le spectre de fréquence audio. Dans la présente partie de l’ISO/CEI 11172, le
banc de filtres en sous-bande est un banc de filtres polyphase.

o lSO/CEI
ISO/CEI 1117203:1993 (F)
2.1.142 échantillons en sous-bande [subband samples] [audio] : Le banc de filtres en sous-bande
du codeur audio créée une représentation filtrée et sous-échantillonnée du train binaire audio
d’entrée. Ces échantillons filtrés sont appelés échantillons en sous-bande. Dans chacune des 32 sous-
bandes, 12 échantillons en sous-bande consécutifs sont générés à partir de 384 échantillons audio
consécutifs d’entrée.
2.1.143 mot de synchronisation [syncword] [audio] : Code de 12 bits insérés dans le train binaire
audio pour indiquer le début d’une trame.
: Banc de filtres du décodeur qui
2.1.144 banc de filtres de synthèse [synthesis fzlterbank] [audio]
reconstruit un signal MIC audio à partir d’échantillons en sous-bande.
2.1.145 en-tête système [system header] [système] : L’en-tête système est la structure de données
définie dans l’ISO/CEI 11172-1, qui véhicule des informations résumant les caractéristiques système
du train binaire multiplexé ISO/CEI 11172
2.1.146 Décodeur de Référence Système ; STD [systenz tacet decoder; STD] [système] : Modèle de
référence hypothétique d’un processus de décodage, utilisé pour décrire la sémantique d’un train
binaire multiplexé ISO/CEI 11172.
2.1.147 estampille [time-stamp] [système] : Terme indiquant le moment auquel est sensé se
produire un événement.
2.1.148 triplet [tripZet] [audio] : Ensemble de trois échantillons en sous-bande consécutifs relatifs à
une même sous-bande. La réunion des triplets de chacune des 32 sous-bandes forme une granule.
2.1.149 composante tonale [tonal corizponent] [audio] : Composante sinusoïdale d’un signal audio.
2.1.150 débit binaire variable [variable bitrate] : Qualifie une opération dont le débit binaire varie
avec le temps, durant le décodage d’un train binaire comprimé.
2.1.151 codage à longueur variable ; VLC [variable Zength coding; VZCI : Procédure réversible de
codage, affectant des mots de code plus courts aux événements fréquents et des mots de code plus
longs aux événements moins fréquents.
2.1.152 vérificateur de tamponnage vidéo ; VBV [video bufering verifier; mlr] [vidéo] : Décodeur
hypothétique, théoriquement connecté à la sortie du codeur. Son objet est de limiter la variabilité du
débit binaire qu’un codeur ou qu’un processus d’édition peuvent produire.
2.1.153 séquence vidéo [video sequence] [vidéo] : Groupe d’images ou séquence de plusieurs
groupes d’images.
2.1.154 ordre de balayage en zigzag [zig-zag scanuing order] [vidéo] : Ordre de succession spécifique
des coefficients DCT, (approximativement) de la fréquence spatiale la plus basse à la plus élevée.
ISO/CEI 11172-3:1993 (F)
o lSO/CEI
22 . Symboles et abréviations
Les opérateurs arithmétiques utilisés dans les descriptions de la présent
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...