Societal security — Video-surveillance — Export interoperability

ISO 22311:2012 is mainly for societal security purposes and specifies a common output file format that can be extracted from the video-surveillance contents collection systems (stand alone machines or large scale systems) by an exchangeable data storage media or through a network to allow end-users to access digital video-surveillance contents and perform their necessary processing.

Sécurité sociétale — Vidéosurveillance — Interopérabilité de l'export

L'ISO 22311:2012 est principalement destinée à des fins de sécurité sociétale et spécifie un format commun pour les données qui peuvent être extraites des systèmes de collecte de vidéosurveillance, par exemple à des fins d'enquête, qu'il s'agisse de matériels isolés ou de systèmes de grande envergure, au travers de supports d'information amovibles ou par l'intermédiaire d'un réseau, de sorte que les utilisateurs finaux puissent accéder aux données numériques de vidéosurveillance en vue d'effectuer les traitements requis.

General Information

Status
Published
Publication Date
14-Nov-2012
Current Stage
9599 - Withdrawal of International Standard
Start Date
05-Dec-2024
Completion Date
13-Dec-2025
Ref Project
Standard
ISO 22311:2012 - Societal security -- Video-surveillance -- Export interoperability
English language
29 pages
sale 15% off
Preview
sale 15% off
Preview
Standard
ISO 22311:2012 - Sécurité sociétale -- Vidéosurveillance -- Interopérabilité de l'export
French language
29 pages
sale 15% off
Preview
sale 15% off
Preview

Standards Content (Sample)


INTERNATIONAL ISO
STANDARD 22311
First edition
2012-11-15
Societal security — Video-
surveillance — Export interoperability
Sécurité sociétale — Videosurveillance — Interopérabilité de l’export
Reference number
©
ISO 2012
© ISO 2012
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any
means, electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the
address below or ISO’s member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2012 – All rights reserved

Contents Page
Foreword .iv
Introduction .v
1 Scope . 1
2 Normative references . 1
3 Terms and definitions . 2
4 General . 3
4.1 Concept . 3
4.2 Relation with other standards . 5
5 Requirements . 5
5.1 General . 5
5.2 Requirements for the Audio-Video Package . 6
5.3 Data security and integrity .15
5.4 Provisions for privacy .16
Annex A (normative) Metadata dictionary .17
Annex B (informative) Requirements concerning usability .26
Bibliography .29
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards
bodies (ISO member bodies). The work of preparing International Standards is normally carried out
through ISO technical committees. Each member body interested in a subject for which a technical
committee has been established has the right to be represented on that committee. International
organizations, governmental and non-governmental, in liaison with ISO, also take part in the work.
ISO collaborates closely with the International Electrotechnical Commission (IEC) on all matters of
electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International
Standards adopted by the technical committees are circulated to the member bodies for voting.
Publication as an International Standard requires approval by at least 75 % of the member bodies
casting a vote.
Attention is drawn to the possibility that some of the elements of this document may be the subject of
patent rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO 22311 was prepared by Technical Committee ISO/TC 223, Societal security.
iv © ISO 2012 – All rights reserved

Introduction
Video-surveillance is a crucial asset in intelligence collection, crime prevention, crisis management,
forensic applications etc. The minimum requirement in societal security is for the authorities to be able
to rapidly use the data collected by different CCTV systems from given locations.
This International Standard provides an export interoperability profile which constitutes the exchange
format and minimum technical requirements that ensure that the digital video-surveillance contents
exported are compatible with the replay systems, establish an appropriate level of quality and contain
all the context information (metadata) necessary for their processing.
It is crucial for societal security that present and future video-surveillance systems implement this
interface to allow efficient forensic processing of the material produced, often in massive quantities.
This International Standard also contains provisions to ensure that privacy measures can be implemented
to protect the rights of the individuals.
This International Standard does not impose implementation methods or technological solutions. It
relies heavily on individual technical standards separately developed and concentrates on minimum
necessary profiles or subsets thereof to achieve its societal security objectives.
This International Standard is a blend of profiles of standards and practices, which combined, will
achieve a minimum level of interoperability.
This implementation has only been possible because of standards produced by the following bodies:
— ISO/IEC JTC 1/SC 29/WG 11, Coding of moving pictures and audio (MPEG);
— ISO/IEC JTC 1/SC 29/WG 1, Coding of still pictures (JPEG);
— IEC/TC 79, Alarm systems and electronic security (including its European equivalent CENELEC/TC
79, Alarm systems and electronic security);
— ITU, International Telecommunication Union;
— IETF, Internet Engineering Task Force;
— SMPTE, Society of Motion Picture and Television Engineers;
— NATO, Standardization Agency.
The normative Annex A contains a metadata dictionary.
The importance of having images stored and presented to the user in such a way that their use is
facilitated is presented in the informative Annex B.
INTERNATIONAL STANDARD ISO 22311:2012(E)
Societal security — Video-surveillance — Export
interoperability
1 Scope
This International Standard is mainly for societal security purposes and specifies a common output
file format that can be extracted from the video-surveillance contents collection systems (stand alone
machines or large scale systems) by an exchangeable data storage media or through a network to allow
end-users to access digital video-surveillance contents and perform their necessary processing. The
means of exchange are not part of this International Standard.
This common output file format relies on a combination of several technical standards that individually
are not restrictive enough to provide the requested interoperability. These standards are formally
referenced to avoid duplications or divergence. When appropriate to improve the interoperability,
subsets or a limited number only of these standards are called.
Since video-surveillance recording often includes taking records of citizens, requirements relating to
privacy, use of the records and their disposal are also considered.
Based on the above mentioned technical standards, the following format components are covered:
— Video;
— Audio;
— Metadata:
— Descriptive (location, camera identifier, etc.)
— Dynamic (date, time, pan, tilt, zoom, identification results, etc.)
— Encapsulation/packaging for the output file;
— Data/access security and integrity;
— Provisions for privacy;
— Informative data regarding the presentation to users.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO/IEC 10918-1:1994, Information technology — Digital compression and coding of continuous-tone still
images: Requirements and guidelines — Part 1
ISO/IEC 10918-5, Information technology — Digital compression and coding of continuous-tone still images:
1)
JPEG File Interchange Format (JFIF) — Part 5
ISO/IEC 14496-2:2004, Information technology — Coding of audio-visual objects — Part 2: Visual
ISO/IEC 14496-3:2009, Information technology — Coding of audio-visual objects — Part 3: Audio
1) To be published.
ISO/IEC 14496-10:2012, Information technology — Coding of audio-visual objects — Part 10: Advanced
Video Coding
ISO/IEC 14496-12:2012, Information technology — Coding of audio-visual objects — Part 12: ISO base
media file format
ISO/IEC 14496-14:2003, Information technology — Coding of audio-visual objects — Part 14: MP4 file format
ISO/IEC 14496-15:2010, Information technology — Coding of audio-visual objects — Part 15: Advanced
Video Coding (AVC) file format
ISO/IEC 15444-1:2004, Information technology — JPEG 2000 image coding system: Core coding system — Part 1
ISO/IEC 23000-10, Information technology — Multimedia application format (MPEG-A) — Part 10:
2)
Surveillance application format
IEC 62676-1-1, Video surveillance systems for use in security applications — Part 1-1: Video system
3)
requirements
IEC 62676-2-3, Video surveillance systems for use in security applications — Part 2-3: Video transmission
4)
protocols — IP interoperability implementation based on web services
ITU-T/Rec G.711, Pulse code modulation (PCM) of voice frequencies
SMPTE RP210.11-2008, Metadata Dictionary Contents
SMPTE 335M-2001, Metadata Dictionary Structure
SMPTE 336M-2007, Data Encoding Protocol Using Key-Length Value
3 Terms and definitions
For the purposes of this document, the following terms and definitions apply.
3.1
video-surveillance
surveillance by video means
3.2
forensic
related to or used in courts of law
NOTE This applies to video-surveillance used to produce legal evidence.
3.3
metadata
information to describe audiovisual content and data essence in a format defined by ISO or any other authority
EXAMPLE Time and date, text strings, location identifying data, audio and any other associated, linked or
processed information.
3.4
static metadata
data associated with a digital image aside from the pixel values that does not change over time (or at
least does not change over the addressed sequence)
2) To be published.
3) To be published.
4) To be published.
2 © ISO 2012 – All rights reserved

3.5
dynamic metadata
data associated with a digital image aside from the pixel values, which can change for each frame of a
video sequence
3.6
CCTV system
surveillance system comprised of cameras, recorders, interconnections and displays that are used to
monitor activities in a store, a company or more generally a specific infrastructure and/or a public place
3.7
logical structure
arrangement of data to optimize their access or processing by given user (human or machine)
3.8
geo-location
specific location defined by one of several means to represent latitude, longitude, elevation above sea
level, and coordinate system
NOTE Geo-location generally means the meaningful specification of the position of a point or object on the
earth. The term itself does not carry a prescription of the coordinate system to be used. Additional attributes
associated with a geo-location are not a part of a geo-location specification.
3.9
scene location
collection of geo-locations that defines the perimeter of the viewable scene of a camera
NOTE The coordinate system is the same for each geo-location in the collection. There is at least one geo-
location in the scene location. The geo-locations are ordered in either clockwise or counter clockwise order. Single
geo-location scenes interpret the geo-location as the centre of the scene.
4 General
4.1 Concept
4.1.1 Video-surveillance systems generic architecture
A CCTV system usually consists of hardware, software and human elements.
A CCTV system for security applications presented as functional blocks, which portray the various parts
and functions of the system, as well as the interactions with the human stakeholders is outlined in Figure 1.
This International Standard specifies the packaging and format of the data exchanged between the video
and system management functional blocks of a CCTV system and societal security end-users external to
the system as covered by the dotted zone of Figure 1.
Informative data regarding the presentation to users are given in Annex B.
The interactions between the components of the different functional modules of a CCTV system
are specified by the IEC 62676 series of normative documents. This International Standard is an
implementation of the provisions of 6.1.3 in IEC 62676-1-1 (to be published), which calls for publication of
all necessary information allowing intended usage of the data produced. Accordingly this International
Standard introduces the necessary extra requirements to the IEC 62676 series, without being in
contradiction with them.
Operators Maintenance Installers
Human factors
Image capture Interconnections Image handling
Video environment
Activity and data management  Interfacing to other systems
System management
System integrity Data integrity
Third
parties
System security
access
Privacy zones Image retention period
Citizens factors
Figure 1 — Functional blocks of a CCTV system for security applications
4.1.2 Minimum requirements for interoperability
Societal security supposes interoperability of digital video-surveillance systems; this International
Standard defines the minimum requirements applicable to the file formats used to export the collected
5)
contents (video, audio and associated metadata) to achieve this interoperability .
All collected information shall be referenced to Coordinated Universal Time (UTC).
This format shall allow the file export of time slices of data coming from a selection of sources and
preserve the time correlation between the contents, whatever export process (removable media or data
transmission) is used.
The format shall be such that compatible, comparable processing of files exported by different systems
(covering a same scene) with a common time base will be possible.
5) Pending legal authorization, this International Standard may allow streaming contents formatted as above,
from a compliant CCTV system towards an external law enforcement facility, as its request or pushed by the CCTV
system to allow hand-over in crisis situations.
4 © ISO 2012 – All rights reserved

Provisions will allow for the implementation of the applicable security, integrity and privacy
protection measures.
As detailed hereafter, this export file format relies on several requirements for the elementary lower
level formats and related protocols, respectively:
— Video;
— Audio;
— Metadata:
— Static (localization, camera identifier, etc.)
— Dynamic (date, time, pan, tilt, zoom, identification results, etc.)
— Container structure to integrate the above;
— Data security and integrity;
— Provisions for privacy.
The implementation of this International Standard shall be such that widely available Operating
System (OS) independent tools will allow for minimal processing of received standard files by societal
security organizations, such as forensic investigators, ensuring as a minimum the following and any
combination thereof:
— Videos and metadata display;
— Direct access to the metadata without display of the videos;
— Selection of content time slots;
— Access to the sources defined by name or scene-location.
4.2 Relation with other standards
The different formats and prescriptions mentioned above are to a large extent subsets of existing
standards; as a result, this International Standard is a blend of profiles of standards and practices which
combined will achieve the expected minimum level of interoperability.
5 Requirements
5.1 General
The minimum requirement for a video-surveillance system to comply with this International Standard
is to produce export files based on the following requirements.
These export files are essentially self-contained Audio-Video Packages which contain all information
necessary to use the data, including location and time of all the scenes, without requiring access to the
source system.
NOTE The requirements detailed hereafter are compatible with the implementation of the IEC 62676 series
that make use of the data and of the stream payloads defined therein.
5.2 Requirements for the Audio-Video Package
5.2.1 General
The “Audio-Video Package” shall consist of a structure container, made of an indexing descriptor
document (XML) and a collection of video and audio data, as well as metadata files. All of these files shall
be in one hierarchical folder (or file system as may be the appropriate terminology for the operating
system under which they are created).
A folder shall contain any number (and without any limitation) of the individual files described below
and will cover an unlimited number of elementary contiguous time slots.
For easy random access to information, data shall be split into Directory Time Slots (DTS) and File Time
Slots (FTS), where time is given in Coordinated Universal Time (UTC), as for GPS. Duration of a DTS is not
critical; for operator convenience (typically, fast search of events by investigators), this duration shall
be constant for a system and a new DTS shall be initiated at least once per day, starting with one hour.
As a minimum, any exported package shall contain once the descriptor of each of the Directory Time
Slots covering (partially or in full) the corresponding time slot. This descriptor shall contain a time-
stamped table of the changes that may have occurred in the configuration since the beginning of the DTS
as well as the list of the contained FTS with their start time.
The duration of a File Time Slot (FTS) shall be comprised between 1 and 600 s. Within a time slot indexes
shall allow to point accurately to any specific frame and time.
NOTE 1 It is allowed to zip or tar the package (again according to the operating environment of the source) and
to transport it by any convenient means including placement on a portable storage media or file transfer protocol.
These processes are not a part of this International Standard. Only the format of the package is covered in this
International Standard.
An Audio-Video Package shall accordingly be organized in a structure as figured below with, in one
top folder, a collection of time slices, arranged in DTS and FTS, of the relevant audio, video and other
dynamic data contents and for each of them a description giving all available information relative to the
corresponding time slice. Such a generic package organization is detailed in Figure 2.
For practical reasons, data naturally belong to groups, typically corresponding to a physical
infrastructure, to data collected by a same Network Video Recorder (NVR) or to an administrative
district; relationship with such groups shall be part of the description.
As a minimum interoperability condition, the naming rule shall be: DTS_info.xml.
6 © ISO 2012 – All rights reserved

Top Folder
Content Description
Group #n Group #n
Directory
Description
Description Description
DTS_p DTS_p+1 DTS_p+2
Time Slots DTS_p+1
DTS_p DTS_p+2
System
Video, Audio
descriptions
and Metadata
as per Figure 3
tracks cut into
File Time Slots
Video
Audio
Metadata
Video
Audio
Metadata
Video
Metadata
Figure 2 — Generic files organization
The Audio-Video Package XML Descriptor shall have the structure defined in Figure 3 below, which
graphically describes a package with a group of contents at a given time.
This XML description shall be of “XSDcomplexType”, naturally self-explanatory; it will describe the
Group and all the sources belonging to the Group; the descriptions typically rely on the data listed in each
subset. All the data do not need to be provided, but enough information shall be given to define without
ambiguity all the Audio/Video contents contained in the folder. In a similar manner more information
or content than explicitly mandated by this International Standard can be incorporated, provided it is
properly described.
As detailed in 5.2.4, for a better interoperability, some information is mandatory and restrictions may
apply to some of the listed items.
The «XSDelements» below shall be extracted from the XML Metadata scheme and namespace defined in
IEC 62676-2-3. As a minimum interoperability condition, naming rule shall be:
— Directories: DIR_ < time stamp > (example: DIR_4E37B984)
— Files: < track name > _ < data type > _ < type of encoding > _ < time stamp > . < extension > (example: TESTVI20_
video_H264_4E411AEC.mp4 orTESTVI50_video_H264_4E411AEC.d)
where
— time stamp is the hexadecimal DTS aligned representation of the file time in seconds as of 1 January
1970 (see Annex A Dates and Times section);
— track name is a chain of characters (0 to 9 and a to Z);
— data type is video, audio or metadata;
— type of encoding is, e.g. H264 or MPEG-2 for video, KLV or XML for metadata;
— the “d” extension shall be arbitrarily used where the “mp4” extension cannot be used.
N tracks
The XML description of the group shall be of “XSDcomplexType” and typically consist in its location and
its contact points.
The descriptive information shall be provided for each source as XML XSDcomplexType typically
including sensor identification and characteristics.
Special attention shall be given on geo-location data associated to the monitored scene; such set of
information shall be regrouped as a XML XSDcomplexType, including GPS latitude and longitude of each
item (centre of image and vertex). As required for constructions, buildings, underground structures, etc.,
means to locate the scene in 3 dimensions in relation to a geo-located reference point shall be provided
(scanned drawing or equivalent).
Type of content (video clip, audio or video frame) shall be provided; special contents (e.g. dynamic
metadata or events) may be used.
The codec used to encode the relevant content shall be given among:
— H.264;
— JPEG 2000;
— JPEG;
— MPEG-4 Visual;
— Audio codec (see 5.2.4).
Data encoded as mentioned above may be stored by using one of the following container file formats:
— JFIF;
— JP2;
— MP4.
Resolution of the video (XML XSDsimpleType) shall be provided as well in number of pixels in height and
width.
NOTE 2 To accommodate legacy systems the AVI, MOV, and WMV widely accepted containers are allowed for
existing assets.
The package metadata shall include the data items defined in 5.2.5.
8 © ISO 2012 – All rights reserved

Top
Scene location data
«XSDelement» avPackageName:
string
Full set of geo-location s
associated to the sensor
Content Scene centre position Vertex positions
e.g. latitude and e.g. latitude and
Identiied by
longitude longitude for each
name & time
GPS position vertex
Contents Metadata for Source #n
ID/details for each source +
Descriptive metadata
provided for each source
One full set of information
to be provided per content
in the folder
Group
A group is a set of contents
associated in a way natural
of the end-user (coming from
the same NVR)
Type Container type
ID/details/ID/localization shall be
given
MP4 or JFIF
Video/Audio/Metadata
See note on formats
CODEC
Content details
Audio CODEC
H.264
Image number of pixels
JPEG 2000
(height and width)
JPEG
Audio sampling rate
MPEG-4 Visual
...
Figure 3 — Structure of the Audio-Video Package XML description and integration in the folder
5.2.1.1 Audio-Video Package XML Descriptor
All the descriptive data items of an Audio-Video Package shall be defined as elements of an XSD extracted
from the XML Metadata scheme and namespace defined in IEC 62676-2-3.
Minimum requirements, which rely on correspondence and compliance with maintained dictionaries
and practices, are detailed below.
The XML Descriptor of the Audio-Video Package shall be organized as per Figure 4 XML Schema diagram
and be stored in DTS Directory and duplicated (optional) in the Description DTS Directory.
As further detailed in 5.2.2.1 two levels of implementation of this International Standard are possible.
To allow the most efficient forensics activities with the individual video (or audio) contents, the Level 2
Systems associate all the XML descriptors specified in the Audio-Video package to the video and audio
contents and in case of dynamic metadata, time references allow for correlation with the associated
audio and/or video. Such descriptive items, mandatory in Level 2 systems, are specified hereafter.
avPackageName
avPackageindex
avNumberDatacetc
avSourceData
avSourceName
avSourceAddressccline1
avSourceAddressccline2
avSourceAddressccCity
avSourceData
avSourceAddressccStateProvince
avSourceAddressccCountry
avSourceAddressccPostalCode
avSourceAddressccOwnerName
avSourceAddressccOwnerCentre.
avPackageIndex
avSourceDatecetMetadata
avDatacetCODEC
avDatacetFileType
avSourceDatacetContainer
avSensorHeightAboveScene
avPackage
avSensorD
avSensorManufacturer
avSensorModel
avSensorSerialNumber
avSensorType
avSourceDataccMetadata
avSensorDatacetDateTime
avSourceDatacetPixelcPerMeter
0 to N
avSourceFramecPerSecond
avPlatformD
avSensorName
avSensorFileName
avSourcePositionOfWiewCenter
avSourceViewvertex
0 to 4
avSourceDatacetResolution
avSourceDatacet
avSourceDatacetData
avSourceDatacet
avSourceDatacetName
0 to N
Figure 4 — Arrangement of the XML Descriptor
It is recommended that Level 1 systems also implement to the largest extent these metadata items. Level
1 systems shall nevertheless provide the following minimum metadata:
— Codec name and profile;
— Name of the container;
— Video resolution;
— Video frame rate (in fps);
10 © ISO 2012 – All rights reserved

— Time and date of the record;
— Time and date of the camera.
5.2.2 Requirements for the video source format
5.2.2.1 General
The primary expectation of law enforcement entities is that complying systems will export videos that
can be identified and are in a format that can be displayed. This International Standard satisfies this
requirement by defining a list of allowed compression schemes (and associated minimum constraints)
that are accommodated by the commonly available players. All video-surveillance systems that export
data as per this International Standard and compress the video in one of the formats defined in the list
below are deemed Level 1 compliant.
To expedite efficiently and without delay complex forensics missions, the requirements go beyond the
sole display of the video, and include exploitation of dynamic metadata, accurate and flexible navigation,
compatibility with automated video analysis, plug-and-play features, compliance test procedures etc.
They require a strict adherence to a video compression scheme and implementation rules, referred as
Level 2. These implementation rules include metadata prescriptions defined in 5.2.5.
Level 2 compliant systems are also compliant to Level 1 and it is possible that these two levels are
mandated in a same jurisdiction, typically based on implementation dates, level of risk of the monitored
infrastructure or number of cameras installed.
5.2.2.2 Requirements for Level 1 Systems
Level 1 systems shall compress video for insertion in the standard export format as per one of the codecs
listed below:
— H.264/MPEG4-AVC as defined in Rec. ITU-T H.264 | ISO/IEC 14496-10:2012;
— MPEG-4 Visual as defined in ISO/IEC 14496-2:2004;
— JPEG as defined in Rec. ITU-T T.83 | ISO/IEC 10918-1:1994;
— JPEG 2000 image coding system as per ISO/IEC 15444-1:2004.
Level 1 Systems may supply video in a Level 1 codec utilizing one of the following containers.
— JFIF as defined in ISO/IEC 10918-5 (to be published);
— JP2 as defined in ISO/IEC 15444-1:2004;
— MP4 as defined in ISO/IEC 14496-14:2003and ISO/IEC 14496-15:2010.
NOTE To accommodate legacy systems, the AVI, MOV and WMV widely accepted containers are allowed for
existing assets.
Level 1 Systems shall supply video with the following characteristics:
— The resolution (image size), the frame rate and quality level of exported video shall not be less than
the one of the recorded video in the system.
5.2.3 Level 2 systems
Level 2 systems shall comply with the following prescriptions:
— The video sources to be integrated in the export format shall be progressive and up to HD. Usage of
interlaced and/or SD sources remains however acceptable to cover legacy situations;
— Compression shall be compliant with H.264/MPEG4-AVC as defined in Recommendation ITU-T
H.264 | International Standard ISO/IEC 14496-10:2012;
— The profile used shall be either Constrained Baseline, Baseline, Main, or High, and the level shall
have a maximum value of 4.0 (all levels below 4.0 are accordingly allowed);
— It shall be possible to associate to each video frame its absolute capture time (with an accuracy
better than one video frame and in any case better than 100 ms referred to UTC). Individual data
streams only (video, audio and metadata), shall be used. They may be logically regrouped (through
the Audio-Video Package XML Descriptors) per sensor or other grouping as shown in Figure 5;
— Each video container shall contain an unlimited number of elementary contiguous time slots. The
duration of a time slot shall be comprised between 1 and 600 s. Within a time slot indexes shall
allow to point accurately to any specific time.
The overall logical arrangement shall be accordingly as in Figure 5 below, where the DTS and FTS are as
per paragraph 5.2.1 definitions.
DTS_P DTS_P+1
1 s to 600 s for video
FTS_NFTS_N+1 FTS_N+2
Data–Source1_track1_segmentN Data–Source1_track1_segmentN+1 Data–Source1_track1_segmentN+2
Video
Index-Source1_Track1_segmentN Index-Source1_Track1_segmentN+1 Index-Source1_Track1_segmentN+2
Info Source1_Track1_DTS_P Info Source1_Track1_DTS_P+1
Data–Source2_track1_segmentN Data–Source2_track1_segmentN+1 Data–Source2_track1_segmentN+2
Video
Audio
Index-Source2_Track1_segmentN Index-Source2_Track1_segmentN+1 Index-Source2_Track1_segmentN+2

Data–Source2_track2_segmentN Data–Source2_track2_segmentN+2
Data–Source2_track2_segmentN+1
Index-Source2_Track2_segmentN
Index-Source2_Track2_segmentN+1 Index-Source2_Track2_segmentN+2
Info Source2_Track2_DTS_P Info Source2_Track2_DTS_P+1
Data–Source3_track1_segmentN Data–Source3_track1_segmentN+2
Data–Source3_track1_segmentN+1
Video
Index-Source3_Track1_segmentN Index-Source3_Track1_segmentN+1 Index-Source3_Track1_segmentN+2

Audio
Data–Source3_track2_segmentN Data–Source3_track2_segmentN+1 Data–Source3_track2_segmentN+2

Index-Source3_Track2_segmentN Index-Source3_Track2_segmentN+2
Index-Source3_Track2_segmentN+1
Metadata
Data–Source3_track3_segmentN Data–Source3_track3_segmentN+1
Data–Source3_track3_segmentN+2
Index-Source3_Track3_segmentN Index-Source3_Track3_segmentN+1 Index-Source3_Track3_segmentN+2
Info Source3_Track3_DTS_P Info Source3_Track3_DTS_P+1
Detector
result Data–Source4_track1_segmentN+1 Data–Source4_track1_segmentN+2
Data–Source4_track1_segmentN
Metadata
Index-Source4_Track1_segmentN Index-Source4_Track1_segmentN+1
Index-Source4_Track1_segmentN+2
Info Source4_Track1_DTS_P Info Source4_Track1_DTS_P+1
GPS
Data–Source5_track1_segmentN Data–Source5_track1_segmentN+1 Data–Source5_track1_segmentN+2
Metadata
Index-Source5_Track1_segmentN Index-Source5_Track1_segmentN+1 Index-Source5_Track1_segmentN+2

Info Source5_Track1_DTS_P Info Source5_Track1_DTS_P+1
Figure 5 — Arrangement of the descriptive metadata
12 © ISO 2012 – All rights reserved
Metadata
Metadata Video
Source 4 Audio/Video Source 2
Audio/Video/Metadata Source 3
Source 5
source 1
(Video (camera)
(camera)
(GPS Source)
(camera)
processing)
As several individual data streams from one or more exported files produced by one or more systems
require easy and accurate cut and edit, based on capture time, an absolute coarse indexing mechanism
shall be implemented, represented as a track in Figure 5.
NOTE 1 Index (fine indexing) is optional.
It is allowed that at the high time resolution level, the formatting at the DTS and the FTS level be
performed centrally (typically at a NVR level) in a synchronized manner for all contents, often with a
natural sequence (like an “I frame” for video) starting a FTS, whatever the relative phasing between the
sensors is. Each individual data stream shall nevertheless carry in addition to this format time index, its
capture time index in Coordinated Universal Time (UTC), with a resolution of at least 10 ms. This allows
multi-channel players to synchronize videos (and audio) down to the frame level.
This shall be achieved by the implementation for each individual container (elementary data stream
during one elementary time slot) of a MPEG-A video surveillance MAF file format as defined in
ISO/IEC 23000-10, constituted of one header and of the single sequence of continuous data (a single
data chunk as per ISO/IEC 14496-12:2012) corresponding to the elementary time slot. This header shall
contain at least the capture time at the beginning of the sequence and an updatable time (which may be
the system time at formatting).
This, combined with the descriptive indexing data, shall provide as a minimum for each frame:
— The capture source time;
— The formatting time;
— The type of frame;
— The time index with reference to the beginning of the FTS.
When a content (data source) is dynamic metadata embedding timed information, e.g. scene location for
systems involving PTZ cameras or vehicles, this embedded time shall also be the above defined capture
source time, ensuring conservation of synchronism between video and associated metadata.
NOTE 2 The compliant video-surveillance systems that produce freeze-frame thumbnail images will export
such still images in JPEG Baseline as in ISO/IEC 10918-1/ITU-T T.81.
NOTE 3 Compliant systems may produce videos at levels up to 5.0, but then they become compliant to Level 1
rather than Level 2.
NOTE 4 If jurisprudence in a jurisdiction forbids inter-frame compression, I-only H264 compression can be
implemented, while remaining compliant with Level 2.
NOTE 5 All references to MPEG-4 containers in this International Standard are meant as per the above
container description.
5.2.4 Audio
When audio is part of the export format, it shall be encoded either as per G.711 Law A as defined in
ITU-T/Rec. G.711 or per MPEG4-AAC in Low Complexity Profile (AAC-LC) as defined in ISO/IEC 14496-
3:2009. MPEG-4 file format shall be used as per ISO/IEC 14496-14:2003.
5.2.5 Metadata
5.2.5.1 Requirements regarding the metadata items (Level 2 systems)
Metadata shall allow unambiguous definition of each audio-video source or event; this shall include,
further to time of occurrence referred to UTC, the absolute geo-location of the four corners of each video
frame (scene location), with an accuracy better than 20 % of the smallest height or width of the field of
view. This absolute scene location may be obtained through calculations (typically based on PTZ data).
Such descriptive (not changing over the time) unambiguous geo-location information shall be part of
the Audio-Video XML Descriptor detailed in 5.2.1.1 and shall rely on the IEC 62676-2-3 metadata format
and definitions.
To avoid differences of interpretation, the geodesic metadata definitions are kept in a dictionary in
accordance with the requirements described in Annex A. The dictionary structure is as per SMPTE
335M-2001. This dictionary is based on the spatio-temporal subset (Class 7) of the SMPTE metadata
dictionary (SMPTE RP210.11-2008); it may be updated over time, in case items are missing for the video-
surveillance applications or harmonization with IEC 62676-2-3 becomes necessary.
When the monitored asset is a building, an underground infrastructure or any disposition that cannot
rely on the sole GPS coordinates, means to locate the scene in 3 dimensions in relation to a geo-located
reference point shall be provided (scanned drawing or equivalent). The mandatory location data (static
or dynamic) shall then rely on this absolute reference.
When dynamic metadata are necessary, e.g. for vehicle GPS or PTZ parameters, metadata shall be
encoded using the Key-Length-Value (KLV) method as per SMPTE 336M-2007 containing imbedded
time reference for time stamping.
When XML metadata need to be used, such as relay of IEC 62676-2-3, XML metadata or results of
sophisticated video analytics, XML based descriptors shall be used and embedded in KLV structure.
As a minimum requirement, the format shall incorporate the mandatory metadata allowing source
identification and scene location as listed below (in bold in the diagrams of 5.2.5.2 and 5.2.6).
Nevertheless processing systems will be built to be resilient to contents which do not contain all the
mandatory metadata.
The metadata content can be split into two topics: sensor and event information.
The applicable dictionary and associated KLV encoding are provided in Annex A.
5.2.5.2 Sensor metadata items (Level 2 Systems)
Device Location
Sensor
- Image Coordinate system
- Sensor ID
Time
- Owner Name
- Device Coordinates (Lati, Longi, Alti)
- Start Date Time - UTC
- Device Absolute Positional Accuracy
- User Deined Time Stamp
- Device Relative Position (X, Y, Z)
- Device Relative Positional Accuracy
- Sensor Roll Angle
Sensor Description Optical
- Angle to North
- IEEE Device ID - Focal Length
- Sensor Size - Obliquity Angle
- Device Designation
- Lens Aperture
- Platform Roll, Pitch, Heading angles
- Device Kind
- Sensor Type Code
- Image Source Device Kind
- FOV-Horizonal
- FOV-Vertical
- Device manufacturer Name
- IEEE Manufacturer ID
- Device Model
Sécurity
Observed Scene
- Device Serial Number
- Security Classiication
- Platform Serial Number - Image Coordinate system
- Platform Designation - Frame Centre Coordinates (Lati, Long i,
Elevation)
- Platform Model XML
- Frame Positional Accuracy
- XML Document Text
- Corner Points 1-4 coordinates (Lati, Longi)
- Slant Range
Static Data Experimental metadata
- Experimental Metadata
Mandatory
Recommended
Optional
Dynamic Data
Figure 6 — Sensor metadata items (Level 2 Systems)
14 © ISO 2012 – All rights reserved

The sensor description information concerns the hardware, but also sensor location (including platform
position), sensor status, time, optical configuration and security matters. Space is provided to add other
information (“Free Item”). Mandatory metadata apply also to audio sensors.
The following metadata items shall be provided:
— Codec name and profile;
— Name of the container;
— Video resolution;
— Video frame rate (in fps);
— Time and date of the record;
— Time and date of the camera.
5.2.6 Event metadata items (Level 2 systems)
Experimental Metadata
Event
- Experimental Metadata
- Event ID
- Event Start time – UTC
- Event classi
ication dictionary
Event Location
- Event classi
ication
- Image Coordinate system
- Link ID (Link to another event)
- Event Coordinates (Lati, Longi, Alti)
- Event Coordinates Precision
- Sensor Reference Location (Sensor ID)
Dynamic Data
Mandatory
Recommended
Optional
Figure 7 — Event metadata items (Level 2 systems)
This part of the metadata concerns the observed events: it contains time information and event
description through the use of specific, domain-related dictionaries. Space is provided to add other
information (“Free Item”).
Events are by nature dynamic data.
5.3 Data security and integrity
Depending upon local regulations export format may incorporate provisions for mechanisms ensuring that:
— Collected contents have not been corrupted or modified;
— Hierarchical access rights control system can be implemented;
— Access log-ins can be traced.
It is recommended to implement as far as possible data security and integrity specifications published
by ISO/IEC JTC 1/SC 27.
5.4 Provisions for privacy
Depending upon local regulations minimum requirements to be implemented, if any, shall at least include:
— Monitoring of the access to the data;
— Mandatory recording time to check that data are properly erased after the prescribed time;
— Minimal masking techniques;
— Training of staff to handle sensitive data.
It is recommended to implement as far as possible privacy specifications published by ISO/IEC JTC 1/SC 27.
16 © ISO 2012 – All rights reserved

Annex A
(normative)
Metadata dictionary
A.1 Encoding rule
Derived from SMPTE 336M, the table in A.2 provides for each item of the metadata dictionary the KLV triplets
in the full format, also called Universal Set. Universal Sets use the full KLV Coding Construct throughout.
As per SMPTE 336M, more efficient methods are allowed:
— Global Sets are defined as per Universal Sets, but offer coding efficiency by sharing a common Key header.
This coding gain is lossless and every Key can be fully recovered from the data in the Global Set alone.
— Local Sets are defined as per Universal Sets, but offer coding efficiency through the use of short
Local Tags whose meaning is defined within the context of the Local Set. Local Sets retain the KLV
data construct but require a separate Standard or RP to defi
...


NORME ISO
INTERNATIONALE 22311
Première édition
2012-11-15
Sécurité sociétale —
Vidéosurveillance — Interopérabilité
de l’export
Societal security — Video-surveillance — Export interoperability
Numéro de référence
©
ISO 2012
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2012
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée
sous quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans
l’accord écrit de l’ISO à l’adresse ci-après ou du comité membre de l’ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2012 – Tous droits réservés

Sommaire Page
Avant-propos .iv
Introduction .v
1 Domaine d’application . 1
2 Références normatives . 1
3 Termes et définitions . 2
4 Généralités . 3
4.1 Concept . 3
4.2 Relation avec d’autres normes . 5
5 Exigences techniques . 6
5.1 Généralités . 6
5.2 Exigences relatives au paquet audio-vidéo . 6
5.3 Sécurité et intégrité des données .16
5.4 Dispositions en matière de respect de la vie privée .17
Annexe A (normative) Dictionnaire de métadonnées .18
Annexe B (informative) Directives pour faciliter l’utilisation des équipements .27
Bibliographie .30
Avant-propos
L’ISO (Organisation internationale de normalisation) est une fédération mondiale d’organismes
nationaux de normalisation (comités membres de l’ISO). L’élaboration des Normes internationales est
en général confiée aux comités techniques de l’ISO. Chaque comité membre intéressé par une étude
a le droit de faire partie du comité technique créé à cet effet. Les organisations internationales,
gouvernementales et non gouvernementales, en liaison avec l’ISO participent également aux travaux.
L’ISO collabore étroitement avec la Commission électrotechnique internationale (CEI) en ce qui concerne
la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives
ISO/CEI, Partie 2.
La tâche principale des comités techniques est d’élaborer les Normes internationales. Les projets de
Normes internationales adoptés par les comités techniques sont soumis aux comités membres pour vote.
Leur publication comme Normes internationales requiert l’approbation de 75 % au moins des comités
membres votants.
L’attention est appelée sur le fait que certains des éléments du présent document peuvent faire l’objet de
droits de propriété intellectuelle ou de droits analogues. L’ISO ne saurait être tenue pour responsable de
ne pas avoir identifié de tels droits de propriété et averti de leur existence.
L’ISO 22311 a été élaborée par le comité technique ISO/TC 223, Sécurité sociétale.
iv © ISO 2012 – Tous droits réservés

Introduction
La vidéosurveillance est un outil capital dans la recherche du renseignement, la prévention du crime,
la gestion des crises, les enquêtes judiciaires, etc. L’exigence minimale pour les autorités en matière de
sécurité sociétale est qu’elles soient en mesure de faire rapidement usage des données recueillies par les
différents systèmes de vidéosurveillance couvrant une zone donnée.
La présente Norme internationale fournit un profil d’interopérabilité pour l’export des données, qui constitue
le format d’échange, et les exigences techniques minimales qui assurent la compatibilité des contenus vidéo
numériques exportés avec les systèmes d’exploitation, garantissent un niveau de qualité approprié et
contiennent toutes les informations de contexte (ou métadonnées) nécessaires à leur traitement.
Il est capital pour la sécurité sociétale que les systèmes de vidéosurveillance actuels et futurs mettent en
œuvre cette interface pour permettre un traitement judiciaire efficace des données produites, souvent
en grandes quantités.
La présente Norme internationale comprend également des dispositions permettant de mettre en œuvre
des mesures de protection de la vie privée des citoyens.
La présente Norme internationale n’impose pas les méthodes de mise en œuvre ou des solutions
technologiques. Elle s’appuie fortement sur des normes techniques élémentaires élaborées par ailleurs
(appelées suivant les besoins) et se concentre sur les profils minimum ou sur les parties de ces normes
qu’il est nécessaire de mettre en œuvre pour atteindre ses objectifs de sécurité sociétale.
La présente Norme internationale est un assemblage de profils de normes et de pratiques qui, combinés,
permettront d’atteindre un niveau minimal d’interopérabilité.
Ce résultat n’a pu être obtenu que grâce aux normes élaborées par les entités suivantes:
— ISO/CEI JTC 1/SC 29/GT 11, Codage d’images animées et sonores (MPEG);
— ISO/CEI JTC 1/SC 29/GT 1, Codage d’images fixes (JPEG);
— CEI/TC 79 Systèmes d’alarme (y compris son équivalent européen CENELEC/TC 79 Systèmes d’alarme);
— UIT (Union Internationale des Télécommunications);
— Groupe IETF (Internet Engineering Task Force);
— SMPTE (Society of Motion Picture et Television Engineers);
— l’Agence de normalisation de l’OTAN.
L’Annexe A, normative, contient un dictionnaire de métadonnées.
L’Annexe B, informative, traite de l’importance de disposer d’images stockées et présentées à l’utilisateur
de manière à en faciliter l’utilisation.
NORME INTERNATIONALE ISO 22311:2012(F)
Sécurité sociétale — Vidéosurveillance —
Interopérabilité de l’export
1 Domaine d’application
La présente Norme internationale est principalement destinée à des fins de sécurité sociétale et
spécifie un format commun pour les données qui peuvent être extraites des systèmes de collecte de
vidéosurveillance, par exemple à des fins d’enquête, qu’il s’agisse de matériels isolés ou de systèmes de
grande envergure, au travers de supports d’information amovibles ou par l’intermédiaire d’un réseau,
de sorte que les utilisateurs finaux puissent accéder aux données numériques de vidéosurveillance
en vue d’effectuer les traitements requis. Les moyens de cet échange ne font pas partie de la présente
Norme internationale.
Ce format commun pour les fichiers exportés repose sur une combinaison de plusieurs normes
techniques qui, prises individuellement, ne garantissent pas l’interopérabilité recherchée. Ces normes
sont directement citées pour éviter toute duplication ou divergence. Selon les besoins d’interopérabilité,
des sous-ensembles ou seule une partie de ces normes sont mis en œuvre.
Dans la mesure où l’enregistrement de la vidéosurveillance intègre souvent la collecte d’informations
concernant les individus, les exigences relatives au respect de la vie privée, à l’utilisation des informations
recueillies et à leur effacement sont également prises en compte.
S’appuyant sur les normes mentionnées ci-dessus, les composantes suivantes du format sont prises en
compte:
— vidéo;
— audio;
— métadonnées:
— descriptives (emplacement, identificateur de caméra, etc.)
— dynamiques (date, heure, panoramique, inclinaison, zoom, résultats d’identification, etc.);
— encapsulation /empaquetage du fichier de sortie;
— sécurité d’accès et intégrité des données;
— dispositions en matière de respect de la vie privée;
— présentation aux utilisateurs.
2 Références normatives
Les documents de référence suivants sont indispensables pour l’application du présent document. Pour
les références datées, seule l’édition citée s’applique. Pour les références non datées, la dernière édition
du document de référence s’applique (y compris les éventuels amendements).
ISO/CEI 10918-1:1994, Technologies de l’information — Compression numérique et codage des images fixes
de nature photographique: Prescriptions et lignes directrices — Partie 1
ISO/CEI 10918-5, Technologies de l’information — Compression numérique et codage des images fixes à
1)
modelé continu: Format d’échange de fichiers JPEG (JFIF)— Partie 5
1) À publier.
ISO/CEI 14496-2:2004, Technologies de l’information — Codage des objets audiovisuels — Partie 2:
Codage visuel
ISO/CEI 14496-3:2009, Technologies de l’information — Codage des objets audiovisuels — Partie 3: Codage
audio
ISO/CEI 14496-10:2012, Technologies de l’information — Codage des objets audiovisuels — Partie 10:
Codage visuel avancé
ISO/CEI 14496-12:2012, Technologies de l’information — Codage des objets audiovisuels — Partie 12:
Format ISO de base pour les fichiers médias
ISO/CEI 14496-14:2003, Technologies de l’information — Codage des objets audiovisuels — Partie 14:
Format de fichier MP4
ISO/CEI 14496-15:2010, Technologies de l’information — Codage des objets audiovisuels — Partie 15:
Format de fichier de codage vidéo avancé (AVC)
ISO/CEI 15444-1:2004, Technologies de l’information — Système de codage d’images JPEG 2000: Système
de codage de noyau
ISO/CEI 23000-10,Technologie de l’information — Format pour application multimédia (MPEG-A) —
2)
Partie 10: Format pour application à la vidéosurveillance
CEI 62676-1-1, Systèmes d’alarme — Systèmes de vidéo surveillance appliqués à la sécurité — Part 1-1:
3)
Exigences système
CEI 62676-2-3, Systèmes d’alarme — Systèmes de vidéo surveillance appliqués à la sécurité — Partie 2-3:
4)
Protocoles de transmission vidéo sous IP — Implémentation de l’interopérabilité fondée sur les services WEB
UIT-T/Rec G.711, Modulation par impulsions et codage (MIC) des fréquences vocales
SMPTE RP210.11-2008, Metadata Dictionary Contents
SMPTE 335M-2001, Metadata Dictionary Structure
SMPTE 336M-2007, Data Encoding Protocol Using Key-Length Value
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions suivants s’appliquent.
3.1
vidéosurveillance
surveillance par des moyens vidéo
3.2
enquêtes judiciaires
activités de recherche de la vérité relatives aux tribunaux ou utilisées dans la mise en œuvre du droit
NOTE Cela s’applique à la vidéosurveillance utilisée pour produire des preuves légales.

2) À publier.
3) À publier.
4) À publier.
2 © ISO 2012 – Tous droits réservés

3.3
métadonnée
information permettant de décrire les contenus audiovisuels et les autres données produites dans un
format défini par l’ISO ou toute autre autorité
EXEMPLE L’heure et la date, les liens textuels, les données de localisation, l’audio et toute autre information
associée, connexe ou traitée.
3.4
métadonnée statique
donnée associée à une image numérique, à l’exclusion des valeurs associées aux pixels, qui ne change pas
au cours du temps (ou tout au moins ne change pas sur la durée de la séquence)
3.5
métadonnée dynamique
donnée associée à une image numérique, à l’exclusion des valeurs associées aux pixels, qui peut changer
d’une image à l’autre au cours d’une séquence vidéo
3.6
système vidéo en circuit fermé (ou système CCTV)
système de surveillance composé de caméras, d’enregistreurs, d’interconnexions et d’écrans utilisés
pour surveiller les activités dans un magasin, une entreprise ou plus généralement une infrastructure
spécifique et / ou un lieu public
3.7
structure logique
disposition des données permettant d’optimiser leur accès ou leur traitement par un utilisateur (homme
ou machine) donné
3.8
géo-localisation
position spécifique définie par l’un des divers moyens de représentation de la latitude, de la longitude,
de l’altitude au-dessus du niveau de la mer et par un système de coordonnées
NOTE En général, la géo-localisation est comprise comme une définition concrète de la position d’un point
ou d’un objet sur la terre. Le terme lui-même n’exprime aucune exigence par rapport au système de coordonnées
à utiliser. Les attributs supplémentaires associés à une géo-localisation ne font pas partie d’une spécification de
géo-localisation.
3.9
localisation de scène
ensemble de géo-localisations qui définissent les contours de la scène rendue visible par une caméra
NOTE Le système de coordonnées utilisé pour la géo-localisation ne change pas à l’intérieur d’un dossier.
Il existe au moins une géo-localisation dans les données de localisation d’une scène. Les géo-localisations sont
toujours fournies dans le sens des aiguilles d’une montre ou dans le sens contraire. Les scènes ne comportant
qu’une seule géo-localisation voient cette géo-localisation comme celle du centre de la scène.
4 Généralités
4.1 Concept
4.1.1 Architecture générique des systèmes de vidéosurveillance
Un système CCTV se compose généralement de matériels, de logiciels et d’opérateurs humains.
La Figure 1 donne un aperçu d’un système CCTV pour des applications de sécurité dans une représentation
sous forme de blocs fonctionnels, qui décrivent les différentes parties et fonctions du système, ainsi que
les interactions avec les intervenants humains concernés.
La présente Norme internationale spécifie l’encapsulation et le format des données échangées entre
les blocs fonctionnels de vidéo et de gestion d’un système de CCTV et les utilisateurs finaux de sécurité
sociétale externes au système, représentés dans la zone en pointillés de la Figure 1.
L’Annexe B fournit des données informatives concernant la présentation aux utilisateurs.
Les interactions entre les différents modules techniques sont spécifiées par la série de documents
normatifs CEI 62676. La présente Norme internationale est destinée à mettre en œuvre les dispositions
du 6.1.3 de la CEI 62676-1-1 (à publier), qui prévoit la fourniture de toutes les informations nécessaires à
l’utilisation prévue des données produites. De fait, la présente Norme internationale ajoute des exigences
supplémentaires à la série CEI 62676, mais en cohérence avec elle.
Opérateurs MaintenanceInstallateurs
Facteurs humains
Capture d’imageInterconnexions Traitement d’image
Environnement vidéo
Gestion des activités et des données Interface avec d’autres systèmes

Gestion du système
Intégrité du systèmeIntégrité des données
Accès à des
tierces
Sécurité du système parties
Zones privées Période de conservation
Facteurs liés aux citoyens
Figure 1 — Blocs fonctionnels d’un système CCTV pour des applications de sécurité
4 © ISO 2012 – Tous droits réservés

4.1.2 Exigences minimales relatives à l’interopérabilité
La sécurité sociétale suppose l’interopérabilité des systèmes de vidéosurveillance numérique. La
présente norme définit les exigences minimales applicables aux formats de fichier utilisés pour exporter
5)
le contenu recueilli (vidéo, audio et métadonnées associées) en vue de réaliser cette interopérabilité .
Toutes les informations collectées doivent être référencées par rapport au temps universel coordonné (UTC).
Le format doit permettre l’export de fichiers correspondant à des tranches temporelles de données
provenant d’un certain nombre de sources et la conservation de la corrélation temporelle entre les
éléments, quel que soit le procédé d’export (support amovible ou transmission de données) utilisé.
Le format doit autoriser un traitement compatible et comparable des fichiers exportés depuis différents
systèmes (couvrant une même scène) avec une base de temps commune.
Des dispositions permettront la mise en œuvre de mesures en matière de sécurité et d’intégrité des
données et de protection de la vie privée.
Comme détaillé ci-après, ce format de fichier spécifié pour l’export repose sur diverses exigences portant
sur les formats élémentaires de niveau inférieur et les protocoles associés, tels que:
— vidéo;
— audio;
— métadonnées:
— statiques (localisation, identification de caméra, etc.)
— dynamiques (date, heure, paramètres de site, inclinaison et zoom, résultats d’identification, etc.)
— structure du conteneur pour intégrer les éléments ci-dessus;
— sécurité et intégrité des données;
— dispositions en matière de respect de la vie privée.
La mise en œuvre de la présente Norme internationale doit faire en sorte que des outils largement
disponibles et indépendants des systèmes d’exploitation soient en mesure d’assurer un traitement
minimal sur les fichiers reçus par les organisations en charge de la sécurité sociétale, couvrant au
minimum les fonctionnalités suivantes et toute combinaison de celles-ci:
— visualisation des vidéos et des métadonnées;
— accès direct aux métadonnées sans affichage des vidéos;
— sélection des créneaux temporels du contenu;
— accès aux sources définies par leur nom ou la localisation de la scène.
4.2 Relation avec d’autres normes
Les différents formats et spécifications mentionnés ci-dessus représentent dans une large mesure
des sous-ensembles de normes existantes. En pratique, la présente Norme internationale est une
combinaison de profils de normes et de pratiques qui, associés, vont permettre d’atteindre le niveau
minimal d’interopérabilité attendu.
5) Il est envisagé dans le futur des applications permettant, sous réserve de l’obtention d’une autorisation
légale, d’acheminer les données grâce au format ci-dessus défini, d’un système se conformant à la présente Norme
internationale vers un terminal externe de sécurité sociétale à sa demande ou à la demande du système en vue de
permettre un transfert de responsabilité en cas de crise.
5 Exigences techniques
5.1 Généralités
L’exigence minimale pour qu’un système de vidéosurveillance soit conforme à la présente Norme
internationale est de générer des fichiers d’export répondant aux exigences suivantes.
Ces fichiers d’export sont intrinsèquement des paquets audio-vidéo autonomes qui contiennent toutes
les informations nécessaires à l’utilisation des données qu’ils contiennent, y compris l’emplacement et
l’heure de toutes les scènes, sans nécessiter l’accès au système qui les a produits.
NOTE Les exigences détaillées ci-après sont compatibles avec la mise en application de la série CEI 62676 qui
utilise les mêmes données et charges utiles du flux.
5.2 Exigences relatives au paquet audio-vidéo
5.2.1 Généralités
Chaque paquet audio-vidéo doit être constitué d’un conteneur comportant un document descripteur
du contenu par indexation (XML) et une collection de données vidéo et audio, ainsi que des fichiers
de métadonnées. Tous ces fichiers doivent être contenus dans le même dossier structuré de façon
hiérarchique (ou système de fichiers suivant la terminologie utilisée par le système d’exploitation sous
lequel ils sont créés).
Un dossier pourra contenir un nombre quelconque (et sans aucune limitation) de fichiers individuels
décrits ci-dessous et couvrira un nombre illimité de créneaux temporels élémentaires contigus.
Pour faciliter l’accès aléatoire à l’information, les données doivent être rangées en créneaux temporels
de répertoire (DTS) et en créneaux temporels de fichiers (FTS), pour lesquels le temps est donné en
temps universel coordonné (UTC), comme pour le GPS. La durée d’un créneau DTS n’est pas critique;
pour optimiser le travail de l’opérateur, cette durée doit être constante pour un système et un nouveau
DTS doit être créé au moins une fois par jour, typiquement au début d’une heure.
Tout paquet exporté doit contenir au minimum une fois le descripteur de chacun des répertoires de
créneaux temporels couvrant (partiellement ou en totalité) le créneau temporel correspondant. Ce
descripteur doit contenir une table horodatée des changements de configuration qui ont pu avoir lieu
depuis le début du DTS ainsi que la liste des FTS contenus avec leur heure de début.
La durée d’un créneau temporel fichier (FTS) doit être comprise entre 1 s et 600 s. Dans un créneau
temporel, les index doivent permettre de pointer avec précision toute image et toute heure spécifiques.
NOTE 1 Il est permis de convertir en « zip » ou en « tar » un paquet (toujours selon l’environnement d’exploitation
de la source) et de le transférer par tout moyen approprié, comme un support de stockage amovible ou un protocole
de transfert de fichier. Ces processus ne sont pas couverts par la présente Norme internationale. Seul le format du
paquet à transférer est défini par la présente Norme internationale.
Un paquet audio-vidéo doit en conséquence être organisé selon une structure telle que présentée dans
la figure ci-dessous avec, dans un dossier principal, un ensemble de créneaux temporels de données
audio, vidéo et autres données dynamiques, disposés en DTS et FTS et, pour chaque contenu, une
description donnant toutes les informations disponibles relatives au créneau temporel correspondant.
Cette organisation générique du paquet est détaillée à la Figure 2.
Pour des raisons pratiques, les données appartiennent naturellement à des groupes, correspondant
généralement à une infrastructure physique, comme les données recueillies par un même Magnétoscope
Réseau (NVR) ou par une même unité administrative; l’appartenance à de tels groupes doit faire partie
de la description.
Une condition minimale d’interopérabilité est la règle de nommage en: DTS_info.xml.
6 © ISO 2012 – Tous droits réservés

Dossier
principal
Groupe de Descriptions du
contenus n° groupe n°
Créneaux
Description Description Description
DTS_ p
temporels DTS_ p+1 DTS_ p+2
DTS_p DTS_p+1 DTS_p+2
répertoires
Pistes vidéo,
Descriptions de
audio,
système suivant
métadonnées
la Figure 3
découpées en
Créneau
temporels Fichiers
correspondant à
des Créneaux
Video
temporels
Index
Audio
Index
-
-
-
Index
Index
Index
Metadata
Figure 2 — Organisation générique des fichiers
Le descripteur XML du paquet audio-vidéo doit respecter la structure définie à la Figure 3 ci-dessous,
qui décrit graphiquement un paquet et son groupe de contenus à un instant donné.
Cette description XML doit être de type « XSDcomplexType », intrinsèquement explicite. Elle décrit le
groupe et l’ensemble des sources appartenant au groupe; les descriptions reposent généralement sur les
données figurant dans chaque sous-ensemble. Tous les détails n’ont pas besoin d’être fournis, mais toutes
les informations nécessaires pour définir sans ambiguïté tous les contenus audio/vidéo du dossier doivent
être fournies. À l’inverse, il est autorisé de fournir plus d’informations ou de contenus que ceux expressément
autorisés par la présente Norme internationale, à condition qu’ils soient correctement décrits.
Comme détaillé en 5.2.4, pour une meilleure interopérabilité, certaines informations sont obligatoires et
des restrictions peuvent s’appliquer à certains des éléments énumérés ci-après.
Les « XSDelements » ci-dessous doivent être ceux du schéma et nom d’espace des métadonnées XML définis
dans la CEI 62676-2, 3. Comme condition minimale d’interopérabilité, le schéma de dénomination doit être:
— Répertoires: DIR_ < time stamp > (exemple: DIR_4E37B984)
— Fichiers: < track name > _ < data type > _ < type of encoding > _ < time stamp > . < extension >
(exemple: TESTVI20_video_H264_4E411AEC.mp4 ou TESTVI50_video_H264_4E411AEC.d)

— « time stamp » (horodatage) est, en représentation hexadécimale, la valeur alignée sur les DTS de la
er
datation des fichiers en secondes à partir du 1 janvier 1970;
— « track name » (nom de piste) est une chaîne de caractères (0 à 9 et a à Z);
— « data type » (type de données) est soit vidéo, audio ou métadonnée;
— « type of encoding » (type de codage), par exemple H264 ou MPEG-2 pour la vidéo, KLV ou XML pour
la métadonnée;
N pistes
— l’extension « d » doit être utilisée de manière arbitraire lorsque l’extension « mp4 » ne peut pas
être utilisée.
La description XML du groupe doit être de type « XSDcomplexType » et se compose généralement de
l’emplacement du groupe et de ses points de contact.
L’information descriptive doit être fournie pour chaque source sous forme XML XSDcomplexType
comprenant généralement l’identification et les caractéristiques du capteur.
Une attention particulière doit être portée aux données de géo-localisation associées à la scène objet de
l’observation; ces données seront regroupées en XML XSDcomplexType et comprendront la latitude et
la longitude GPS de chaque élément (centre d’image et vertex). Tel que requis pour les constructions, les
bâtiments, les structures souterraines, etc., les moyens de localisation de la scène en 3 dimensions par
rapport à un point de référence géo-localisé doivent être fournis (plan numérisé ou équivalent).
La nature du contenu (clip vidéo, audio ou image vidéo) doit être fournie; des contenus spéciaux (par
exemple les métadonnées ou événements dynamiques) peuvent être utilisés.
Le codec utilisé pour coder le contenu décrit doit être donné à partir de la liste ci-dessous:
— H.264;
— JPEG 2000;
— JPEG;
— MPEG-4 Visual;
— Codec audio (voir 5.2.4).
Les données codées comme mentionné ci-dessus peuvent être stockées en utilisant l’un des formats
d‘encapsulation suivants:
— JFIF;
— JP2;
— MP4.
La résolution de la vidéo (XML XSDsimpleType) doit également être fournie, exprimée en nombre de
pixels en hauteur et en largeur.
NOTE 2 Pour tenir compte des systèmes en service, les formats AVI, MOV et WMV largement répandus sont
autorisés pour les systèmes existants.
Les métadonnées associées au paquet doivent comporter les éléments de donnée définis en 5.2.5.
8 © ISO 2012 – Tous droits réservés

Dossier de niveau supérieur
Données de localisation de la
«XSDelement» avPackageName: scène
Ensemble complet de géo-
lien
localisations associées au
capteur
Localisation du centre Positions des coins de
Contenu
de scène la scène
Comme latitude et Comme latitude et
Identi ié par nom et
longitude de la position
longitude pour chaque
datation
GPS vertex
Contenus Métadonnées pour source #n
ID/Détails de chaque source+
Métadonnées descriptives
fournies pour chaque source
Un ensemble complet de
données à fournir par contenu
dans le dossier
Groupe
Un groupe est un ensemble de
contenus associés d’une manière
naturelle pour l’utilisateur inal
(provenant d’un même NVR)
Type de
ID/détails/ ces localisations
Type
d’encapsulation
doivent être fournies
Vidéo/audio/ MP4 ou JFIF
métadonnées Voir note sur les formats
CODEC
Détails relatifs au
contenu
Audio CODEC
Nombre de pixels de
H.264
l’imag e
JPEG 2000
(hauteur et largeur)
JPEG
Fréquence
MPEG-4 Visual
d’échantillonnage de
l’audio
Figure 3 — Structure de la description XML du paquet audio-vidéo et intégration dans le dossier
5.2.1.1 Descripteur XML du package audio-vidéo
Tous les éléments descriptifs d’un paquet audio-vidéo doivent être des éléments XSD extraits du schéma
et nom d’espace des métadonnées XML définies par la CEI 62676-2, 3.
Les exigences minimales de correspondance et de conformité avec les dictionnaires et bonnes pratiques
à jour, sont détaillées ci-dessous.
Le descripteur XML du paquet audio-vidéo doit être organisé selon le Schéma XML de la Figure 4, être
stocké dans le répertoire DTS et être dupliqué (facultatif) dans le répertoire de description associé.
Comme indiqué en plus amples détails en 5.2.2.1, deux niveaux de mise en œuvre de la présente Norme
internationale sont possibles.
Afin d’améliorer l’efficacité des investigations sur les contenus vidéo (ou audio) individuels, les systèmes
de niveau 2 associent tous les descripteurs XML spécifiés pour un paquet audio-vidéo aux contenus vidéo
et audio et en cas de présence de métadonnées dynamiques, les références de temps permettront la
corrélation avec l’audio et/ou la vidéo associée. Ces éléments descriptifs, obligatoires dans les systèmes
de niveau 2, sont spécifiés ci-après.
avPackageName
avPackageindex
avNumberDatacetc
avSourceData
avSourceName
avSourceAddressccline1
avSourceAddressccline2
avSourceAddressccCity
avSourceData
avSourceAddressccStateProvince
avSourceAddressccCountry
avSourceAddressccPostalCode
avSourceAddressccOwnerName
avSourceAddressccOwnerCentre .
avPackageIndex
avSourceDatecetMetadata
avDatacetCODEC
avDatacetFileType
avSourceDatacetContainer
avSensorHeightAboveScene
avPackage
avSensorD
avSensorManufacturer
avSensorModel
avSensorSerialNumber
avSensorType
avSourceDataccMetadata
avSensorDatacetDateTime
avSourceDatacetPixelcPerMeter
0 à N
avSourceFramecPerSecond
avPlatformD
avSensorName
avSensorFileName
avSourcePositionOfWiewCenter
avSourceViewvertex
0 à 4
avSourceDatacetResolution
avSourceDatacet
avSourceDatacetData
avSourceDatacet
avSourceDatacetName
0 à N
Figure 4 — Disposition du descripteur XML
Il est recommandé que les systèmes de niveau 1 mettent également en œuvre ces éléments de métadonnée,
dans la plus large mesure possible. Les systèmes de niveau 1 doivent en tout état de cause néanmoins au
minimum fournir les métadonnées suivantes:
— nom et profil du codec;
— nom du conteneur;
10 © ISO 2012 – Tous droits réservés

— résolution vidéo;
— nombre d’images vidéo (en images par seconde);
— heure et date de l’enregistrement;
— heure et date de la caméra.
5.2.2 Exigences relatives au format de la source vidéo
5.2.2.1 Généralités
La priorité pour les services d’investigation est que les systèmes conformes exportent les vidéos dans un
format qui permette leur identification et leur visualisation. La présente norme répond à cette exigence
en fournissant la liste des schémas de compression autorisés (et des contraintes minimales associées)
compatibles avec les lecteurs généralement disponibles. Tous les systèmes de vidéosurveillance qui
exportent des données conformément à la présente Norme internationale et compriment les vidéos dans
l’un des formats définis dans la liste ci-dessous sont considérés conformes au niveau 1.
Afin d’assurer efficacement la réalisation des missions d’investigation complexes, les exigences de la
présente norme vont au-delà du seul affichage de la vidéo. Par exemple, la norme inclut des exigences
relatives à l’exploitation des métadonnées dynamiques, à une navigation précise et souple, à l’interfaçage
avec l’analyse vidéo automatisée, à la modularité directe (« plug-and-play ») et aux procédures d’essai
de conformité. Elles exigent une stricte adhésion à un mécanisme de compression vidéo et aux règles
de mise en œuvre, désignés comme niveau 2. Ces règles de mise en œuvre comprennent des exigences
relatives aux métadonnées définies en 5.2.5.
Les systèmes de niveau 2 sont également conformes au niveau 1 et il est possible que ces deux niveaux
soient autorisés dans un même environnement: les raisons en sont généralement les dates de mise en
œuvre, le niveau de risque de l’infrastructure surveillée ou le nombre de caméras installées.
5.2.2.2 Exigences relatives aux systèmes de niveau 1
Les systèmes de niveau 1 doivent compresser la vidéo avant son insertion dans le format d’export
standard suivant l’un des codecs énumérés ci-dessous:
— H.264/MPEG4-AVC tel que défini dans la Rec. UIT-T H.264 | ISO/CEI 14496-10:2012;
— MPEG-4 Visual tel que défini dans l’ISO/CEI 14496-2:2004;
— JPEG tel que défini dans la Rec. UIT-T T.83 | ISO/CEI 10918-1:1994;
— Système de codage d’images JPEG 2000 conforme à l’ISO/CEI 15444-1:2004.
Les systèmes de niveau 1 sont autorisés à fournir des vidéos dans un des codecs de niveau 1 en utilisant
l’un des conteneurs suivants:
— JFIF tel que défini dans l’ISO/CEI 10918-5(à publier);
— JP2 tel que défini dans l’ISO/CEI 15444-1:2004;
— MP4 tel que défini dans l’ISO/CEI 14496-14:2003et l’ISO/CEI 14496-15:2010.
NOTE Pour prendre en compte les systèmes en service, les formats AVI, MOV et WMV largement utilisés sont
autorisés dans le cadre d’infrastructures existantes.
Les systèmes de niveau 1 doivent fournir la vidéo avec les caractéristiques suivantes:
— la résolution (taille de l’image), le nombre d’images par seconde et le niveau de qualité de la vidéo
exportée ne doivent pas être inférieurs à ceux de la vidéo enregistrée dans le système.
5.2.3 Exigences relatives aux systèmes de niveau 2
Les systèmes de niveau 2 doivent être conformes aux spécifications suivantes:
— Le format des sources vidéo à intégrer dans le format d’export doit être progressif et couvre jusqu’au
niveau HD. L’utilisation de sources entrelacées et / ou SD reste cependant acceptée pour couvrir le
cas des systèmes existants;
— la compression doit être de type H.264/MPEG4-AVC tel que défini dans la Recommandation UIT-T
H.264 | Norme internationale ISO / CEI 14496-10:2012;
— le profil utilisé doit être « Constrained Baseline, Baseline, Main ou High » avec un niveau maximal de
4.0 (tous les niveaux en deçà de 4.0 sont donc autorisés);
— la datation UTC absolue de la capture (avec une précision meilleure qu’une image vidéo et, dans
tous les cas, meilleure que 100 ms) doit être fournie; seuls les flux individuels (vidéo, audio et
métadonnée) doivent être utilisés. Ils peuvent être logiquement regroupés (par les descripteurs
XML du paquet audio-vidéo) par capteur ou de toute autre façon comme le montre la Figure 5;
— chaque conteneur vidéo doit pouvoir contenir un nombre illimité de créneaux temporels élémentaires
contigus. La durée d’un créneau temporel doit être comprise entre 1 s et 600 s. À l’intérieur d’un
créneau temporel, des indices doivent permettre de rejoindre avec précision toute heure spécifiée.
La disposition logique globale doit être telle qu’indiquée à la Figure 5 ci-dessous, où le DTS et le FTS sont
conformes aux définitions de 5.2.1.
12 © ISO 2012 – Tous droits réservés

DTS_P DTS_P+1
1 s à 600 s pour la vidéo
FTS_NFTS_N+1 FTS_N+2
Data–Source1_track1_segmentN Data–Source1_track1_segmentN+1 Data–Source1_track1_segmentN+2
Vidéo
Index-Source1_Track1_segmentN Index-Source1_Track1_segmentN+1 Index-Source1_Track1_segmentN+2
Info Source1_Track1_DTS_P Info Source1_Track1_DTS_P+1
Data–Source2_track1_segmentN Data–Source2_track1_segmentN+1 Data–Source2_track1_segmentN+2
Vidéo
Audio
Index-Source2_Track1_segmentN Index-Source2_Track1_segmentN+1 Index-Source2_Track1_segmentN+2

Data–Source2_track2_segmentN
Data–Source2_track2_segmentN+1 Data–Source2_track2_segmentN+2
Index-Source2_Track2_segmentN
Index-Source2_Track2_segmentN+1 Index-Source2_Track2_segmentN+2
Info Source2_Track2_DTS_P Info Source2_Track2_DTS_P+1
Data–Source3_track1_segmentN Data–Source3_track1_segmentN+2
Data–Source3_track1_segmentN+1
Vidéo
Index-Source3_Track1_segmentN Index-Source3_Track1_segmentN+1 Index-Source3_Track1_segmentN+2

Audio
Data–Source3_track2_segmentN Data–Source3_track2_segmentN+2
Data–Source3_track2_segmentN+1
Index-Source3_Track2_segmentN Index-Source3_Track2_segmentN+2
Index-Source3_Track2_segmentN+1
Metadata
Data–Source3_track3_segmentN Data–Source3_track3_segmentN+1
Data–Source3_track3_segmentN+2
Index-Source3_Track3_segmentN Index-Source3_Track3_segmentN+1 Index-Source3_Track3_segmentN+2
Info Source3_Track3_DTS_P Info Source3_Track3_DTS_P+1
Résultat de
détection Data–Source4_track1_segmentN+1
Data–Source4_track1_segmentN  Data–Source4_track1_segmentN+2
Métadonnées
Index-Source4_Track1_segmentN Index-Source4_Track1_segmentN+1
Index-Source4_Track1_segmentN+2
Info Source4_Track1_DTS_P Info Source4_Track1_DTS_P+1
GPS
Data–Source5_track1_segmentN Data–Source5_track1_segmentN+1 Data–Source5_track1_segmentN+2

Métadonnées
Index-Source5_Track1_segmentN Index-Source5_Track1_segmentN+1 Index-Source5_Track1_segmentN+2

Info Source5_Track1_DTS_P Info Source5_Track1_DTS_P+1
Figure 5 — Disposition des métadonnées descriptives
Dans la mesure où plusieurs flux de données individuels provenant d’un ou de plusieurs fichiers exportés
générés par un ou plusieurs systèmes nécessitent une découpe et un montage (« cut and edit ») faciles
et précis, basé sur le temps de capture, un mécanisme grossier d’indexation absolue, représenté comme
une piste à la Figure 5, doit être mis en œuvre.
NOTE 1 L’indice (indice détaillé) est facultatif.
Il est admis que le formatage au niveau des DTS et FTS puisse être effectué à un autre niveau que celui
de la capture (généralement au niveau d’un NVR) de façon synchronisée pour tous les contenus, souvent
de façon pragmatique (comme en débutant systématiquement par une « trame en I » pour la vidéo) en
commençant avec un FTS, quel que soit le déphasage réel des capteurs. Chaque flux de données individuel
doit cependant contenir, en complément de cet indice temporel de format, son temps de capture en temps
universel coordonné (UTC), avec une résolution d’au moins 10 ms. Cela permet aux lecteurs multicanaux
de synchroniser des vidéos (et audio) jusqu’à résolution de la trame.
Métadonnées
Métadonnées
Vidéo
Audio/Vidéo Source 2
Source audio/Vidéo/Métadonnées 3
source 1
(traitement
(caméra)
(localisation (caméra)
(caméra)
vidéo)
GPS)
Cela doit être réalisé en utilisant pour chaque conteneur individuel (flux de données élémentaires
pendant un créneau temporel élémentaire) un format de fichier MAF pour vidéo surveillance standard
MPEG-A tel que défini dans l’ISO/CEI 23000-10, constitué d’un en-tête et de la séquence unique de données
continues (un segment (« data chunck ») unique de données conformément à l’ISO/CEI 14496-12:2008)
correspondant à la tranche temporelle élémentaire. Cet en-tête doit contenir au moins le temps de
capture au début de la séquence et un temps actualisable (qui peut être l’heure du système au formatage).
Cela, combiné avec les données d’indexation descriptives, doit fournir au minimum pour chaque image:
— son temps de capture;
— le temps du formatage;
— le type d’image;
— l’indice temporel en référence au début du FTS.
Lorsqu’un contenu (source de données) est constitué de métadonnées dynamiques intégrant des
informations variables au cours du temps, comme la localisation de scène pour les systèmes impliquant des
caméras PTZ ou des véhicules, ce temps figurant dans le format doit aussi être le temps de capture initial
tel que défini ci-dessus, assurant le maintien du synchronisme entre la vidéo et les métadonnées associées.
NOTE 2 Les systèmes de vidéosurveillance conformes qui produisent des arrêts sur image exportent ces
images fixes au format JPEG Baseline comme défini dans l’ISO/CEI 10918-1/UIT-T T.81.
NOTE 3 Les systèmes conformes ont la possibilité de produire des vidéos jusqu’au niveau 5.0, mais ils
deviennent alors conformes au niveau 1, plutôt qu’au niveau 2.
NOTE 4 Si la jurisprudence dans une juridiction interdit la compression inter-images, seule la compression
«H264 I-only » peut être mise en œuvre, tout en restant conforme au niveau 2.
NOTE 5 Toutes les références aux conteneurs MPEG-4 dans la présente norme sont faites conformément à la
description de conteneur ci-dessus.
5.2.4 Audio
Lorsque l’audio fait partie du format d’export, elle doit être codée soit conformément à la norme « G.711
Law A » telle que définie dans l’UIT-T/Rec. G.711, soit conformément à la norme MPEG4-AAC en profil de
faible complexité (AAC-LC) tel que défini dans l’ISO/CEI 14496-3:2003. Le format de fichier MPEG-4 doit
être utilisé conformément à l’ISO/CEI 14496-14:2003.
5.2.5 Métadonnées
5.2.5.1 Exigences relatives aux éléments de métadonnée (systèmes de niveau 2)
Les métadonnées doivent permettre une définition dépourvue de toute ambiguïté pour chaque source
audio-vidéo ou chaque événement et doivent fournir une datation de ce contenu ou cet événement en UTC
ainsi que la géo-localisation absolue des quatre coins de chaque image vidéo (localisation de scène), avec
une précision meilleure que 20 % de la plus petite des dimensions du champ de vu. Il est autorisé que cette
localisation absolue de scène soit obtenue par des calculs (généralement basés sur des données PTZ).
Les informations descriptives absolues de géo-localisation (ne changeant pas au fil du temps) doivent
faire partie du descripteur audio-vidéo XML spécifié en 5.2.1.1 et doivent reposer sur le format et les
définitions des métadonnées de la CEI 62676-2, 3.
Pour éviter des différences d’interprétation, les définitions de métadonnées géodésiques sont conservées
dans un dictionnaire conformément aux exigences décrites à l’Annexe A. La structure du dictionnaire est
conforme à la norme SMPTE 335M-2001. Ce dictionnaire est basé sur le sous-ensemble spatio-temporel
(Classe 7) du dictionnaire de métadonnées SMPTE (SMPTE RP210.11-2008); il peut être mis à jour au fil
du temps, au cas où des éléments nécessaires aux applications de vidéosurveillance s’avèrent manquer
ou lorsque l’harmonisation avec la CEI 62676-2, 3 s’avère nécessaire.
14 © ISO 2012 – Tous droits réservés

Lorsque la zone surveillée est un bâtiment, une infrastructure souterraine ou tout ensemble qui ne peut
pas reposer sur les seules coordonnées GPS, des moyens de localisation de la scène en trois dimensions par
rapport à un point de référence géo-localisé doivent être fournis (plan numé
...

Questions, Comments and Discussion

Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.

Loading comments...