ISO/TR 14468:2010
(Main)Selected illustrations of attribute agreement analysis
Selected illustrations of attribute agreement analysis
ISO/TR 14468:2010 assesses a measurement process where the characteristic(s) being measured is (are) in the form of attribute data (including nominal and ordinal data). ISO/TR 14468:2010 provides examples of attribute agreement analysis (AAA) and derives various results to assess closeness of agreement amongst appraisers, such as agreement within appraisers, agreement between appraisers, agreement of each appraiser vs. a standard, and agreement of all appraisers vs. a standard.
Illustrations choisies d'une analyse d'accord d'attribut
L'ISO/TR 14468:2010 évalue un processus de mesure dans lequel la (les) caractéristique(s) mesurée(s) a (ont) la forme de données d'attribut (comprenant des données nominales et des données ordinales). L'ISO/TR 14468:2010 fournit des exemples d'analyse d'accord d'attribut (AAA) et utilise divers résultats pour évaluer l'étroitesse de l'accord parmi les évaluateurs, tel que l'accord par évaluateur, l'accord entre les évaluateurs, l'accord de chaque évaluateur par rapport à une référence et l'accord de tous les évaluateurs par rapport à une référence.
General Information
- Status
- Published
- Publication Date
- 06-Dec-2010
- Current Stage
- 9093 - International Standard confirmed
- Start Date
- 30-Jun-2017
- Completion Date
- 13-Dec-2025
Overview
ISO/TR 14468:2010 - "Selected illustrations of attribute agreement analysis" - is an informative Technical Report from ISO that describes how to evaluate measurement systems when the characteristics being measured are attribute data (nominal, ordinal or binary). The report provides a generic framework for Attribute Agreement Analysis (AAA), explains relevant statistics (percentage agreement, kappa, Kendall coefficients), and illustrates the methodology with five practical annex case studies (e.g., liquid crystal display manufacture, technical support triage, tasting tests, thermistor defects, assessment of disability after stroke). Note: as a Technical Report, ISO/TR 14468 is informative and intended to illustrate methods rather than impose normative requirements.
Key topics
- Scope and purpose: assessment of measurement processes where data are categorical - to judge agreement within appraisers, between appraisers, each appraiser vs a standard, and all appraisers vs a standard.
- Five-step AAA procedure (generic):
- State objectives
- Describe the measurement process (appraisers, procedures, conditions, data type)
- Design the sampling plan
- Analyse results
- Provide conclusions and suggestions
- Agreement metrics:
- Percentage of agreement (P %) - point estimate for agreement proportion (P% = n_match / n_samples × 100%).
- Kappa statistic (κ) - measures agreement beyond chance; two main variants: Cohen’s kappa (fixed appraisers) and Fleiss’s kappa (appraisers sampled from a group). Kappa ranges −1 to +1; report gives practical thresholds (κ > 0.9 excellent; κ < 0.7 needs improvement; κ < 0.4 inadequate; commonly desired κ ≥ 0.7).
- Kendall’s coefficients for ordinal data (Kendall’s W and Kendall’s tau) when magnitude/order matters.
- Hypothesis testing: use Z-statistic for κ (Z = κ / SEκ) and p-values (commonly 0.05) to test κ > 0.
Applications
ISO/TR 14468 is useful for organizations and professionals who need to validate or improve categorical measurement processes:
- Quality engineers and manufacturing (product accept/reject decisions, visual inspections)
- Six Sigma/continuous improvement teams assessing measurement system capability for categorical defects
- Clinical and sensory researchers (diagnosis agreement, taste panels, disability assessment)
- Laboratory or technical support centres for triage classification reliability
- Auditors and compliance teams verifying measurement consistency vs a standard
Practical value
- Provides a clear, systematic AAA workflow and statistical tools to quantify and interpret agreement.
- Includes real-world illustrative annexes to guide sampling, analysis and reporting.
- Helps determine whether a categorical measurement system is adequate for decision-making or needs corrective action.
Related standards
- ISO 3534-1, ISO 3534-2 (statistical vocabulary and symbols)
- References measurement system analysis (MSA) and quality management contexts (e.g., Six Sigma, ISO/TS 16949 noted in the report).
ISO/TR 14468:2010 - Selected illustrations of attribute agreement analysis
ISO/TR 14468:2010 - Illustrations choisies d'une analyse d'accord d'attribut
Frequently Asked Questions
ISO/TR 14468:2010 is a technical report published by the International Organization for Standardization (ISO). Its full title is "Selected illustrations of attribute agreement analysis". This standard covers: ISO/TR 14468:2010 assesses a measurement process where the characteristic(s) being measured is (are) in the form of attribute data (including nominal and ordinal data). ISO/TR 14468:2010 provides examples of attribute agreement analysis (AAA) and derives various results to assess closeness of agreement amongst appraisers, such as agreement within appraisers, agreement between appraisers, agreement of each appraiser vs. a standard, and agreement of all appraisers vs. a standard.
ISO/TR 14468:2010 assesses a measurement process where the characteristic(s) being measured is (are) in the form of attribute data (including nominal and ordinal data). ISO/TR 14468:2010 provides examples of attribute agreement analysis (AAA) and derives various results to assess closeness of agreement amongst appraisers, such as agreement within appraisers, agreement between appraisers, agreement of each appraiser vs. a standard, and agreement of all appraisers vs. a standard.
ISO/TR 14468:2010 is classified under the following ICS (International Classification for Standards) categories: 03.120.30 - Application of statistical methods. The ICS classification helps identify the subject area and facilitates finding related standards.
You can purchase ISO/TR 14468:2010 directly from iTeh Standards. The document is available in PDF format and is delivered instantly after payment. Add the standard to your cart and complete the secure checkout process. iTeh Standards is an authorized distributor of ISO standards.
Standards Content (Sample)
TECHNICAL ISO/TR
REPORT 14468
First edition
2010-12-15
Selected illustrations of attribute
agreement analysis
Illustrations choisies d'une analyse d'accord d'attribut
Reference number
©
ISO 2010
PDF disclaimer
This PDF file may contain embedded typefaces. In accordance with Adobe's licensing policy, this file may be printed or viewed but
shall not be edited unless the typefaces which are embedded are licensed to and installed on the computer performing the editing. In
downloading this file, parties accept therein the responsibility of not infringing Adobe's licensing policy. The ISO Central Secretariat
accepts no liability in this area.
Adobe is a trademark of Adobe Systems Incorporated.
Details of the software products used to create this PDF file can be found in the General Info relative to the file; the PDF-creation
parameters were optimized for printing. Every care has been taken to ensure that the file is suitable for use by ISO member bodies. In
the unlikely event that a problem relating to it is found, please inform the Central Secretariat at the address given below.
© ISO 2010
All rights reserved. Unless otherwise specified, no part of this publication may be reproduced or utilized in any form or by any means,
electronic or mechanical, including photocopying and microfilm, without permission in writing from either ISO at the address below or
ISO's member body in the country of the requester.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Published in Switzerland
ii © ISO 2010 – All rights reserved
Contents Page
Foreword .iv
Introduction.v
1 Scope.1
2 Normative references.1
3 Terms and definitions .1
4 Symbols and abbreviated terms .3
5 Generic description of attribute agreement analysis .3
5.1 Overview of the structure of attribute agreement analysis.3
5.2 Overall objectives of attribute agreement analysis .3
5.3 Measurement process description.4
5.4 Agreement analysis methodology.4
5.5 Sampling plan for attribute agreement analysis .5
5.6 Data analysis.6
5.7 Conclusions and suggestions .6
6 Description of Annexes A to E.7
Annex A (informative) Liquid crystal display manufacture .8
Annex B (informative) Technical support centre triage of issues .14
Annex C (informative) Tasting differences in water .20
Annex D (informative) Thermistor defects .26
Annex E (informative) Assessment of level of disability following a stroke .34
Bibliography.42
Foreword
ISO (the International Organization for Standardization) is a worldwide federation of national standards bodies
(ISO member bodies). The work of preparing International Standards is normally carried out through ISO
technical committees. Each member body interested in a subject for which a technical committee has been
established has the right to be represented on that committee. International organizations, governmental and
non-governmental, in liaison with ISO, also take part in the work. ISO collaborates closely with the
International Electrotechnical Commission (IEC) on all matters of electrotechnical standardization.
International Standards are drafted in accordance with the rules given in the ISO/IEC Directives, Part 2.
The main task of technical committees is to prepare International Standards. Draft International Standards
adopted by the technical committees are circulated to the member bodies for voting. Publication as an
International Standard requires approval by at least 75 % of the member bodies casting a vote.
In exceptional circumstances, when a technical committee has collected data of a different kind from that
which is normally published as an International Standard (“state of the art”, for example), it may decide by a
simple majority vote of its participating members to publish a Technical Report. A Technical Report is entirely
informative in nature and does not have to be reviewed until the data it provides are considered to be no
longer valid or useful.
Attention is drawn to the possibility that some of the elements of this document may be the subject of patent
rights. ISO shall not be held responsible for identifying any or all such patent rights.
ISO/TR 14468 was prepared by Technical Committee ISO/TC 69, Applications of statistical methods,
Subcommittee SC 7, Applications of statistical and related techniques for the implementation of Six Sigma.
iv © ISO 2010 – All rights reserved
Introduction
1 )
The Six Sigma and statistical International Standards communities share a philosophy of continuous
improvement and many analytical tools. The statistical International Standards community arrives at rigorous
documents through long-term consensus. The disparities in time pressures, mathematical rigour, and
statistical software usage have inhibited exchanges, synergy, and mutual appreciation between the two
groups.
This Technical Report takes one specific statistical tool, attribute agreement analysis, develops the topic
somewhat generically (in the spirit of International Standards), then illustrates it through the use of five
detailed and distinct applications. The generic description focuses on the commonalities across studies
designed to assess the agreement of attribute measurements. The annexes, containing five illustrations,
follow the basic framework, but also identify the nuances and peculiarities in the specific applications.
1) Six Sigma is a trademark of Motorola, Inc.
TECHNICAL REPORT ISO/TR 14468:2010(E)
Selected illustrations of attribute agreement analysis
1 Scope
This Technical Report assesses a measurement process where the characteristic(s) being measured is (are)
in the form of attribute data (including nominal and ordinal data).
This Technical Report provides examples of attribute agreement analysis (AAA) and derives various results to
assess closeness of agreement amongst appraisers, such as agreement within appraisers, agreement
between appraisers, agreement of each appraiser vs. a standard, and agreement of all appraisers vs. a
standard.
2 Normative references
The following referenced documents are indispensable for the application of this document. For dated
references, only the edition cited applies. For undated references, the latest edition of the referenced
document (including any amendments) applies.
ISO 3534-1, Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in
probability
ISO 3534-2, Statistics — Vocabulary and symbols — Part 2: Applied statistics
3 Terms and definitions
For the purposes of this document, the terms and definitions given in ISO 3534-1, ISO 3534-2, and the
following apply.
3.1
measurement system
collection of operations, procedures, devices and other equipment, software, and personnel used to assign a
value to the characteristic being measured
[4]
[IWA 1:2005 , 3.1.9]
NOTE In the context of this Technical Report, the personnel refer to the appraiser.
3.2
nominal data
categorical variables that have two or more levels with no natural ordering
3.3
ordinal data
categorical variables that have three or more levels with a natural ordering
3.4
binary data
categorical variables that have two levels with no natural ordering
3.5
agreement within appraiser
extent to which each appraiser agrees with himself or herself on all trials when each appraiser conducts more
than one trial
3.6
agreement between appraisers
extent to which all appraisers agree with each other on all trials when more than one appraiser makes one or
more appraisals
3.7
agreement of each appraiser vs. standard
extent to which each appraiser agrees with himself or herself as well as with the standard when a known
standard is specified
3.8
agreement of all appraisers vs. standard
extent to which all appraisers agree with each other on all trials as well as with the standard when a known
standard is specified
3.9
percentage of agreement
P %
agreement, expressed as a percentage, for multiple appraisals by one appraiser or among different appraisers
3.10
kappa
κ
statistic indicating the degree of agreement of the nominal or ordinal assessments made by multiple
appraisers when evaluating the same samples
NOTE Kappa statistics are commonly used in cross-tabulation (table) applications and in attribute agreement
analysis.
3.11
Fleiss's kappa
statistic used for assessing the reliability of agreement when appraiser(s) are selected at random from a group
of available appraisers
3.12
Cohen's kappa
statistic used for assessing the reliability of agreement when the appraiser(s) are specifically chosen and are
fixed
3.13
p-value
probability of observing the observed test statistic value or any other value at least as unfavourable to the null
hypothesis
[ISO 3534-1:2006, 1.49]
NOTE This concept is used in hypothesis tests to help in deciding whether to reject or fail to reject a null hypothesis.
3.14
Z-statistic
test statistic which follows the standard normal distribution
2 © ISO 2010 – All rights reserved
4 Symbols and abbreviated terms
95 % CI 95 % confidence Interval
AAA attribute agreement analysis
MSA measurement system analysis
σ standard error (SE) of kappa statistic
κ
n sample size
P % percentage of agreement
Z value of the Z-statistic
5 Generic description of attribute agreement analysis
5.1 Overview of the structure of attribute agreement analysis
This Technical Report provides general guidelines on the design, conduct and analysis of studies aiming at
evaluating the agreement amongst appraisers when classifying an item into two or more categories (e.g.
“good” or “bad”). It describes a procedure with five steps and illustrates the steps with five distinct applications
given in Annexes A to E.
The steps given in Table 1 are generic and apply to design and analysis of AAA studies in general. Each of
the five steps as well as general agreement analysis methodology are explained in general in 5.2 to 5.7.
Specific explanations of the substance of these steps are provided in the examples in Annexes A to E.
Table 1 — Basic steps in attribute agreement analysis
1 State the overall objectives
2 Describe the measurement process
3 Design the sampling plan
4 Analyse the result
5 Provide a conclusion with suggestions
5.2 Overall objectives of attribute agreement analysis
AAA is often used in Six Sigma projects and quality improvement projects. The primary motivation for AAA
studies should be clearly stated and agreed upon by all parties. The main purpose of AAA is to evaluate the
capability of a measurement system based on attribute data and to judge whether it is acceptable in the
context of making correct decisions within a given monitored process. AAA determines how good agreement
is among appraisers, and between appraisers and a given recognized “standard”.
AAA is conducted for a variety of reasons, which include, but are not limited to:
a) a lack of consistency in the assessment of a part or unit determined by one appraiser during different
trials;
b) a lack of consistency in the assessment of a part or unit determined by different appraisers;
c) the measurement results of a part or unit determined by an appraiser or appraisers exhibiting
disagreement with a known standard value for that part or unit;
[5]
d) a requirement of quality management standards, e.g. ISO/TS 16949 .
5.3 Measurement process description
This Technical Report focuses on processes where the characteristic(s) being measured consist(s) of attribute
data.
The measurement process should be clearly described before conducting AAA, including appraisers,
procedures, the quality characteristic(s) to be measured, measurement conditions, and attribute data type (i.e.
nominal, ordinal or binary).
5.4 Agreement analysis methodology
Many measurement processes in industry rely on gauges, weighing instruments, micrometers or other devices
that make fairly direct physical measurements of a product characteristic. There are, however, many situations
in which quality characteristics are difficult to define and assess, e.g. automobile performance ratings,
classification of fabric quality as “good” or “bad”, and ratings of wine colour, aroma and taste on a 1 to 10
scale.
In cases when physical measurements are not possible, subjective classifications or ratings are made by
people. In these situations, an AAA is needed where more than one appraiser gives a rating and an evaluation
of the agreement between appraisers is made. If the appraisers agree, the possibility exists that the ratings
are accurate. If the appraisers disagree, rating usefulness is limited.
The assigned ratings can be nominal, ordinal or binary. Nominal data are categorical variables that have two
or more levels with no natural ordering. For example, the levels in a food tasting study may include crunchy,
mushy, and crispy. Ordinal data are categorical variables that have three or more levels with a natural
ordering, such as strongly disagree, disagree, neutral, agree, and strongly agree. However, distances
between categories are unknown. Binary data are categorical variables that only have two levels. For instance,
appraisers classify items as “good/bad”, or “go/no go”. It should be noted that binary data actually constitute a
special case of nominal data with only two levels. Binary data are widely used in industry and when a standard
exists giving the correct value of the unit being measured, misclassification rates can also be employed to
assess the performance of a measurement system. A binary measurement system is discussed further in
Annex A. Thus, in this Technical Report, nominal data refer to a variable that has three or more possible
levels.
No matter what the data type is, percentage of assessment agreement can be utilized to evaluate the
agreement of an attribute measurement system. Percentage of agreement quantifies the agreement for
multiple ratings within one appraiser or among different appraisers. The percentage of assessment agreement,
P %, is actually the point estimate for a population proportion, and is given by
n
match
P %=× 100 %
n
where
n is the number of agreements among multiple ratings;
match
n is the number of samples.
For nominal data, the kappa statistic, κ, is most appropriate. It is defined as the proportion of agreement
between appraisals after agreement by chance has been removed.
PP−
obs exp
κ=
1− P
exp
where
P is the observed proportion of agreement;
obs
P is the expected proportion due to chance agreement.
exp
4 © ISO 2010 – All rights reserved
The value of kappa ranges from −1 to +1. Generally speaking, the higher the value of kappa, the stronger the
agreement. If kappa has the value 1, the ratings show perfect agreement (consistency). If kappa is 0, the
agreement of the ratings is the same as that expected by chance. In general, kappa values above 0,9 are
considered excellent.
Kappa values less than 0,7 indicate that the rating system needs improvement, whereas those less than 0,4
indicate the measurement system capability is inadequate. Typically a kappa value of at least 0,7 is required.
The two most popular kappa statistics are Cohen's kappa, based on the two-way contingency table, and
Fleiss's kappa, based on matched pairs. They treat the selection of appraisers differently when calculating the
probability of agreement by chance. Cohen's kappa assumes that the appraisers are specifically chosen and
are fixed, whereas Fleiss's kappa assumes that the appraisers are selected at random from a group of
available appraisers. This leads to two different methods of estimating the probability. Thus kappa, and its
standard error (SE), σ , can be calculated with either Fleiss's method or Cohen's method. The test statistic for
κ
kappa is
κ
Z=
σ
κ
with the null hypothesis H :κ = 0 and the alternative hypothesis H :κ > 0.
0 1
This is a one-sided test. Under the null hypothesis, Z follows the standard normal distribution. Reject the null
hypothesis if the p-value is less than the prespecified value, commonly taken to be 0,05.
Since binary data are a special case of nominal data with only two levels, kappa statistics can also be
employed to deal with a binary measurement system.
Kappa statistics do not take into account the magnitude of differences observed in ordinal data. They
represent absolute agreement among ratings. Therefore, when examining ordinal data, Kendall's coefficients
are the best choice. Two types of Kendall's coefficients are mentioned in this Technical Report, Kendall's
coefficient of concordance (also known as Kendall's W) and Kendall's correlation coefficient (also called
Kendall’s tau). Both of these coefficients are non-parametric statistics. The former, ranging from 0 to 1,
expresses the degree of association among multiple ratings, whereas the latter, ranging from −1 to 1,
expresses the degree of association between the known standard and a single rating. Thus, Kendall's
coefficient of concordance should be used to evaluate the consistency within appraisers and between
appraisers. Furthermore, when the true standard is known, Kendall's correlation coefficient can be employed
to assess the following two types of agreements: agreement of each appraiser vs. standard and agreement of
all appraisers vs. standard.
5.5 Sampling plan for attribute agreement analysis
In the sampling plan for AAA studies, the subgroup size of parts, the number of appraisers, and the number of
trials should be determined. Generally speaking, three to five appraisers are selected to rate more than 20
parts (for multiple attributes, more samples are required to cover all the attributes) with two or three trials.
Note that the selected samples should represent the entire production process. For nominal data, the
appraiser selection method also determines which kappa statistic should be calculated. If the appraisers are
specifically chosen and are fixed, Cohen's kappa is more appropriate. If appraisers are selected at random
from a group of available appraisers, Fleiss's kappa is preferred. It is also worth mentioning that Cohen's
kappa is based on the two-way contingency table. When the standard is not known, Cohen's kappa can only
be calculated if and only if the data satisfy the conditions:
a) within appraiser — there are exactly two trials with an appraiser;
b) between appraisers — there are exactly two appraisers each having one trial.
In the process of measurement for AAA, randomization is a very important consideration. Randomization
means the parts should be measured by the appraiser in a random order.
Table 2 shows a basic layout of an AAA with three appraisers, three repetitions, and 20 items measured by
each appraiser.
Table 2 — Layout of a generic attribute agreement analysis design
Appraiser A Appraiser B Appraiser C
Item number Standard
Trial 1 Trial 2 Trial 3 Trial 1 Trial 2 Trial 3 Trial 1 Trial 2 Trial 3
5.6 Data analysis
The following four types of agreement need be taken into consideration:
a) within appraisers, which means that each appraiser agrees with himself or herself on all trials;
b) between appraisers, which means that all appraisers agree with each other on all trials;
c) each appraiser vs. standard, which means that each appraiser agrees with himself or herself as well as
with the standard;
d) all appraisers vs. standard, which means that all appraisers agree with each other on all trials as well as
with the standard.
It is quite obvious that the type of agreement c) is no less than the first one a) since it adds a constraint,
namely, agreeing with the standard. The condition is quite similar for the fourth and the second types of
agreements. Obviously, the fourth kind of agreement is the smallest of the four. And for each type of
agreement, two types of kappa statistics are generally adopted, those of Cohen and Fleiss. Also, for nominal
data with three or more categories, two types of kappa coefficients can be calculated. First, one can compute
an overall kappa, which is an assessment of raters' agreement across all categories. Second, one can
compute individual kappa values for each category. This reveals the categories in which raters have trouble
agreeing.
In addition to the AAA report, AAA graphics are also useful. They can be used to reflect the agreement clearly
and directly. Generally, the percentages of assessment agreement within and between appraisers, kappa
coefficient tables, and Kendall's coefficient (ordinal data only) tables are calculated. Moreover, a graph of the
matched proportions for each appraiser can be displayed when the number of trials for each appraiser is more
than one. Additionally, another graph of the matched proportions between the ratings of each appraiser and
the attribute can be displayed only when the attribute is known and provided for each sample.
5.7 Conclusions and suggestions
Based on the results of the AAA, a judgement can be made about the adequacy of the attribute measurement
process. Generally the disagreement within an appraiser shows the appraiser cannot make consistent
measurement results (possibly because the appraiser did not follow the measurement procedure exactly at
6 © ISO 2010 – All rights reserved
different trials). The disagreement between appraisers means the appraisers' procedures are not exactly the
same or the appraisers' capabilities of measurement are different (possibly due to their different experiences
or physical reasons, e.g. eyesight for visual inspection). Actions shall be taken after the root cause(s) is (are)
found for the inadequate attribute measurement process.
After certain actions have been taken to improve the measurement system, e.g. effective training has been
done for the operators, the AAA needs to be repeated to validate whether the improved measurement system
is acceptable.
6 Description of Annexes A to E
Five distinct examples of AAA are illustrated in Annexes A to E, which have been summarized in Table 3 with
the different aspects indicated.
Table 3 — Example summaries listed by annex
Annex Example AAA details
Three appraisers, randomly selected among the group of
appraisers, judged LCD quality on 20 samples twice by visual
A LCD manufacture
a
inspection. The inspection results are binary. Minitab
software package was used to perform the analysis
Nominal response with 6 categories encountered in Service
Sector; 4 appraisers, no repetition, 48 issues evaluated by
b
B Technical support triage of issues each appraiser. SAS JMP software package was used to
perform the analysis. “Truth” on correct categorization of
issue is known
Nominal response with 4 categories; 3 testers, 3 repetitions,
leading to 12 cups of water evaluated by each tester. SAS
C Tasting differences in water
b
JMP software package was used to perform the analysis.
“Truth” on correct categorization of brand of water is known
Three appraisers, randomly selected among the group of
appraisers, judged 20 thermistor samples twice by visual
D Thermistor defects inspection. The inspection results are nominal data, falling
a
into 8 categories and without natural ordering. Minitab
software package was used to perform the analysis
Ordinal response with 5 ordered categories encountered in
the medical sector; 2 appraisers, no repetition, 46 cases
Assessment of level of disability
b
E evaluated by each appraiser. SAS JMP software package
following a stroke
was used to perform the analysis. “Truth” on correct
categorization of issue is known
a
Minitab is the trade name of a product supplied by Minitab, Inc. This information is given for the convenience of users of this
document and does not constitute an endorsement by ISO of the product named.
b
SAS JMP is the trade name of a product supplied by the SAS Institute, Inc. This information is given for the convenience of users of
this document and does not constitute an endorsement by ISO of the product named.
Annex A
(informative)
Liquid crystal display manufacture
A.1 General
In a liquid crystal display (LCD) manufacturer, the display feature is judged by operators through visual
inspection. All the samples are tested under video graphics array (VGA) mode. The results can be either
normal colour (marked as good) or deflected colour (bad). In the measurement phase, visual inspection,
leading to subjective classification, is mainly employed by the appraisers to judge whether a sample is good or
bad. Therefore, the experience of the appraisers and the training they have been given are of huge
importance. The objective of this study is to evaluate the consistency and accuracy of the attribute
measurement system.
A.2 Response variable
The response variable is binary data (two levels with no natural ordering).
A.3 Standard attribute
Standard attribute (the correct rating) is given in this case.
A.4 Possible reasons for incorrect judgement
Failing to follow work instructions could lead to incorrect judgement. Another factor could be the experience of
the appraisers and the training they have been given.
A.5 Sampling plan
To assess the consistency and accuracy of ratings, three appraisers, Carol, Fiona, and Kaka, judged LCD
quality on 20 samples (model: LCD40b66) twice by visual inspection. LCD samples were randomly presented
to the three appraisers, who were randomly selected from a group with the same introductory training and
similar experience.
The inspection results are binary.
A.6 Raw data
Table A.1 lists the raw data used in the AAA.
8 © ISO 2010 – All rights reserved
Table A.1 — Inspection results of LCD and standard attribute
Carol Fiona Kaka
Part Standard
1st Trial 2nd Trial 1st Trial 2nd Trial 1st Trial 2nd Trial
1 Good Good Good Good Good Good Good
2 Good Good Good Good Good Good Good
3 Good Good Good Good Good Good Good
4 Bad Bad Bad Bad Bad Bad Bad
5 Bad Bad Bad Good Good Bad Bad
6 Bad Bad Bad Bad Bad Bad Bad
7 Good Good Good Good Good Good Good
8 Good Good Good Good Good Good Good
9 Good Good Good Good Good Good Good
10 Good Good Good Good Good Good Good
11 Good Good Good Good Good Good Good
12 Good Good Good Good Good Good Good
13 Good Good Good Good Good Good Good
14 Good Good Good Good Good Bad Bad
15 Good Good Good Good Good Good Good
16 Good Good Good Good Good Good Good
17 Good Good Good Good Good Good Good
18 Good Good Good Good Good Good Good
19 Bad Bad Bad Bad Bad Bad Bad
20 Bad Bad Bad Bad Bad Bad Bad
A.7 Attribute agreement analysis
2 )
AAA in Minitab 15 is adopted to assess the consistency and accuracy of subjective classifications by
examining the results within appraisers, between appraisers, and against the standard. AAA output consists of
session window and graph window results.
The session window includes the following types of agreement:
a) within appraiser: it shows the consistency with which an appraiser rates the same sample across different
trials;
b) between appraisers: it shows whether appraisers' ratings agree with each other, i.e. whether different
appraisers give the same rating to the same sample.
Since the standard attribute (the correct rating) is given in this case, the session window output includes two
additional types of agreement:
c) each appraiser vs. standard: it shows how well each appraiser's assessment of each sample matches
with the standard, in other words, whether each rating of the same appraiser agrees with the standard
rating;
d) all appraisers vs. standard: it shows how well responses of all appraisers agree with the known standard
when they are combined.
For each type of agreement, the session window output includes assessment agreement and Fleiss’s kappa
statistics to assess the consistency and accuracy of the appraisers' responses.
2) Minitab is the trade name of a product supplied by Minitab, Inc. This information is given for the convenience of users
of this document and does not constitute an endorsement by ISO of the product named.
A.7.1 Agreement within appraisers
The within appraisers table in the session window assists in answering whether each appraiser rated the LCD
consistently across trials.
As shown in Table A.2, each appraiser rated 20 LCDs (number inspected). Carol, Fiona and Kaka evaluated
20 out of 20 LCDs the same across trials (number matched), for 100 % matched. And the 95 % confidence
interval (CI) for percentage matched is 86,09 % to 100 %.
Table A.2 — Percentages of the assessment agreement within appraisers
a b
Appraiser Percentage 95 % CI
Number inspected Number matched
Carol 20 20 100,00 (86,09, 100,00)
Fiona 20 20 100,00 (86,09, 100,00)
Kaka 20 20 100,00 (86,09, 100,00)
a
Number of LCDs which have been rated.
b
Number of times appraisers agree with themselves across all trials.
To evaluate the consistency of each appraiser's ratings across trials, the kappa statistic can be used within
appraisers.
There are two main types of kappa statistic: Cohen's kappa is based on the two-way contingency table, while
Fleiss's kappa is based on matched pairs. The two approaches treat the selection of appraisers differently
when calculating the probability of agreement by chance. Cohen's kappa assumes that the appraiser(s) are
specifically chosen and are fixed, whereas Fleiss's kappa assumes that the appraiser(s) are selected at
random from a group of available appraisers. This leads to two different methods of estimating the probability.
In this case, three appraisers were randomly selected from the whole group, thus it is not appropriate to
employ Cohen's kappa to assess agreement. In the following, only Fleiss's kappa is considered.
Generally speaking, the higher the value of kappa, the stronger the agreement within appraisers. If κ = 1, this
indicates perfect agreement (consistency). If κ = −1, this indicates perfect disagreement. If κ = 0, the
agreement of the ratings is the same as that expected by chance. In general, kappa values above 0,9 are
considered excellent. Kappa values less than 0,7 indicate that the rating system (or the service quality) needs
improvement and those less than 0,4 indicate the measurement system capability is inadequate. Typically a
kappa value of at least 0,70 is required, but kappa values close to 0,90 are preferred.
The p-value represents the probability of making a Type I error, which is rejecting the null hypothesis (κ = 0, or
agreement within appraiser is due to chance) when the null hypothesis is true. If the p-value of a test statistic
is less than the prespecified significance level (alpha), for which a commonly used value is 0,05, the null
hypothesis should be rejected. Because the p-values for the three overall values of Fleiss's kappa are less
than 0,05, the choice to reject the null hypothesis has to be made. The response agreements are significantly
different from those expected by chance. The p-values for specific categories and appraisers are also shown
in Table A.3.
Table A.3 — Fleiss's kappa statistics within appraisers
Appraiser Response Kappa SE kappa Z p-Value (vs. >0)
Bad 1 0,223 607 4,472 14 0,000 0
Carol
Good 1 0,223 607 4,472 14 0,000 0
Bad 1 0,223 607 4,472 14 0,000 0
Fiona
Good 1 0,223 607 4,472 14 0,000 0
Bad 1 0,223 607 4,472 14 0,000 0
Kaka
Good 1 0,223 607 4,472 14 0,000 0
10 © ISO 2010 – All rights reserved
A.7.2 Agreement of each appraiser vs. standard
It is necessary to determine how well each appraiser's assessment of each sample matches with the standard,
in other words, whether each rating of the same appraiser agrees with the standard rating (see Table A.4).
Table A.4 — Assessment agreement and disagreement of each appraiser vs. standard
Assessment agreement
a
Appraiser Number inspected Number matched Percentage 95 % CI
Carol 20 20 100,00 (86,09, 100,00)
Fiona 20 19 95,00 (75,13, 99,87)
Kaka 20 19 95,00 (75,13, 99,87)
Assessment disagreement
b c d
Appraiser Number good/bad Percentage Number bad/good Percentage Number mixed Percentage
Carol 0 0,00 0 0,00 0 0,00
Fiona 1 20,00 0 0,00 0 0,00
Kaka 0 0,00 1 6,67 0 0,00
a
Number of times that an appraiser's assessment across trials agrees with the known standard.
b
Ratio of good assessments across trials to bad standard assessments.
c
Ratio of bad assessments across trials to good standard assessments.
d
Number of non-identical assessments across trials.
The results in Table A.5 show that kappa for each appraiser is greater than 0,7, indicating that each
appraiser's assessment matches well with the standard.
Table A.5 — Fleiss's kappa statistics (each appraiser vs. standard)
Appraiser Response Kappa SE kappa Z p-Value (vs. >0)
Bad 1,000 00 0,158 114 6,324 56 0,000 0
Carol
Good 1,000 00 0,158 114 6,324 56 0,000 0
Bad 0,856 63 0,158 114 5,417 81 0,000 0
Fiona
Good 0,856 63 0,158 114 5,417 81 0,000 0
Bad 0,874 61 0,158 114 5,531 51 0,000 0
Kaka
Good 0,874 61 0,158 114 5,531 51 0,000 0
A.7.3 Agreement between appraisers
The results are listed in Table A.6. The kappa value of 0,858 in Table A.7 indicates that the agreement
between appraisers is acceptable.
Table A.6 — Percentages of the assessment agreement between appraisers
a
Number inspected Number matched Percentage 95 % CI
20 18 90,00 (68,30, 98,77)
a
Number of times that all appraisers' assessments agree with each other.
Table A.7 — Fleiss's kappa statistics between appraisers
Response Kappa SE kappa Z p-Value (vs. >0)
Bad 0,857 778 0,057 735 0 14,857 1 0,000 0
Good 0,857 778 0,057 735 0 14,857 1 0,000 0
A.7.4 Agreement of all appraisers vs. standard
The results in Tables A.8 and A.9 show the agreement with standard when the assessments of all appraisers
are combined. The results indicate good match with the standard.
Table A.8 — Percentages of the assessment agreement of all appraisers vs. standard
a
Number inspected Number matched Percentage 95 % CI
20 18 90,00 (68,30, 98,77)
a
Number of times that all appraisers' assessments agree with the known standard.
Table A.9 — Fleiss's kappa statistics of all appraisers vs. standard
Response Kappa SE kappa Z p-Value (vs. >0)
Bad 0,910 413 0,091 287 1 9,973 07 0,000 0
Good 0,910 413 0,091 287 1 9,973 07 0,000 0
A.7.5 Figures of agreement assessment
The graph window also outputs two graphs: percentages of the assessment agreement and 95 % CI within
appraisers on the left-hand side, percentages of the assessment agreement and 95 % CI of all appraisers vs.
standard on the right (see Figure A.1).
Figure A.1 a) shows the consistency of each appraiser's ratings, while Figure A.1 b) also shows consistency
and accuracy. The filled circles indicate the percentage matched and the lines joining the data points indicate
a 95,0 % confidence interval.
A.8 Conclusions
Since all of the Fleiss's kappa statistics are greater than 0,7, the attribute data measurement system is
acceptable. For continuous improvement, the standards should be reviewed with the appraisers, Fiona and
Kaka. It may be necessary to provide them more training.
12 © ISO 2010 – All rights reserved
a) Within appraiser b) Appraiser vs. standard
Key
Y percentage of agreement
A appraiser Carol
B appraiser Fiona
C appraiser Kaka
Figure A.1 — Percentage agreement of the assessment and 95 % CI
Annex B
(informative)
Technical support centre triage of issues
B.1 General
A software technical support centre wanted to test the ability of their first-line call receivers to correctly
diagnose customer software issues into several broad categories.
At this company when a customer has an issue and places a call to technical support, the customer initially
speaks with a first-line call receiver. The first-line call receivers are trained to ask questions and listen to
customer answers to correctly categorize the issue into several broad categories. Once the first-line call
receiver categorizes a customer issue, the call is forwarded to a technical support expert for that particular
category of issues. If the first-line call receiver incorrectly categorizes an issue, the current category expert
can attempt to diagnose the problem or send the caller back to a first-line call receiver. Having to re-
categorize a call wastes time and can frustrate the customer. It is standard practice to record these phone
calls for study and training purposes.
The objectives of the study were to determine how well the first-line call receivers categorized customer
issues and to identify any areas where the first-line call receivers might need more training to determine
categories by evaluating the answers to a set of standard questions.
B.2 Description of the experiment
The experiment involved tracking the categorizations of four randomly selected first-line call receivers. These
first-line call receivers all had the same level of introductory training and had worked in the call centre for a
period of 1 year to 1,5 years. Each of the four first-line call receivers listened to 48 different recordings of
customer phone calls with various issues. They were not told how the calls were categorized at the end of the
conversations. The four first-line call receivers listened to the phone call recordings and tried to categorize the
problems based on the answers to the standard questions. The true category for each of these phone calls
was known to the experimenters.
B.3 Response variable
The response variable is the category of the customer issue. It is a nominal response with six levels. The six
levels are activation, calculations, data display, graphics, spreadsheet, and windows.
B.4 Standard attribute
The standard attribute is known and refers to the actual customer issue category for each phone call.
B.5 Measurement method
Each first-line call receiver was allowed to listen to each recorded phone call all the way through one time.
They were not allowed to replay any part of the phone call. Once they had listened to the call, they had 30 s to
choose an issue category.
14 © ISO 2010 – All rights reserved
B.6 Possible reasons for incorrect judgement
The first-line call receivers may not have had enough training on how to categorize certain types of phone
calls.
B.7 Sampling plan
Four first-line call receivers (Debbie, Mark, Barbara, and Jim) were randomly selected from a group of first-line
call receivers with the same introductory training and similar experience (between 1 year and 1,5 years) as the
testers for the experiment.
The experimenters explained to the testers that each tester would be listening to 48 recorded customer issue
phone calls. After listening carefully to each phone call they were asked to categorize the phone call within
30 s of it ending. No recorded phone calls were repeated. There were eight recorded phone calls for each
issue category.
The tester categorization results and the true customer issue category are shown in Table B.1.
B.8 Raw data
The results from the experiment are shown in Table B.1.
Table B.1 — Results from the experiment
Call Actual Debbie Mark Barbara Jim
1 Activation Windows Activation Activation Activation
2 Activation Activation Windows Activation Activation
3 Graphics Graphics Windows Windows Graphics
4 Calculations Calculations Calculations Calculations Calculations
5 Calculations Calculations Calculations Calculations Calculations
6 Windows Windows Windows Windows Windows
7 Spreadsheet Spreadsheet Spreadsheet Spreadsheet Spreadsheet
8 Data display Spreadsheet Data display Data display Calculations
9 Data display Data display Data display Data display Data display
10 Graphics Graphics Graphics Graphics Graphics
11 Spreadsheet Spreadsheet Spreadsheet Spreadsheet Spreadsheet
12 Activation Activation Activation Activation Activation
13 Graphics Graphics Graphics Graphics Graphics
14 Activation Activation Activation Activation Activation
15 Spreadsheet Spreadsheet Spreadsheet Spreadsheet Spreadsheet
16 Graphics Graphics Calculations Graphics Graphics
17 Spreadsheet Spreadsheet Spreadsheet Spreadsheet Spreadsheet
18 Activation Activation Activation Windows Windows
19 Graphics Graphics Windows Graphics Graphics
20 Windows Graphics Windows Windows Windows
21 Activation Activation Activation Activation Activation
Table B.1 (continued)
Call Actual Debbie Mark Barbara Jim
22 Data display Windows Data display Data
...
RAPPORT ISO/TR
TECHNIQUE 14468
Première édition
2010-12-15
Illustrations choisies d'une analyse
d'accord d'attribut
Selected illustrations of attribute agreement analysis
Numéro de référence
©
ISO 2010
PDF – Exonération de responsabilité
Le présent fichier PDF peut contenir des polices de caractères intégrées. Conformément aux conditions de licence d'Adobe, ce fichier
peut être imprimé ou visualisé, mais ne doit pas être modifié à moins que l'ordinateur employé à cet effet ne bénéficie d'une licence
autorisant l'utilisation de ces polices et que celles-ci y soient installées. Lors du téléchargement de ce fichier, les parties concernées
acceptent de fait la responsabilité de ne pas enfreindre les conditions de licence d'Adobe. Le Secrétariat central de l'ISO décline toute
responsabilité en la matière.
Adobe est une marque déposée d'Adobe Systems Incorporated.
Les détails relatifs aux produits logiciels utilisés pour la création du présent fichier PDF sont disponibles dans la rubrique General Info
du fichier; les paramètres de création PDF ont été optimisés pour l'impression. Toutes les mesures ont été prises pour garantir
l'exploitation de ce fichier par les comités membres de l'ISO. Dans le cas peu probable où surviendrait un problème d'utilisation,
veuillez en informer le Secrétariat central à l'adresse donnée ci-dessous.
DOCUMENT PROTÉGÉ PAR COPYRIGHT
© ISO 2010
Droits de reproduction réservés. Sauf prescription différente, aucune partie de cette publication ne peut être reproduite ni utilisée sous
quelque forme que ce soit et par aucun procédé, électronique ou mécanique, y compris la photocopie et les microfilms, sans l'accord écrit
de l'ISO à l'adresse ci-après ou du comité membre de l'ISO dans le pays du demandeur.
ISO copyright office
Case postale 56 • CH-1211 Geneva 20
Tel. + 41 22 749 01 11
Fax + 41 22 749 09 47
E-mail copyright@iso.org
Web www.iso.org
Publié en Suisse
ii © ISO 2010 – Tous droits réservés
Sommaire Page
Avant-propos .iv
Introduction.v
1 Domaine d'application .1
2 Références normatives.1
3 Termes et définitions .1
4 Symboles et termes abrégés.3
5 Description générique d'une analyse d'accord d'attribut .3
5.1 Aperçu de la structure d'une analyse d'accord d'attribut .3
5.2 Objectifs globaux de l'analyse d'accord d'attribut .3
5.3 Description du processus de mesure .4
5.4 Méthodologie d'une analyse d'accord d'attribut.4
5.5 Plan d'échantillonnage pour une analyse d'accord d'attribut .5
5.6 Analyse des données.6
5.7 Conclusions et suggestions .7
6 Description des Annexes A à E .7
Annexe A (informative) Fabrication d'écran LCD .8
Annexe B (informative) Triage des problèmes dans le cadre d'une assistance technique .14
Annexe C (informative) Différences de goût de l'eau.21
Annexe D (informative) Défauts de thermistances.27
Annexe E (informative) Évaluation du niveau d'incapacité après un accident vasculaire cérébral .35
Bibliographie.43
Avant-propos
L'ISO (Organisation internationale de normalisation) est une fédération mondiale d'organismes nationaux de
normalisation (comités membres de l'ISO). L'élaboration des Normes internationales est en général confiée
aux comités techniques de l'ISO. Chaque comité membre intéressé par une étude a le droit de faire partie du
comité technique créé à cet effet. Les organisations internationales, gouvernementales et non
gouvernementales, en liaison avec l'ISO participent également aux travaux. L'ISO collabore étroitement avec
la Commission électrotechnique internationale (CEI) en ce qui concerne la normalisation électrotechnique.
Les Normes internationales sont rédigées conformément aux règles données dans les Directives ISO/CEI,
Partie 2.
La tâche principale des comités techniques est d'élaborer les Normes internationales. Les projets de Normes
internationales adoptés par les comités techniques sont soumis aux comités membres pour vote. Leur
publication comme Normes internationales requiert l'approbation de 75 % au moins des comités membres
votants.
Exceptionnellement, lorsqu'un comité technique a réuni des données de nature différente de celles qui sont
normalement publiées comme Normes internationales (cela pouvant comprendre des informations sur l'état
de la technique par exemple), il peut décider, à la majorité simple de ses membres, de publier un Rapport
technique. Les Rapports techniques sont de nature purement informative et ne doivent pas nécessairement
être révisés avant que les données fournies ne soient plus jugées valables ou utiles.
L'attention est appelée sur le fait que certains des éléments du présent document peuvent faire l'objet de
droits de propriété intellectuelle ou de droits analogues. L'ISO ne saurait être tenue pour responsable de ne
pas avoir identifié de tels droits de propriété et averti de leur existence.
L'ISO/TR 14468 a été élaboré par le comité technique ISO/TC 69, Application des méthodes statistiques,
sous-comité SC 7, Applications de techniques statistiques, ou de techniques associées, pour la mise en
œuvre de Six Sigma.
iv © ISO 2010 – Tous droits réservés
Introduction
1)
Les communautés Six Sigma et de normalisation internationale dans le domaine de la statistique partagent
une philosophie d'amélioration continue et de nombreux outils d'analyse. La communauté de normalisation
internationale dans le domaine de la statistique parvient à des documents rigoureux par un consensus
international à long terme. Les disparités en termes de contrainte de temps, de rigueur mathématique et
d'utilisation de logiciels statistiques ont empêché les échanges, la synergie et une appréciation mutuelle entre
les deux groupes.
Le présent Rapport technique considère un outil statistique spécifique, l'analyse d'accord d'attribut, développe
le sujet de manière relativement générale (dans l'esprit des Normes internationales), puis l'illustre au moyen
de cinq applications détaillées distinctes. La description générique se concentre sur les points communs entre
les études conçues pour évaluer l'accord des mesures d'attribut. Les annexes contenant cinq illustrations
suivent le cadre de base, mais identifient également les nuances et les particularités des applications
spécifiques.
1) Six Sigma est une marque commerciale de Motorola, Inc.
RAPPORT TECHNIQUE ISO/TR 14468:2010(F)
Illustrations choisies d'une analyse d'accord d'attribut
1 Domaine d'application
Le présent Rapport technique évalue un processus de mesure dans lequel la (les) caractéristique(s)
mesurée(s) a (ont) la forme de données d'attribut (comprenant des données nominales et des données
ordinales).
Le présent Rapport technique fournit des exemples d'analyse d'accord d'attribut (AAA) et utilise divers
résultats pour évaluer l'étroitesse de l'accord parmi les évaluateurs, tel que l'accord par évaluateur, l'accord
entre les évaluateurs, l'accord de chaque évaluateur par rapport à une référence et l'accord de tous les
évaluateurs par rapport à une référence.
2 Références normatives
Les documents de référence suivants sont indispensables pour l'application du présent document. Pour les
références datées, seule l'édition citée s'applique. Pour les références non datées, la dernière édition du
document de référence s'applique (y compris les éventuels amendements).
ISO 3534-1, Statistique — Vocabulaire et symboles — Partie 1: Termes statistiques généraux et termes
utilisés en calcul des probabilités
ISO 3534-2, Statistique — Vocabulaire et symboles — Partie 2: Statistique appliquée
3 Termes et définitions
Pour les besoins du présent document, les termes et définitions donnés dans l'ISO 3534-1, l'ISO 3534-2 ainsi
que les suivants s'appliquent.
3.1
système de mesure
ensemble des opérations, des procédures, des équipements, des logiciels et du personnel qui ont une
incidence sur l'attribution d'une valeur à une caractéristique de mesure
[4]
[IWA 1:2005 , 3.1.9]
NOTE Dans le cadre du présent Rapport technique, le personnel se rapporte à l'évaluateur.
3.2
données nominales
variables de catégorie ayant deux niveaux ou plus, sans ordre logique
3.3
données ordinales
variables de catégorie ayant trois niveaux ou plus, avec un ordre logique
3.4
données binaires
variables de catégorie ayant deux niveaux, sans ordre logique
3.5
accord par évaluateur
étendue de l'accord par chaque évaluateur vis-à-vis de lui-même sur tous les essais lorsque chaque
évaluateur réalise plus d'un essai
3.6
accord entre les évaluateurs
étendue de l'accord de tous les évaluateurs les uns vis-à-vis des autres sur tous les essais lorsque plusieurs
évaluateurs réalisent une ou plusieurs appréciations
3.7
accord de chaque évaluateur par rapport à la référence
étendue de l'accord de chaque évaluateur vis-à-vis de lui-même et par rapport à la référence lorsqu'une
référence connue est spécifiée
3.8
accord de tous les évaluateurs par rapport à la référence
étendue de l'accord de tous les évaluateurs les uns vis-à-vis des autres sur tous les essais et par rapport à la
référence lorsqu'une référence connue est spécifiée
3.9
pourcentage d'accord
P %
accord, exprimé en pourcentage, pour de multiples appréciations réalisées par un seul évaluateur ou par
différents évaluateurs
3.10
kappa
κ
statistique indiquant le degré de concordance des évaluations nominales ou ordinales réalisées par de
multiples évaluateurs lorsqu'ils évaluent les mêmes échantillons
NOTE Les statistiques kappa sont couramment utilisées dans les applications à tableaux croisés et dans l'analyse
d'accord d'attribut.
3.11
kappa de Fleiss
statistique utilisée pour évaluer la fiabilité de l'accord lorsqu'un ou plusieurs évaluateurs sont choisis au
hasard dans un groupe d'évaluateurs disponibles
3.12
kappa de Cohen
statistique utilisée pour évaluer la fiabilité de l'accord lorsque le ou les évaluateurs sont choisis
spécifiquement et sont fixes
3.13
valeur p
probabilité d'obtenir la valeur de la statistique de test observée ou toute autre valeur défavorable à l'hypothèse
nulle
[ISO 3534-1:2006, 1.49]
NOTE Ce concept est utilisé dans les tests d'hypothèse pour faciliter la décision de rejet ou d'impossibilité de rejet
d'une hypothèse nulle.
3.14
statistique Z
statistique de test qui suit la loi normale réduite
2 © ISO 2010 – Tous droits réservés
4 Symboles et termes abrégés
IC 95 % intervalle de confiance à 95 %
AAA analyse d'accord d'attribut
ASM analyse du système de mesure
σ erreur type d'une statistique kappa
κ
n effectif de l'échantillon
P % pourcentage d'accord
Z valeur de la statistique Z
5 Description générique d'une analyse d'accord d'attribut
5.1 Aperçu de la structure d'une analyse d'accord d'attribut
Le présent Rapport technique fournit des lignes directrices générales pour la conception, la conduite et
l'analyse d'études visant à évaluer l'accord parmi les évaluateurs lors du classement d'un élément dans deux
catégories ou plus («bon» ou «mauvais» par exemple). Il décrit une procédure en cinq étapes et illustre les
étapes par cinq applications distinctes données dans les Annexes A à E.
Les étapes indiquées dans le Tableau 1 sont génériques et s'appliquent à la conception et à l'analyse des
études AAA en général. Chacune des cinq étapes ainsi que la méthodologie générale d'analyse d'accord sont
expliquées d'une manière générale de 5.2 à 5.7. Des explications spécifiques concernant le contenu de ces
étapes sont fournies dans les exemples donnés dans les Annexes A à E.
Tableau 1 — Étapes de base d'une analyse d'accord d'attribut
1 Déterminer les objectifs globaux
2 Décrire le processus de mesure
3 Concevoir le plan d'échantillonnage
4 Analyser le résultat
5 Fournir une conclusion avec des suggestions
5.2 Objectifs globaux de l'analyse d'accord d'attribut
Une AAA est souvent utilisée dans les projets Six Sigma et les projets d'amélioration de la qualité. Il convient
que le principal motif des études AAA soit clairement énoncé et convenu par toutes les parties. Le principal
objectif d'une AAA est d'évaluer la capacité d'un système de mesure basé sur des données d'attribut et de
juger s'il est acceptable dans le cadre d'une prise de décisions correctes pour un processus surveillé donné.
L'AAA détermine le niveau de l'accord par évaluateur et entre les évaluateurs et une «référence» reconnue
donnée.
L'AAA est réalisée pour diverses raisons, parmi lesquelles, entre autres:
a) un manque de cohérence dans l'évaluation d'une partie ou d'une unité réalisée par un seul évaluateur au
cours de différents essais;
b) un manque de cohérence dans l'évaluation d'une partie ou d'une unité réalisée par différents évaluateurs;
c) résultats de mesure d'une partie ou d'une unité obtenus par un ou plusieurs évaluateurs en désaccord
avec une valeur de référence connue pour cette partie ou unité;
[5]
d) une exigence des normes de management de la qualité, telles que l'ISO/TS 16949 .
5.3 Description du processus de mesure
Le présent Rapport technique se concentre sur les processus dans lesquels la ou les caractéristiques
mesurées sont constituées par des données d'attribut.
Avant de procéder à une AAA, il convient que le processus de mesure soit clairement décrit, notamment les
évaluateurs, les procédures, la ou les caractéristiques de qualité à mesurer, les conditions de mesure et le
type de données d'attribut (c'est-à-dire nominales, ordinales ou binaires).
5.4 Méthodologie d'une analyse d'accord d'attribut
Dans l'industrie, de nombreux processus de mesure font appel à des calibres, des instruments de pesage,
des micromètres ou d'autres dispositifs réalisant des mesures physiques relativement directes d'une
caractéristique du produit. Il existe néanmoins de nombreuses situations dans lesquelles les caractéristiques
de qualité sont difficiles à définir et à évaluer, telles que l'évaluation des performances d'une automobile, la
classification d'une qualité de tissu en «bonne» ou «mauvaise» et l'évaluation de la couleur, de l'arôme et du
goût d'un vin sur une échelle de 1 à 10.
Lorsqu'il est impossible de réaliser des mesures physiques, des classifications ou évaluations subjectives
sont réalisées par des personnes. Dans ces situations, une AAA est nécessaire lorsque plusieurs évaluateurs
donnent une appréciation et qu'une évaluation de l'accord entre les évaluateurs est réalisée. Si les
évaluateurs sont d'accord, il est possible que les évaluations soient exactes. Si les évaluateurs ne sont pas
d'accord, l'utilité de l'évaluation est limitée.
Les évaluations par attribut peuvent être nominales, ordinales ou binaires. Les données nominales sont des
variables de catégorie ayant deux niveaux ou plus, sans ordre logique. Par exemple, dans une étude de
dégustation d'un produit alimentaire, les niveaux peuvent comprendre croquant, mou et croustillant. Les
données ordinales sont des variables de catégorie ayant trois niveaux ou plus, avec un ordre logique, par
exemple pas du tout d'accord, pas d'accord, neutre, d'accord, tout à fait d'accord. Néanmoins, les distances
entre les catégories sont inconnues. Les données binaires sont des variables de catégorie qui n'ont que deux
niveaux. Par exemple, les évaluateurs classent des éléments en «bon — mauvais» ou «acceptation — rejet».
Il convient de noter que les données binaires constituent en réalité un cas particulier de données nominales
n'ayant que deux niveaux. Les données binaires sont largement utilisées dans l'industrie et lorsqu'il existe une
référence donnant la valeur correcte de l'unité mesurée, les taux d'erreur de classement peuvent également
être employés pour évaluer les performances d'un système de mesure. Un système de mesure binaire est
décrit de manière plus détaillée dans l'Annexe A. Ainsi, dans le présent Rapport technique, les données
nominales se rapportent à une variable ayant trois niveaux possibles ou plus.
Quel que soit le type de données, le pourcentage d'accord d'évaluation peut être utilisé pour évaluer l'accord
d'un système de mesure d'attribut. Le pourcentage d'accord quantifie la concordance de multiples évaluations
réalisées par un même évaluateur ou par différents évaluateurs. Le pourcentage d'accord d'évaluation, P %,
est en réalité l'estimation ponctuelle pour une proportion de la population et est donné par
n
match
P %=× 100 %
n
où
n est le nombre de concordances parmi de multiples évaluations;
match
n est le nombre d'échantillons.
Pour les données nominales, la statistique kappa, κ, est la plus appropriée. Elle est définie comme la
proportion de concordance entre des appréciations après avoir éliminé la concordance aléatoire.
PP−
obs exp
κ=
1− P
exp
4 © ISO 2010 – Tous droits réservés
où
P est la proportion de concordance observée;
obs
P est la proportion de concordance aléatoire attendue.
exp
La valeur de kappa varie de −1 à +1. D'une manière générale, plus la valeur de kappa est élevée, plus la
concordance est forte. Si le kappa a la valeur 1, les évaluations présentent un accord parfait (cohérence). Si
le kappa est égal à 0, la concordance des évaluations est la même que la concordance aléatoire. En général,
des valeurs de kappa supérieures à 0,9 sont jugées excellentes.
Des valeurs de kappa inférieures à 0,7 indiquent que le système d'évaluation doit être amélioré alors que des
valeurs inférieures à 0,4 indiquent que la capacité du système de mesure est inadéquate. En général, une
valeur de kappa d'au moins 0,7 est requise.
Les deux statistiques kappa les plus utilisées sont le kappa de Cohen, basé sur le tableau de contingence à
double entrée, et le kappa de Fleiss, basé sur des paires concordantes. Ils traitent différemment le choix des
évaluateurs lors du calcul de la probabilité de concordance aléatoire. Le kappa de Cohen suppose que les
évaluateurs sont choisis spécifiquement et sont fixes alors que le kappa de Fleiss suppose que les
évaluateurs sont choisis au hasard dans un groupe d'évaluateurs disponibles. Cela conduit à deux méthodes
différentes d'estimation de la probabilité. Par conséquent, le kappa, et son erreur type (ErT), σ , peut être
κ
calculé soit par la méthode de Fleiss, soit par la méthode de Cohen. La statistique de test pour le kappa est
κ
Z=
σ
κ
avec l'hypothèse nulle H :κ = 0 et l'hypothèse alternative H :κ > 0.
0 1
Il s'agit d'un test unilatéral. Pour l'hypothèse nulle, Z suit une loi normale réduite. Rejeter l'hypothèse nulle si la
valeur p est inférieure à la valeur pré-spécifiée, généralement prise comme étant de 0,05.
Étant donné que les données binaires sont un cas particulier de données nominales n'ayant que deux niveaux,
les statistiques kappa peuvent également être employées pour étudier un système de mesure binaire.
Les statistiques kappa ne tiennent pas compte de l'amplitude des écarts observés dans les données ordinales.
Elles représentent l'accord absolu entre les évaluations. Par conséquent, lors de l'examen de données
ordinales, les coefficients de Kendall sont le meilleur choix. Deux types de coefficients de Kendall sont
mentionnés dans le présent Rapport technique, le coefficient de concordance de Kendall (également connu
en tant que W de Kendall) et le coefficient de corrélation de Kendall (également appelé tau de Kendall). Ces
deux coefficients sont des statistiques non paramétriques. Le premier, qui varie de 0 à 1, exprime le degré
d'association entre de multiples évaluations alors que le deuxième, qui varie de −1 à 1, exprime le degré
d'association entre la référence connue et une seule évaluation. Par conséquent, il convient d'utiliser le
coefficient de concordance de Kendall pour évaluer la cohérence par évaluateur et entre évaluateurs. Par
ailleurs, lorsque la référence vraie est connue, le coefficient de corrélation de Kendall peut être employé pour
évaluer les deux types suivants d'accords: l'accord de chaque évaluateur par rapport à la référence et l'accord
de tous les évaluateurs par rapport à la référence.
5.5 Plan d'échantillonnage pour une analyse d'accord d'attribut
Dans le plan d'échantillonnage relatif à des études AAA, il convient de déterminer l'effectif des sous-groupes,
le nombre d'évaluateurs et le nombre d'essais. D'une manière générale, trois à cinq évaluateurs sont choisis
pour évaluer plus de 20 pièces (pour des attributs multiples, un plus grand nombre d'échantillons est requis
pour couvrir tous les attributs) par deux ou trois essais. Noter qu'il convient que les échantillons choisis
représentent la totalité du processus de production. Pour des données nominales, la méthode de sélection
des évaluateurs détermine également la statistique kappa qu'il convient de calculer. Si les évaluateurs sont
spécifiquement choisis et sont fixes, le kappa de Cohen est plus approprié. Si les évaluateurs sont choisis au
hasard dans un groupe d'évaluateurs disponibles, le kappa de Fleiss est préféré. Il est également utile de
mentionner que le kappa de Cohen est basé sur le tableau de contingence à double entrée. Lorsque la
référence n'est pas connue, on ne peut calculer le kappa de Cohen que si et seulement si les données
satisfont aux conditions:
a) par évaluateur — exactement deux essais sont réalisés avec un évaluateur;
b) entre les évaluateurs — il y a exactement deux évaluateurs réalisant chacun un essai.
Dans le processus de mesure en vue d'une AAA, la randomisation est un point très important. La
randomisation signifie qu'il convient que les pièces soient mesurées par l'évaluateur dans un ordre aléatoire.
Le Tableau 2 montre la configuration de base d'une AAA avec trois évaluateurs, trois répétitions et 20
éléments mesurés par chaque évaluateur.
Tableau 2 — Configuration de la conception générale d'une analyse d'accord d'attribut
Évaluateur A Évaluateur B Évaluateur C
Numéro de l'élément Référence
Essai 1 Essai 2 Essai 3 Essai 1 Essai 2 Essai 3 Essai 1 Essai 2 Essai 3
5.6 Analyse des données
Les quatre types d'accord suivants doivent être pris en compte:
a) par évaluateur, c'est-à-dire le degré de concordance de chaque évaluateur vis-à-vis de lui-même sur tous
les essais;
b) entre évaluateurs, c'est-à-dire le degré de concordance de tous les évaluateurs les uns vis-à-vis des
autres sur tous les essais;
c) chaque évaluateur par rapport à la référence, c'est-à-dire le degré de concordance de chaque évaluateur
vis-à-vis de lui-même et par rapport à la référence;
d) tous les évaluateurs par rapport à la référence, c'est-à-dire le degré de concordance de tous les
évaluateurs les uns vis-à-vis des autres et par rapport à la référence.
Il est assez évident que le type d'accord c) n'est pas inférieur au premier type a) car il ajoute une contrainte, à
savoir l'accord par rapport à la référence. La condition est assez similaire pour les quatrième et deuxième
types d'accord. Évidemment, le quatrième type d'accord est le plus faible des quatre. Et pour chaque type
d'accord, deux types de statistiques kappa sont généralement adoptés, à savoir le kappa de Cohen et le
kappa de Fleiss. De plus, pour des données nominales avec trois catégories ou plus, deux types de
coefficients kappa peuvent être calculés. En premier lieu, il est possible de calculer un kappa global qui est
une évaluation de l'accord des évaluateurs dans toutes les catégories. En second lieu, il est possible de
calculer les valeurs individuelles de kappa pour chaque catégorie. Cela révèle les catégories pour lesquelles
les évaluateurs ont des difficultés à s'accorder.
Outre le rapport d'AAA, des graphiques d'AAA sont également utiles. Ils peuvent être utilisés pour refléter
clairement et directement l'accord. En général, les pourcentages de concordance des évaluations par
évaluateur et entre les évaluateurs, les tableaux de coefficients kappa et les tableaux de coefficients de
6 © ISO 2010 – Tous droits réservés
Kendall (données ordinales uniquement) sont calculés. Par ailleurs, un graphique des proportions de
concordance pour chaque évaluateur peut être affiché lorsque le nombre d'essais pour chaque évaluateur est
supérieur à un. En outre, un autre graphique des proportions de concordance entre les évaluations de chaque
évaluateur et l'attribut ne peut être affiché que lorsque l'attribut est connu et fourni pour chaque échantillon.
5.7 Conclusions et suggestions
Sur la base des résultats de l'AAA, il est possible de porter un jugement sur l'adéquation du processus de
mesure de l'attribut. En général, le désaccord par évaluateur montre que l'évaluateur ne peut pas obtenir de
résultats de mesure cohérents (peut-être parce que l'évaluateur ne respecte pas exactement la procédure de
mesure lors des différents essais). Le désaccord entre les évaluateurs signifie que les procédures suivies par
les évaluateurs ne sont pas exactement les mêmes ou que les capacités de mesure des évaluateurs sont
différentes (peut-être en raison de leurs expériences différentes ou pour des raisons physiques, par exemple
l'acuité visuelle pour un examen visuel). Lorsque la ou les causes profondes de l'inadéquation du processus
de mesure de l'attribut ont été trouvées, des mesures doivent être prises.
Après avoir pris certaines mesures afin d'améliorer le système de mesure, par exemple une formation efficace
des opérateurs, l'AAA doit être répétée pour confirmer si le système de mesure amélioré est acceptable.
6 Description des Annexes A à E
Cinq exemples distincts d'AAA sont illustrés dans les Annexes A à E; ils sont résumés dans le Tableau 3 avec
l'indication des différents aspects.
Tableau 3 — Résumé des exemples donnés par annexe
Annexe Exemple Détails de l'AAA
Trois évaluateurs, choisis au hasard dans le groupe
d'évaluateurs, évaluent deux fois la qualité d'un écran LCD
A Fabrication d'écran LCD par un examen visuel sur 20 échantillons. Les résultats de
a
l'examen sont binaires. Le progiciel Minitab est utilisé pour
réaliser l'analyse.
Réponse nominale avec 6 catégories rencontrées dans le
secteur des services; 4 évaluateurs, pas de répétition,
Triage des problèmes dans le cadre
B 48 problèmes évalués par chaque évaluateur. Le progiciel
d'une assistance technique
b
SAS JMP est utilisé pour réaliser l'analyse. La «vérité» sur la
catégorisation correcte d'un problème est connue.
Réponse nominale avec 4 catégories; 3 testeurs,
3 répétitions, soit 12 verres d'eau évalués par chaque testeur.
b
C Différences de goût de l'eau Le progiciel SAS JMP est utilisé pour réaliser l'analyse. La
«vérité» sur la catégorisation correcte d'une marque d'eau est
connue.
Trois évaluateurs, choisis au hasard dans le groupe
d'évaluateurs, évaluent deux fois 20 échantillons de
thermistance par un examen visuel. Les résultats de l'examen
D Défauts de thermistances
sont des données nominales, relevant de 8 catégories et
a
sans ordre logique. Le progiciel Minitab est utilisé pour
réaliser l'analyse.
Réponse ordinale avec 5 catégories ordonnées rencontrées
dans le secteur médical; 2 évaluateurs, pas de répétition,
Évaluation du niveau d'incapacité
E 46 cas évalués par chaque évaluateur. Le progiciel
après un accident vasculaire cérébral
b
SAS JMP est utilisé pour réaliser l'analyse. La «vérité» sur la
catégorisation correcte d'un cas est connue.
a
Minitab est l'appellation commerciale d'un produit fourni par Minitab, Inc. Cette information est donnée à l'intention des utilisateurs
du présent document et ne signifie nullement que l'ISO approuve ou recommande l'emploi exclusif du produit ainsi désigné.
b
SAS JMP est l'appellation commerciale d'un produit fourni par SAS Institute, Inc. Cette information est donnée à l'intention des
utilisateurs du présent document et ne signifie nullement que l'ISO approuve ou recommande l'emploi exclusif du produit ainsi désigné.
Annexe A
(informative)
Fabrication d'écran LCD
A.1 Généralités
Dans une usine de fabrication d'écrans LCD (Liquid crystal display), la caractéristique d'affichage est jugée
par des opérateurs au moyen d'un examen visuel. Tous les échantillons sont testés en mode VGA (Video
graphics array). Les résultats peuvent être soit une couleur normale (marquée comme bonne) ou une couleur
anormale (mauvaise). Lors de la phase de mesure, un examen visuel, conduisant à un classement subjectif,
est principalement employé par les évaluateurs pour juger si un échantillon est bon ou mauvais. Par
conséquent, l'expérience des évaluateurs et la formation qu'ils ont suivie ont une importance considérable.
L'objectif de cette étude est d'évaluer la cohérence et l'exactitude du système de mesure d'attribut.
A.2 Variable de réponse
La variable de réponse est une donnée binaire (deux niveaux sans ordre logique).
A.3 Attribut de référence
Dans ce cas, l'attribut de référence (l'évaluation correcte) est donné.
A.4 Raisons possibles d'un jugement erroné
Le non-respect des instructions de travail peut conduire à un jugement erroné. L'expérience des évaluateurs
et la formation qu'ils ont suivie peuvent également constituer un autre facteur d'erreur.
A.5 Plan d'échantillonnage
Pour évaluer la cohérence et l'exactitude des évaluations, trois évaluateurs, Carol, Fiona et Kaka, ont évalué
deux fois la qualité de l'écran LCD sur 20 échantillons (modèle: LCD40b66) par examen visuel. Les
échantillons d'écran LCD ont été présentés au hasard aux trois évaluateurs, qui ont été choisis au hasard
dans un groupe ayant suivi la même formation initiale et disposant d'une expérience comparable.
Les résultats de l'examen sont binaires.
A.6 Données brutes
Le Tableau A.1 présente les données brutes utilisées pour l'AAA.
8 © ISO 2010 – Tous droits réservés
Tableau A.1 — Résultats d'examen de l'écran LCD et attribut de référence
Carol Fiona Kaka
Pièce Référence
Essai 1 Essai 2 Essai 1 Essai 2 Essai 1 Essai 2
1 Bon Bon Bon Bon Bon Bon Bon
2 Bon Bon Bon Bon Bon Bon Bon
3 Bon Bon Bon Bon Bon Bon Bon
4 Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais
5 Mauvais Mauvais Mauvais Bon Bon Mauvais Mauvais
6 Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais
7 Bon Bon Bon Bon Bon Bon Bon
8 Bon Bon Bon Bon Bon Bon Bon
9 Bon Bon Bon Bon Bon Bon Bon
10 Bon Bon Bon Bon Bon Bon Bon
11 Bon Bon Bon Bon Bon Bon Bon
12 Bon Bon Bon Bon Bon Bon Bon
13 Bon Bon Bon Bon Bon Bon Bon
14 Bon Bon Bon Bon Bon Mauvais Mauvais
15 Bon Bon Bon Bon Bon Bon Bon
16 Bon Bon Bon Bon Bon Bon Bon
17 Bon Bon Bon Bon Bon Bon Bon
18 Bon Bon Bon Bon Bon Bon Bon
19 Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais
20 Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais Mauvais
A.7 Analyse d'accord d'attribut
2)
Une AAA par le progiciel Minitab 15 est adoptée pour évaluer la cohérence et l'exactitude des classements
subjectifs par un examen des résultats par évaluateur, entre les évaluateurs et par rapport à la référence. Le
résultat de l'AAA est constitué des données de sortie de la fenêtre session et de la fenêtre graphique.
La fenêtre session contient les types d'accord suivants:
a) par évaluateur: il indique la cohérence avec laquelle un évaluateur évalue le même échantillon au cours
de différents essais;
b) entre évaluateurs: il indique si les évaluations des évaluateurs sont en accord les unes avec les autres,
c'est-à-dire si différents évaluateurs donnent la même évaluation au même échantillon.
2) Minitab est l'appellation commerciale d'un produit fourni par Minitab, Inc. Cette information est donnée à l'intention des
utilisateurs du présent document et ne signifie nullement que l'ISO approuve ou recommande l'emploi exclusif du produit
ainsi désigné.
Étant donné que, dans ce cas, l'attribut de référence (l'évaluation correcte) est donné, le résultat de la fenêtre
session contient deux types supplémentaires de concordances:
c) chaque évaluateur par rapport à la référence: il indique quel est le degré de concordance avec la
référence de l'évaluation de chaque échantillon par chaque évaluateur, c'est-à-dire si chaque évaluation
du même évaluateur est en accord avec l'évaluation de référence;
d) tous les évaluateurs par rapport à la référence: il indique le degré de concordance avec la référence des
réponses de tous les évaluateurs lorsqu'elles sont combinées.
Pour chaque type d'accord, les données de sortie de la fenêtre session comprennent l'accord d'évaluation et
les statistiques kappa de Fleiss afin d'évaluer la cohérence et l'exactitude des réponses des évaluateurs.
A.7.1 Accord par évaluateur
Les tableaux par évaluateur de la fenêtre session peuvent aider à déterminer si chaque évaluateur évalue
l'écran LCD de manière cohérente pour l'ensemble des essais.
Comme le montre le Tableau A.2, chaque évaluateur a évalué 20 écrans LCD (nombre inspecté). Carol,
Fiona et Kaka ont évalué de la même manière 20 des 20 écrans LCD pour l'ensemble des essais (nombre de
concordances), soit 100 % de concordance. L'intervalle de confiance (IC) à 95 % pour le pourcentage de
concordance est de 86,09 % à 100 %.
Tableau A.2 — Pourcentages d'accord d'évaluation par évaluateur
a b
Évaluateur Pourcentage IC 95 %
Nombre inspecté Nombre de concordances
Carol 20 20 100,00 (86,09, 100,00)
Fiona 20 20 100,00 (86,09, 100,00)
Kaka 20 20 100,00 (86,09, 100,00)
a
Nombre d'écrans LCD qui ont été évalués.
b
Nombre de concordances par évaluateur au cours de tous les essais.
Pour évaluer la cohérence des évaluations de chaque évaluateur pour l'ensemble des essais, il est également
possible d'utiliser la statistique kappa par évaluateur.
Il existe essentiellement deux types de statistiques de kappa: le kappa de Cohen basé sur le tableau de
contingence à double entrée et le kappa de Fleiss basé sur des paires concordantes. Ils traitent différemment
le choix des évaluateurs lors du calcul de la probabilité de concordance aléatoire. Le kappa de Cohen
suppose que le ou les évaluateurs sont choisis spécifiquement et sont fixes alors que le kappa de Fleiss
suppose que le ou les évaluateurs sont choisis au hasard dans un groupe d'évaluateurs disponibles. Cela
conduit à deux méthodes différentes d'estimation de la probabilité. Dans le cas qui nous intéresse, trois
évaluateurs ayant été choisis au hasard dans le groupe entier, il n'est donc pas approprié d'employer le kappa
de Cohen pour évaluer l'accord. Dans ce qui suit, seul le kappa de Fleiss est pris en considération.
D'une manière générale, plus la valeur de kappa est élevée, plus l'accord par évaluateur est fort. Si κ = 1, cela
indique un accord parfait (cohérence). Si κ = −1, cela indique un désaccord parfait. Si κ = 0, la concordance
des évaluations est la même que la concordance aléatoire. En général, des valeurs de kappa supérieures à
0,9 sont jugées excellentes. Des valeurs de kappa inférieures à 0,7 indiquent que le système d'évaluation (ou
la qualité de service) doit être amélioré, alors que des valeurs inférieures à 0,4 indiquent que la capacité du
système de mesure est inadéquate. En général, une valeur de kappa d'au moins 0,70 est requise, mais des
valeurs de kappa proches de 0,90 sont préférées.
La valeur p représente la probabilité de faire une erreur de Type I, c'est-à-dire de rejeter l'hypothèse nulle
(κ = 0, ou l'accord par évaluateur est dû au hasard) lorsque l'hypothèse nulle est vraie. Si la valeur p d'une
statistique de test est inférieure au niveau de signification pré-spécifié (alpha), généralement de 0,05, il
10 © ISO 2010 – Tous droits réservés
convient de rejeter l'hypothèse nulle. Étant donné que les valeurs p pour les trois valeurs de kappa de Fleiss
globales sont inférieures à 0,05, il est nécessaire de choisir le rejet de l'hypothèse nulle. Les concordances de
réponse sont nettement différentes de celles dues au hasard. Les valeurs p pour des catégories et des
évaluateurs spécifiques sont également indiquées dans le Tableau A.3.
Tableau A.3 — Statistique kappa de Fleiss par évaluateur
Valeur p
Évaluateur Réponse Kappa ErT kappa Z
(contre valeur > 0)
Mauvais 1 0,223 607 4,472 14 0,000 0
Carol
Bon 1 0,223 607 4,472 14 0,000 0
Mauvais 1 0,223 607 4,472 14 0,000 0
Fiona
Bon 1 0,223 607 4,472 14 0,000 0
Mauvais 1 0,223 607 4,472 14 0,000 0
Kaka
Bon 1 0,223 607 4,472 14 0,000 0
A.7.2 Accord de chaque évaluateur par rapport à la référence
Il est nécessaire de déterminer quel est le degré de concordance avec la référence de l'évaluation de chaque
échantillon par chaque évaluateur, c'est-à-dire si chaque évaluation du même évaluateur est en accord avec
l'évaluation de référence (voir Tableau A.4).
Tableau A.4 — Accord et discordance entre les évaluations de chaque évaluateur
par rapport à la référence
Accord d'évaluation
a
Évaluateur Nombre inspecté Nombre de concordances Pourcentage IC 95 %
Carol 20 20 100,00 (86,09, 100,00)
Fiona 20 19 95,00 (75,13, 99,87)
Kaka 20 19 95,00 (75,13, 99,87)
Discordance des évaluations
Nombre de Nombre de Nombre
Évaluateur Pourcentage Pourcentage Pourcentage
b c d
bon/mauvais bon/mauvais combiné
Carol 0 0,00 0 0,00 0 0,00
Fiona 1 20,00 0 0,00 0 0,00
Kaka 0 0,00 1 6,67 0 0,00
a
Nombre de fois, au cours des essais, où l'évaluation réalisée par un évaluateur est en accord avec la référence connue.
b
Proposition des évaluations comme «bon» par rapport aux évaluations de référence comme «mauvais», au cours des essais.
c
Proposition des évaluations comme «mauvais» par rapport aux évaluations de référence comme «bon», au cours des essais.
d
Nombre de fois où les évaluations ne sont pas identiques pour l'ensemble des essais.
Les résultats du Tableau A.5 montrent que le kappa pour chaque évaluateur est supérieur à 0,7, ce qui
indique que l'évaluation réalisée par chaque évaluateur est en accord avec la référence.
Tableau A.5 — Statistique kappa de Fleiss (chaque évaluateur par rapport à la référence)
Valeur p
Évaluateur Réponse Kappa ErT kappa Z
(contre valeur > 0)
Mauvais 1,000 00 0,158 114 6,324 56 0,000 0
Carol
Bon 1,000 00 0,158 114 6,324 56 0,000 0
Mauvais 0,856 63 0,158 114 5,417 81 0,000 0
Fiona
Bon 0,856 63 0,158 114 5,417 81 0,000 0
Mauvais 0,874 61 0,158 114 5,531 51 0,000 0
Kaka
Bon 0,874 61 0,158 114 5,531 51 0,000 0
A.7.3 Accord entre les évaluateurs
Les résultats sont indiqués dans le Tableau A.6. La valeur du kappa de 0,858 dans le Tableau A.7 indique
que l'accord entre les évaluateurs est acceptable.
Tableau A.6 — Pourcentages d'accord d'évaluation entre les évaluateurs
a
Nombre inspecté Nombre de concordances Pourcentage IC 95 %
20 18 90,00 (68,30, 98,77)
a
Nombre de fois où les évaluations de tous les évaluateurs sont en accord les unes avec les autres.
Tableau A.7 — Statistique kappa de Fleiss entre les évaluateurs
Valeur p
Réponse Kappa ErT kappa Z
(contre valeur > 0)
Mauvais 0,8577 78 0,057 735 0 14,857 1 0,000 0
Bon 0,8577 78 0,057 735 0 14,857 1 0,000 0
A.7.4 Accord de tous les évaluateurs par rapport à la référence
Les résultats des Tableaux A.8 et A.9 indiquent l'accord avec la référence lorsque les évaluations de tous les
évaluateurs sont combinées. Les résultats indiquent une bonne concordance avec la référence.
Tableau A.8 — Pourcentages d'accord d'évaluation de tous les évaluateurs par rapport à la référence
a
Nombre inspecté Pourcentage IC 95 %
Nombre de concordances
20 18 90,00 (68,30, 98,77)
a
Nombre de fois où les évaluations de tous les évaluateurs sont en accord avec la référence connue.
Tableau A.9 — Statistique kappa de Fleiss de tous les évaluateurs par rapport à la référence
Valeur p
Réponse Kappa ErT kappa Z
(contre valeur > 0)
Mauvais 0,910 413 0,091 287 1 9,973 07 0,000 0
Bon 0,910 413 0,091 287 1 9,973 07 0,000 0
12 © ISO 2010 – Tous droits réservés
A.7.5 Figures de l'accord d'évaluation
La fenêtre graphique affiche également deux graphiques: les pourcentages d'accord d'évaluation et l'IC 95 %
par évaluateur du côté gauche, les pourcentages d'accord d'évaluation et l'IC 95 % de tous les évaluateurs
par rapport à la référence du côté droit (voir Figure A.1).
La Figure A.1 a) montre la cohérence des évaluations de chaque évaluateur alors que la Figure A.1 b) montre
la cohérence ainsi que l'exactitude. Les cercles pleins indiquent le pourcentage de concordance, et les lignes
passant par les points de données indiquent un intervalle de confiance à 95,0 %.
A.8 Conclusions
Étant donné que toutes les statistiques kappa de Fleiss sont supérieures à 0,7, le système de mesure des
données d'attribut est acceptable. Pour l'amélioration continue, il convient de revoir les références avec les
évaluateurs Fiona et Kaka. Il peut être nécessaire de leur assurer une formation complémentaire.
a) Par évaluateur b) Évaluateur par rapport à la référence
Légende
Y pourcentage d'accord
A évaluateur Carol
B évaluateur Fiona
C évaluateur Kaka
Figure A.1 — Pourcentages d'accord d'évaluation et IC 95 %
Annexe B
(informative)
Triage des problèmes dans le cadre d'une assistance technique
...














Questions, Comments and Discussion
Ask us and Technical Secretary will try to provide an answer. You can facilitate discussion about the standard in here.
Loading comments...