Professional Documents
Culture Documents
com
Alain MORINEAU
Cet article est une reprise et un extrait de larticle Note sur la Caractrisation
Statistique d'une Classe et les Valeurs-tests, publi dans la revue Bulletin
Technique du Centre de Statistique et dInformatique Appliques, Vol 2, n 1-2,
p 20-27, 1984. Cette revue de lAssociation CESIA est aujourdhui introuvable.
La "valeur-test" est un outil qui participe l'approche exploratoire et descriptive
des grands tableaux. On trouve ce critre sous diffrentes formes dans les logiciels
spcialiss de Data mining. Le logiciel SPAD ddi au traitement statistique des
grands tableaux en fait un usage intensif depuis les annes 90 [L. Lebart, A.
Morineau, SPAD Systme Pour lAnalyse des Donnes, CISIA, Saint-Mand, 1991].
Depuis la parution de larticle en 1984 et la gnralisation du Data mining, la
dfinition de la valeur-test sest adapte au traitement des trs gros ensembles de
donnes sous le nom de VT100 , critre statistique qui nest pas sensible la
taille des donnes. On trouvera les dtails sur le site www.deenov.com ainsi que des
rfrences complmentaires.
et q variables nominales :
On s'intresse un groupe particulier de n k individus (par exemple ceux qui sont atteints par une
certaine maladie). Comment classer par ordre d'importance les variables qui caractrisent au mieux
ce groupe, et comment classer les modalits des variables nominales les plus typiques de ce groupe
d'individus ?
Principe de la procdure
Une variable est sans intrt pour caractriser le groupe si les n k valeurs qu'on y trouve paraissent
tires au hasard parmi les n valeurs observes. Plus l'hypothse d'un tirage alatoire apparat
On procdera donc comme pour un test statistique classique. L'hypothse 'nulle', note H 0 , est
l'hypothse d'un tirage au hasard des n k valeurs parmi les n observations. Le tirage est suppos
sans remise puisque chacune des n k valeurs est une et une seule des observations. En supposant
vraie cette hypothse de travail de tirage alatoire, on calculera la probabilit d'observer une
configuration de valeurs au moins aussi extrme que celle observe sur l'chantillon. C'est la
probabilit critique a associe au test de l'hypothse nulle H 0 . Plus cette probabilit est faible, plus
on est amen mettre en cause l'hypothse du tirage au hasard. En effet c'est cette hypothse
utilise dans le calcul qui donne l'vnement ralis, une probabilit aussi faible de ralisation.
Pour classer les variables par ordre d'importance, on les rangera donc en fonction des probabilits
critiques. La variable la plus typique du groupe est celle qui correspond la plus petite probabilit. Il
faut noter que la procdure classique de test est utilise ici comme intermdiaire de calcul et non
On considre l'cart entre la moyenne d'une variable dans le groupe k et sa moyenne gnrale.
variable alatoire 'moyenne aprs n k tirages". Sous l'hypothse H 0 d'un tirage uniforme et sans
remise, on a:
(n nk )
E H 0 [M k ] = m VarH 0 [M K ] = s k2 = s 2
(n 1) nk
Si n et n k ne sont pas trs faibles, le thorme de la limite centrale s'applique (bien que les tirages
(M k m)
U=
sk
suit approximativement une loi de Laplace-Gauss centre rduite. La probabilit critique associe
cette variable est donc la probabilit pour une loi normale de dpasser la valeur numrique u
On obtient les variables les plus typiques du groupe des n k individus en slectionnant les plus
petites probabilits critiques. Il est quivalent de slectionner les variables correspondant aux plus
(m k m)
u=
sk
Cette quantit est appele valeur-test. Elle est exprime en nombre dcarts types d'une loi
normale.
Elle s'interprte de la faon suivante: la probabilit d'un cart aussi grand entre les deux moyennes
est gale aux chances d'atteindre ce nombre dcarts-types types pour une loi normale. On value
en quelque sorte la distance entre la moyenne gnrale et la moyenne dans le groupe, en nombre
d'carts-types d'une loi normale. C'est cette unit commune qui permet les comparaisons entre
On attribue un signe la valeur-test. Si le terme est positif (resp. ngatif), le groupe est caractris
par les valeurs fortes (resp. faibles) de la variable. La mthode a lavantage dtre rapide et peu
grands.
Appelons k le groupe des n k individus et j une modalit d'une des variables nominales. Pour
savoir si cette modalit est une caractristique pertinente du groupe, on doit rpondre la question :
est-ce que la modalit j ' est significativement plus abondante dans le groupe k que dans la
Les lments du problme sont rassembls dans le tableau de contingence de la figure ci-dessous
On va procder comme pour un test classique. L'hypothse nulle H 0 est ici l'hypothse d'un tirage
au hasard (sans remise) des n k individus parmi les n individus de la population. Cette hypothse en
n jk n
effet assure l'galit des proportions et j n aux fluctuations alatoires prs.
n k
Lhypothse alternative (unilatrale) spcifiera une proportion de j anormalement grande parmi les
n k individus.
N = njk .
Sous l'hypothse de travail H 0 et en fixant les marges du tableau, la variable N suit une loi
hypergomtrique dont les trois paramtres sont connus. Si on appelle succs le fait d'appartenir
n k tir au hasard et sans remise parmi les n individus. Plus prcisment considrons:
p k ( j ) = Pr obH 0 {N n j k }
Plus leffectif n j k est lev, plus cette probabilit hypergomtrique est faible, et plus douteuse
l'hypothse nulle d'un tirage au hasard. On peut donc utiliser les probabilits critiques p k ( j ) pour
classer l'ensemble des modalits j de toutes les variables nominales disponibles. Les plus typiques
sont celles qui correspondent aux plus petites de ces probabilits critiques.
On appelle ici aussi valeur-test la valeur d'une variable normale qui a la mme probabilit p k ( j )
d'tre dpasse. Aux plus petites probabilits critiques correspondent donc les plus grandes valeurs-
tests. La valeur-test est le critre utilis pour comparer et trier par ordre d'importance les modalits
On a vu comment la valeur-test est un critre permettant de ranger par ordre d'importance les
certaine modalit). Si maintenant on fixe la variable continue, le mme critre permet de ranger
En analyse de donnes, la 'variable artificielle' dont les valeurs sont les abscisses des individus sur
un axe factoriel peut tre assimile une variable continue. A ce titre, on peut chercher quels sont
Considrons par exemple une analyse des correspondances multiples. Appelons i la coordonne
de l'individu i sur l'axe numro , et j la coordonne de la modalit j sur ce mme axe. On sait
que, un coefficient prs qui ne dpend que de la valeur propre, une modalit est le point moyen
j =
Sous l'hypothse nulle H 0 d'un tirage au hasard, l'esprance de i est nulle et sa variance est
gale . Pour un tirage sans remise de n j valeurs, la variance d'une moyenne doit tre corrige
(n n ) j
par le coefficient . On a donc les relations suivantes :
(n 1)
1 nj
1 nj
i
i [ ]
VAR H 0 j = VAR H 0
n j i =1
[ ]
E H 0 j = E H 0
n j i =1
nj
VAR [ ]
1
nj
(n n ) n 2j
h0 i
E H 0 [ i ]
1 i =1
=
j
=
nj i =1 (n 1)
(n n )
2
1
1 =
j
n
= n j 0 (n 1) n j j
n j
=0
(n n j ) 1
=
(n 1) n j
(n n )
u ( j ) = j
j
(n 1) n j
Elle mesure, en nombre d'carts types d'une loi normale, la distance sur laxe de la modalit j au
centre du graphique. On caractrise donc l'axe en rangeant les modalits j dans l'ordre
On remarquera que le calcul repose sur l'hypothse d'un tirage au hasard des n j coordonnes sur
laxe. Si j est une modalit active de l'analyse des correspondances multiples, cette hypothse doit
Alain Morineau Page 6 DeeNov
www.deenov.com
tre exclue puisque l'axe est choisi pour assurer la plus grande dispersion des points. Le calcul n'est
donc valide en toute rigueur que pour les modalits illustratives (dites aussi supplmentaires), c'est-
-dire positionnes aprs coup sur les axes factoriels. Cependant on pourra l'appliquer une
modalit active dont la contribution l'axe est faible. Il ne faut pas s'tonner de trouver des valeurs-
Les valeurs-tests constituent un outil efficace pour le 'dbroussaillage' aussi bien des donnes
brutes que des rsultats des analyses factorielles ou des classifications. Dans les grands tableaux
lments par valeurs-tests dcroissantes fait apparatre les traits saillants au premier coup d'il,
montre rapidement o sont les cohrences et permet l'accumulation progressive des connaissances.
Toute information disponible dans le tableau des donnes peut tre range par sa valeur-test. Ainsi
dans une enqute dopinion, parmi les attributs utilisables on peut introduire l'ensemble des
ge du couple enquteur enqut. Ces attributs, positionns sur les plans factoriels et
accompagns des valeurs-tests les plus importantes, constituent souvent des instruments efficaces