You are on page 1of 7

www.deenov.

com

Alain MORINEAU

Cet article est une reprise et un extrait de larticle Note sur la Caractrisation
Statistique d'une Classe et les Valeurs-tests, publi dans la revue Bulletin
Technique du Centre de Statistique et dInformatique Appliques, Vol 2, n 1-2,
p 20-27, 1984. Cette revue de lAssociation CESIA est aujourdhui introuvable.
La "valeur-test" est un outil qui participe l'approche exploratoire et descriptive
des grands tableaux. On trouve ce critre sous diffrentes formes dans les logiciels
spcialiss de Data mining. Le logiciel SPAD ddi au traitement statistique des
grands tableaux en fait un usage intensif depuis les annes 90 [L. Lebart, A.
Morineau, SPAD Systme Pour lAnalyse des Donnes, CISIA, Saint-Mand, 1991].
Depuis la parution de larticle en 1984 et la gnralisation du Data mining, la
dfinition de la valeur-test sest adapte au traitement des trs gros ensembles de
donnes sous le nom de VT100 , critre statistique qui nest pas sensible la
taille des donnes. On trouvera les dtails sur le site www.deenov.com ainsi que des
rfrences complmentaires.

Sur une population de n individus, on a observ p variables continues :

x1 , x 2 , , x p (le poids, la taille, la pression sanguine, etc.)

et q variables nominales :

y1 , y 2 , , y p (le sexe, le groupe sanguin, etc.)

On s'intresse un groupe particulier de n k individus (par exemple ceux qui sont atteints par une

certaine maladie). Comment classer par ordre d'importance les variables qui caractrisent au mieux

ce groupe, et comment classer les modalits des variables nominales les plus typiques de ce groupe

d'individus ?

Alain Morineau Page 1 DeeNov


www.deenov.com

Principe de la procdure

Une variable est sans intrt pour caractriser le groupe si les n k valeurs qu'on y trouve paraissent

tires au hasard parmi les n valeurs observes. Plus l'hypothse d'un tirage alatoire apparat

douteuse, meilleure sera la variable pour caractriser le groupe.

On procdera donc comme pour un test statistique classique. L'hypothse 'nulle', note H 0 , est

l'hypothse d'un tirage au hasard des n k valeurs parmi les n observations. Le tirage est suppos

sans remise puisque chacune des n k valeurs est une et une seule des observations. En supposant

vraie cette hypothse de travail de tirage alatoire, on calculera la probabilit d'observer une

configuration de valeurs au moins aussi extrme que celle observe sur l'chantillon. C'est la

probabilit critique a associe au test de l'hypothse nulle H 0 . Plus cette probabilit est faible, plus

on est amen mettre en cause l'hypothse du tirage au hasard. En effet c'est cette hypothse

utilise dans le calcul qui donne l'vnement ralis, une probabilit aussi faible de ralisation.

Pour classer les variables par ordre d'importance, on les rangera donc en fonction des probabilits

critiques. La variable la plus typique du groupe est celle qui correspond la plus petite probabilit. Il

faut noter que la procdure classique de test est utilise ici comme intermdiaire de calcul et non

dans le cadre usuel de la dcision statistique.

Cas des variables continues

On considre l'cart entre la moyenne d'une variable dans le groupe k et sa moyenne gnrale.

Plus cet cart est significatif , mieux la variable caractrise le groupe k .

Soit m la moyenne empirique de la variable et s 2 sa variance empirique calcules sur les n

observations. Soit m k la moyenne des n k observations du groupe caractriser. Notons M k la

variable alatoire 'moyenne aprs n k tirages". Sous l'hypothse H 0 d'un tirage uniforme et sans

remise, on a:

Alain Morineau Page 2 DeeNov


www.deenov.com

(n nk )
E H 0 [M k ] = m VarH 0 [M K ] = s k2 = s 2
(n 1) nk

Si n et n k ne sont pas trs faibles, le thorme de la limite centrale s'applique (bien que les tirages

ne soient pas indpendants) et dans ce cas la variable:

(M k m)
U=
sk

suit approximativement une loi de Laplace-Gauss centre rduite. La probabilit critique associe

cette variable est donc la probabilit pour une loi normale de dpasser la valeur numrique u

calcule dans l'chantillon pour la variable U .

On obtient les variables les plus typiques du groupe des n k individus en slectionnant les plus

petites probabilits critiques. Il est quivalent de slectionner les variables correspondant aux plus

grandes valeurs prises par la variable normale:

(m k m)
u=
sk

Cette quantit est appele valeur-test. Elle est exprime en nombre dcarts types d'une loi

normale.

Elle s'interprte de la faon suivante: la probabilit d'un cart aussi grand entre les deux moyennes

est gale aux chances d'atteindre ce nombre dcarts-types types pour une loi normale. On value

en quelque sorte la distance entre la moyenne gnrale et la moyenne dans le groupe, en nombre

d'carts-types d'une loi normale. C'est cette unit commune qui permet les comparaisons entre

variables et les variables et les tris par ordre d'importance.

On attribue un signe la valeur-test. Si le terme est positif (resp. ngatif), le groupe est caractris

par les valeurs fortes (resp. faibles) de la variable. La mthode a lavantage dtre rapide et peu

coteuse lorsque le nombre de groupes caractriser et le nombre de variables utilises sont

grands.

Alain Morineau Page 3 DeeNov


www.deenov.com

Cas des variables nominales

Appelons k le groupe des n k individus et j une modalit d'une des variables nominales. Pour

savoir si cette modalit est une caractristique pertinente du groupe, on doit rpondre la question :

est-ce que la modalit j ' est significativement plus abondante dans le groupe k que dans la

population des n individus ?

Les lments du problme sont rassembls dans le tableau de contingence de la figure ci-dessous

o les effectifs non indiqus sont calculables par diffrence :

On va procder comme pour un test classique. L'hypothse nulle H 0 est ici l'hypothse d'un tirage

au hasard (sans remise) des n k individus parmi les n individus de la population. Cette hypothse en

n jk n
effet assure l'galit des proportions et j n aux fluctuations alatoires prs.
n k

Lhypothse alternative (unilatrale) spcifiera une proportion de j anormalement grande parmi les

n k individus.

Appelons N la variable alatoire effectif de la modalit j dans le groupe k . Dans le tableau de

contingence, la valeur prise par cette variable est:

N = njk .

Sous l'hypothse de travail H 0 et en fixant les marges du tableau, la variable N suit une loi

hypergomtrique dont les trois paramtres sont connus. Si on appelle succs le fait d'appartenir

Alain Morineau Page 4 DeeNov


www.deenov.com

la modalit j , on s'intresse au nombre N = n j k de succs observs dans un chantillon de taille

n k tir au hasard et sans remise parmi les n individus. Plus prcisment considrons:

p k ( j ) = Pr obH 0 {N n j k }

Plus leffectif n j k est lev, plus cette probabilit hypergomtrique est faible, et plus douteuse

l'hypothse nulle d'un tirage au hasard. On peut donc utiliser les probabilits critiques p k ( j ) pour

classer l'ensemble des modalits j de toutes les variables nominales disponibles. Les plus typiques

sont celles qui correspondent aux plus petites de ces probabilits critiques.

On appelle ici aussi valeur-test la valeur d'une variable normale qui a la mme probabilit p k ( j )

d'tre dpasse. Aux plus petites probabilits critiques correspondent donc les plus grandes valeurs-

tests. La valeur-test est le critre utilis pour comparer et trier par ordre d'importance les modalits

caractristiques d'un groupe d'individus.

Application aux valeurs-tests des modalits sur un axe

On a vu comment la valeur-test est un critre permettant de ranger par ordre d'importance les

variables continues caractristiques d'un groupe d'individus (c'est--dire caractristiques d'une

certaine modalit). Si maintenant on fixe la variable continue, le mme critre permet de ranger

l'ensemble des modalits susceptibles de caractriser cette variable.

En analyse de donnes, la 'variable artificielle' dont les valeurs sont les abscisses des individus sur

un axe factoriel peut tre assimile une variable continue. A ce titre, on peut chercher quels sont

les groupes d'individus (les modalits j ) qui caractrisent au mieux un facteur.

Considrons par exemple une analyse des correspondances multiples. Appelons i la coordonne

de l'individu i sur l'axe numro , et j la coordonne de la modalit j sur ce mme axe. On sait

que, un coefficient prs qui ne dpend que de la valeur propre, une modalit est le point moyen

des individus qui la composent:

Alain Morineau Page 5 DeeNov


www.deenov.com
nj
1
nj

i =1
i

j =

Sous l'hypothse nulle H 0 d'un tirage au hasard, l'esprance de i est nulle et sa variance est

gale . Pour un tirage sans remise de n j valeurs, la variance d'une moyenne doit tre corrige

(n n ) j
par le coefficient . On a donc les relations suivantes :
(n 1)

1 nj
1 nj
i
i [ ]
VAR H 0 j = VAR H 0
n j i =1

[ ]
E H 0 j = E H 0
n j i =1





nj

VAR [ ]
1
nj
(n n ) n 2j
h0 i

E H 0 [ i ]
1 i =1
=
j

=
nj i =1 (n 1)

(n n )
2
1
1 =
j
n
= n j 0 (n 1) n j j

n j
=0
(n n j ) 1
=
(n 1) n j

La valeur-test associe la modalit j sur l'axe sera donc:

(n n )
u ( j ) = j
j

(n 1) n j

Elle mesure, en nombre d'carts types d'une loi normale, la distance sur laxe de la modalit j au

centre du graphique. On caractrise donc l'axe en rangeant les modalits j dans l'ordre

dcroissant des valeurs-tests.

On remarquera que le calcul repose sur l'hypothse d'un tirage au hasard des n j coordonnes sur

laxe. Si j est une modalit active de l'analyse des correspondances multiples, cette hypothse doit
Alain Morineau Page 6 DeeNov
www.deenov.com

tre exclue puisque l'axe est choisi pour assurer la plus grande dispersion des points. Le calcul n'est

donc valide en toute rigueur que pour les modalits illustratives (dites aussi supplmentaires), c'est-

-dire positionnes aprs coup sur les axes factoriels. Cependant on pourra l'appliquer une

modalit active dont la contribution l'axe est faible. Il ne faut pas s'tonner de trouver des valeurs-

tests fortes pour des modalits actives.

Data mining et utilisation des valeurs-tests

Les valeurs-tests constituent un outil efficace pour le 'dbroussaillage' aussi bien des donnes

brutes que des rsultats des analyses factorielles ou des classifications. Dans les grands tableaux

de donnes et pour la lecture des analyses multidimensionnelles complexes, le rangement des

lments par valeurs-tests dcroissantes fait apparatre les traits saillants au premier coup d'il,

montre rapidement o sont les cohrences et permet l'accumulation progressive des connaissances.

Toute information disponible dans le tableau des donnes peut tre range par sa valeur-test. Ainsi

dans une enqute dopinion, parmi les attributs utilisables on peut introduire l'ensemble des

paramtres techniques ou instrumentaux de l'enqute : l'heure de l'entrevue ou le croisement sexe

ge du couple enquteur enqut. Ces attributs, positionns sur les plans factoriels et

accompagns des valeurs-tests les plus importantes, constituent souvent des instruments efficaces

et originaux de validation des rsultats de l'enqute.

Alain Morineau Page 7 DeeNov

You might also like