Professional Documents
Culture Documents
GillesMauffrey
METHODESQUANTITATIVESAVECEXCEL
Programmationlinaire,programmationdynamique,simulation,statistiquelmentaire
La Modlisation
LA MODELISATION
1 Modle et typologie des modles
1.1
La notion de modle
Un modle est daprs le dictionnaire Robert :
1. Ce qui sert ou doit servir d'objet d'imitation pour faire ou reproduire quelque chose
2. Personne, fait, objet possdant au plus haut point certaines qualits ou caractristiques
qui en font le reprsentant d'une catgorie
3. Objet de mme forme qu'un objet plus grand mais excut en rduction
4. Reprsentation simplifie d'un processus, d'un systme
La notion de modle qui nous utiliserons ici est en fait un mix des dfinitions 2, 3 et 4. Nous
nous attacherons donner une reprsentation schmatise, mais en contrlant la
simplification, de la ralit et nous serons conduits utiliser parfois des modles
mathmatiques prexistants. Pour nous un modle sera une reprsentation simplifie de la
ralit dans au moins l'un des deux buts suivants :
1.2
Les composants dun modle
On est conduit modliser quand on se trouve confront un problme dont il nexiste pas de
solutions videntes (soit heuristiques, soit parce quon a dj t confront ce type de
problme).
Le problme concerne lentreprise ou une partie de lentreprise que nous appellerons systme
(par exemple une unit de production, les caisses dun supermarch, etc..) ; ce systme est
sous contrle dun dcideur ( ou dun groupe de dcideurs) qui peut en modifier le
comportement par des actions (ou dcisions). Ce systme est en relation avec des lments
extrieurs non directement contrls par le dcideur que nous appellerons environnement.
Remarquons que les dcisions du dcideur peuvent avoir des consquences sur
lenvironnement (par exemple un fort budget publicitaire peut accrotre la fois la part de
march et la taille du march).
Enfin certaines caractristiques du systme et de lenvironnement peuvent tre considres
comme primordiales pour le dcideur et servir comparer entre elles les dcisions, nous
parlerons alors de consquences des actions. Bien videmment ces consquences sont
fonction des objectifs que sest fix (ou qui ont t fixs au) le dcideur.
1.2.1 Les variables de dcisions
Les variables de dcisions servent dcrire les actions envisages. Elles peuvent prendre leurs
valeurs sur ensemble fini (par exemple nombre de caisses ouvrir) ou considr comme infini
(par exemple budget consacr un mdia). Elles peuvent tre simultanes (par exemple
quantits produire un mois) ou squentielle stalant dans le temps ( par exemple faire une
tude de march, puis dcider de la taille de la capacit de production).
Page 3
La Modlisation
Les paramtres structurels : ce sont des constantes qui ne vont pas tre modifies par les
dcisions du dcideur, ces paramtres structurels sont dpendants des hypothses
simplificatrices qui ont t prises pour construire le modle et de lhorizon de
modlisation que lon sest fix (prix de vente dun produit, salaire dune caissire, etc..).
Certains paramtres structurels peuvent tre dfinis par une loi de probabilit (par
exemple nombre de clients arrivant une station service pendant un intervalle de temps
donn).
Ces variables dtat sont des variables alatoires si les paramtres dont elles
dpendent sont des lois de probabilit.
Page 4
La Modlisation
Dans ce cas le modle dvaluation permet dliminer les dcisions qui natteignent pas ces
objectifs
En consquence, la structure dun modle suivra le schma suivant :
Action
Critres
Environt.
Paramtres
Variables
Consquences
E/S
G
Systme
Paramtres
Variables
Modle d'valuation
Modle de fonctionnement
1.3
Typologie des modles
Suivant les lments connus, on peut dgager la typologie suivante :
1.3.1
1.3.2
Page 5
La Modlisation
1.3.3
Dterminer le nombre de guichets ouvrir pendant une priode donne pour viter
une attente trop longue des clients et une inactivit trop importante des guichetiers
Dterminer une bonne utilisation dun budget publicitaire pour atteindre le plus
grand nombre de clients potentiels
Dterminer la composition dun portefeuille pour atteindre une rentabilit
maximale avec risque maximum donn
Dterminer une production qui conduise une marge maximum compte tenu des
ressources disponibles et des demandes connues
2 La dmarche de modlisation
La dmarche de modlisation peut sarticuler autour de trois phases :
2.1
Analyse descriptive
1.Fixer les limites gographiques, physiques et aussi temporelles du systme tudi et de
son environnement. Quels sont les paramtres structurels dcrivant ce systme ?
2.Enumrer les actions envisages ou le type d'action envisage.
3.Dterminer les variables d'tat, c'est dire les lments qui permettent de
"photographier" le systme un moment donn sous l'effet des actions.
4.Choisir la faon dont le fonctionnement du systme sera dcrit : satisfaction de
contraintes structurelles, volution temporelle.
5.Identifier les consquences qui serviront valuer les actions (variables d'tat
privilgies).
6.Slectionner ventuellement les critres permettant de comparer les actions.
2.2
Mise en quation
1.Nommer la (ou les variables) associe(s) aux actions.
2.Ecrires les relations dfinissant les variables d'tat.
3.Ecrire les relations dcrivant le fonctionnement du systme, relations entre les variables
d'tat et les paramtres structurels et les dcisions.
4.Identifier les relations dfinissant les consquences et exprimer les critres.
Page 6
La Modlisation
2.3
Rsolution du modle
On peut soit utiliser un logiciel spcifique, par exemple un logiciel de programmation
linaire, soit utiliser un progiciel standard du type tableur. Dans ce dernier cas, il faudra
veiller respecter la structuration du modle, c'est dire affecter des zones bien
dlimites et spares aux diffrents composants du modle :
Paramtres structurels
Variables de dcision
Variables d'tat et relations de fonctionnement
Consquences values par des critres
Il faut bien noter que les solutions trouves sont les solutions du modle et non du problme
originel ; il reste au dcideur transcrire ces solutions dans le monde rel en rintgrant
ventuellement certains lments non pris en compte dans le modle. L'adquation des
solutions trouves au problme rel dpend bien videmment de la pertinence du modle et
ceci relve plus d'un art que d'une science.
Le processus de modlisation fait donc appel trois ressources principales :
Page 7
La Modlisation
EXERCICE DE MODELISATION
L'entreprise Clairgaz
L'entreprise Clairgaz met en bouteille et distribue des bouteilles de gaz. La mise en bouteille
s'effectue dans trois usines notes 1, 2, 3 qui livre 5 dpts rgionaux, nots A,B, C,D, E. Les
capacits de production mensuelle (en milliers de bouteilles) de chacune des usines et les
demandes mensuelles de chacun des dpts sont les suivants :
Usine Production
1
40
2
80
3
120
Dpt Demande
A
20
B
10
C
30
D
80
E
100
Les bouteilles doivent tre livres de chaque dpt chaque usine, on peut en premire
approximation considrer que le cot unitaire de transport est proportionnel la distance, c'est
d'ailleurs ainsi que se fait la facturation interne, les cots de transport tant affects aux
dpts et donc pris en compte lors de l'valuation annuelle des directeurs de dpts. L'annexe
1 vous donnent les valeurs de ces cots unitaires. On remarquera que le dpt C et l'usine 2
ont une mme localisation.
Actuellement la politique de livraison rsulte de ngociations entre les directeurs de dpts et
d'usine, cette politique vous est donne en annexe 2. La direction gnrale trouve les cots
totaux de transport actuellement trop levs, et pense qu'il serait possible de les diminuer de
faon significative pour les deux annes venir, o il n'est pas envisag de modifications
importante de la demande. Il est fait appel vous pour tudier ce problme.
Question 1
Analyser le problme de la direction gnrale :
Quels sont le systme, les paramtres structurels, les dcisions, les variables dtat, la
consquence ?
Question 2
Ecrire les quations correspondant.
Question 3
Que pensez-vous des ractions possibles des diffrents intervenant : direction gnrale,
directeurs de dpt et d'usine; comment y remdier?
Question 4
Pouvez vous proposer une mthode heuristique de rsolution?
Page 8
La Modlisation
Annexe 1
Cot de transport unitaire d'usine dpt (en ) :
Usines
1
2
3
A
7
3
8
B
10
2
13
Dpts
C
5
0
11
D
4
9
6
E
12
1
14
E
40
50
10
Annexe 2
Politique actuelle d'approvisionnement des dpts
Usines
1
2
3
20
10
Dpts
C
30
80
Page 9
Page 10
LA PROGRAMMATION LINEAIRE
3 Un Premier Exemple
Une entreprise fabrique deux produits A et B avec deux matires premires M et P, et une
machine T1. Les consommations, les temps de fabrication et les marges ralises pour chaque
produit ; ainsi que les quantits disponibles pour le mois venir sont donns dans le tableau
suivant :
Matire Premire M
Matire Premire P
Temps de fabrication
Marge Bnficiaire
Produit A
12
8
3H
300
Produit B
14
4
1H
250
Disponible
1500
600
210 H
Page 11
Matire P
Atelier
Isoprofit
D
0
Page 12
Rsolution graphique du problme : Toutes les droites d'isoprofit sont parallles entre elles, il
nous faut donc dterminer une droite qui soit parallle une direction donne, qui soit le plus
loigne possible de l'origine tout en coupant l'ensemble des solutions ralisables. Cette droite
Marge Maximale
La valeur maximale de la
marge est obtenue en
dplaant la droite
disoprofit paralllement
elle-mme jusqu un des
sommets du polygone
D
O
Page 13
i variant de 1 p
toutes les variables Xi tant positives ou nulles. Soit donc n+p inquations.
Les variables X1, X2, X3, Xn sont appeles variables naturelles.
5.1 Ensembles convexes
L'ensemble des solutions ralisables est un ensemble convexe. C'est dire si M et P sont deux
points de cet ensemble, tout point du segment [MP] est aussi une solution ralisable. Soit pour
tout rel t dans [0 ; 1] et tous points M et P dans le convexe C le point Q=tP+(1-t)M
(barycentre de M(1-t), P(t)) est dans C.
Point extrmal d'un convexe : Un point E d'un convexe C est dit extrmal s'il n'est pas
l'intrieur d'un segment ; c'est dire si
la relation E=tP+(1-t)M entrane t=0 ou t=1 (i.e. E=P ou E=M)
Exemples :
Pour une boule les points extrmaux sont les points de la sphre. Pour un disque, les points du
cercle.
Pour un polydre (ou polygone en dimension 2) les points extrmaux sont les sommets
Remarque : Dans le cas d'un programme linaire, l'ensemble des solutions est un polydre
convexe, appel simplexe, les points extrmaux sont donc les sommets qui correspondent la
saturation (transformation en quation) de n des n+p inquations.
n+ p
Il y a donc au plus C n points extrmaux.
5.2 Fonction linaire sur un convexe
Un programme linaire se prsente donc comme un cas particulier de maximisation d'une
fonction linaire sur un convexe. Nous confondrons dans la suite le point M et le vecteur OM.
Une fonction linaire f vrifie la proprit :
Pour tous rels a et b f(aP+bM)=af(P)+bf(M) donc en particulier pour tout point Q du
segment [MP] on a min(f(M), f(P))<=f(Q) <= max(f(M), f(P)), on en dduit le
Page 14
Nous pouvons donc explorer les sommets de proche en proche (c'est dire passer d'un
sommet un sommet voisin), et vrifier localement que le maximum est atteint. C'est
la dmarche de la mthode du simplexe.
6 Algorithme du simplexe
Dans ce chapitre nous supposerons toujours que le second membre des contraintes (partie
constante) est positif ; nous distinguerons donc les contraintes infrieures ou gales des
contraintes suprieures ou gales.
6.1 Variables d'cart - Variables de surplus
Considrons une contrainte infrieure ou gale (par exemple ressource utilise <= ressource
disponible) :
a1X1+a2X2+....+anXn <= b
il est possible de remplacer cette inquation par une quation en faisant intervenir une
variable positive ou nulle e :
a1X1+a2X2+....+anXn +e = b
cette variable qui peut reprsenter l'cart entre le disponible et l'utilis est appele variable
d'cart (slack variable).
Pour une contrainte suprieure ou gale (par exemple satisfaction d'une demande minimale) :
a1X1+a2X2+....+anXn >= b
on se ramnera une quation en soustrayant une variable positive ou nulle s :
a1X1+a2X2+....+anXn -s= b
cette variable qui peut reprsenter le surplus de production par rapport au minimum impos
est appele variable de surplus (surplus variable).
Sur l'exemple de prsentation les contraintes s'crivent alors :
Page 15
12*X1 +14*X2
+ e1
8*X1 + 4*X2
+e2
3*X1 + 1*X2
= 1500
(Matire premire M)
= 600
(Matire premire P)
+e3 = 210
( Atelier)
Matire
B Base(X1,X2,e3)
Matire
C Base(X1,X2,e1)
Atelie
O Base(e1,e2,e3)
Base(X1,e2,e1) D
Remarquons que passer d'un sommet un sommet voisin revient simplement changer une
variable de base avec une variable hors base, puisque entre deux sommets voisins seul un
hyperplan satur est modifi.
6.3 Principe de l'algorithme
A partir des remarques prcdentes, la dmarche va consister se dplacer d'un sommet en un
sommet voisin, et vrifier si on peut amliorer localement la fonction conomique (en effet
nous savons que tout optimum local est global). Prcisons cette dmarche :
1. Trouver un sommet initial ; si on ne peut en trouver il n'y a pas de solution.
Page 16
= 1500
8*X1 + 4*X2
= 600
3*X1 + 1*X2
+e2
+e3 = 210
Nous sommes en O, les variables de base sont (e1,e2,e3), les variables hors base (X1,X2). La
valeur de la fonction conomique est gale son terme constant 0, et son expression ne fait
intervenir que les variables hors base (X1 et X2) ; d'autre part la solution en ce point est
donne par le systme de contrainte : e1=1500, e2=600, e3=210.
Nous ne sommes pas l'optimum car les coefficients des variables hors base sont positifs : on
peut amliorer la fonction conomique qui vaut actuellement 0. Il nous faut donc passer un
sommet voisin, c'est dire changer une variable hors base et une variable de base.
Choix de la variable entrant dans la base : c'est la variable X1 car son coefficient est le plus
grand, c'est donc celle qui localement amliore le plus la fonction conomique.
Choix de la variable sortant de la base : les trois variables e1, e2, e3 sont candidates, il nous
faut voir quelle est la valeur maximale possible de X1 sans qu'aucune autre variable ne soit
ngative (ne pas oublier que X2 reste nulle). Examinons les 3 quations :
Page 17
+ 10*X2
-(8/3)e3 +(4/3)X2
(1/3)e3 +(1/3)X2
+ e1
= 660
+e2
= 40
+X1
=70
Nous sommes au point D, les variables de base sont (e1, e2, X1) les variables hors base (e3,
X2). La valeur de la fonction conomique est le terme constant 21000 (car e3 et X2 sont hors
base donc valent 0), elle est obtenue avec les valeurs lues dans le systme de contraintes :
e1=660, e2= 40, X1=70. Toutefois cette valeur n'est pas optimale car il reste un coefficient
strictement positif, donc la fonction conomique peut s'amliorer localement (les variables ne
peuvent qu'tre positives).
Choix de la variable entrant dans la base : c'est la variable X2 car son coefficient est le seul
positif.
Choix de la variable sortant de la base : les trois variables e1, e2, X1 sont candidates, il nous
faut voir quelle est la valeur maximale possible de X2 sans qu'aucune autre variable ne soit
ngative (ne pas oublier que e3 reste nulle). Examinons les 3quations :
Si X2 remplace e1, X2 prend la valeur 660/10=66
Si X2 remplace e2, X2 prend la valeur 40/(4/3) = 30
Si X2 remplace e3, X2 prend la valeur 70/(1/3)=210
La valeur maximale que peut prendre X2 est donc le minimum de ces 3 valeurs, c'est dire 30
(sinon on devrait donner des valeurs ngatives e1 ou X1). X2 remplace donc e2. La
deuxime contrainte est la contrainte pivot, elle va nous servir rcrire le systme :
1. Remplacer X2 par 30-3/4e2+2e3 dans la fonction conomique et la premire et la
dernire contrainte
Page 18
- 7,5 e2
-2e3
+(3/4)e2
e3
-(1/4)e2
+ e1
= 360
+X2
= 30
+X1
= 60
Nous sommes au point C, les variables de base sont (e1, X2, X1) les variables hors base (e3,
e2). La valeur de la fonction conomique est 25500 (car e3 et X2 sont hors base donc valent
0), la solution en ce point correspond e1=360, X2=30, X1=60.Cette solution n'est toujours
pas optimale car il reste un coefficient strictement positif, donc la fonction conomique peut
s'amliorer localement (les variables ne peuvent qu'tre positives).
Choix de la variable entrant dans la base : c'est la variable e3 car son coefficient est le seul
positif.
Choix de la variable sortant de la base : les trois variables e1, X2, X1 sont candidates, il nous
faut voir quelle est la valeur maximale possible de X2 sans qu'aucune autre variable ne soit
ngative (ne pas oublier que e2 reste nulle). Examinons les 3 quations :
Si e3 remplace e1, e3 prend la valeur 360/16=22,5
Si e3 remplace X2, e3 prend la valeur 30/(3/4) = 40
Si e3 remplace X1, e3 prend la valeur 60
La valeur maximale que peut prendre e3 est donc le minimum de ces 3 valeurs, c'est dire
22,5 (sinon on devrait donner des valeurs ngatives e1 ou X1). e3 remplace donc e1. La
premire contrainte est la contrainte pivot. Nous allons donc :
1. remplacer e3 par 22,5+(15/32)e2-(1/16)e3 dans la fonction conomique et les deux
dernires contraintes,
2. rcrire la premire contrainte de faon mettre en vidence les variables de base
(sous matrice identit) comme dans le systme initial.
7.4 Etape 3
En utilisant la relation dfinie prcdemment nous obtenons la formulation quivalente
suivante :
MAX -12,5e1 - 18,75e2 +30000
(1/16)e1 -(15/32)e2 + e3
(1/8)e1
- (3/16)e2
-(1/16)e1 + (7/32)e2
=22,5
+X2
=75
+X1
=37,5
Page 19
Nous sommes au point B, les variables de base sont (e3, X2, X1) les variables hors base
(e1, e2). La valeur de la fonction conomique est 30000, la fonction conomique ne peut pas
s'amliorer localement car tous les coefficients sont <=0. On a donc atteint le maximum (local
donc global).
La solution optimale est donc la suivante :
Produire 37,5 units de A(X1), 75 units de B(X2)et laisser 22h30 inutilises dans
l'atelier (e3) : variables de base.
Utiliser toutes les matires premires (e1=e2=0) : variables hors base.
La marge dgage est alors de 30000F
Comment interprter les coefficients de e1 et e2 dans la fonction conomique ? La seule faon
d'accrotre la fonction conomique serait de pouvoir leur donner une valeur ngative. Par
exemple si on donnait e1 la valeur 1, la fonction conomique augmenterait de 12,5. En
regardant la premire formulation du problme, c'est dire la dfinition des variables d'cart,
on constate que cela revient disposer d'une unit supplmentaire de la matire premire A.
La valeur absolue des coefficients des deux variables d'cart reprsente le gain que l'on
pourrait raliser en disposant d'une unit de ressource supplmentaire, conomiquement cela
revient quantifier le cot d'opportunit associ une contrainte sature ( une ressource
"rare" pour l'entreprise), contrainte qui empche d'accrotre la production. Bien videmment
cela ne peut pas tre valable pour une quantit quelconque, car partir d'une certaine quantit
la ressource n'est plus "rare", et une autre contrainte sera sature. L'analyse de listing que nous
allons voir au paragraphe suivant permet de rpondre ce type de question.
8 Utilisation du solveur Excel pour la programmation linaire
Pour utiliser Excel en programmation linaire, il faut formaliser le problme sur une feuille,
puis utiliser une macro complmentaire appele solveur pour rsoudre le problme, les
solutions sont donnes sur des feuilles "Rapport" cres par Excel. Nous illustrerons cette
utilisation sur l'exemple des paragraphes prcdents.
8.1 Formalisation du problme
L'criture du problme sous Excel se prsente sous la forme suivante :
Page 20
Les cellules B7:C9 donnent les donnes technologiques, les cellules E7:E9 donnent les
quantits disponibles.
Les cellules D7:D9 contiennent les formules calculant les quantits utilises : attention aux $
pour la recopie vers le bas.
Il est important que le ct droit de chaque contrainte soit une constante, et non pas une
fonction des variables de dcision, sinon dans certains cas Excel pourrait ne pas accepter que
le problme soit linaire.
La feuille de calcul ainsi crite ne permet pas seule de rsoudre le problme d'optimisation, il
nous serait seulement possible de tester certaines solutions (simuler des dcisions). Nous
vrifierions que ces dcisions sont acceptables sans jamais savoir si nous avons atteint
l'optimum.
Enfin il n'apparat pas sur la feuille de calcul le sens des contraintes (<= ou >=), ni le sens de
l'optimisation (Maximum ou Minimum). Il est donc ncessaire, pour finaliser la formulation
du problme et le rsoudre de faire appel un "add-in" (un programme complmentaire
accessible partir d'Excel, en "franais" une macro complmentaire.
8.2 Utilisation du solveur
Aprs avoir slectionn la cellule contenant la valeur de la fonction conomique, dans le
menu Outils nous choisissons le sous menu Solveur, il apparat alors la bote de dialogue
suivante :
Dans la zone Cellule cible dfinir, il est indiqu l'adresse de la cellule contenant la formule
de la fonction conomique, ici $B$4 ; si vous avez ouvert le solveur partir dune autre
cellule slectionne, cest ladresse de cette cellule qui apparatra ici, il faudra alors modifier
en consquence cette zone en cliquant sur la cellule de la fonction conomique. Ensuite il faut
slectionner le type d'optimisation voulu (Maximisation ou minimisation).
Dans la zone cellules variables, il faut indiquer la zone contenant les variables du problme,
ici $B$2:$C$2. Il faut ensuite entrer les contraintes du problme ; pour cela cliquer sur le
bouton "Ajouter" de la zone contrainte, une autre bote de dialogue apparat :
Page 21
Il nous reste prciser que le problme est un problme de programmation linaire, nutilisant
que des variables positives ou nulles. Pour cela cliquer sur le bouton "Options" et dans la zone
de dialogue suivante, cocher la case "Modle suppos linaire" et "Suppos non ngatif" :
Page 22
Revenu au dialogue initial par le bouton "OK", il faut demander la rsolution du problme en
cliquant sur le bouton "Rsoudre". L'algorithme de rsolution s'excute, en fin de traitement
un dernier dialogue apparat :
Il faut alors slectionner les rapports de Rponse et Sensibilit, en cliquant sur ces libells ;
mais il est inutile de demander celui des Limites qui en programmation linaire n'apporte rien.
9 Analyse d'un listing de programmation linaire
En pratique, on ne rsout jamais " la main" un programme linaire, on utilise pour ce faire
soit des logiciels spcialiss soit un tableur comme Excel.
9.1 Structure d'un listing de programmation linaire
Les listings de programmation linaire comportent tous, sous des prsentations variables, trois
parties :
les rsultats concernant les variables naturelles : valeurs des variables naturelles et
sensibilit de l'optimum en fonction du coefficient de chacune des variables
naturelles dans la fonction conomique
les rsultats concernant les contraintes : valeurs des variables d'cart ou de surplus
l'optimum et sensibilit de l'optimum en fonction de chacun des cts droit des
contraintes.
Page 23
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B
Contraintes
Cellule
Nom
$D$7 Matire Premire M Utilis
$D$8 Matire Premire P Utilis
$D$9 Temps de Fabrication Utilis
Valeur
Formule
tat Marge
1500 $D$7<=$E$7 Li
0
600 $D$8<=$E$8 Li
0
187,5 $D$9<=$E$9 Non li
22,5
Page 24
fonction conomique ne change pas et il est bien videmment inutile de se procurer un surplus
de ressources.
En revanche une contrainte sature indique une gne pour l'amlioration de la fonction
conomique, toute augmentation ou diminution du ct droit de la contrainte va conduire
une modification de l'allocation des ressources et/ou de la production et par consquent une
modification de la fonction conomique. On peut donc associer chaque contrainte un cot
(ou profit) marginal correspondant au resserrement (ou relchement) de la contrainte, bien
videmment ce cot ne sera valable que sur un intervalle de valeurs pour le ct droit de la
contrainte : par exemple si l'on augmente trop une ressource, on se trouvera limit par d'autres
ressources ou par le march, tout apport supplmentaire n'aura alors plus aucun intrt
conomique.
Les listings de programmation linaire donnent la fois le cot marginal, appel shadow cost
(traduit sous Excel par Ombre Cot) ou shadow price, qui indique le gain associ au
relchement de la contrainte, ainsi que l'intervalle sur lequel cette valeur est valable. Ce
shadow price est exprim en units de la fonction conomique.
Page 25
La contrainte sur la matire premire P s'analyse de la mme faon, puisque cette contrainte
est aussi sature.
Interprtons maintenant la dernire contrainte : la contrainte d'atelier. Cette contrainte n'est
pas sature, donc augmenter les heures disponibles n'apportera aucun profit supplmentaire,
c'est pourquoi le shadow cost est nul et l'augmentation admissible infinie (note 1E+30 par
Excel). De la mme manire si on diminue les ressources disponibles, tant que l'on conserve
la quantit ncessaire la production, ceci ne diminuera en rien le profit : la diminution
admissible est donc gale la variable d'cart.
Contraintes
Finale Ombre Contrainte Admissible Admissible
Cellule
Nom
Valeur Cot
droite Augmentation Rduction
$D$7 Matire Premire M Utilis
12,5
1140
1140
960
0
$D$8 Matire Premire P Utilis
600 18,75
600
0
274,29
$D$9 Temps de Fabrication Utilis
0
210
210
1E+30
0
Les trois contraintes sont satures, mais comme il doit y avoir trois variables de base, et que
les deux variables naturelles sont dans la base, l'une des variables d'cart nulles est dans la
base. C'est celle dont le shadow cost est nul, c'est dire la troisime contrainte. On constate
de plus que les trois contraintes se coupent au mme point, ceci apparat dans le listing par le
fait que l'une des deux augmentations limites (admissible augmentation ou admissible
rduction) est nulle : ds que l'on bouge un peu l'une des deux premires contraintes (vers le
bas pour la premire, vers le haut pour la seconde), elle devient inactive (non sature) et la
troisime devient active, alors sont shadow cost va devenir strictement positif.
Ce cas se gnralise dans un espace de dimension n, quand n+1 contraintes concourent en un
sommet du simplexe : on aura alors une des n+1 contraintes dont le shadow cost sera gal 0
et pour les n+1 contraintes l'une des limites gale 0. Cependant la lecture du listing n'est pas
trs simple et sur beaucoup de logiciel la contrainte correspondant la variable de base est
indique comme dgnre; malheureusement Excel ne l'indique pas.
Page 26
Il se peut aussi que la variable de base qui est nulle soit une variable naturelle, auquel cas le
listing sera un peu diffrent. C'est le cas pour la valeur maximale de la premire contrainte, si
le second membre de la contrainte passe de 1500 1500+600=2100, on obtient le rapport
suivant :
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B
Contraintes
Cellule
Nom
$D$7 Matire Premire M Utilis
$D$8 Matire Premire P Utilis
$D$9 Temps de Fabrication Utilis
La production de produit A est nulle, les deux premires contraintes sont toujours satures,
mais l'augmentation admissible de la premire et la diminution admissible de la seconde sont
nulles, ds que l'on modifiera un peu l'une de ces contraintes dans ce sens le reduced cost du
produit A deviendra strictement positif.
Ici c'est la contrainte A0 qui est associe la troisime contrainte sature, on constate que
l'on est dans le cas de dgnrescence et non pas de solution multiple(voir ci-dessous) d'une
part d'aprs le nombre de variable de base nulle(ici 1) (ou non nulles 2 au lieu de 3) et d'autre
part parce que pour la variable naturelle nulle, dont le shadow cost est nul, aucune des deux
limites n'est gale 0, ce qui signifie que ce n'est pas la rentabilit du produit qui est en cause,
mais la disponibilit des ressources.
Remarque importante : suivant les arrondis, l'algorithme utilis par Excel, qui n'est pas
exactement le simplexe, conduira l'une ou l'autre des solutions optimales extrmes.
9.4 Analyse marginale d'un coefficient de la fonction conomique
Il s'agit ici de voir la stabilit de l'optimum (valeur des variables de base) en fonction des
variations d'un coefficient de la fonction conomique (changement de prix d'un produit par
exemple). Cette analyse ne se fait qu'un seul coefficient la fois. Nous raisonnerons dans le
cas d'une maximisation.
Page 27
Cellules variables
Cellule
Nom
$B$2
Quantit Produit A
$C$2
Quantit Produit B
$D$2
Quantit Produit C
Finale
Valeur
37,5
75
0
Rduit
Cot
Objectif
Admissible Admissible
Coefficient Augmentation Rduction
0
300
200
85,71
0
250
100
64,92
-52,75
291
52,75
1E+30
Pour les produits A et B, le cot rduit est gal 0, en effet ces produits sont effectivement
fabriqus et s'imposer d'en fabriquer n'est pas une contrainte. Les valeurs "Admissible
Augmentation" et "Admissible diminution" nous indique pour chaque produit sur quel
intervalle le coefficient de la fonction conomique doit rester pour que la production ne soit
pas modifier.
Attention : On ne fait varier qu'un coefficient, les autres gardent la mme valeur.
Pour le produit A, tant que sa contribution est comprise entre 214,29 (300-85,71) et 500 (300
+ 200) (les autres contributions restant respectivement de 250 pour B et 290 pour C), la
production optimale restera toujours de 37,5 A et 75 B ; mais la fonction conomique sera
modifie en consquence.
Pour le produit C, l'interprtation est thoriquement la mme, tant que sa contribution est
infrieure 343,75 (291+52,75), il est inintressant produire. Une autre faon d'aboutir ce
rsultat est obtenue avec le cot rduit : si on tait oblig de produire ce produit C, on perdrait
52,75 pour chaque unit produite, au moins pour les premires units, sa contribution
minimum est donc gale sa contribution actuelle (291) + la perte lue ici (52,75) soit 343,75.
On ne connat pas, par le listing, sur quelle quantit s'applique cette perte unitaire ; mais
conomiquement, il est clair que si le nombre de produits fabriqus augmente, la mauvaise
utilisation des ressources conduira une perte plus importante. De la mme manire on ne sait
pas quelle quantit on serait conduit produire si la contribution du produit dpassait 343,75.
Page 28
Cellules variables
Cellule
Nom
$B$2
Quantit Produit A
$C$2
Quantit Produit B
$D$2
Quantit Produit C
Finale
Valeur
37,50
75,00
0,00
Rduit
Cot
Objectif
Admissible Admissible
Coefficient Augmentation Rduction
0
300
200
0
0
250
100
0,00
0
343,75
0,00
1E+30
Le produit C n'est toujours pas produit semble-t-il, mais comme le reduced cost est nul le fait
de s'imposer d'en produire ne coterait rien, il existe donc des solutions optimales contenant
des quantits non nulles du produit C. Ici ce n'est pas une variable de base qui vaut 0, les
variables de base sont restes les mmes, mais c'est uniquement le reduced cost (ou pour une
variable d'cart le shadow cost) associ une variable hors base qui est nul.
On voit aussi sur ce listing que ds que l'une des deux premires marges diminue, la solution
va changer, de mme si la marge du produit C augmente la solution changera ; dans tous les
cas la nouvelle solution optimale consistera commencer la production du produit C. On
pourra donc obtenir l'autre solution en modifiant lgrement l'un de ces prix par exemple en
mettant 343,751 pour le produit C on obtient alors le listing suivant :
Cellules variables
Cellule
$B$2
$C$2
$D$2
Nom
Quantit Produit A
Quantit Produit B
Quantit Produit C
Finale
Valeur
0
10,000
80,000
Rduit
Objectif
Admissible Admissible
Cot
Coefficient Augmentation Rduction
-0,002
300
0,002
1E+30
0
250
0,001
53,571
0
343,751
93,749
0,001
Page 29
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B
Finale
Valeur
37,5
75
Rduit
Cot
Objectif
Admissible
Admissible
Coefficient Augmentation Rduction
0
300
0,00
171,43
0
150
200,00
0,00
Contraintes
Finale Ombre Contrainte Admissible
Admissible
Cellule
Nom
Valeur
Cot
droite Augmentation Rduction
$E$7 Matire Premire M Utilis
1500
0,00
1500
600
360
$E$8 Matire Premire P Utilis
600
37,50
600
48
171,43
$E$9 Temps de Fabrication Utilis 187,5
0,00
210
1E+30
22,50
La premire contrainte est sature (valeur finale=contrainte droite), mais son shadow cost
est nul, donc si on dispose de moins de ressources la valeur de la fonction conomique ne
changera pas; il existe donc une autre production (correspondant un autre sommet du
simplexe) consommant moins de matire premire M (et donc plus de temps pour maintenir le
nombre de variables de base et hors base) et conduisant la mme valeur de la fonction
conomique. De faon prcise, on peut savoir que cette autre solution consommera
exactement 360 units de moins de matire premire M. Pour obtenir cette nouvelle solution,
il suffit comme prcdemment d'augmenter la marge du produit A ou de diminuer celle du
produit B, puisque aucune variation des coefficients dans ce sens n'est accepte. On obtient
alors le rsultat suivant, en mettant 149,99 comme valeur de marge pour le produit B :
Cellules variables
Cellule
Nom
$B$2 Quantit Produit A
$C$2 Quantit Produit B
Contraintes
Finale Ombre Contrainte Admissible Admissible
Cellule
Nom
Valeur Cot
droite Augmentation Rduction
$E$7 Matire Premire M Utilis
1140
0
1500
1E+30
360
$E$8 Matire Premire P Utilis
600
37,49
600
48
40
$E$9 Temps de Fabrication Utilis
210
0,02
210
15
22,5
Page 30
Un problme admet une solution dgnre si une variable de base est nulle, tandis
qu'un problme admet une solution multiple si le shadow cost associ une variable
hors base est nul.
Si une seule variable prsente la particularit d'tre nulle et d'avoir son shadow cost (ou
reduced cost) nul aussi, il suffit alors de dterminer si cette variable est de base ou hors base.
On sait que dans un problme contenant n variable naturelles et p contraintes, il y a p
variables de base et donc n variables hors base ; il suffit alors de compter les variables de base
non nulles pour dtecter la nature du problme.
Cette dtection est plus dlicate si plusieurs variables prsentent cette particularit, surtout si
le problme est la fois dgnr et solutions multiples, dans ce cas on peut faire les
remarques suivantes :
-
Pour un cas de dgnrescence on a soit une variable naturelle nulle avec un reduced
cost nul mais deux valeurs de variations admissibles strictement positives, soit une
variable d'cart (ou de surplus) nulle ainsi que son shadow cost, mais dans ce cas l'une
des variations admissibles nulle.
Pour un cas de solution multiple on a soit une variable naturelle nulle avec un reduced
cost nul et une des deux valeurs de variation admissible nulle, soit une variable d'cart
(ou de surplus) nulle ainsi que son shadow cost, mais dans ce cas les deux valeurs des
variations admissibles sont positives strictement.
Page 31
Bl
Orge
Seigle
Eau
Engrais
(m3/ha./an) (kgs/ha./an)
1 000
200
2 000
100
250
50
Les profits annuels par ha pour le bl, l'orge et le seigle sont respectivement de 200, 100 et
40. On dispose de 160 tonnes d'engrais et de 1,6 millions de m3 d'eau par an.
Questions
1) Formuler le problme dfinissant le nombre d'hectares de chaque crale cultiver de
faon maximiser le profit.
2) En comparant les ressources utilises, simplifier le problme autant que possible. En
dduire la solution optimale
3) Analyser le listing ci-dessous
Cellule cible (Max)
Cellule
Nom
$B$4
Profit
Cellules variables
Cellule
Nom
$B$2
Bl
$C$2
Orge
$D$2
Seigle
Contraintes
Cellule
Nom
$E$8
Surface
$E$9
Engrais
$E$10
Eau
Valeur initiale
0
Valeur finale
160000
0
0
0
Valeur finale
800
0
0
Valeur initiale
Valeur
Formule
800 $E$8<=$F$8
160000 $E$9<=$F$9
800000 $E$10<=$F$10
tat
Non li
Li
Non li
Marge
200
0
800000
Rapport de sensibilit
Cellules variables
Cellule
Nom
$B$2
Bl
$C$2
Orge
$D$2
Seigle
Finale Rduit
Objectif
Admissible
Admissible
Valeur
Cot
Coefficient
Augmentation
Rduction
800
0
200
1E+30
0
0
0
100
0
1E+30
0
-10
40
10
1E+30
Page 32
11 Compagnie Minire
Une compagnie minire possde deux puits diffrents P1 et P2, pour lextraction duranium.
Les puits sont en deux lieux distincts et ne possdent pas la mme capacit de production. Le
minerai duranium est dabord concass, puis analys et enfin rang dans lune des trois
qualits U1, U2 ou U3, suivant sa teneur minerai riche, moyen ou pauvre.
La demande du march pour les trois qualits est suprieure ce que lon peut extraire.
La compagnie sest engage fournir une usine de sparation 12 tonnes de minerai U1,
8 tonnes de minerai U2 et 24 tonnes de minerai U3 par semaine.
Lexploitation de P1 cote la compagnie 20 000 par jour et celle de P2 revient 16 000
par jour.
En un jour dexploitation, le premier puits produit 6 tonnes de U1, 2 tonnes de U2 et 4 tonnes
de U3 ; les chiffres pour le second puits sont respectivement de 2 tonnes, 2 tonnes et 12
tonnes.
Combien de jours par semaine faut-il exploiter chaque mine pour que les engagements soient
tenus le plus conomiquement possible? (ci dessous le rapport de sensibilit)
Cellules variables
Cellule
Nom
$B$2
Nbre jours P1
$C$2
Nbre jours P2
Finale Rduit
Objectif
Valeur Cot
Coefficient
1
0
20
3
0
16
Admissible
Augmentation
28
4
Admissible
Rduction
Admissible
Augmentation
Admissible
Rduction
4
9,333333333
Contraintes
Cellule
Nom
$D$9
U1 Production
$D$10 U2 Production
$D$11 U3 Production
8
4
16
4
2
1E+30
12 Compagnie du Bois
La Compagnie du Bois veut utiliser au mieux les ressources en bois dune de ses proprits
forestires.
Dans cette rgion, il y a une scierie et une fabrique de contreplaqu ; le bois coup peut ainsi
tre transform en bois de charpente ou en contreplaqu.
Pour produire 100 m3 de bois de charpente, il faut 1.000 mtres de planches de sapin et 3.000
mtres de planches de htre (ces planches ayant une largeur et une paisseur fixes). Pour
Page 33
produire 1.000 mtres de planches de contreplaqu, il faut 2.000 mtres de planches de sapin
et 4.000 mtres de planches de htre..
La Compagnie du Bois peut couper par priode 32.000 m. de planches de sapin et 72.000 m.
de planches de htre. Les contraintes de vente exigent quau moins 400 m3 de bois de
charpente et 12.000 mtres de planches de contreplaqu soient produits pendant la priode.
Le profit est de 400 pour 100 m3 de bois de charpente et de 600 pour 1.000 m de planches
de contreplaqu.
B sera le nombre de centaines de m3 de bois de charpente produits, C correspondant aux
milliers de mtres de planches de contreplaqu.
Questions
1) Formuler le problme entant que modle de programmation linaire.
2) Rsoudre le problme graphiquement.
3) Analyser le listing ci-dessous.
Cellules variables
Cellule
Nom
$B$2
Quantit Charpente
$C$2
Quantit Contreplaqu
Admissible
Rduction
100
66,66666667
Admissible
Rduction
Contraintes
Cellule
$E$9
$E$10
$E$11
$E$12
Nom
Sapin
Htre
Charpente
Contreplaqu
0
4000
1E+30
1E+30
13 Le Laboratoire
Un laboratoire fabrique des rcepteurs haute performance. Il emploie quatre assembleurs et
deux ingnieurs 40 heures par semaine le salaire est de 20 lheure pour un assembleur et
30 lheure pour un ingnieur. Chacun des six est prt faire jusqu 10 heures
supplmentaires 50 % par semaine.
Les cots fixes pour lentretien du laboratoire slvent 5.000 par semaine. Les cots
variables pour lentretien et les madres premires sont de 5 /heure pour un assembleur et
10 /heure pour un ingnieur, le matriel utilis tant alors plus coteux.
Le laboratoire vend des rcepteurs finis, 175 pice. Le march peut absorber toute la
production. Le laboratoire vend aussi une compagnie spcialise des rcepteurs non finis,
130 pice le contrat est pour 100 rcepteurs minimum, mais la compagnie est prte en
acheter jusqu 150.
Pour construire un rcepteur non fini, il faut une heure dassembleur et 30 minutes
dingnieur. Pour construire directement un rcepteur fini, il faut une heure et demie
dassembleur et autant dingnieur.
Page 34
Page 35
Listing Excel
Microsoft Excel 9.0 Rapport des rponses
Feuille: [CAMP.XLS]Feuil2
Cellule cible (Max)
Cellule
Nom
$B$4
Marge
Cellules variables
Cellule
Nom
$B$2
Chaises
$C$2 Bancs
$D$2 Tables
Contraintes
Cellule
Nom
$E$7
Mise en Forme
$E$8
Soudure
$E$9
Tubes
Valeur
Formule
1000 $E$7<=$F$7
866,6666667 $E$8<=$F$8
2000 $E$9<=$F$9
tat
Marge
Li
0
Non li 333,3333333
Li
0
Cellules variables
Cellule
Nom
$B$2 Chaises
$C$2 Bancs
$D$2 Tables
Finale
Valeur
Rduit
Cot
Objectif
Admissible Admissible
Coefficient Augmentation Rduction
700
0
3
2 0,777777778
0 -1,383333333
3 1,383333333
1E+30
133,3333333
0
5
1,75
2
Contraintes
Cellule
Nom
$E$7 Mise en Forme
$E$8 Soudure
$E$9 Tubes
Finale
Valeur
1000
866,6666667
2000
Ombre
Contrainte Admissible Admissible
Cot
droite Augmentation Rduction
1,166666667
1000
200 466,6666667
0
1200
1E+30 333,3333333
0,8
2000 555,5555556 333,3333333
Page 36
15 Composition de portefeuille
Un fond de pension veut placer 1 000 000 dans des actions, des obligations et des bons du
trsor. On supposera que le risque du portefeuille est le risque moyen de ses composants, par
exemple si lon place 1000 dans une action dont le risque est valu 10% et 3000 dans
une obligation dont le risque est valu 5% le risque moyen est :
(1000*10%+3000*5%)/4000=6,25%
Les caractristiques des actifs envisags sont les suivantes :
Actif
Action A
Action B
Obligation A
Obligation B
Bons du trsor
Rentabilit moyenne
18%
15%
10%
8%
5%
Risque
15%
13%
5%
4%
0%
Page 37
Listing Excel :
Rapport des rponses
Cellule cible (Max)
Cellule
Nom
$B$5
Rendement
Cellules variables
Cellule
Nom
$B$3
Montant AA
$C$3
Montant AB
$D$3
Montant OA
$E$3
Montant OB
$F$3
Montant BT
Contraintes
Cellule
Nom
$G$10
Dif A B
$G$11
Investi
$G$12
Risque
$G$13
Obli+trsor
Valeur initiale
0
Valeur finale
128500
0
0
0
0
0
Valeur finale
450000
50000
0
500000
0
Valeur initiale
Valeur
Formule
100000 $G$10>=$H$10
1000000 $G$11<=$H$11
-6000 $G$12<=$H$12
500000 $G$13>=$H$13
tat
Li
Li
Non li
Li
Marge
0
0
6000
0
Rapport de sensibilit
Cellules variables
Cellule
$B$3
$C$3
$D$3
$E$3
$F$3
Nom
Montant AA
Montant AB
Montant OA
Montant OB
Montant BT
Finale
Rduit
Objectif
Admissible
Valeur
Cot
Coefficient Augmentation
450000
0
0,18
1E+30
50000
0
0,15
0,01
0
-0,01
0,1
0,01
500000
0
0,08
0,07
0 -0,045
0,05
0,045
Admissible
Rduction
0,01
0,07
1E+30
0,01
1E+30
Nom
Dif A B
Investi
Risque
Obli+trsor
Admissible
Rduction
100000
100000
6000
66666,66667
Contraintes
Cellule
$G$10
$G$11
$G$12
$G$13
Page 38
16 Fixation de prix
L'entreprise Toutenkit importe trois nouveaux composants C1, C2, C3 aux prix respectifs
unitaires de 3, 5 et 6 $ (transport inclus).
Ces composants peuvent tre inclus dans de nombreux produits finis, mais d'aprs le service
Marketing, les produits leaders contenant ces composants et pouvant facilement tre
assembls par des amateurs sont les produits PF1, PF2, PF3 et PF4.
D'autre d'aprs l'exprience des vendeurs de Toutenkit, pour que le montage soit plus
intressant que l'achat du produit tout mont, il faut que le prix d'achat (pour le client) des
composants soit infrieur d'au moins 20% au prix du modle mont.
Pour les 4 produits finis, on a obtenu les renseignements suivants :
Produit
PF1
PF2
PF3
PF4
Nombre
de C1
2
4
4
1
Nombre
de C2
1
2
3
Nombre
de C3
2
6
3
Autres
Composants
80 $
50 $
90 $
70 $
Prix de
vente
125 $
125 $
175 $
150 $
Page 39
Listing Excel
Microsoft Excel 8.0a Rapport des rponses
Cellule cible (Max)
Cellule
Nom
Valeur initiale
Valeur finale
$B$5
fe C1
0
34500
Cellules variables
Cellule
Nom
$B$2
C1
$C$2
C2
$D$2
C3
Contraintes
Cellule
Nom
$F$7
PF1
$F$8
PF2
$F$9
PF3
$F$10
PF4
$F$11
achatC1
$F$12
achatC2
$F$13
achatC3
Valeur initiale
0
0
0
Valeur
Valeur finale
3,50
9,50
6
Formule
96,5 $F$7<=$G$7
95 $F$8<=$G$8
140 $F$9<=$G$9
120 $F$10<=$G$10
3,50 $F$11>=$G$11
9,50 $F$12>=$G$12
6 $F$13>=$G$13
tat
Non li
Non li
Li
Li
Non li
Non li
Li
Marge
3,50
5,00
0
0
1,50
5,50
0
Nom
PF1
PF2
PF3
PF4
achatC1
achatC2
achatC3
Finale
Valeur
96,5
95
140
120
3,50
9,50
6
Ombre
Cot
0
0
416,67
333,33
0
0
-500,00
Contrainte
Admissible
Admissible
droite
Augmentation Rduction
100
1E+30
3,50
100
1E+30
5
140
6
6,00
120
7,50
16,5
2
1,50
1E+30
4
5,50
1E+30
6
1,00
1,00
Page 40
17 La tannerie Landaise
La tannerie Landaise est une unit de production indpendante situe dans la Rgion Landaise
qui traite des peaux de mouton. Elle revend ensuite ses peaux dautres entreprises dans toute
lEurope. Actuellement, 3 types de produits finis sont vendus sur le March:
des Cuirs Souples
du Box
du Daim
Les peaux passent par 3 ateliers :
latelier de schage
latelier de tannage
latelier de teinture
Les temps de production sont indiqus dans le tableau suivant :
Schage
Teinture
Tannage
Cuir Souple
1h
2h
1h
Box
2h
1h
1h
Daim
1h
3h
4h
Page 41
3) Les ouvriers de latelier de schage sont prts faire 500 H supplmentaires payes
50% de plus. Que doit faire lentreprise et quel en sera limpact sur la fonction
conomique ?
4) A quel prix devrait-on vendre la peau en Cuir souple pour quelle devienne rentable
dans la structure de production actuelle ? Lentreprise dintrim qui fournit les
ouvriers de latelier de tannage vous propose 1200 H supplmentaires pour un prix
global de 40 000 . Evaluer limpact de lacceptation de cette proposition.
5) Un nouveau type de peau utilise 2H de schage, 2H de teinture et 1H de tannage. A
quel prix lentreprise doit-elle le vendre pour quil soit conomiquement comptitif
avec les produits actuels ?
6) Le prix du Box doit baisser de 10%. Quelle consquence cette baisse aura-t-elle sur la
production et sur le profit de lentreprise ?
18 L'entreprise ShareGift
Lentreprise ShareGift a reu une commande dune association qui veut distribuer ses
membres des portefeuilles, porte-cls ou porte-cartes en tissu enduit son logo. Le tissu
enduit a t fourni par lassociation et on dispose de 78 m (soit 7800 dm) de tissu.
Lassociation est prte acheter 3000 pices au maximum (toutes catgories confondues).
Elle exige aussi la production de 200 parures formes dun portefeuille et dun porte-cartes.
Pour fabriquer 1 portefeuille il faut 4 dm de tissu, 3 minutes de dcoupe et 2 minutes de
couture.
Pour 1 porte-cls, il faut 2 dm de tissu, 2 minutes de dcoupe et 1 minute de couture.
Pour 1 porte-cartes, il faut 2 dm de tissu, 1 minute de dcoupe et 3 minutes de couture.
Etant donns les dlais de livraison demands par lassociation, on ne pourra disposer que de
100H de dcoupe et 90 H de couture.
Les cots variables de dcoupe sont de 240 F par heure, ceux de couture de 300 F par heure.
Ces cot ne prennent pas en compte la main duvre qui est mensualise.
Les prix de ventes pour chacun des produits sont :
Portefeuille
Porte-cls
Porte-cartes
Prix de Vente
112 F
63 F
49 F
Questions :
1) Formaliser le problme en prenant comme variables le nombre de portefeuilles, de
porte-cls et de porte-cartes fabriqus pour maximiser la marge
Les questions suivantes sont indpendantes les unes des autres
2) Lassociation demande une rduction de 5 F sur le prix du portefeuille. Quel sera
limpact de cette rduction sur la production et la marge de lentreprise ?
Page 42
3) Une panne entrane une diminution de 10 H des heures disponibles pour la couture.
Quel en sera limpact sur la marge ?
4) 5 m de tissu ont t endommags pendant le transport. Quel sera limpact sur la
marge ?
5) Les ouvriers de latelier Dcoupe sont disposs faire des heures supplmentaires,
quel prix maximum tes vous prt les payer et combien dheures leur demanderezvous ?
6) Quelles seraient les consquences si lassociation exigeait 300 parures au lieu de 200 ?
7) Le prix du porte-cartes vous semble-t-il bien fix, par rapport la structure de
production actuelle ? Quel serait daprs vous le prix minimum de vente de cet objet ?
8) Un ouvrier propose une nouvelle faon de fabriquer les porte-cls, qui demande
1,5 dm de tissu, 1 minute de dcoupe et 3 minutes de couture. Quel serait le prix
minimum de vente pour que ce produit soit intressant produire dans la structure
actuelle ?
19 Mdia planning
Une entreprise de jeux pour console veut lancer une campagne publicitaire sur un nouveau
jeu, sa cible est constitue des jeunes de 10 15 ans, ventuellement de la tranche dage 1525 ans. Elle envisage les mdias suivants :
Mdia
TV1
TV2
Radio1
Radio2
Prix du spot
40 000
50 000
15 000
12 000
Le budget prvu pour le mois venir est de 2 M, lentreprise veut limiter le nombre de spots
tlviss diffuss sur la priode 25 au maximum.
Elle souhaite que le nombre de contacts 10-15 ans soit au moins 3 fois suprieur ceux des
contacts 35-55 ans.
Il serait souhaitable aussi que le nombre de contacts 15-25 ans soit au moins de 8000000
Enfin pour des raisons commerciales la diffrence entre les deux budgets radios ne doit pas
excder 200 000
20 La Socit Electromga
La socit Electromga fait de limport de matriel lectronique. Elle met les produits (A, B
et C) aux normes de scurit du march intrieur dans un atelier dlectronique et peint les
diffrents produits. De plus elle a cr un nouveau produit (le produit D)qui est fabriqu
partir des produits (finis et modifis) A et B(une unit de chaque produit A et B est incorpore
dans chacune unit du produit D). Elle peut recevoir par mois jusqu 500 produits A, 1200
produits B et 200 produits C.
Ces produits sont respectivement achets au prix de 400 , 350 et 500 lunit.
Les consommations dans les diffrents ateliers sont les suivantes :
Page 43
Page 44
Programmation dynamique
PROGRAMMATION DYNAMIQUE
Nous n'tudierons dans ce chapitre que le cas de la programmation dynamique dterministe et
o l'ensemble des dcisions est fini.
21 Un exemple
Une entreprise doit fabriquer pour les trois semaines venir 6 units d'un produit donn. Le
cot de production et stockage est des produits, suivant leur semaine de production, est donn
dans le tableau suivant :
Quantits fabriques
Semaine 0
1
2
3
4
5
6
20
23
29
40
60
75
80
1
20
25
32
42
68
75
80
2
20
26
35
41
66
73
78
3
Par exemple, si l'on ralise la production demande avec 1 unit en premire semaine et 5
units en troisime semaine le cot total sera alors de : 23 + 20 +73 = 116
21.1 Analyse du problme
Le systme S est constitu du dpartement production sur trois semaines. Il peut tre
considrer comme constitu d'une suite croissante de systmes embots :
S0=dpartement de production avant la premire semaine
S1=dpartement de production la premire semaine
S2=dpartement de production les deux premires semaines
S3=S=dpartement de production sur les trois semaines
Avec S0 S1 S2 S3=S, on dit que l'on a dcompos le problme en trois tapes.
Les actions : il s'agit ici de dterminer les quantits produire chaque semaine. C'est donc une
squence de trois dcisions (appele stratgie) ; chaque sous systme il est possible
d'associer une sous squence de dcisions (appele sous stratgie).
Les paramtres structurels sont : la quantit totale fabriquer, les cots de production.
Les variables d'tat sont la quantit totale fabrique, le cot total de production. Remarquons
que nous pouvons associer les mmes variables d'tat au diffrents sous systmes dfinis plus
haut, c'est dire chaque tape.
Page 45
Programmation dynamique
Minimiser
S0
S1
S2
Il s'agit de trouver le chemin de cot minimum qui partant de l'tat initial 0 du systeme S0,
atteint l'tat final 6 du sytme S3. Il serait possible ici d'explorer tous les chemins, mais nous
allons montrer sur cet exemple, un algorithme permettant de diminuer de faon significative
la combinatoire des chemins.
21.4 Rsolution du problme.
La fonction conomique peut s'crire
f(x1,x2,x3)=(g1(x1)+ g2(x2)) + g(x3) avec x1+x2+x3=6
Page 46
Programmation dynamique
On peur alors crire :
Max
x1+ x 2 + x 3= 6
(g1( x1) + g 2( x 2) ))
x1+ x 2 = 6 x 3
C'est dire qu'il n'est pas ncessaire de mmoriser tous les chemins qui conduisent de l'tat
initial un tat donn du systme S2, mais seulement ceux qui correspondent au maximum de
la fonction conomique restreinte S2. Ceci pourrait s'noncer de la faon suivante : "toute
sous stratgie d'une stratgie optimale est optimale". Attention cela ne signifie pas que pour
chaque tape il ne faut conserver que le meilleur tat (c.a.d. celui correspondant au cot
minimum) mais qu'il suffit de conserver pour chaque tape et pour tous les tats de cette
tape la sous stratgie conduisant au cot minimum. Ceci nous permettra de rduire chaque
tape le nombre de "chemins explorer".
Appliquons ce principe la rsolution du problme. Nous allons construire des tableaux
concernant les diffrentes tapes, en mettant en ligne les tats de l'tape n et en colonne les
tats de l'tape n+1, chaque case du tableau contenant la valeur de la fonction conomique
pour l'tape n+1. La colonne la plus gauche du tableau contenant la valeur optimale de la
fonction conomique l'tape n (pour chaque tat), la dernire ligne contenant la valeur
optimale de la fonction conomique pour chacun des tats de l'tape n+1.
Premire tape : passage du systme S0 au systme S1
Le seul tat possible pour S0 est 0, les tats possibles pour S1 sont les productions possibles
en premire semaine soit (0,1,2,3,4,5,6).
S1
S0
Optimum S0
0
0
Optimum (S1)
0
20
20
1
23
23
2
29
29
3
40
40
4
60
60
5
75
75
6
80
80
Optimum S1
20
23
29
40
60
75
80
Optimum S2
0
1
2
3
4
5
6
0
40
1
45
43
2
52
48
49
3
62
55
54
60
4
88
65
61
65
80
5
95
91
71
72
85
95
40
43
48
54
61
71
6
100
98
97
82
92
100
100
82
A ce stade les seuls "chemins" conservs sont ceux qui correspondent l'optimum de la
fonction conomique pour chaque tat. C'est dire que le graphe, pour l'tape suivante est
rduit :
Page 47
Programmation dynamique
S0
S1
S2
S3
S2
40
43
48
54
61
71
82
Optimum S2
0
1
2
3
4
5
6
S3
6
118
116
114
95
96
97
102
95
Page 48
Programmation dynamique
S0
S1
S2
S3
A chaque tape i sont associes des dcisions qui concerne le passage du sous systme Si au
sous systme Si+1. Nous supposerons ici que ces dcisions sont en nombre fini. Une nuplet
compos d'une dcision pour chaque tape est appele une stratgie : (d1,d2,..,dn). Un sousensemble de dcisions conscutives est appel une sous stratgie (par exemple (d2,d3,d4)).
A chaque tape sont associes des variables d'tat privilgies, dont l'ensemble des valeurs
possibles est appel ensemble des tats du systme l'tape i. Nous supposerons aussi que ces
valeurs sont en nombre fini. Les tats du systme S0 s'appellent les tats initiaux, ceux du
systme Sn les tats finaux. Les tats du systme l'tape i, reprsentent les diffrentes
consquences possibles de toutes les sous stratgies (d1,d2,..di).
Page 49
Programmation dynamique
Un tat ei+1, de l'tape i+1, est dit accessible partir d'un tat ei, de l'tape i, s'il existe une
dcision di permettant de passer de ei ei+1. Ce sont les contraintes de fonctionnement du
systme qui dfinissent l'accessibilit d'un tat par rapport un autre.
Enfin la fonction conomique est dfinie comme la somme des valeurs des dcisions d'une
stratgie, cette fonction dpend donc des diffrents tats par lesquels passe la stratgie au
cours des n tapes.
22.2 Le principe de Bellman
Nous raisonnerons ici dans le cas d'une maximisation.
Notons di la dcision l'tape i, et ei l'tat atteint cette tape, la fonction conomique peut
s'crire :
i =n
i =n
i= p
i = p +1
i =1
ce qui revient simplement dcomposer les n tapes en deux sous-ensembles : les tapes 1 p
et les tapes p+1 n.
Pour un tat ep+1 fix, notons :
f p (ep + 1) =
max
d 1, d 2 , dp ,e1,e 2 , ep
max
d 1, d 2 , dn ,e1, e 2 ,en
max
Ce qui revient dire que la sous stratgie menant de l'tat e1 l'tat ep+1 est optimale, ce
qui s'nonce sous le nom de principe de Bellman :
Toute sous stratgie d'une stratgie optimale est elle-mme optimale.
On peut alors rsoudre le problme par rcurrence, pour chaque tat terminal de l'tape i,
il suffit de dterminer les stratgies optimales conduisant cet tat, les autres stratgies
sont sans intrt pour la suite de la rsolution.
Pour dmarrer la rsolution on partira de l'ensemble des tats initiaux ou finaux le plus
simple, c'est dire celui qui a le moins d'lments ; dans l'exemple trait plus haut ces
deux ensembles n'avaient qu'un lment, il tait donc indiffrent de partir de l'un ou de
l'autre.
22.3 Mthode de rsolution
Bien qu'il n'y ait pas de mthode gnrale permettant de rsoudre un programme dynamique,
avec les restrictions que nous nous sommes imposes ( problme dterministe, nombre fini
d'tape, de dcisions et d'tats chaque tape) il est souvent possible d'utiliser une
prsentation identique celle que nous avons utilise lors de l'exemple.
Pour chaque tape on construira donc un tableau rectangulaire ayant la prsentation suivante :
Page 50
Programmation dynamique
Etats de l'tape i+1
Etats de
l'tape i
Valeurs
optimales de
l'tape i
V1,i
E1,i
Vj,i
Ej,i
E1,i+1
Ek,i+1
Dans la cellule se trouvant l'intersection de la ligne de l'tat Ej,i (de l'tape i) et de la colonne
de l'tat Ek,i+1 (de l'tape i+1) on indiquera la valeur de la fonction conomique pour atteindre
l'tat Ek,i+1 en passant par l'tat Ej,i s'il existe une dcision di permettant ce passage, cette
valeur est : Vj,i + gi(di) ; sinon on indique la non-accessibilit de l'tat.
Dans la dernire ligne on dtermine pour chaque tat de l'tape i+1, la valeur optimale de la
fonction conomique pour atteindre cet tat.
La dernire tape permet de dterminer la valeur optimale de la fonction conomique, pour
dterminer la stratgie correspondante, il suffit de "remonter" les tableaux, ce qui donne la
suite des tats et d'en dduire les dcisions correspondantes. Remarque, il est aussi possible de
rajouter au tableau une ligne mmorisant, chaque tape et pour chaque tat, la dcision
optimale.
23 Mise en place sous Excel
Nous allons reprendre lexercice dintroduction et expliquer les formules utilises pour la
rsolution de cet exemple sous Excel (fichier Stocks_Dyn.xls).
Pour la deuxime tape, nous avons, des formules particulires pour les optima prcdents,
qui viennent directement du tableau des donnes :
Le tableau de donnes des cots a t nomm Couts , la colonne B contient les tats du
systme S1 (la production de la premire semaine), la ligne 2 contient les tats du systme S2
(la production des deux premires semaines).
Pour afficher le cot associ chaque tat de S1, chaque production de la premire semaine, il
suffit daller lire dans le tableau de donnes llment de la premire ligne correspondant, ceci
se fait avec index, lindice de la ligne est 1, celui de la colonne ltat+1, puisque ces tats
commencent 0.
Pour les cases de calcul transitoire, il faut tout dabord vrifier que ltat de S2 est accessible
par ltat de S1, ce qui est fait avec la condition $B3<=C$2 pour la premire case (attention
aux $ pour la recopie), si cette condition nest pas vrifie, rien nest affiche dans la case,
sinon le cot correspondant est affich : ce cot est gal au minimum de ltat de dpart plus
le cot de production de la seconde semaine correspondant C$2-$B3 produits. Ce dernier
cot se lit dans le tableau de donnes initiales, comme prcdemment, mais dans la ligne 2.
Enfin la dernire ligne contient le cot minimum de chaque tat du systme S2, qui nous
servira dans ltape suivante.
Page 51
Programmation dynamique
Il est enfin possible avec Excel de connatre pour chaque tat final, le chemin optimal, cest ce
que nous allons faire en rajoutant deux lignes notre tableau :
Pour trouver la production de la premire semaine, il suffit daller lire dans la colonne B
llment qui se trouve sur la ligne du minimum de la colonne courante, cest ce que fait la
fonction EQUIV (avec comme dernier argument 0, et comme premier argument le minimum),
la fonction index retourne alors la valeur cherche.
La production de la deuxime semaine est obtenue par simple diffrence entre la production
des deux semaines et la production de la premire semaine.
Pour ltape suivante, signalons simplement les diffrences, la premire colonne du tableau
est obtenue en lisant la valeur de loptimum prcdent, les formules internes au tableau sont
les mmes, en changeant cependant la ligne du tableau de donnes (3 et non 2) :
Pour les productions optimales, il faut passer par lintermdiaire de la production des
semaines 1 et 2, que lon dcompose en utilisant les rsultats de ltape prcdente.
Remarque : nous avons donner les formules internes au tableau avec les adresses relatives et
absolues, bien quici ce soit inutile puisquil ny a quun seul tat ; mais elles seraient
ncessaires si le problme avait plus de trois tapes.
Page 52
Programmation dynamique
Il s'agit de dterminer le plus court chemin menant de la ville A la ville B, les villes
intermdiaires et les distances entre ces villes vous sont donnes ci dessous :
C
L
B
A
E
C
47
D
45
E
39
F
38
C
D
E
F
G
13
11
27
30
H
48
28
44
16
I
37
48
47
44
J
41
27
20
22
G
H
I
J
K
47
50
27
35
L
16
12
35
47
M
31
15
44
39
N
27
42
25
21
K
L
M
N
B
39
28
49
14
Questions :
sest adresse trois sous-traitants qui lui ont fait les propositions suivantes :
Sous-traitant 1
Page 53
Programmation dynamique
Nombre de pices
Prix en K
1
38
2
65
3
100
4
143
5
185
Sous-traitant 2
Nombre de pices
Prix en K
2
75
4
150
6
220
8
280
Sous-traitant 3
Nombre de pices
Prix en K
3
90
6
200
9
315
Questions :
Une socit d'investissement envisage de placer jusqu' 10M$, qu'elle peut investir dans
quatre types de projets collectifs, l'unit d'investissement tant le million de $. Elle peut
rpartir son investissement comme elle l'entend, par exemple tout placer dans le projet B, ou
bien placer 3M$ en A, 2 en B, 4 en D, par exemple.
Le tableau ci-dessous montre le profit qui rsultera de chaque investissement : ainsi, un
placement de 5M$ en B rapporterait 0,9M$ et un placement de 3M$ en D rapporterait
0,42M$.
Placement
0
1
2
3
4
5
6
7
8
9
10
0,00
0,28
0,45
0,65
0,78
0,90
1,02
1,13
1,23
1,32
1,38
0,00
0,25
0,41
0,55
0,65
0,75
0,80
0,85
0,88
0,90
0,90
0,00
0,15
0,25
0,40
0,50
0,62
0,73
0,82
0,90
0,96
1,00
0,00
0,20
0,33
0,42
0,48
0,53
0,56
0,58
0,60
0,60
0,60
Questions :
La socit Mdiajeux lance une campagne nationale pour un nouveau jeu. Elle veut appuyer
cette campagne par une campagne rgionale dans 4 rgions. Pour cela elle a slectionn
quatre radios locales ayant une forte audience et se propose de passer un certain nombre de
spots publicitaires durant le mois venir.
Daprs les campagnes prcdentes lapport de ventes supplmentaires du aux spots peut tre
valu, en fonction du nombre de spots diffuss par jour, selon le tableau suivant :
Page 54
Programmation dynamique
Nombre de
spots
Rgion1
0
1
2
3
4
5
6
7
8
9
10
11
12
0
1000
2500
7500
18000
32000
41000
44500
45500
46000
46200
46200
46200
0
700
2500
8000
21000
42000
59000
66000
69000
70000
70000
70000
70000
0
1400
9000
34000
54000
59000
60000
60000
60000
60000
60000
60000
60000
0
600
1800
4000
9000
19000
32000
43000
49000
52000
53000
53500
53600
Dautre part la marge ralise sur chaque vente est de 20 et le cot dun spot publicitaire
dpend de la radio locale, le tableau suivant vous donne le cot mensuel dun spot journalier :
Prix mensuel dun spot
Rgion1
40 000
Rgion2
80 000
Rgion3
60 000
Rgion4
40 000
Page 55
Programmation dynamique
28 Exploitation minire
Le schma ci-dessous vous donne les estimations profit d'exploitation d'une mine(vue en
coupe verticale) :
-4 -4 -4 -4
-4 -4 -4
-4 -4
-4
8
0
-4
-4
-4
12
12
8
0
-4
-4
12
12
12
12
8
0
-4
0
8
12
12
12
12
8
0
-4
-4
0
8
12
12
12
12
-4
-4
-4
-4
0
8
12
12
-4
-4
8
8
-4
-4
0
8
-4
-4
-4
4
-4
-4
-4
-4
-4
4
4
-4
-4
-4
-4
-4
-4
-4
-4 -4 -4 -4
-4 -4 -4
-4 -4
-4
Il s'agit de dterminer la stratgie optimale de creusement de cette mine, sachant que la pente
maximale doit rester infrieure 45.
Questions :
29 Entreprise ABC
Une entreprise ABC doit fabriquer 10 units dun produit X dans la journe. Pour ce faire,
elle dispose de trois machines M1, M2, M3 de capacit de production journalire respective
de 9, 8 et 5 units.
Les marges dgages par les diffrents niveaux de production pour les trois types de machine
sont donnes dans le tableau suivant
M1
M2
M3
0
-360
-360
-300
1
-120
-160
-140
0
-50
20
3
120
150
180
Production
4
5
360
480
260
460
340
500
6
600
570
7
840
770
8
960
880
9
1080
Questions :
Page 56
Programmation dynamique
La socit Copsi-Cola produit des boissons rafrachissantes dans son usine de la rgion MidiPyrnes, dont la capacit de production est de 1200 T par semaine. La demande est connue
une semaine l'avance, ce qui permet thoriquement de produire exactement la quantit
ncessaire, si cette demande est infrieure 1200 T, ce qui est le cas toute l'anne sauf durant
les treize semaine de la saison estivale, priode durant laquelle, il est possible suivant les
conditions mtorologiques que la demande excde la capacit de production, ce qui conduit
constituer des stocks. La demande hebdomadaire durant les treize semaines considres peut
tre considre comme prenant six valeurs quiprobables donnes dans le tableau suivant :
Semaine
1
2
3
4
5
6
7
8
9
10
11
12
13
600
600
800
900
900
1000
1000
800
700
800
900
800
800
Demandes quiprobables
700
800
900
700
800
900
900
1000
1100
1000
1100
1200
1000
1100
1200
1100
1200
1300
1100
1200
1300
900
1000
1100
800
900
1000
900
1000
1100
1000
1100
1200
900
1000
1100
900
1000
1100
1000
1000
1200
1300
1300
1400
1400
1200
1100
1200
1300
1200
1200
1100
1100
1300
1400
1400
1500
1500
1300
1200
1300
1400
1300
1300
Page 57
LA SIMULATION
31 Dfinition
Simulation : mthode de mesure et d'tude consistant remplacer un phnomne, un systme
par un modle plus simple mais ayant un comportement analogue (Larousse).
Le systme ou phnomne analys peut tre schmatis sous forme d'un modle mcanique,
lectronique ou logico-mathmatique. Nous nous intresserons ici uniquement la
reprsentation du systme sous la forme d'un modle informatisable.
L'objectif d'un modle de simulation peut tre simplement descriptif : tudier le
comportement d'un systme sous diffrentes hypothses d'volution de l'environnement, ou
aussi normatif (dcisionnel): en simulant plusieurs dcisions envisages choisir la meilleure
ou la moins mauvaise.
32 Typologie des modles de simulation
Une premire segmentation possible des modles de simulation peut se faire en fonction du
type des connaissances que l'on a sur le systme et son environnement. Si cette connaissance
est certaine, on parlera de simulation dterministe; s'il est possible (en fonction des
expriences passes ou de l'exprience) de probabiliser l'apparition de diffrents tats, on
parlera alors de simulation probabiliste.
33 La simulation dterministe
Dcideur
Action
Systme/environnement
Feedback
La boucle de feed-back envoie au "dcideur" des informations sur le systme et son
environnement, qui lui permettent de modifier de faon automatique son action chaque
instant. Par exemple un thermostat capte la temprature ambiante, ce qui lui permet de rgler
le chauffage en fonction d'un objectif; une usine peut modifier sa production en fonction de la
demande constate sur le march et du niveau de ses stocks.
34 La simulation probabiliste
Dans ce cas, les vnements qui apparaissent lors de l'volution du systme ne sont pas
connus avec certitude, mais on est capable de probabiliser cette apparition: par exemple, dans
une tude de files d'attente un guichet, on peut donner la loi de probabilit du temps sparant
deux arrives et ventuellement aussi la loi de probabilit du temps de service.
Page 58
Environnement et le systme : dfinis sur une priode (jour, mois, anne,..) divise en
sous priodes, le nombre de sous priodes peut tre fixe (heure, jour,..)ou non (arrive
dun client, fin de service,..) ; voir plus loin la diffrence entre simulation vnement et
simulation temps.
Les dcisions sont en nombre fini, ce nombre est souvent assez faible.
Les paramtres structurels sont pour certains dfinis par des lois de probabilit
(arrives de clients une caisse, temps de service, demande..), dautres sont
dterministes (cots de production, cot dun spot)
Les variables dtat sont des variables alatoires, cest dire que leurs valeurs suivent
des lois de probabilits, quil nest gnralement pas possible de (ou que lon ne sait
pas) calculer analytiquement. Ces variables dtats sont dfinies soit au niveau de la
sous-priode (attente du dernier client arriv, stock en dbut de sous priode), puis sont
ventuellement agrges au niveau de la priode.
Le modle dvaluation porte donc sur des variables alatoires (agrgation sur la
priode des variables dtat), plus prcisment sur des paramtres de ces variables
(moyenne, cart type, fractile).Il est donc ncessaire dapprocher la distribution des
variables alatoires de faon empirique en itrant le modle dune priode.
En rgle gnrale une simulation vnement permet une analyse plus fine du systme, mais sa
ralisation informatique (sur tableur du moins) est plus dlicate et son cot de traitement plus
lev.
Page 59
Page 60
la seconde ligne (ou colonne) les valeurs prises par la variable alatoire. La valeur recherche
dans la table tant la valeur prise par la fonction alea(). Si cumul est le nom de la table, on
utilisera donc la formule :
RECHERCHEH(ALEA();cumul;2) (ou RECHERCHEV(ALEA();cumul;2)).
Dans certains cas particuliers on peut se passer de table de recherche : par exemple pour
simuler le jet d'un d on peut utiliser la formule ENT(6*ALEA())+1). De faon plus gnrale
pour simuler une loi discrte a valeur entire sur l'intervalle [p;q], on utilisera la formule :
ENT((q-p+1)*ALEA())+p
Pour une loi exponentielle de paramtre l, on utilisera le fait le fait que la loi exponentielle de
paramtre est la loi gamma particulire de paramtres 1 et 1/. L' inverse de la fonction de
rpartition de la loi gamma tant donne dans Excel, on utilisera la formule
LOI.GAMMA.INVERSE(ALEA();1;)
34.4 Construction d'un modle de simulation
Aprs avoir dlimit dans le temps et dans l'espace le systme dont on veut tudier le
comportement, la construction du modle comportera deux phases:
Pour raliser les itrations sous Excel, on peut procder de diffrentes faons ; nous allons en
exposer les trois principales sur un exemple.
34.5 Exemple: Gestion de stocks
On considre une entreprise distribuant un produit A dont la demande mensuelle suit une loi
de probabilit uniforme sur l'intervalle de nombres entiers [400;1000] . Chaque mois
l'entreprise envisage de commander 700 units (quantit appele Commande) qui seront
disponibles le mois suivant. Le responsable commercial aimerait estimer les ruptures de
stocks sur une anne.
Page 61
La dcision que nous avons prendre est le niveau de commande ( actuellement 700).
Les paramtres structurels sont ici simplement la demande qui est probabilise, on pourrait
aussi prendre en compte par exemple un cot unitaire de stockage mensuel moyen, un cot
unitaire de rupture.
Les variables dtat sont les lments qui permettent de suivre mensuellement la satisfaction
de la demande, cest dire le stock initial, le stock final, le nombre de rupture et le
pourcentage de demandes non satisfaites.
Les quations de fonctionnement permettent de calculer au cours du temps lvolution de ces
variables dtat.
Les consquences retenues par le directeur sont les ruptures, cest dire le nombre total de
ruptures annuelles et peut-tre aussi le pourcentage annuel de demandes non satisfaite.
La mise en quation est la suivante.
Nous allons tudier dans un premier temps le systme sur une anne soit une priode de 12
mois, puisque la demande est mensuelle.
1) Simulation de la demande sur une anne.
Chaque mois la demande sera donne par la formule :
demande(m)=400+ENT(601*ALEA())
2) Calcul des stocks initiaux et finaux du mois(m) :
Stock_initial(m)=Stock_final(m-1)+Commande
Stock_final(m)=Max(Stock_initial(m)-demande(m);0)
On initialisera le stock initial du mois 1 0.
3) Calcul de la quantit en rupture chaque mois :
rupture(m)=Max(demande(m)-Stock_initial(m);0)
%rupture(m)=rupture(m)/demande(m)
On peut alors crire le modle sous Excel, sur une feuille nomme Modele. Les formules
entres sont les suivantes :
Exemple de simulation sur une anne :
Page 62
Il nous reste agrger sur lanne les variables dtat qui vont nous servir de consquence, par
exemple ici le nombre total de rupture sur lanne, ou le pourcentage annuel de rupture :
12
rupture_annuelle= rupture(m)
m=1
rupture_annuelle
%rupture_annuelle= 12
demande(m)
m=1
Pour obtenir des rsultas diffrents stocks dans une table pour les variables dtat
consquences, il suffira donc de construire une table un paramtre dont les cellules dentre
en colonne (ou en ligne)sont associe une cellule vide, chaque ligne correspondant au
rsultat dune itration ; la table doit donc contenir autant de lignes que la taille de
lchantillon que nous voulons constituer.
Le recalcul de la feuille provoquera automatiquement le tirage alatoire dautre nombres,
donc de nouvelles valeurs des consquences.
Page 63
On construit la table stockant les rsultats voulus pour un niveau de commande donn, ici le
total des ruptures et le pourcentage :
La cellule B19 tant une cellule vide de la feuille.
En utilisant des formats personnaliss simples (pour la premire ligne de la table), on obtient
alors les rsultats suivants :
On peut alors extraire de la table, tous les lments statistiques qui sont intressant, sur
lexemple nous nous sommes limits la moyenne, mais on pourrait ( laide del fonction
Frquence), par exemple, sortir lhistogramme des valeurs.
Il est aussi possible, si lon veut tester diffrents niveaux de commande, de construire une
table deux entres, lentre en colonne correspond au numro de litration et lentre en
ligne la commande. Cependant dans ce cas, nous sommes limits un seul critre, ici nous
avons choisi le pourcentage de demande non satisfaite :
On pourra alors, faire les statistiques voulues pour chacun des niveaux de commande.
Remarque, ici il serait plus intressant de prendre un indicateur plus synthtique par exemple
la somme des cots de stockage et de rupture.
Notons cependant que, si le nombre de dcisions est faible (3 ou 4), il est prfrable de
construire un modle permettant de tester, dans un mme environnement (cest dire avec le
mme tirage alatoire), les diffrentes dcisions. Il suffit alors dune table une seule entre
pour pouvoir comparer sur plusieurs critres ventuellement les dcisions.
Utilisation des itrations
Indiquons par exemple le calcul de la moyenne des ruptures annuelles.
Nous avons besoin de quatre cellules : une cellule drapeau, qui indiquera si les itrations sont
commences, une cellule pour la somme des ruptures obtenues entre l'itration 1 et l'itration
Page 64
N, une cellule contenant la moyenne des ruptures et enfin une cellule contenant le numro de
l'itration en cours.
Pour calculer la somme des ruptures entre l'itration 1 et N, nous utiliserons la formule :
somme_ruptures(N)=somme_ruptures(N-1)+ ruptures(N)
soit, en ne tenant pas compte des indices,:
somme_ruptures=somme_ruptures+ruptures
la cellule somme_ruptures fait rfrence elle-mme, il ne faut donc pas oublier de
l'initialiser 0, avant que les itrations ne commencent. La formule contenue dans cette
cellule sera alors :
somme_ruptures=si(drapeau=0;0;somme_ruptures+ruptures)
D'o la ncessit d'un indicateur de dbut d'itration, contenu dans la cellule drapeau.
De la mme faon, pour obtenir le numro de l'itration en cours, on crit la formule :
itration_en_cours=si(drapeau=0;0;itration_en_cours+1)
Attention : il nous faut modifier la formule dfinissant la demande, car l'ala n'est pas
recalcul automatiquement chaque itration puisqu'Excel ne recalcule que les cellules
dpendantes. Dans la demande nous utiliserons la formule :
demande=si(iteration_en_cours>0;400+ent(101*alea());400+ent(101*alea()))
ainsi, comme la cellule iteration_en_cours est modifie chaque itration, le test est refait et
l'ala recalcul.
Enfin la moyenne des ruptures sera donne pour viter le message d'erreur #DIV/0 (
l'initialisation) par la formule :
moyenne_ruptures=si(drapeau=0;0;somme_ruptures/itration_en_cours)
Pour faire fonctionner le modle, on choisit le mode de calcul manuel et le nombre d'itrations
que l'on dsire effectuer. On initialise ensuite les valeurs en mettant 0 dans la cellule drapeau,
puis en appuyant sur F9. Pour effectuer les itrations on met 1 dans la cellule drapeau, puis on
appuiera sur F9.
On obtient alors un tableau semblable :
drapeau
itration en cours
1
100
Mois
1
2
Demande
403
459
Stock Initial
450
497
Stock Final
47
38
Rupture
0
0
%rupture
0.00%
0.00%
11
12
402
500
588
636
186
136
0
0
0.00%
0.00%
5579
55.79
Remarque importante : lors de l'utilisation d'itration dans Excel il faut faire trs attention
l'ordre de recalcul de la feuille, de faon ce que les cellules soient bien mises jour avec les
nouvelle valeurs de chaque itration. Ceci rend dlicat l'utilisation de cette mthode si l'on ne
matrise pas bien l'ordre de recalcul des cellules.
Page 65
Remarque : si longlet Dveloppeur napparat pas, utiliser le bouton Office, Options Excel
Standard pour lafficher.pour lafficher.
Nous obtenons alors une boite de dialogue :
Aprs avoir tap un nouveau nom de macro le bouton Crer est actif, il suffit de cliquer sur ce
bouton pour se retrouver dans lenvironnement de Visual Basic (VB) adapt Excel.
Lutilisateur tape alors le corps de la procdure (Subroutine) l o se trouve le curseur :
Les instructions suivantes mettent dans une cellule nomme mamoyenne la moyenne des
ruptures de stocks obtenue pour un nombre ditrations plac dans la cellule nomme iter. La
somme des ruptures dune simulation annuelle est stocke dans la cellule nomme rupture :
Page 66
Mois
1
11
12
Demande
473
.
446
497
Stock Initial
450
450
454
Stock Final
0
4
0
Rupture
23
0
43
196
%rupture
4.86%
.
0.00%
8.65%
rupture
Sub itration()
REM TOTAL EST UNE VARIABLE LOCALE CONTENANT LA SOMME DES RUPTURES
Dim total As Long
total = 0
Application.Calculation = xlCalculationManual
For i = 1 To Range("iter").Value
Application.Calculate
total = total + Range("rupture").Value
Next i
Range("mamoyenne").Value = total / Range("iter").Value
Application.Calculation = xlCalculationAutomatic
End Sub
Quelques remarques sur ce programme. Les instructions commenant par Rem sont des
commentaires non excuts. Le langage est un langage "objet", ici les objets que nous
manipulons sont des zones de cellules.
Range("iter") dsigne la zone de cellules ayant pour nom iter. Dans notre exemple cette zone
ne contient quune seule cellule, nous pouvons alors avoir accs sa valeur par la proprit
Value (proprit en lecture, criture).
Remarque : Si lon voulait conserver les rsultats de toutes les annes simules pour obtenir
diffrentes statistiques, il suffirait par exemple de dfinir une zone suffisamment grande
nomme rsultat :
Itration
1
100
Rupture Annuelle
112
Zone rsultat
16
Ici Range("rsultat") est une zone contenant deux colonnes et plusieurs lignes pour accder
une cellule particulire, on utilise la proprit Cells(i,j) qui dsigne la cellule se trouvant la
ime ligne et jme colonne partir du coin suprieur gauche de la zone.
Il est aussi possible, aprs avoir calcul certaines caractristiques de lchantillon obtenu (la
moyenne par exemple) prcdemment, dcrire une macro permettant de tester diffrents
niveaux de commande. La cellule contenant la moyenne est appelle mamoyenne, comme dans
le premier cas. En pratique il serait judicieux de garder aussi un indicateur sur le stock moyen,
car en augmentant le niveau de commandes on diminue les ruptures mais on gonfle les
Page 67
stocks !! Sans dtailler les instructions, nous donnons ici la procdure permettant dobtenir ce
rsultat, il est laiss au lecteur le soin de modifier la procdure pour stocker aussi le niveau
moyen de stocks :
Sub compare()
Const commande_min = 550, commande_max = 850, pas = 50
Rem initialisation de la commande
Range("Commande").Value = commande_min
For i = 1 To (commande_max - commande_min) / pas + 1
Rem on appelle l'iteration
itration
Rem On stocke les resultats
Range("Titre").Cells(1, i) = Range("Commande")
Range("Rupmoy").Cells(1, i) = Range("mamoyenne")
Rem on peut se passer de prciser .valeur
Rem augmenter le niveau de commande
Range("Commande") = Range("Commande") + pas
Next i
End Sub
Page 68
Conclusion
Il est assez simple avec Excel de faire de la simulation probabiliste, la plupart du temps
lutilisation des tables est trs suffisante, pour les modles plus important en taille et o les
recalculs sont longs, les itrations peuvent tre utilises, si lon ne veut pas programmer .
Les macros offrent bien sur plus de souplesse et, pour qui veut bien investir dans le langage
de programmation, permet de construire des modles plus professionnels.
Signalons enfin quil existe aussi des addins permettant de raliser des simulations sans
toujours bien comprendre ce qui est fait, ces addins permettent le tirage au hasard et les
itrations sans que lutilisateur ninterviennent autrement que par un choix de menu.
Page 69
EXERCICES DE SIMULATIONS
35 Socit Mtallurgique et Minire.
La socit mtallurgique et minire (SMM) a cr, en 1970, une usine sidrurgique dans un
port de l'Ouest de la France. L'installation portuaire de cette usine comporte un quai pouvant
recevoir en mme temps deux bateaux minraliers de 10.000 tonnes environ. Les quipements
du quai ont t conus pour que chaque minralier puisse tre dcharg dans la journe.
Les besoins actuels de l'usine en minerai sont de 2.500.000 tonnes/an. Cependant, des accords
avec des partenaires europens, ont conduit la SMM prvoir le doublement de la capacit de
l'usine d'ici 1993. Des contacts ont dj t pris avec les fournisseurs de minerai de faon
pouvoir approvisionner l'usine cette date.
Le contrat qui lie la SMM et les armateurs des minraliers ne pourra tre modifi : la SMM
s'est engage dcharger le bateau dans les 24 heures suivant son arrive. En cas de retard, la
SMM doit payer une indemnit de 7000F par jour d'attente et par bateau.
Les installations portuaires de la SMM peuvent tre utilises 24 heures sur 24, 7 jours sur 7.
Devant le doublement de la capacit de l'usine et donc du nombre de bateaux dcharger, la
socit SMM craint de voir augmenter dramatiquement les pnalits qu'elle aura payer aux
armateurs, elle a donc demand son service des Etudes de proposer des solutions pour
augmenter la capacit d'accueil des navires.
Deux solutions ont t proposes :
1) L'agrandissement du quai actuel, qui porterait la capacit journalire de dchargement 3
bateaux. Le cot de cette solution est de 3.000.000 F. Pour que cet investissement, d'aprs les
normes en vigueur la SMM, soit considr comme rentable, il doit permettre d'conomiser
500.000F de pnalits par an.
2) Le doublement du quai, ce qui porterait la capacit journalire de dchargement 4
bateaux. Le cot de cette solution est de 7.500.000 F. Pour que cet investissement, d'aprs les
normes en vigueur la SMM, soit considr comme rentable, il doit permettre d'conomiser
1.250.000F de pnalits par an.
Les tudes statistiques ralises par le pass ont montr que les arrives journalires des
bateaux taient pratiquement poissonniennes. Le service des tudes pense que cette
adquation persistera dans le futur.
La socit SMM vous demande de l'aider dans sa prise de dcision.
Annexe : Probabilits poissonniennes
Moyenne
0 bateau / jour
1 bateau / jour
2 bateaux / jour
3 bateaux / jour
4 bateaux / jour
5 bateaux / jour
1,370
0,26
0,35
0,23
0,11
0,04
0,01
Page 70
Vous tes charg, par le service Mthodes d'une grande Compagnie Ptrolire, d'analyser le
travail du pompiste de la Station Service de cette compagnie situe sur la Nationale 20,
Salbris, Loir et Cher.
Dans le cadre d'une exprience, cette station service a embauch un jeune pour servir ses
clients. Les clients ne peuvent pas se servir seuls.
Le Grant de la Station Service trouve que les clients attendent trop longtemps pour tre
servis, et que cela lui fait perdre des clients. Il souhaite donc embaucher un second pompiste.
Le service Mthodes envoy sur place des agents chargs d'analyser le flux de clients ainsi
que le temps mis par le pompiste pour les servir.
Aprs de trs nombreux chronomtrages, il a pu tre tabli que le temps sparant l'arrive de
deux clients suit une loi de poisson de moyenne 4 minutes.
Le temps de service est uniformment distribu, mais entre une et sept minutes.
Dans un premier temps, vous pouvez laborer un tableau comme celui donn ci-dessous
(d'autres mthodes sont, bien entendu, possibles).
Arrives
5
2
8
3
3
2
4
4
4
4
2
1
Temps
Service
6
3
5
3
7
5
5
2
6
7
3
3
Chronologie
5
7
15
18
21
23
27
31
35
39
41
42
Dbut
service
5
11
15
20
23
30
35
40
42
48
55
58
En considrant que le pompiste travaille 540 minutes par jour (sur quatre jours, les trois autres
jours la station fonctionne en automatique avec la carte bancaire), calculer le temps total
d'attente des clients sur une journe, le temps moyen d'attente par client, puis le temps o le
pompiste, lui, attend un client servir.
Sans lment conomique supplmentaire, pouvez-vous donner raison ou tort au Grant de la
Station Service?
Quels sont les lments conomiques dont vous auriez besoin pour aller plus loin?
Comment pourriez-vous introduire un second pompiste dans le modle, sachant que la station
service est quipe de plus de deux pompes pour chaque type de carburant (Sans Plomb 98,
Super Plomb 97, et Gazole)?
Remarque : dbut de solution dans le fichier Pompiste.xls
Page 71
Frquences
10%
15%
20%
20%
20%
10%
5%
Quant la dure des soins, si 30 minutes est l'occurrence la plus frquente, la distribution des
frquences est assez large :
Temps soins
15 minutes
20 minutes
25 minutes
30 minutes
35 minutes
40 minutes
45 minutes
60 minutes
Frquences
5%
10%
15%
30%
15%
10%
10%
5%
Vous devez simuler, pendant une journe, l'arrive des patients et le travail du Dentiste.
Dterminer le temps moyen d'attente par client, le temps d'attente du dentiste le temps dont il
dispose pour le djeuner.
Quel temps sparant deux prises de rendez-vous prconisez-vous?
Page 72
Vous tes charg, par la Direction d'un magasin textile, l'enseigne Centmill, d'analyser la
politique actuelle de Gestion de stocks et d'Approvisionnement du magasin situ Boulevard
Saint Michel, dans le cinquime arrondissement de Paris.
La mthode est toujours la mme, et consiste, pour une rfrence particulire de chemises,
commander, ds que le stock passe en dessous de 200 chemises, la quantit ncessaire pour
revenir un stock de 400 chemises de cette rfrence1. Si par exemple, en fin d'une certaine
semaine, le stock final est de 34 chemises, la commande sera de 66 chemises de la rfrence
tudie.
Il peut alors arriver que le magasin subisse une rupture de stocks. Dans ce cas, la commande
est la commande habituelle plus la quantit de ventes manques.
Si une ou plusieurs nouvelles ruptures de stocks se produisent, en suivant la premire, la
commande sera, dans ce cas d'un montant gal aux ruptures (les 100 chemises du stock de
dpart ayant dj t commandes).
L'analyse des ventes des deux dernires annes, pour une catgorie de chemises a donn les
rsultats suivants :
Quantits
Probabilits
5%
10%
20%
25%
25%
10%
5%
25
30
40
50
60
70
80
Les dlais de livraisons, indpendants des quantits achetes, sont donns dans le tableau cidessous :
Semaines
Probabilits
10%
30%
20%
30%
10%
1
2
3
4
5
Sachant que le Directeur du magasin estime que le cot de stockage d'une chemise en stock en
dbut de semaine est de 1 Franc, que le cot d'une rupture de stock est estim 25 Francs
(cot d'opportunit), et qu'enfin que le cot d'une commande est de 500 Francs, quelle que
soit la quantit commande, pouvez-vous calculer le cot moyen de la politique actuelle
calcule sur 52 semaines?
Pouvez-vous proposer une meilleure politique?
Remarque : dbut de solution dans le fichier Gestocks.xls
Pour ne pas compliquer le problme, nous ne tenons pas compte de la rpartition des tailles
l'intrieur d'une rfrence.
Page 73
Page 74
L'agence ADA, de location de vhicules situe Velizy, envisage de diversifier ses produits
et de louer des utilitaires (petits camions qui peuvent se conduire avec le permis "voiture").
Le directeur de cette agence vous a demand d'analyser les chiffres actuellement disponibles (
l'agence de Velizy sous traite actuellement ce type de location l'agence de Versailles) et de
lui proposer le nombre "optimum" de camions mettre dans son parc.
Les statistiques de la demande locale sont rsumes dans le tableau suivant :
Nb camions
0
1
2
3
4
Probabilits
0.20
0.20
0.30
0.15
0.15
En ce qui concerne les dures de locations, les chiffres sont bass sur l'ensemble des agences
Ile de France et sont les suivants :
Jours de location
1
2
3
4
Probabilits
0.35
0.30
0.20
0.15
Page 75
41 La boucherie Netprix
Une suprette de la chane NetPrix vient de rnover son magasin et a modernis le rayon
boucherie. Les deux personnes qui servent ce rayon se plaignent de leur charge de travail et
du fait qu'ils doivent frquemment faire des heures supplmentaires pour servir les derniers
clients de la journe.
Ils ont demand au responsable du magasin d'tre aids par 2 apprentis. Ces apprentis seraient
pays 700 par mois charges comprises, alors que les professionnels sont pays 2500, les
heures supplmentaires tant payes 25 l'heure.
Une tude a montr que si les clients attendaient un rayon, ils prenaient moins de temps
pour faire leurs achats et que la perte de chiffre d'affaires occasionne tait d' peu prs 3 par
minute d'attente.
Pour rpondre ses employs le directeur demande une tude sur les temps d'arrive et de
service du rayon boucherie.
Les temps sparant deux arrives ont t enregistrs la minute prs, c'est dire que si le
temps tait infrieur 1 minute on codait 0, entre 1 et 3 minutes on codait 2 etc..
Les temps de services ont t arrondis la minute. Les rsultats vous sont donns dans
l'annexe.
Au vu de ces rsultats, le directeur calcula les moyennes et obtint :
moyenne des temps de service = 16,28 minutes
moyenne des temps sparant deux arrives = 16,48 minutes
Il convoqua alors les deux bouchers et leur expliqua qu'en fait, c'est plutt la suppression d'un
poste qu'il serait raisonnable d'envisager, puisqu'une seule personne semblait en moyenne
suffisante pour satisfaire pratiquement sans attente la clientle.
Les bouchers ne comprirent pas grand chose aux explications du directeur, mais lui
affirmrent que leur exprience montrait qu'il se constituait des files d'attente importante et
que pour s'en convaincre il suffisait de regarder l'tat des heures supplmentaires. Il
indiqurent mme qu'encas de suppression d'emploi de l'un d'entre eux, on courrait l'meute!
Trs perplexe le directeur vous demande une tude.
Page 76
Annexe : Rsultat de l'tude des temps entre deux arrive et des temps de service
Entre deux arrives
Temps
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
Probabilit
0,17
0,08
0,07
0,06
0,06
0,05
0,05
0,04
0,04
0,03
0,03
0,03
0,03
0,02
0,02
0,02
0,02
0,02
0,02
0,02
0,02
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
0,01
Temps de service
Service
Probabilit
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Page 77
0,01
0,01
0,02
0,02
0,02
0,03
0,04
0,06
0,08
0,09
0,11
0,12
0,11
0,09
0,07
0,05
0,03
0,02
0,01
0,01
Elments de Statistique
Page 78
Statistique Descriptive
STATISTIQUES DESCRIPTIVES
= f ( x1 , x 2 ,K , x N )
Pour connatre la valeur d'un paramtre, il faut donc connaitre chacune des valeurs prises par
la variable.
Exemples :
Page 79
Statistique Descriptive
Remarque : Dans ces deux derniers cas la variable X est en fait un couple ou un n-uple de
variables.
Collecte donnes Tableau statistique
Les donnes peuvent tre internes l'entreprise ou externes. Il est quelque fois possible
d'obtenir les informations sur l'ensemble de la population partir d'une base de donnes, par
exemple.
La plupart du temps, il ne sera pas possible, pour des raisons de cot si la population est trs
nombreuse ou simplement de connaissance parfaite de la population, de faire un recueil
exhaustif de l'ensemble des valeurs prises par les variables que l'on veut tudier. On
recueillera alors des donnes soit par sondage soit sur un panel. On traitera donc alors une
sous population appel chantillon.
Dans la suite nous considrerons la variable X restreinte la sous population.
Il faudra ensuite organiser et traiter ces donnes. Pour cela les donnes sont regroupes dans
un tableau statistique o les colonnes reprsentent les variables et les lignes les individus,
l'intersection d'une ligne i et d'une colonne j donnant la valeur de la variable j pour
l'individu i . Sous Excel on utilisera une feuille pour ce tableau en indiquant souvent le nom
des variables dans la premire ligne et ventuellement le numro de lindividu dans la
premire colonne :
Dans le cas d'une variable qualitative ordinale, les pourcentages cumuls peuvent avoir un
sens si l'on regroupe des catgories voisines (par exemple tranches d'ges ou degr de
satisfaction).
Page 80
Statistique Descriptive
Voici un exemple de rsum fourni pour la variable qualitative Marque du fichier Pfrais.xls :
Formules
Valeurs
MARQUES
1
2
3
4
Effectifs
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B3)
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B4)
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B5)
=NB.SI(Pfrais!$E$2:$E$50;Feuil1!B6)
=SOMME(C3:C6)
Marque
Marque
Marque
Marque
Total
1
2
3
4
Effectifs
9
18
10
12
49
Pourcentage
18,37%
36,73%
20,41%
24,49%
100,00%
Pourcentage
cumul
18,37%
55,10%
75,51%
100,00%
MARQUE
Marque
Marque
Marque
Marque
Total
1
2
3
4
Effectifs
9
18
10
12
49
Pourcentage
cumul
18,37%
55,10%
75,51%
100,00%
Pourcentage
18,37%
36,73%
20,41%
24,49%
100,00%
Pourcentage
30%
20%
10%
36,73%
20,41%
18,37%
24,49%
0%
1
Marques
Page 81
Statistique Descriptive
1 N
x i , cette valeur est celle qui est associe la mtrique
N i =1
euclidienne habituelle. La moyenne est la valeur la plus proche de toutes les
observations pour cette mtrique, c'est--dire que pour cette valeur la fonction :
La moyenne : =
d 2 ( y) = (xi y)
i =1
est facile de le voir, est sa sensibilit aux valeurs extrmes, une erreur de saisie peut la
modifier profondment.
La mdiane m est la valeur qui partage l'ensemble des donnes en deux parties
gales : 50% des observations sont infrieures ou gales cette valeur m et 50% sont
suprieures m . Cette valeur est associ la mtrique dfinie par la valeur absolue,
c'est cette valeur m qui minimise la fonction ( y ) = x i y . Cette valeur est
beaucoup moins sensible aux valeurs extrmes.
Indicateurs de dispersion
L'indicateur de dispersion le plus simple est donn par la valeur la plus petite et la valeur la
plus grande. La diffrence entre ces deux valeurs s'appelle l'tendue :
A la moyenne est associ l'cart-type qui est la racine carr de la distance moyenne au
carr, appele variance :
1 N
( x i )2 et l' cart - type = V
V =
N i =1
A la mdiane on pourrait associer de faon "naturelle" l'cart absolu moyen dfini par
1 N
e=
xi m
N i =1
mais on prfre utiliser les quartiles, dciles ou centiles qui partagent respectivement
les donnes en quatre, dix ou cent parties ayant le mme nombre d'lments.
L'intervalle interquartile est la diffrence entre le premier et le troisime quartile.
Page 82
Statistique Descriptive
42
=NBVAL(forfaits!B2:B43)
Moyenne
128,1
=MOYENNE(forfaits!B2:B43)
Mdiane
120
=MEDIANE(forfaits!B2:B43)
Ecart-type
54,13
Variance
2930,49
Intervalle
233
=E11-E10 (Maximum-Minimum)
Minimum
32
=MIN(forfaits!B2:B43)
265
90
120
150
=MAX(forfaits!B2:B43)
=CENTILE(forfaits!$B$2:$B$43;0,25)
=CENTILE(forfaits!$B$2:$B$43;0,5)
=CENTILE(forfaits!$B$2:$B$43;0,75)
Maximum
Centiles
25
50
75
Remarque :
en lieu et place de la fonction centile, il est possible dutiliser la fonction quartile, dont le dernier
paramtre est le numro du quartile.
La fonction VAR de Excel renvoie la variance estime dun echantillon, ce qui est le cas ici, et non la
variance de la population (voir le chapitre sur lestimation). Il existe une fonction VARP qui renvoie la
variance de la population.
Les reprsentations associes aux variables quantitatives permettent de visualiser ces rsums et de se faire une
ide de la distribution thorique que l'on pourrait associer cette variable, dans les cas les plus frquents on
cherchera voir si cette distribution peut suivre une loi normale. En dehors des histogrammes bien connus, il est
d'usage d'utiliser les boites moustaches (Box Plot) et les diagrammes Q-Q (Q-Q Plot).
Ralisation d'histogrammes sous Excel
Il n'existe pas de rgles permettant de fixer le nombre de classes utilises dans un histogramme. Si ce nombre est
trop faible, l'"allure" de la loi sous-jacente est gomme, s'il est trop grand, trs souvent le graphique sera
incohrent. Les logiciels statistiques utilisent trs souvent
maximum de classe est 1
Pour obtenir les effectifs des classes, il faut crer un tableau 2 colonnes, dans la premire colonne on indiquera
les bornes siprieures des classes et dans la seconde, on utilisera la fonction matricielle FREQUENCE.
Pour ne pas tre gn par une erreur qui liminerait les observations correspondant au maximum, nous prendrons
comme intervalle l'arrondi suprieur 3 ou 4 dcimales.
Pour entrer une formule matricielle, rappelons que l'utilisateur doit slectionner la zone dans laquelle cette
formule est entre, puis ensuite valider la formule avec la combinaison de touches Ctrl-Majusule-Entre. Les
paramtres de la fonction FREQUENCE sont :
Page 83
Statistique Descriptive
1. La zone de donnes
2. La zone des bornes suprieures des intervalles
On obtient alors le tableau suivant (pour le fichier Forfaits) :
Le graphique associ est obtenu en insrant un histogramme, dont la prsentation va tre modifie de faon
satisfaire l'usage, qui veut que pour une variable quantitative les blocs soient colls pour bien souligner l'aspect
continu de la variable. D'o le graphique suivant :
14
12
Effectifs
10
8
12
4
2
7
5
0
48,64
81,93
115,22
148,50
181,79
215,07
248,36
Intervalles
Boite moustaches
Une boite moustache est une reprsentation associe au rsum mdiane-quartiles, la boite (rectangle)
reprsente le premier et le troisime quartile avec un trait pour la mdiane, les moustaches (traits verticaux)
reprsentent (aux donnes exceptionnelles prs outliers) le minimum et le maximum. Ces moustaches sont dans
la plupart des logiciels statistiques limites 1,5 fois la distance interquartile. Raliser de telles boites
moustaches sous Excel demande soit de programmer soit dutiliser les commandes de base de donnes pour
Page 84
Statistique Descriptive
extraire les outliers, nous nous limiterons ici ajouter aux moustaches le minimum et le maximum de la srie
(qui apparaitront soit extrieurs aux moustaches soit la limite de celle-ci).
La ralisation de la bote moustache se fait en deux tapes :
Les lments dont nous avons besoin pour crer le graphique sont :
1. Pour la bote :
a. Le bas de la boite qui correspond au premier quartile. (ce bas sera rendu
transparent)
b. La hauteur du fond de la boite qui correspond la diffrence entre la mdiane
et le premier quartile.
c. La hauteur du couvercle de la bote qui correspond la diffrence entre le
troisime quartile et la mdiane.
2. La longueur des deux moustaches, ventuellement limites une fois et demi
l'intervalle interquartile.
3. Les outliers ventuellement, ici seul le max et le min
.
Cration du graphique :
Page 85
Statistique Descriptive
200
150
150
100
100
50
50
300
250
200
150
100
50
0
Etape 1
Etape 2
Etape 3
Diagramme Q-Q
L'ide d'un diagramme Q-Q est de comparer les percentiles des observations avec les
percentiles d'une loi thorique. Nous ne traiterons que le cas de la loi normale centre rduite,
le cas gnral tant facilement comprhensible.
Dans un premier temps les donnes sont rduites, c'est--dire que l'on soustrait la moyenne
aux observations et on divise par l'cart-type, la nouvelle variable est donc dfinie par :
Page 86
Statistique Descriptive
X1 =
Les N donnes sont ensuite ordonnes par ordre croissant, la valeur de la premire
0,5
de la loi normale centre rduite, la seconde
observation est alors compare au percentile
N
1,5
N 0,5
au percentile
etc.. la dernire au percentile
. Pour ne pas modifier les donnes
N
N
par une opration de tri, on utilisera la fonction PETITE.VALEUR(serie,p) qui retourne la
pime valeur d'une srie d'observations.
Sur l'exemple Forfaits, on obtient le tableau suivant :
Valeursnormalesthoriques
2
1
0
1
2
3
1
0
1
Valeursobservesstandardises
L'ajustement est correct, bien que l'on retrouve les valeurs extrmes en queue de distribution.
Statistiques descriptives d'un couple de variables
L'objectif de l'tude descriptive d'un couple de variables statistiques est de mettre en vidence
une relation ventuelle entre ces deux variables.
Page 87
Statistique Descriptive
Variables quantitatives
L'indicateur de liaison entre deux variables quantitative est la corrlation. Cet indicateur est
calcul partir de la covariance :
cov ( X , Y ) =
1
N
(x
i =1
X )( y i Y )
1
( X ,Y ) =
N
(x
i =1
X )( y i Y )
X Y
Cette corrlation est toujours comprise entre -1 et 1. La liaison entre les variables est d'autant
plus forte que la valeur absolue est proche de 1.
Dans Excel, la covariance est donnes par la fonction COVARIANCE(srie1;srie2) et le
coefficient de corrlation par la fonction COEFFICIENT.CORRELATION(srie1;srie2).
Une corrlation positive indique une variation moyenne dans le mme sens des deux
variables, une corrlation ngative une variation moyenne en sens inverse.
Remarque : cette corrlation n'est un indicateur que d'une liaison linaire entre les variables
(cf infra). Une corrlation nulle n'indique pas une absence de liaison entre les variables.
Prix
350
700
600
300
500
250
Prix
400
200
300
200
150
100
100
0
50
100
150
200
250
Kms
300
0
0
Corrlation = 0,756
10
15
20
25
30
35
40
45
50
Corrlation = 0
Par exemple pour les pays de l'Union Europenne, nous avons relev le PIB en $, et la priode
d'adhsion avec les modalits :
Statistique Descriptive
En utilisant les fonctions de base donnes, il est ais d'obtenir un tableau tel que :
Priode
1 Moyenne
Minimum
Maximum
Ecart-type
38555,56
30200,00
71400,00
12321,90
2 Moyenne
Minimum
Maximum
Ecart-type
28600,00
19800,00
34700,00
5388,57
3 Moyenne
Minimum
Maximum
Ecart-type
17600,00
9100,00
23400,00
4485,72
Priode
Priode
La zone A1:D28 contient les donnes y compris les titres de colonne, la zone de critre est
constitue de deux cellules, la premire contient le nom du champ "Priode" et l'autre la
valeur de la priode dont on veut les caractristiques.
On peut constater que les moyennes des PIB sont de plus en plus faibles au cours du temps,
on pourrait vrifier graphiquement cela en construisant des botes moustaches. Pour raliser
ces botes, il faut extraire les enregistrements correspondant aux trois priodes, car Excel n'a
pas de fonction BDmediane ou BDquartile. Aprs cette extraction, il suffit de procder
comme au paragraphe prcdent pour construire les botes moustaches.
Page 89
Statistique Descriptive
Variables qualitatives
On testera ici l'"indpendance" de deux variables qualitatives. Comme en probabilit, mais ici
les variables statistiques ne sont pas des variables alatoires, on dira que deux variables sont
indpendantes si les rpartitions de la variables X selon les modalit de la variable Y sont
les mmes quelque soit la modalit de X prise en compte (et bien sur rciproquement si les
rpartition de la variable Y selon les modalits de la variable X sont les mmes quelque soit
la modalit de Y prise en compte). Comme les effectifs de chaque modalit ne sont pas
identiques pour que cette dfinition est un sens il faut raisonner en frquence, on doit donc
avoir en cas d'indpendance (en notant f i , j la frquence dans la population de la prsence
Ni N j
N
Comme rsum numrique on donnera le tableau crois, en mettant en ligne les modalits de
X et en colonne les modalits de Y, chaque cellule du tableau contenant l'effectif rel
(constat) ainsi que l'effectif calcul en cas d'indpendance not effectif thorique.
Page 90
Statistique Descriptive
Marque 1
Effectif
Effectif thorique
Marque 2
Effectif
Effectif thorique
Marque 3
Effectif
Effectif thorique
Marque 4
Effectif
Effectif thorique
Total
Effectif
Effectif thorique
Est
Centre
Ouest
Sud
Total
1,7
1,5
1,7
2,4
1,8
9,0
18
3,3
2,9
3,3
4,8
3,7
18,0
10
1,8
1,6
1,8
2,7
2,0
10,0
12
2,2
2,0
2,2
3,2
2,4
12,0
13
10
49
9,0
8,0
9,0
13,0
10,0
49,0
Remarquons qu'un tel tableau est difficile interprter puisque les carts se rpercutent sur plusieurs cellules (cf
test du Khi-2).
Page 91
Sondage - Estimation
SONDAGE-ESTIMATION
1 Un Exemple (Fichier Martin.xls)
Monsieur Martin, chef de produit dune voiture de moyenne gamme, lance depuis trois ans,
veut savoir si la promotion qu il a mis en place pour les rvisions annuelles a eu un impact
sur les clients.
Dordinaire 60% des clients font leurs rvisions annuelles chez les concessionnaires, il
aimerait avoir une ide de la proportion des utilisateurs du modle qui ont fait leur rvision
chez un garagiste du rseau ; malheureusement son budget ne lui permet de faire des
interviews de tous les clients ayant achet un vhicule depuis plus dun an (au nombre de 42
612 pour les deux annes) et il ne pourra demander un institut de marketing tlphonique
que dinterroger 500 personnes.
Monsieur Martin se demande comment va procder linstitut et quelle est la fiabilit du
rsultat obtenu, non pas sur les 500 personnes mais sur lensemble des clients. Il aimerait par
la mme occasion savoir quel kilomtrage parcourt environ un client type par an pour pouvoir
affiner son offre.
Posons le problme de Monsieur Martin en termes statistiques. Monsieur Martin sintresse
une population prcise, les personnes ayant achet une voiture du modle donn depuis plus
dun an, et layant gard ; en fait pour le kilomtrage la population nest pas la mme, cest
seulement les clients ayant cette voiture depuis plus dun an. Nous noterons P cette
population.
Sur cette population deux variables statistiques concernent Monsieur Martin, une variable
qualitative savoir le lieu o le client a fait sa dernire rvision variable que nous noterons X,
une variable quantitative le nombre de kilomtres parcourus en 1 an que nous noterons Y.
1.1 Prsentation mathmatique
Nous noterons N la taille de la population.
Le paramtre qui nous intresse, le pourcentage de clients faisant leur rvision chez le
concessionnaire, peut sexprimer facilement en fonction de cette variable :
N
p= X(i)
i =1
Page 92
Sondage - Estimation
Les paramtres qui peuvent tre intressants sur cette variable sont la moyenne et la variance
(ou sa racine carre lcart type) de cette variable :
N
= 1 Y (i )
N i =1
N
= 1 (Y (i ) )2
N i =1
Lcart type donne une indication sur la dispersion des valeurs prises par la variable Y, mais
jouera aussi un rle sur les moyennes prises sur les chantillons, comme nous le verrons plus
loin.
Cette feuille contient 42540 donnes, la premire colonne contient le nombre de kilomtre
parcouru dans lanne, la deuxime colonne le fait que le client aie fait sa rvision chez un
concessionnaire ou non.
Nous pouvons obtenir des rsultats exacts sur la population pour les deux variables qui nous
intressent (mais Monsieur Martin lui ne les aura pas) :
Pour la variable kilomtrage :
Moyenne = 25005
Ecart-type = 3978
Remarquons tout dabord que Monsieur Martin fait une premire erreur, il croit connatre le
nombre des clients, mais en fait un certain nombre dentre eux ont revendu ou cass leur
voiture et son fichier client ne peut pas tre rellement jour ; cela peut le conduire sous
estimer le cot de son enqute car pour obtenir 500 rponses (mme en supposant que toute
personne interroge veut bien rpondre), il faudra contacter plus de 500 personnes. Cest pour
cela que le fichier de donnes fourni ne contient que 42540 clients (cellule nomme Taille).
La zone contenant les donnes a t nomme Donnes. Les donnes relatives au kilomtrage
se trouvent dans la premire colonne, celles relatives la rvision dans la deuxime, et pour
les donnes concernant la rvision, nous avons not 1 le fait de faire la rvision chez un
concessionnaire, 0 sinon ; avec un format personnalis affichant respectivement Oui ou Non.
2 Constitution dun chantillon
Pour quun chantillon puisse nous donner un rsultat fiable, il semble naturel quil soit
reprsentatif de la population, cest dire quil soit une image fidle de la diversit des
individus constituant la population.
Pour atteindre cet objectif il est possible de procder de diffrentes faons, nous ne parlerons
ici que de deux mthodes les plus frquemment utiliss, les sondages par quotas et les
sondages alatoires, nous illustrerons ce dernier concept avec le fichier de donnes.
Page 93
Sondage - Estimation
La mthode de sondage par quotas, mthode utilise par exemple dans les enqutes dopinion,
repose sur une constitution raisonne de lchantillon. En partant du fait que les variables qui
vont tre analyses dpendent dautres caractres connus de la population (par exemple la
catgorie socioprofessionnelle) on tchera de respecter dans lchantillon les mmes
proportions de chacune des catgories dans la population entire. Ensuite on chargera chaque
enquteur dinterroger un nombre donn dindividu de chaque catgorie, lavantage de cette
mthode est quelle est moins coteuse que la mthode alatoire indique ci-dessous,
linconvnient est que lon ne connat pas exactement la prcision des rsultats obtenus. On
peut cependant utiliser les rsultats des sondages alatoires pour avoir une ide de la
prcision. Remarquons quil ne faut pas confondre cette mthode avec la mthode des
sondages alatoires stratifis (cf. exercice ), qui permet sous certaines conditions de diminuer
de faon significative la taille des chantillons pour une prcision donne ; cette dernire
mthode est une mthode alatoire et permet dvaluer la prcision des rsultats.
La mthode de sondage alatoire permet de constituer des chantillons qui ont une forte
probabilit de reconstituer la diversit de la population originelle. Pour cela on procde un
tirage alatoire uniforme dans la population initiale, cest dire que chaque individu de la
population a la mme probabilit dtre le kime lment de lchantillon, cest dire que
lon transforme la population statistique en un ensemble probabilis, les variables statistiques
devenant alors des variables alatoires ; nous renvoyons le lecteur intress lannexe pour la
suite de lillustration mathmatique du sondage alatoire simple. On peut alors procder soit
par tirage sans remise dans la population soit par tirage avec remise, nous supposerons
toujours que le tirage effectu est avec remise, ce qui nest pas trop contraignant si la taille de
lchantillon est faible par rapport la taille de la population, ce qui est gnralement le cas.
Remarquons ds maintenant quil est malheureusement possible de tomber sur des
chantillons aberrants et que donc la notion de prcision sera srement lie llimination de
ces chantillons, donc un pari sur le fait de ne pas avoir tir ce type dchantillon.
Pour pouvoir raliser ce type de sondage, il est ncessaire de connatre explicitement toute la
population, ce qui nest pas toujours le cas. On numrote les individus de la population de 1
N, et on effectue, grce des nombres alatoires, un tirage au hasard dans cet intervalle ; on
va ensuite interroger (dans certains cas consulter, factures, stocks) les individus tirs au
hasard. Quand les individus ont des localisations trs rparties gographiquement, il est
possible, pour diminuer les cots du sondage de procder un tirage hirarchis (choix dune
commune proportionnellement son nombre dhabitants, puis choix dun quartier etc..).
Lchantillon ainsi tir sappelle lchantillon individu, en lui-mme cet chantillon na que
peu dintrt, ce sont les valeurs prises par les variables tudies qui nous intresse, cest ce
que lon appelle lchantillon image.
2.1 Prsentation mathmatique
Le tirage alatoire simple consiste, tout dabord, munir la population P dune loi de
probabilit uniforme, cest dire que chaque individu a la mme probabilit 1 dtre tir.
N
Les deux variables statistiques deviennent alors des variables alatoires, prcisons les deux
cas que nous trouvons ici.
La variable qualitative X, ne prend que deux valeurs 0 et 1, la valeur 1 ne peut tre prise que
par les clients allant faire leur rvision chez le concessionnaire, cest dire que cette valeur
une probabilit p dtre tire, on a donc faire une variable de Bernouilli de paramtre p,
dont lesprance est p et lcart type p(1 p ) .
Page 94
Sondage - Estimation
(X , X ,..., X )
n
2
{0;1}n ou
P n 1
(Y Y ,...,Y )
n
1, 2
Pn
R n
La taille de lchantillon tant fixe dans une cellule nomme Tchan (nous prciserons plus
loin o doit se trouver cette cellule), nous allons tout dabord tirer lchantillon individu. La
taille de lchantillon tant limite 500 au maximum.
Page 95
Sondage - Estimation
Remarquons, bien sr, que chaque fois que nous entrons une formule, de faon plus gnrale
chaque fois quun recalcul est effectu, les valeurs prises par lala changent, donc
lchantillon individu ainsi que lchantillon image changent aussi, les valeurs que nous
donnerons pour les paramtres recherchs vont donc dpendre de lchantillon, cest ce qui
sera lorigine de limprcision.
3 Estimation Estimateur
3.1 Gnralits
Une fois que notre chantillon est obtenu, il nous faut prvoir les rsultats sur lensemble de la
population, cest dire extrapoler des valeurs calcules sur lchantillon comme valeurs des
paramtres sur la population. Bien videmment, cette valeur calcule sur lchantillon va
dpendre de lchantillon que nous aurons tir, nous appellerons estimation (ou estimation
ponctuelle) cette valeur. Cette estimation est donc le rsultat de lapplication dune formule,
dune fonction sur lchantillon, cette fonction sappelle lestimateur.
et on appellera estimation la valeur prise par cette fonction sur un chantillon particulier. Dun
point de vue mathmatique, lestimation na en soi que peu dintrt, alors que pour
lutilisateur cest le plus important ; mais ce sont les proprits de lestimateur qui sont
intressantes et qui vont garantir la fiabilit de lestimation.
Les deux proprits intressantes pour un estimateur sont :
o Etre non biais, cest dire que les valeurs prises par lestimation se rpartissent
autour de la vraie valeur du paramtre, et ne sont pas systmatiquement trop
( )
Sondage - Estimation
o Etre consistant, ceci signifie que plus la taille de lchantillon est grande, meilleur
est lestimation, cest dire quelle a moins de chances dtre loigne de la
vraie valeur, ceci se traduit mathmatiquement par le fait que la variance de
lestimateur diminue quand la taille n de lchantillon augmente, de faon plus
prcise on dira que lestimateur est convergent (dans le cas dun estimateur non
Une autre proprit, que nous signalerons simplement, est la consistance : cest, par rapport
aux autres estimateurs possibles dun mme paramtre, le fait davoir une dispersion plus
faible, cest dire une variance infrieure.
( )
( )
E X n = 1 E X i = E( X )
n i =1
ce qui signifie que lestimateur de la moyenne est non biais.
Dautre part comme les variables Xi sont de plus indpendantes, nous avons :
( )
( )
nVar(X) Var(X)
Var X n = 12 Var X i =
=
n
n i =1
n2
Page 97
Sondage - Estimation
Rappelons que les cellules dentre doivent tre sur la mme feuille que la table, la cellule E1
correspond la cellule nomme Techan prcdemment, la cellule I8 correspond une cellule
vide quelconque de la feuille, enfin la cellule Echantillon !F7 est la cellule contenant la valeur
de lestimation de la proportion dans la feuille de lchantillon.
On obtient alors les rsultats suivants :
Page 98
Sondage - Estimation
On constate bien que lestimateur de la moyenne est sans biais, la moyenne des estimations de
la proportion est presque gale la vraie valeur 75,87%.
Mais surtout la variance diminue de faon significative avec la taille de lchantillon et on
observe peu prs le ratio prvu : par rapport un chantillon de taille 100, la variance des
estimations pour un chantillon de taille 200 est premier la moiti, celle pour un chantillon
de taille 300 le tiers, etc.
3.3 Estimation de la variance
Il peut sembler naturel destimer la variance de la population par la variance de lchantillon ;
cependant comme dans ce cas on ne centrerait pas les observations par rapport la vraie
moyenne (celle de la population) mais par rapport la moyenne de lchantillon, on aura
certainement un biais, on aura mme certainement tendance sous estimer la valeur relle de
la variance de la population. Il est facile de dmontrer (voir ci-dessous) quun estimateur non
biais de la variance est donn par la formule :
Sn2 =
1
Xi X n
n1
i =1
cest dire quau lieu de diviser la somme des carrs par n, taille de lchantillon, il faut
diviser cette somme par n-1. Lestimation est alors :
o Pour une variable quantitative
sn2 =
1
xi xn
n1
i =1
Page 99
Sondage - Estimation
n
Soit donc Vn = 1 X i X n
n i =1
lchantillon.
Comme les variables X i et X n ont mme moyenne , nous pouvons crire que
E X i X n
( )
1
En notant 2 la variance commune des X i nous avons vu que Var X n = 2 , il ne nous
n
reste plus qu calculer la covariance de X i et X n . Comme X i et X j sont indpendants pour
1
i j , cette covariance est en fait gale la covariance de X i et X i , cest dire 2 . On en
n
n
dduit donc :
((
E Xi Xn
) )=
2
1
2
1 n 1 n 1 2
1
+ 2 2 = 1 2 d' o E Vn = 1 2 =
n
n
n i =1 n
n
n
( )
Lestimateur Vn est donc biais, puisque son esprance nest pas gale au paramtre 2 , de
plus comme n1 est strictement infrieur 1, cet estimateur sous estime la vraie variance. En
n
revanche, il est facile dobtenir un estimateur non biais en prenant :
n
Sn2 = n Vn = 1 X i X n
n1
n1i =1
On peut de plus monter que cet estimateur est convergent ( condition que les moments
dordre infrieur ou gal 4 existent), mais cette dmonstration beaucoup plus lourde est
laisse au lecteur.
3.3.2 Utilisation dExcel
Nous allons mettre en vidence, le biais de lestimateur naturel de la variance et visualiser le
bon estimateur grce aux tables dExcel. Pour que lcart entre les deux estimateurs soit
significatif, nous travaillerons sur des chantillons de petite taille (ici n=10).
Il existe sous Excel deux fonctions associes la variance :
Cependant mme avec cette taille dchantillon, il est hors de question de tirer tous les
chantillons, nous allons tirer un grand nombre dchantillon (1000 par exemple) et calculer
pour chacun des chantillons la valeur des deux fonctions VAR et VARP dExcel. Nous
valuerons ensuite la moyenne de ces fonctions sur lchantillon et nous comparerons avec les
valeurs calcules sur la population.
Page 100
Sondage - Estimation
Ceci va se faire laide de table une entre : une cellule vide, et deux colonnes de rsultats.
Voici les formules de la feuille de calcul, pour la variable Kilomtrage :
La table est dans la zone J9 :L1009, la ligne 7 sert calculer les moyennes, la zone B2:B501
de la feuille Echantillon contient les valeurs du kilomtrage de lchantillon.
En utilisant des formats personnaliss pour les enttes de colonne de la table on obtient les
rsultats suivants :
La vraie valeur de la variance sur la population est de 15 825 792, la valeur moyenne obtenue
avec VAR est trs proche de cette valeur (moins de 1% derreur), tandis que la valeur obtenue
Avec VAR.P est trs en dessous de la vraie valeur, on retrouve comme il tait prvu une sous
estimation de lordre de 10% (9,4%). Si on refait calculer plusieurs fois ces moyennes, on
constate que ce nest pas un rsultat exceptionnel, mais que systmatiquement la moyenne des
variances de 1000 chantillons sous estime la variance de la population ; nos avons donc ainsi
mis en vidence le biais calcul plus haut.
4 Estimation par intervalle, prcision dun sondage
Comme nous venons de le voir, les estimations obtenues pour un paramtre partir dun
chantillon sont trs variables, il nous faut donc associer ces estimations une prcision qui
nous permettra dans un certain sens dencadrer la vraie valeur du paramtre. Cette notion de
prcision est plus dlicate que celle des mesures en physique, dire quun pain pse 400g 5g
prs, cela signifie que le poids du pain est compris de faon certaine entre 395 et 405g. Il nest
pas possible en statistique dobtenir cette mme notion, nous allons donc introduire une autre
notion de prcision, associe un degr de confiance.
Nous nous intresserons ici quau cas de la moyenne ou du pourcentage, mais ce que nous
dirons est gnralisable dautres paramtres.
Tout dabord, une mauvaise nouvelle : dans la mesure ou nous effectuons des tirages avec
remise, nous ne pouvons pas esprer diminuer ltendue des valeurs obtenues, en effet il est
toujours thoriquement possible de tirer un chantillon constitu n fois de lindividu
prsentant la plus petite (ou la plus grande valeur), il donc inutile desprer pouvoir majorer
de faon certaine lerreur commise lors dun sondage. En revanche dans la mesure, o lcart
type de lestimateur tend vers 0 quand la taille de lchantillon augmente, les valeurs extrmes
vont avoir des probabilits de plus en plus faible dapparatre, et donc ne seront observes que
dans des chantillons de plus en plus exceptionnels. Cest cette notion que nous allons
formaliser en tudiant la loi de lestimateur du pourcentage et de la moyenne.
Page 101
Sondage - Estimation
Pr X n =1
X n tant lestimateur du paramtre . On voit donc sur cette formule quil nous faut
connatre la loi de lestimateur X n pour pouvoir dterminer en fonction de et de n.
Quelques remarques gnrales :
Pour n fix, quand augmente diminue, il faudra donc faire un arbitrage (pour un
cot donn) entre la prcision que lon dsire et le risque que lon a de perdre son pari.
Une fois la taille de lchantillon fixe, la formule ci-dessus peut tre inverse et nous
obtenons, un intervalle destimation qui est un intervalle alatoire [X n ; X n + ] , dans
le quel la vraie valeur du paramtre a une probabilit 1 de se trouver. En
remplaant la variable alatoire par sa valeur observe sur mchantillon rellement
tir, on dira souvent, par un raccourci un peu brutal, quil y a une probabilit 1 que
le paramtre soit dans lintervalle [xn ; xn + ] , ce qui na aucun sens puis que toutes
les valeurs sont certaines et que lon na plus alors de loi de probabilit.
Page 102
Sondage - Estimation
Nous pouvons avec Excel, sur une nouvelle feuille, construire cette loi thorique, laide des
formules suivantes :
La fonction LOI.BINOMIALE comporte quatre paramtre :
le premier est le nombre de succs, cest dire pour nous le nombre de clients dans
lchantillon faisant leur rvision chez un concessionnaire, cest donc la taille de
lchantillon multipli par lestimation du pourcentage.
Le dernier est un indicateur logique du cumul de la loi, ici faux car ne voulons pas
la loi cumule.
Par exemple pou un chantillon de taille 10, la loi de probabilit de la proportion estime sur
les chantillons sera la suivante :
Remarquons tout dabord, que lon retrouve bien ici la proportion relle comme esprance de
la loi binomiale, et on pourrait conclure par exemple, de lexamen de cette loi, aprs avoir
limin les chantillons les plus exceptionnels (dont la probabilit est la plus faible), que 95%
des chantillons donneront une proportion comprise entre 60% et 100%, donc une prcision
de lordre de 20% au degr de confiance 0,95.
Cependant comment faire pour donner la prcision dune estimation quand on ne connat pas
la vraie valeur ? Comme dans la pratique la taille des chantillons est gnralement beaucoup
plus grande que 10 (les sondages dopinion se font sur des chantillons dau moins 500
personnes, le plus souvent un millier), nous allons pouvoir rpondre cette question en
regardant lvolution de la loi de X n en fonction de n. On obtient les graphiques suivants :
Page 103
Sondage - Estimation
n=10
n=100
n=50
0,30
0,50
0,70
0,90
0,50
0,70
0,90
0,50
0,70
0,90
(X n )= Var(X n )=
Var( X )
.
n
Nous pouvons maintenant utiliser ce rsultat pour donner une estimation par intervalle un
degr de confiance donn.
4.2.2 Calcul de la prcision
Nous noterons z le fractile dordre de la loi normale centre rduite, cest dire le
nombre dfini par :
Pr Z < z =
Z N(0,1)
/ 2
/2
0
-3,5
3,5
(X n )
Comme la loi normale centre rduite est symtrique, cette probabilit sexprime aussi :
donc Pr Z = ou Pr Z < =1
2
2
(X n )
(X n )
= z1 * (X n )= z1 *
2
Page 104
p(1 p)
.
n
Sondage - Estimation
= z1 * (X n )= z1 *
2
p (1 p )
.
n1
p (1 p )
p (1 p )
p z1 2 * n1 ; p + z1 2 * n1
qui retourne le fractile dune probabilit donne. Il nous reste simplement exprimer la valeur
1 dont nous voulons obtenir le fractile, en fonction du degr de confiance 1 , qui est
2
connu.
1+(1 )
. La feuille de calcul se prsente alors sous la forme
La formule est simple : 1 =
2
2
suivante :
Vrifions que les approximations faites ne conduisent pas une dgradation des termes du
pari. Construisons un grand nombre dintervalles destimations pour un degr de confiance
donn (0,95 par exemple) et plusieurs tailles dchantillons (de 100 500) et dterminons le
pourcentage de paris gagns, cest dire la frquence de la prsence de la vraie valeur du
pourcentage dans lintervalle construit partir des estimations.
Page 105
Sondage - Estimation
A partir de la table construite plus haut (3.2.2), nous crons un indicateur de russite qui vaut
1 si lintervalle destimation contient le vrai pourcentage, 0 sinon avec la formule suivante :
=SI(ET(Population!$F$9<B10+$I$4*RACINE(B10*(1-B10)/H$9);Population!$F$9>B10$I$4*RACINE(B10*(1-B10)/H$9));1;0)
On obtient bien un rsultat proche des 95% de paris russis (refaire ventuellement une
estimation par intervalle !)
4.2.4 Dtermination dune taille dchantillon
La formule donnant la prcision peut tre utilise aussi, pour dterminer la taille dchantillon
ncessaire pour obtenir une prcision voulue un degr de confiance donn. Nous allons
distinguer deux cas, suivant que lon possde ou non une premire estimation du pourcentage.
1) Dtermination dune taille priori
Dans ce cas nous allons partir de la formule exacte de la prcision :
= z1 * (X n )= z1 *
2
p(1 p)
n
Pour un niveau donn du degr de confiance, il est facile de dterminer la taille dchantillon
n permettant dobtenir une prcision donne : n
(z ) p(1 p)
1
pour toute valeur de p sur la population, puisque nous navons aucune connaissance priori
sur cette proportion. Or quand 0 p1 la quantit p(1 p) reste toujours infrieure ou gale
1/42. En conclusion la taille ncessaire pour obtenir une prcision donne e, un degr de
confiance a, sans information priori sur le pourcentage est donne par la formule :
( )
z1 2
2
n=EntierSup
2
4
Comme il est facile de le voir par drivation, ou en remarquant que la surface maximale dun rectangle de
primtre donn (ici 2) correspond au carr.
Page 106
Sondage - Estimation
( )
z1 2 p (1 p )
2
n=EntierSup
+1
2
La seule diffrence avec le calcul thorique (cest dire utilisant la vraie valeur p, est le
+1 final, qui est souvent ngligeable dans la pratique.
Dans les deux cas nous pouvons constater que la prcision cote cher en statistique, en effet la
taille de lchantillon varie comme linverse du carr de lestimation, donc pour diviser par 2
la prcision (donc limprcision), il faut multiplier par 4 la taille de lchantillon.
3) Calculs sous Excel et comparaison
Nous allons mettre sur une mme feuille, les rsultats obtenus dans les deux cas voqus cidessus, les formules sont les suivantes, nous avons cr une cellule contenant le fractile de la
loi normale centre rduite, de faon obtenir des formules plus lisibles. Nous avons ensuite
cr un tableau des tailles correspondant diffrentes pr-estimations du pourcentage, il
apparat alors clairement, quconomiquement il est important de tenir compte dune
estimation antrieure du paramtre recherch.
Remarquons enfin, que dans tous les cas il est ncessaire aprs avoir fait le sondage de
recalculer la prcision obtenue, qui ne peut qutre meilleure (infrieure) si lon utilise la
premire mthode de majoration, mais qui peut tre suprieure la valeur dsire dans le cas
de la seconde mthode, si la nouvelle valeur estime est plus proche de 50% que celle qui a
servi la dtermination de la taille de lchantillon.
Page 107
Sondage - Estimation
4.3 Cas de la moyenne
Sur la population nous avons une variable alatoire numrique Y qui a une moyenne note
et un cart type not .
Lestimateur de la moyenne que nous avons utilis au paragraphe 3.2.1 not Yn (de moyenne
m et dcart type
) a la mme proprit asymptotique que lestimateur du pourcentage,
n
Yn
cest dire quil vrifie le thorme de la limite centre : Z n =
tend en loi vers la loi
n
normale centre rduite N(0,1) . Cependant la vitesse de cette convergence peut dpendre de
faon trs significative de la forme de la loi initiale de Y, trs souvent il est fait lhypothse
que cette loi est proche dune loi normale, ce qui assure une convergence rapide. Dans le cas
o la variable Y suivrait exactement une loi normale, la variable Z n prcdemment dfinie
suit toujours une loi normale.
4.3.1 Cas o la variance est connue
Dans le cas o la variance est connue, ce qui est trs rare en pratique, on peut utiliser le
thorme central limite, pour des chantillons de taille suffisante (n>30, si la loi de Y ne
semble pas trop anormale ). La prcision, au degr de confiance , est alors donne par :
=z
1
n
2
Alpha : qui est gal au risque pris, cest dire 1-degr de confiance
La cellule Population !$F$6 est la cellule contenant la valeur de lcart type du kilomtrage
parcouru sur toute la population. Les valeurs obtenues sont les suivantes :
Page 108
Sondage - Estimation
-3,0
-2,0
-1,0
0,
0,0
1,0
2,0
3,0
Si lon construit tous les intervalles de cette forme en remplaant les variables par leurs
valeurs prises sur les chantillons (ou du moins un trs grand nombre), il y en aura une
3
Page 109
Sondage - Estimation
=t n1
1
Sous Excel nous allons utiliser la fonction donnant le fractile de la loi de Student, il faut noter
que Excel ne donne pas le fractile exactement, mais raisonne toujours symtriquement et par
complmentarit. De faon prcise, la fonction LOI.STUDENT.INVERSE a deux
paramtres :
Et retourne une valeur t telle que Pr(Student(d) t )= p , pour calculer la prcision nous
prendrons donc comme valeur : p= =1degr de confiance et d =n1 . Nous avons alors les
formules suivantes :
Remarquons tout dabord, quil est dans ce cas toujours ncessaire davoir procder un pr
sondage, de faon obtenir une premire estimation de lcart type. Ce pr sondage se fait
gnralement sur un chantillon dindividus dont le nombre est compris entre 20 et 50. Cest
partir de cette premire estimation de lcart type que sera value la taille de la population
ncessaire lobtention dune prcision donne.
Si nous voulons, comme pour le cas dune proportion, dterminer la taille partir de la
formule de la prcision nous obtenons, pour une prcision e donne et un degr de confiance
a, le rsultat suivant :
n= t n1
1 2
Page 110
Sondage - Estimation
n= u
1 2
sapplique pour toute taille dchantillon si on dispose de la valeur de lcart type sur la
population. Voici la formule utilise sous Excel, et les valeurs correspondantes :
Lcart type estim, tait le rsultat dun pr sondage sur 20 individus du fichier Martin, pour
la variable kilomtrage. Il faudrait donc ajouter environ 940 autres individus pour obtenir une
prcision sur le kilomtrage moyen de lordre de 250 km.
Toutefois sur ce nouvel chantillon, lestimation de lcart type sera diffrente, mais plus
fiable puisque prise sur un chantillon de taille plus importante, et il faudra donc calculer de
nouveau la prcision obtenue.
4.4.2 Cas gnral
Si lon ne veut pas utiliser lapproximation par une loi normale, il est possible dutiliser les
fonctionnalits dExcel pour rsoudre lquation implicite dfinissant la taille de lchantillon.
Sur une feuille contenant les rsultats du pr sondage, nous allons ajouter trois lments, le
seuil de prcision voulu, le seuil de prcision obtenue avec la taille dchantillon, lcart entre
la prcision obtenu et la prcision voulue. Nous obtenons les lments suivants :
Page 111
Sondage - Estimation
Dans le Menu Outils dExcel, choisissons cette commande, nous obtenons alors la boite de
dialogue :
La cellule dfinir correspond la fonction qui doit atteindre une certaine valeur, donc ici la
cellule contenant lcart entre la prcision voulue et la prcision obtenue. La valeur atteindre
est ici 0 ; enfin la cellule modifier, correspond la taille de lchantillon. Aprs avoir valid
ces entres, nous obtenons la boite de dialogue suivante :
Indiquant que la valeur a t atteinte, en validant par OK, la cellule correspondant la taille
contiendra la solution, cest dire la taille dchantillon permettant dobtenir la prcision
voulue. Comme cette solution nest pas obligatoirement entire, il nous faudra, dans une autre
cellule, prendre lentier immdiatement suprieur. Ici, il faudrait donc un chantillon de taille
63 environ, pour atteindre une prcision de 1000km, sur le kilomtrage moyen annuel des
clients.
Si nous calculons, cette taille avec lapproximation normale, nous aurions trouv 60, un
nombre videmment infrieur, mais peu diffrent ; cest pourquoi la plupart du temps on se
contentera de lapproximation normale pour la dtermination de la taille dchantillon. La
diffrence entre les deux approches ntant rellement significative que sur les petits
chantillons, auquel cas il est ncessaire de croire lhypothse de normalit, puisque lon ne
dispose pas de donnes suffisantes pour la tester.
5 Annexe 1 : La loi de Student
William Sealey Gosset (1876-1937) tait chimiste la brasserie Guiness Dublin, puis
ensuite Londres. Cest pour le contrle de qualit quil fut conduit sintresser
lchantillonnage et surtout aux petits chantillons. Il publia ses travaux sous le nom de
Student. Cest lui qui mit en vidence la loi qui porte son nom et qui permet de faire des tests
sur la moyenne dune variable quantitative.
Page 112
Sondage - Estimation
(n1)Sn2
2
n
qui suit une loi du
khi-deux n-1 degrs de liberts. Le nombre de degrs de liberts est n-1 car les n variables
Yi Yn sont lies par la relation
i =1
i =1
est
donc de rang n-1, ce qui dtermine le nombre de degr de libert de la loi du khi-deux.
La distribution de la loi de Student degrs de libert est donne par la formule :
( ) 1+ x
( )
+1
2
f (x )=
2
+1
2 2
o la loi (t )= euut 1dt est la fonction Gamma. Remarquons que cette distribution peut tre
0
Bien que moins utilis que pour la moyenne, il est possible de dterminer un intervalle de
confiance pour la variance dune variable quantitative, si lon fait lhypothse que cette
(n1)Sn2 suit une loi du khi-deux n-1 degrs de
variable suit une loi normale. Dans ce cas Z =
2
(n1)s 2 (n1)s 2
n;
n . Notons
pr 1 <Z < 2 = , on en dduit lintervalle de confiance pour 2 :
2
1
que cet intervalle nest pas centr autour de lestimation sn2 , mais est centr en probabilit :
4
Une loi du khi-deux n degrs de libert est la loi suivie par la somme des carrs de n lois normales centres
rduites indpendantes
Page 113
Sondage - Estimation
cest dire que lon limine autant dchantillons sous estimant la variance que
dchantillons surestimant cette variance. La notion de prcision na donc pas ici le sens
physique habituel comme pour la moyenne.
En prenant les racines carres des bornes on en dduira un intervalle de confiance pour lcart
type.
Sous Excel on utilisera la fonction KHIDEUX.INVERSE a deux paramtres :
1 =KHIDEUX.INVERSE 1- 2 ,n1
et 2 =KHIDEUX.INVERSE ,n1
2
Nous laissons au lecteur le soin dutiliser ces formules sur lexemple, nous aurons loccasion
de revenir sur lutilisation de cette fonction pour le test de contingence.
7 Annexe 4 : Mthode du maximum de vraisemblance
Nous avons jusqu' prsent utiliser des estimateurs "intuitifs" qui se sont avrs efficaces, il
existe une mthode mathmatique pour trouver systmatiquement des estimateurs de
paramtres en faisant des hypothses sur la loi de probabilit suivie par une variable. C'est la
mthode du maximum de vraisemblance qui est trs utilise en modlisation statistique et
assez facile mettre en uvre sur ordinateur. Nous en donnerons le principe ainsi qu'un
exemple ici, avec la rsolution analytique et avec Excel.
7.1 Formalisme du maximum de vraisemblance
On suppose qu'une variable statistique X dfinie sur une population P, suit une loi donne
dpendant de p paramtres (ai )1i p . La densit de probabilit de X (que nous supposons
exister) est donc une fonction dpendant la fois de la valeur x prise par X et des paramtres
estimer, nous la noterons f (x, a1 , L, a p ). Par exemple si l'on veut estimer la moyenne et la
variance d'une variable X suppose suivre une loi normale, les deux paramtres sont la
moyenne et l'cart type , et la fonction de densit sera donne par
f ( x, , ) =
1
2
( x )2
2 2
f (x
n
j =1
, a1 ,L, a p ) , on
j =1
Page 114
Sondage - Estimation
L ((x j )1 j n , , ) = nLog (
2 nLog ( )
(x
j =1
2 2
L ((x j )1 j n , m, s ) = Max
L ((x j )1 j n , a, b )
a ,b
En utilisant les drives partielles, nous obtenons les deux quations suivantes :
n (x m )
n (x m )
L
(m, s ) = j 2 = 0 et L (m, s ) = n + j 3
b
s j =1
a
s
s
j =1
(x
m ) = 0 soit m =
1 n
x j qui est la moyenne
j
n j =1
j =1
de l'chantillon ce qui correspond l'estimateur que nous avons utilis : m = x n .
1 n
En revanche la seconde quation donne ns = (x j m ) , soit s = (x j m ) .
n j =1
j =1
L'estimateur du maximum de vraisemblance de la variance est donc la variance de
l'chantillon qui comme nous l'avons vu est asymptotiquement sans biais mais non sans biais.
2
Il est facile de vrifier que les conditions du second ordre sont vrifies pour le maximum
calcul ci-dessus.
7.3 Utilisation d'Excel pour le calcul d'estimation
Le fichier MaxVrai.xls contient 10 donnes qui sont supposes provenir d'une loi normale de
moyenne et variance inconnue. Ces donnes sont dans la plage A5:A14, nous allons
construire sur cette feuille de calcul, la fonction de vraisemblance de l'chantillon pour une
moyenne et un cart type donns.
La moyenne est dans la cellule D1, nomme "moy", et initialise une valeur arbitraire (20).
L'cart type est dans la cellule D2, nomme "sigma", et initialis la valeur 5.
On entre alors les formules permettant de calculer la vraisemblance, c'est dire la densit de
probabilit en chaque valeur et le logarithme nprien de cette probabilit :
Page 115
Sondage - Estimation
Aprs avoir demand la rsolution nous obtenons les rsultats suivants (nous avons affich les
valeurs des fonctions MOYENNE, ECARTYPE et ECARTYPEP sur la feuille :
La convergence pour la moyenne s'est bien faite vers la valeur de la fonction moyenne, en
revanche pour l'cart type la convergence se fait vers la fonction ECARTYPEP, qui est l'cart
type de l'chantillon et non pas vers la fonction ECARTYPE qui est l'estimation habituelle de
l'cart type de la population.
Remarque importante : si les valeurs initiales des paramtres sont trop loignes des valeurs
estimes, l'algorithme de recherche de maximum peut chouer, il est donc recommand avant
d'utiliser le solveur de faire une table pour diffrentes valeurs des paramtres.
Page 116
Sondage - Estimation
EXERCICES ESTIMATION
1 : RadioLook
RadioLook est une radio prive mettant sur Grenoble et sa rgion depuis deux ans. Aprs un
an de fonctionnement, une enqute faite auprs de 1200 grenoblois a donn les rsultats
suivants:
240 personnes ont dclar couter rgulirement la station
parmi ces 240 personnes, 30 ont un statut d'tudiant.
Prcisons que sur les 1200 personnes interroges, 100 taient des tudiants. Actuellement, la
direction commerciale veut mener une enqute auprs des tudiants. Elle dsire connatre de
faon prcise, la proportion d'tudiants coutant rgulirement RADIO-LOOK et envisage
donc un deuxime sondage.
1. Prciser la population , la variable de description et le paramtre faisant l'objet de l'tude.
2. Exploiter le sondage fait auprs de 1200 grenoblois pour obtenir une premire estimation
(ponctuelle et par intervalle) du paramtre dfini en 1.
3. Combien de personnes faut-il interroger au cours de la seconde enqute, si le degr de
confiance (ou seuil ) retenu est de 0.95 et la prcision (absolue) dsire 3%.
4. A l'issue du deuxime sondage, il a t constat 368 auditeurs. Donner une estimation et
un intervalle de confiance du paramtre faisant l'objet de l'tude ( avec un degr de
confiance de 0.95).
5. Peut-on affirmer que l'audience du segment tudiant a augment d'une enqute l'autre
2 La socit UVJM (Classeur UVJM.xls)
Page 117
Sondage - Estimation
3 La socit de contrle et de rgulation (daprs J. Obadia)
La socit de contrle et rgulation est une entreprise fabriquant des matriels lectroniques en
moyennes sries : appareils de contrle, de rgulation et de mesure. Elle travaille essentiellement sur
catalogue et sur devis. L'auditeur responsable du contrle de la comptabilit de l'entreprise a dcid
d'effectuer un sondage pour dterminer la valeur relle du stock des pices dtaches (petites pices
mcaniques, composantes lectroniques, sous-ensembles achetes l'extrieur, etc... ).Ce stock fait
l'objet d'un inventaire permanent assur par l'ordinateur partir des bordereaux d'entre (livraison
fournisseurs) et des bons de sortie mis par la production.
La diversit des articles constitutifs du stock des pices dtaches a conduit distinguer :
les articles de faible valeur regroupant essentiellement les petites pices mcaniques
dont le cot unitaire est infrieur un euro.
les articles de valeur moyenne qui regroupent l'essentiel des composants lectroniques
dont les cots unitaires sont compris entre un et dix euros.
les articles considrs comme coteux et dont le cot unitaire dpasse dix euros et qui
sont suivis un un.
Ces trois catgories se trouvent dans des magasins diffrents et sont gres sparment.
L'ordinateur peut fournir tout moment, une liste des valeurs stockes. Pour chaque
rfrence, il est possible de disposer des informations suivantes:
le numro de la rfrence ou code - article : u
le nombre d'articles N(u) comptabiliss dans le stock sous cette rfrence
le cot unitaire auquel ces articles sont valoriss : C(u)
la valeur stocke correspondante dite valeur comptable: Y(u) = N(u)*C(u)
Au jour du contrle, les chiffres comptables relatifs aux trois catgories sont donns par
l'annexe 1. La catgorie des articles les plus coteux, a t contrle en totalit; la premire
catgorie a t contrle l'aide d'un sondage portant sur 100 rfrences.
L'annexe 3 donne les rsultats de ces deux contrles. Le contrle de la seconde catgorie doit
tre ralis. Il s'agit donc d'estimer, pour cette catgorie, la valeur relle du stock. Les erreurs
sur les quantits et les cots tant globalement prises en compte dans la valeur, on ne se
proccupera pas des quantits et des cots unitaires sparment mais du produit des deux. Si
l'estimation de la valeur constitue l'objectif principal du sondage, l'auditeur souhaite
galement dterminer la proportion des valeurs errones.
Vous tes charg par l'auditeur d'tablir un plan de sondage de la deuxime catgorie de
pices dtaches.
Un plan de sondage doit indiquer :
la population, les variables et les paramtres
le nombre de rfrences constituant l'chantillon
le mode de slection de ces units
comment, en utilisant les observations ou valeurs constates faites sur les units
prleves, tablir les estimations des paramtres
la prcision du sondage
Page 118
Sondage - Estimation
Pour tablir ce plan de sondage vous disposez des informations fournies par un chantillon
prliminaire concernant la variable X = "valeur relle des rfrences". L'analyse de cette
information pourra se faire suivant les deux points ci-dessous.
3.1 Examen de l'information apporte par l'chantillon prliminaire sur la variable X =
"valeur relle des rfrences"
1) Dduire une estimation de la valeur totale relle du stock et la prcision de cette
estimation
2) On constatera que la prcision obtenue n'est pas suffisante. Quelle est la taille de
l'chantillon permettant d'obtenir une prcision satisfaisante gale 1% de la valeur
comptable du stock. Conclusion .
3.2 Examen de l'information apporte par l'chantillon prliminaire sur la variable D =
X - Y cart entre la valeur relle et valeur comptable du stock.
1) Donner une estimation de l'cart entre valeur totale relle et valeur totale comptable du
stock. Quelle est la prcision de cette estimation?
2) Utiliser les rsultats du point a) pour calculer une estimation de la valeur totale relle
du stock et sa prcision
3) Quelle est la taille de l'chantillon permettant d'obtenir la prcision fixe au point 1.
3.3 Annexe 1
Donnes comptables relatives aux trois catgories
Cots Unitaires
Moins de 1
De 1 10
Plus de 10
Total
Nombre de rfrences
2140
1500
180
3520
3.4 Annexe 2
Sondage prliminaire
Variance
604281
568128
12170.1
Ecart-type
777.35
753.74
110.32
Le contrle complet des 180 rfrences a montr que la valeur totale relle tait de 612 750 .
2. Catgorie d'articles de faibles valeurs
Page 119
Sondage - Estimation
Valeur C
Quantit Stock
2952
369
1167
389
3618
402
1736
434
La loi exponentielle est une loi un paramtre dont la densit est donne par la formule.
1. A partir d'un chantillon de taille n quelle est l'estimation du maximum de vraisemblance
du paramtre ? Comparer cette estimation l'estimation de la moyenne.
2. En utilisant les donnes du fichier MaxVrai.xls, retrouver le rsultat prcdent (prendre
0,04 comme valeur initiale de lambda, par exemple).
6 Maximum de vraisemblance pour une loi uniforme sur un intervalle
La loi uniforme sur un intervalle [a, b] dpend des deux paramtres a et b, sa densit est
donne par :
f ( x, a , b ) =
1
si a x b et 0 sinon
ba
Page 120
Sondage - Estimation
Page 121
Tests d'hypothse
TESTS D'HYPOTHESE
1 Un exemple
Monsieur Dupond, directeur commercial d'une chane de magasins de distribution, veut tester
un nouveau type de promotion sur les produits forte frquence d'achat, le client reoit des
coupons en fonction des achats effectus et du montant de la facture. D'ordinaire dans la
chane de magasin le taux de retour des coupons est de 40% (c'est dire que 40% des coupons
distribus sont utiliss), le nouveau type sera considr comme plus efficace si le taux de
retour est suprieur ce taux. Dans un magasin considr comme reprsentatif de la chane,
Monsieur Dupond installe son nouveau systme, au terme de trois semaines d'essais sur 1000
coupons distribus 452 ont t rutiliss. Monsieur Dupond se demande si ce pourcentage
(45,2%) est significatif d'une augmentation du taux de retour ou si la diffrence observe n'est
imputable qu'aux incertitudes d'chantillonnage.
2 Gnralits
Soit une variable X statistique dfinie sur une population P, et un paramtre li cette
variable, nous appellerons hypothse sur ce paramtre le fait de limiter les valeurs prises par
ce paramtre une partie non vide et non totale de l'ensemble des valeurs possibles not A0 ,
le complmentaire de cet ensemble not A1 sera associe l'hypothse alternative. La
premire hypothse est appele hypothse nulle.
Sur l'exemple prcdent, la population est l'ensemble des coupons distribus pour les produits
forte frquence d'achat, la variable X est la variable indicatrice de l'utilisation du coupon, le
paramtre est le pourcentage de coupons utiliss. L'ensemble des valeurs possibles est
l'intervalle [40%, 100%], puisque le directeur commercial n'envisage pas que sa mthode de
distribution puisse tre moins efficace que les autres mthodes. Une hypothse ici serait par
exemple que la nouvelle mthode ne soit pas plus efficace, c'est dire que = 0 = 40%
(ensemble not A0 = {40%} ), une autre hypothse serait par exemple que la promotion
personnalise soit rellement plus efficace, c'est dire que > 0 =40% (ensemble not
A1 =]40%;100%] ).
Il arrive souvent que les ensembles associs aux hypothses soient plus complexes que ceux
prsents en exemple, nous le verrons plus loin lors des tests portant sur deux chantillons,
ou lors de la rgression par exemple.
L'objectif des tests d'hypothse est de dterminer une rgle de dcision permettant de rejeter
une hypothse partir de l'examen d'un chantillon. Comme nous l'avons vu au chapitre sur
l'estimation, on ne peut pas prtendre prendre une telle dcision sans risque d'erreur, ce risque
est li la probabilit d'apparition d'chantillons exceptionnels (statistiquement aberrants).
Nous allons donc formaliser cette dmarche. Nous noterons H 0 l'hypothse A0 , cette
hypothse est appele hypothse nulle, et H 1 l'hypothse A1 , appele hypothse
alternative (nous reviendrons plus loin sur le choix de l'hypothse nulle).
Lapplication dune rgle de dcision peut conduire lun des quatre cas suivants :
Page 122
Tests d'hypothse
Choix (A partir
de lchantillon)
H0
H1
Pas derreur
Le risque de seconde espce not est la probabilit de l'erreur de type II, c'est
dire le choix de H 0 alors que H 1 est vraie.
La dfinition d'une rgle de dcision se fait par la dfinition d'un ensemble R A1 , appel
zone de rejet, tel que pour toute estimation du paramtre se trouvant dans cet ensemble on est
conduit rejeter l'hypothse H 0 , c'est dire accepter l'hypothse H 1 . La dtermination de
la zone de rejet se fait en fixant le risque de premire espce : le risque de premire espce est
en effet dfini partir de cette rgion par : prob(estimateur( paramtre)R / paramtreA0 ).
Une autre faon de procder est de dterminer la probabilit (appele niveau de signification
du test)d'obtenir un chantillon conduisant au rsultat observ (appele niveau de signification
du test), sous l'hypothse H 0 , si cette probabilit est infrieure au risque de premire espce,
on rejettera alors l'hypothse H 0 . Ces deux procdures sont quivalentes, toutefois il est
possible dans certains cas de dfinir la rgion de rejet avant mme d'avoir procder au
sondage, ce qui bien sr n'est pas possible pour le niveau de signification.
Remarquons que les hypothses ne sont pas traites de faon symtrique, on veut tre assur
que l'hypothse H 0 n'a qu'une probabilit trs faible d'tre vrifie, donc, en fait, on cherche
se convaincre de l'hypothse H 1 . En gnral quand on rejettera H 0 , on sera assur d'avoir
une faible probabilit de se tromper, en revanche, si on est conduit par le test ne pas rejeter
l'hypothse nulle, il est possible que la probabilit de se tromper soit trs grande, comme nous
le verrons dans les cas traits dans ce chapitre.
3 Comparaison d'un pourcentage un standard
Dans ce cas la variable est une variable indicatrice d'une caractristique de la population, c'est
dire, en termes probabilistes, une variable de Bernouilli, le paramtre estimer est
l'esprance de cette variable, c'est dire le pourcentage d'individus prsentant la
caractristique dans la population. Dans tous les cas l'ensemble A0 est rduit un seul
lment {p0}, l'ensemble A1 tant l'un des trois ensembles suivants
unilatral droite, la rgion de rejet est de la forme R =[c;1] avec c> p0 : il faut que
la valeur observe sur l'chantillon soit significativement suprieure p0 pour que
Page 123
Tests d'hypothse
A1 = [0; p0 [ c'est dire le test H 0 : p= p0 contre H1 : p< p0 , ce test est dit unilatral
gauche, la rgion de rejet est de la forme R =[0;c] avec c< p0 : il faut que la
bilatral, la rgion de rejet est de la forme R =[0; p0 c[]p0 +c] avec c>0 : il faut
que la valeur observe sur l'chantillon soit significativement diffrente de p0
pour que l'on soit convaincu de l'hypothse H1 . Dans ce cas il est d'usage de
choisir la zone de rejet symtrique par rapport p0 , comme l'est l'ensemble A1 ,
toutefois comme nous le verrons plus loin, un autre choix pourrait tre fait.
Nous allons maintenant voir comment sont dtermines les valeurs critiques bornes ouvertes
de la zone de rejet, pour cela revenons sur l'hypothse H 0 , et analysons les consquences de
cette hypothse sur la loi de l'estimateur du pourcentage.
3.1 Loi de l'estimateur X n sous l'hypothse H0
Xn
N p0, p0(1 p0 ) n (voir chapitre sur l'estimation).
Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble, c'est dire des
chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnellement loignes de p0 dans le cas de test bilatral.
Remarquons que cette loi ne fait pas intervenir des rsultats obtenus par sondage, il est donc
possible ici de dfinir la zone de rejet avant mme de procder au sondage. C'est ce que nous
allons faire pour les trois cas dcrits plus hauts. Nous indiquerons aussi comment calculer
avec Excel le niveau de signification du test.
3.2 Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :
Page 124
Tests d'hypothse
H 0 : p = p0
H 0 : p = p0
H1 : p< p0
H1 : p> p0
1-
soit en valeur :
soit en valeur :
La rgle de dcision est la mme que celle qui La rgle de dcision est la mme que celle
qui sera nonce pour l'approximation
sera nonce pour l'approximation normale
normale (cf. ci-dessous).
(cf. ci-dessous).
Page 125
Tests d'hypothse
Excel soit utiliser directement la loi normale de paramtre p0, p0(1 p0 ) n , soit aprs
centrage et rduction se ramener la loi normale centre rduite, nous donnerons les
formules de calcul de c en fonction de la loi normale centre rduite, en revanche nous
donnerons les deux formules d'Excel avec la loi normale centre rduite pour le test gauche,
avec la loi non centre rduite pour le test unilatral droite. Nous dsignerons, comme
d'habitude par zq le fractile d'ordre q de la loi normale centre rduite, c'est dire la valeur
X n p0
p0(1 p0 ) n
standard (centre rduite), il est facile de dterminer dans les deux cas la valeur critique c
Nous avons ici :
p0(1 p0 ) n
c p0
= z (<0) donc
p0(1 p0 ) n
= z1 (>0)
=$C$2+RACINE($C$2*(1-$C$2) /$C$1) *
LOI.NORMALE.STANDARD.INVERSE(1C4)
avec la mme disposition que pour le test
unilatral gauche.
Page 126
Tests d'hypothse
p p0
Le dernier paramtre indiquant que l'on veut
p0(1 p0)/ n
Ici l'ensemble A1=[0; p0 [ , traons la courbe de Ici l'ensemble A1=]p0;1] , traons la courbe de
Page 127
Tests d'hypothse
c p
p(1 p) n
c p
p(1 p) n
Remarque : le test
De mme le test
H 0 : p p0
H 0 : p p0
contre H1 : p< p0
contre H1 : p> p0
H 0 : p = p0
contre H1 : p p0
au risque de premire espce , revient faire deux tests unilatraux :
H 0 : p = p0
H 0 : p = p0
H1 : p< p0
et H : p > p
1
0
au risque 1
au risque 2
Page 128
Tests d'hypothse
p p0
p p0
=2*1 prob N (0,1)<
p
p
n
(
1
)
/
p
(
1
p
)
/
n
0
0
0
0
La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .
3.3.2 Courbe de puissance du test
La courbe de puissance du test est symtrique par rapport p0 , elle n'est pas exactement
obtenue comme "recollement" des deux courbes dfinies prcdemment pour les tests
unilatraux. Indiquons rapidement comment on peut avec Excel construire cette courbe. Ici
l'ensemble A1=[0; p0 []p0;1] , pour une valeur donne du risque de premire espce , les
loi normale N p, p(1 p) n , le risque de seconde espce est alors donn par :
Page 129
Tests d'hypothse
= prob(c1 X n c2 )= prob
c1 p
p(1 p) n
= prob N(0,1)
N (0,1)
ou encore
p(1 p) n
c2 p
c1 p
prob N (0,1)
p(1 p) n
p
(
1
p
)
n
c2 p
En utilisant cette dfinition, on obtient alors la courbe suivante (voir le fichier Excel pour le
dtail des formules) avec p0 =40% et n=100 :
Avant de consulter les rsultats de lchantillon, formalisons sous forme de test dhypothse
le problme de dcision de Monsieur Durlan :
La population que lon tudie est lensemble des supermarchs, la variable statistique est une
variable numrique qui chaque magasin associe les ventes hebdomadaires du produit. Le
paramtre est la moyenne de ces ventes sur lensemble de la population.
Ce paramtre peut prendre des valeurs sur l'intervalle [0,+[ , ce qui intresse M. Durlan cest
de placer le paramtre par rapport la valeur (seuil de rentabilit) 320. Nous allons montrer
sur cet exemple comment dfinir les hypothses en fonction du contexte conomique.
Nous avons deux hypothses candidate au rle de lhypothse H1, hypothse que lon cherche
valider par le test puisque la rgion de rejet de H0 est dtermine par le risque de premire
espce a. Notons les HA et HB :
H A : > 320
H B : < 320
Analysons dans chacun des cas lerreur de type I correspondant au choix de cette hypothse
comme hypothse H1 :
Cas A : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va tre rentable alors quen ralit il ne le sera pas,
Page 130
Tests d'hypothse
cette erreur conduira une perte qui sera tangible, et facilement constate par le suprieur
hirarchique de M. Durlan. En revanche lerreur de type II conduirait ne pas saisir
lopportunit de lancer un nouveau produit rentable, ce qui en fait ne pourra jamais tre
directement constat. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de
la rentabilit du produit (observer sur l'chantillon une valeur significativement plus grande
que 320) pour se dcider le lancer.
Cas B : Dans ce cas lhypothse H 0 : 320 , lerreur de type I (choix de H1, alors que H0
est "vraie") revient croire que le produit va n'est pas rentable alors quen ralit il le sera,
cette erreur conduira ne pas lancer le produit, ne sera pas constate par le suprieur
hirarchique de M. Durlan, mais pourrait long terme tre catastrophique pour l'entreprise si
ce type de produit prend une importance trs grande sur le march des petits djeuners. En
revanche lerreur de type II conduirait lancer un produit non rentable et le risque associ ne
sera pas matris. Poser le test ainsi revient dire que l'on veut vraiment tre convaincu de la
non-rentabilit du produit (observer sur l'chantillon une valeur significativement plus petite
que 320) pour se dcider ne pas le lancer.
Suivant l'importance stratgique du produit et la fragilit de la position de M. Durlan on sera
conduit privilgier l'une des deux approches. Comme ici M. Durlan est un jeune chef de
produit, il ne veut pas commencer sa carrire par un lancement rat, il privilgiera le cas A, il
voudra contrler le risque associ l'erreur constatable par son suprieur. La valeur du risque
de premire espce dpend des consquences conomiques ou sociales de l'erreur, c'est un
arbitrage entre l'erreur de premire espce contrle et l'erreur de seconde espce non
contrle. Gnralement il prend une des trois valeurs 10%, 5% ou 1%, plus sa valeur est
faible, plus on laisse de "place" l'erreur de seconde espce.
Enfin comme dans le cas des proportions on peut toujours se ramener pour l'hypothse nulle
une hypothse simple du type :
H 0 : = 0
Notons enfin qu'il est d'usage en statistique de supposer que la variable quantitative tudie
est distribue sur la population (munie d'une loi de probabilit quiprobable) suivant une loi
normale.
Comme dans le cas d'une proportion nous traiterons les trois cas de tests possibles, mais plus
succinctement dans la mesure ou seule les lois changent.
4.2 Statistique utilise sous l'hypothse H0
Sous l'hypothse H 0 la loi de la variable X dfinie sur la population est suppose normale de
moyenne =0 et d'cart type , nous supposerons cet cart type inconnu, le cas o il est
connu est peu diffrent il suffit se supposer la taille de l'chantillon suffisante pour que la loi
de Student se confonde avec la loi normale, ou que l'hypothse de normalit puisse tre
abandonne.
Comme pour l'estimation nous utiliserons la statistique, dont la loi est connue sous H0:
Tn =
Yn 0
S
2
n
suit
LoiStudent n - 1 degrs de libert
Pour dterminer les rgions de rejet de l'hypothse, on liminera les chantillons les plus
improbables correspondant des valeurs d'estimation dans le sous-ensemble A1 , c'est dire
Page 131
Tests d'hypothse
des chantillons donnant des valeurs exceptionnellement grandes dans le cas de test unilatral
droite, exceptionnellement petites dans le cas de test unilatral gauche ou exceptionnellement loignes de 0 dans le cas de test bilatral.
Remarquons qu'ici cette loi fait intervenir des rsultats obtenus par sondage, il est donc
impossible ici de dfinir la zone de rejet avant mme de procder au sondage. Il nous est
ncessaire d'avoir une estimation de l'cart type de la variable, en revanche l'estimation de la
moyenne n'est ncessaire que pour l'application de la rgle de dcision.
Les rsultats obtenus sur le sondage command par M. Durlan sont les suivants :
Taille de l'chantillon : 332
Moyenne des ventes par magasin : 328,27
Ecart type des ventes : 51,82
Sont notes en gras les valeurs qui nous serviront construire la rgion de rejet.
4.3 Tests unilatraux
Nous traiterons simultanment les deux cas gauche et droite :
H 0 : = 0
H 0 : = 0
H1 : < 0
H1 : > 0
prob Tn > t qn = q , Tn dsignant une variable suivant une loi de Student n degrs de libert.
Attention la fonction est toujours bilatrale, donc pour les tests unilatraux il faudra
mettre comme valeur de la probabilit le double du risque de premire espce.
c 0
= t 2n1 o est l'estimation de
n
l'cart type de X donc
c 0
= t 2n1 , avec les mmes notations
n
c = 0 t
n 1
2
infrieur 0.
On en dduit la rgle suivante: si la valeur
observe sur l'chantillon est infrieure c,
on rejettera l'hypothse H1 avec un risque
d'erreur de au maximum, on dira que la
valeur observe est significativement
infrieure 0 avec un risque infrieur .
Formule avec Excel, en utilisant la loi de
c = 0 + t 2n1 *
suprieur 0.
On en dduit la rgle suivante: si la valeur
observe sur l'chantillon est suprieure c,
on rejettera l'hypothse H1 avec un risque
d'erreur de au maximum, on dira que la
valeur observe est significativement
suprieure 0 avec un risque infrieur .
Formule avec Excel, en utilisant la loi de
Page 132
Tests d'hypothse
0 - LOI.STUDENT.INVERSE(2;n-1)*s/ n
0 - LOI.STUDENT.INVERSE(2;n-1)*s/ n
soit :
x 0
0
< n
ns = prob n
, sousH 0
S2 n
n
n
x 0
0
> n
ns = prob n
, sousH 0
S2 n
n
n
xn 0
n
xn 0
n
Page 133
Tests d'hypothse
Il nous faut donc, dans les deux cas, utiliser la fonction de rpartition de la loi de Student,
cette fonction nexiste pas directement sous Excel, mais il existe une fonction qui permet de
la calculer, la fonction LOI.STUDENT dont la syntaxe est la suivante :
LOI.STUDENT(Valeur, degrs, uni ou bilatral)
Pour nous le dernier paramtre sera dans les deux cas gal 1(unilatral). Dans ce cas la
fonction renvoie pour une valeur positive uniquement, 1- la fonction de rpartition, cest
dire que la fonction sous Excel est dfinie par :
Si unilatral (dernier paramtre=1), pour t>0
LOI.STUDENT(t,n,1) = prob(Tn > t ) o Tn dsigne une variable de Student n degrs de
libert
Si bilatral (dernier paramtre =2) pour t>0
LOI.STUDENT(t,n,2) = prob( Tn > t ) o Tn dsigne une variable de Student n degrs de
libert
Dans le cas du test unilatral gauche, il suffira Ici on utilisera directement la formule, ce qui
donnera :
dutiliser la fonction avec comme premier
paramtre loppos de la valeur standardis.
La valeur du niveau de signification obtenue
ns=0,0019 qui est bien infrieur 1%.
La rgle de dcision est, dans tous les cas, la suivante : si le niveau de signification est
infrieur , on rejette l'hypothse H 0 .
4.4 Test bilatral
Faire le test
H0 : = 0
contre H 1 : 0
au risque de premire espce , revient faire deux tests unilatraux :
H0 : = 0
H0 : = 0
H 1 : < 0 et H 1 : > 0
au risque 2
au risque 1
Avec 1+ 2 = , l'usage est de prendre 1= 2 = 2 . Remarquons que dans le cas du test sur la
moyenne cette convention et sans doute lorigine des fonctions de Student programmes
dans Excel.
La dtermination des valeurs critiques c1 et c2 se fait comme nous l'avons vu prcdemment,
ces deux valeurs sont, avec la convention 1= 2 = 2 ,symtriques par rapport 0 . La rgle
de dcision est alors la suivante :
Page 134
Tests d'hypothse
c1 = 0 -LOI.STUDENT.INVERSE(,n-1) *
2
n
Sn n
c'est dire la probabilit pour un chantillon tir sous l'hypothse H 0 de donner un cart
(standardis absolu) par rapport la vraie valeur x n suprieur l'cart (standardis absolu)
constat lors du sondage.
Etant donn la forme de la fonction de Student sous Excel, ce niveau de signification sera
obtenu facilement :
La rgle de dcision dans ce cas est toujours la mme : si le niveau de signification du test est
infrieur , on rejette l'hypothse H 0 .
5 Comparaison de deux pourcentages
Page 135
Tests d'hypothse
Les pourcentages constats sur l'chantillon sont videmment diffrents (44% pour la semaine
et 47% pour le week-end), mais cela peut tre du aux alas de l'chantillonnage et non pas
un comportement diffrent entre la clientle de semaine et la clientle de week-end, ce que
voudrait dtecter M Martin.
5.1 Formalisation du problme
Nous pouvons ici prsenter la formalisation de deux faons diffrentes, soit comme la
comparaison de pourcentages sur deux populations, soit comme l'tude d'une liaison entre
deux variables indicatrices dfinies sur une mme population (cas particulier de la liaison de
deux variables qualitatives que nous verrons plus loin).
pour i = 1,2
en dsignant par p1 et p2 les pourcentages respectifs, c'est dire les moyennes sur l'ensemble
des variables X1 et X2 sur chacune des populations l'hypothse nulle s'exprime alors sous la
forme :
H 0 p1 = p 2
l'hypothse alternative dans le cas de M Dupond est simplement la diffrence entre les deux
valeurs (test bilatral), mais pourrait tre un pourcentage suprieur l'autre (test unilatral) :
H 1 p1 p 2
ou
p1 < p 2
et comme X est une variable de Bernouilli (donc ne prenant que deux valeurs 0 et 1) on a
aussi :
1 p1 = prob( X = 1 Y = 0 ) = prob( X = 1 Y = 1) = 1 p 2
Page 136
Tests d'hypothse
L'hypothse alternative dans le cas bilatral est simplement la supposition d'une liaison entre
les deux variables sans en indiquer le sens, le cas unilatral tant l'existence d'une corrlation
de signe donn.
Remarque : On retrouve aussi l'interprtation des deux hypothses (nulle et alternative) sous
la forme de moyenne, c'est dire d'esprance en remarquant que p1 et p2 sont aussi les
esprances conditionnelles de X sachant Y=0 ou Y=1; on peut aussi retrouver l'interprtation
en terme de population en prenant respectivement les images rciproques Y 1 (0) = P1 et
Y 1 (1) = P2 .
Dans la suite nous utiliserons la formalisation en termes de deux populations, la deuxime
formalisation sera gnralise aux variables qualitatives (du moins pour le test bilatral) lors
du test du Khi2 de contingence.
5.2 Statistique associe au test
L'hypothse nulle peut aussi s'crire
H0
p1 p 2 = 0
Sur un chantillon de taille n1 tir de la population P1, le paramtre p1 aura pour estimateur
X n11 , de mme pour un chantillon de taille n2 tir de la population P2, l'estimateur du
paramtre p2 sera X n22 ; la statistique utilise sera donc la variable alatoire Z = X n11 X n22 .
Pour n1 et n2 suffisamment grands, nous connaissons une approximation normale des lois
estimateurs, comme les chantillons sont tirs de faon indpendante dans chacune des
populations nous connaissons la loi (approche) de la variable Z :
Z
N ( , )
avec = p1 p 2 et 2 =
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2
sous l'hypothse H0, en dsignant par p la valeur commune de p1 et p2, nous aurons donc :
1
= 0 et 2 = p (1 p ) +
n1 n2
Mme si l'hypothse H0 est vrifie dans les populations, les estimations obtenues pour p1 et
p2 seront diffrentes, quelle estimation devons nous considrer comme estimation commune?
Dans la mesure ou l'estimateur du pourcentage est un estimateur convergent, plus la taille de
l'chantillon est grande meilleure est la prcision de l'estimation, la meilleure estimation sera
donc obtenue en "regroupant" les deux chantillons en un seul chantillon de taille n=n1+n2 et
n p + n2 p 2
cette estimation sera p = 1 1
. C'est cette valeur que nous utiliserons comme pour
n1 + n2
calculer une approximation de l'cart type de la loi de la statistique Z.
5.3 Test bilatral
Dans ce cas l'hypothse alternative est H 1 p1 p 2 , comme pour le test contre un standard,
nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette hypothse) un
cart en valeur absolue entre les moyennes des chantillons trop improbable, c'est dire dont
la probabilit est infrieure au risque de premire espce fix.
Page 137
Tests d'hypothse
5.3.1 Dtermination de la valeur critique
La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob( Z > c / H 0 ) = soit encore en tenant compte de la symtrie de la loi normale
de la loi normale de moyenne 0 et d'cart type dfini au paragraphe prcdent. On peut bien
videmment se ramener au cas de la loi normale centre rduite, en notant z1 2 le fractile de
la loi normale centre rduite, on a alors :
1
1
c = z1 2 p (1 p ) + o p dsigne la valeur commune de p1 et p2
n1 n2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons.
La rgle de dcision est alors la suivante, si sur les chantillons lcart absolu observ est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
5.3.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob( Z >= p 1 p 2 ) = (1 prob(Z < p 1 p 2 )) * 2
Puisque la loi normale suivi par Z est de moyenne nulle sous l'hypothse H0.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
5.3.3 Utilisation d'Excel
Sous Excel, nous avons la possibilit d'utiliser soit la loi normale, soit la loi normale centre
rduite (nomme standard sous Excel), pour le test bilatral nous donnerons les formules
utilisant la loi normale, et pour le test unilatral nous utiliserons la loi normale standard.
Sur la feuille de calcul Excel nous calculons tout dabord l'estimation "la meilleure" sous
l'hypothse H0, puis l'cart type de la loi normale suivie par Z, ce qui nous permettra de
calculer alors la valeur critique pour un risque de premire espce donn ou/et le niveau de
signification du test. Les formules sont les suivantes :
Page 138
Tests d'hypothse
Rappel : le dernier paramtre de la fonction LOI.NORMALE (ici VRAI) indique que l'on
utilise la loi cumule.
Les valeurs obtenues sont alors :
On ne pourra donc pas rejeter l'hypothse H0, au risque de 5% puisque l'cart observ est de
47%-44%=3% donc infrieur 6,3%. On voit d'ailleurs par le niveau de signification, que si
l'hypothse H0 est vraie, plus de 35% des chantillons pourraient conduire un cart absolu
suprieur celui observ ici.
5.4 Test unilatral
Dans ce cas l'hypothse alternative est H 1 p1 > p 2 , il est inutile de distinguer ici le test droit
du test gauche puisque cela revient simplement changer les indices!, comme pour le test
contre un standard, nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette
hypothse) un cart entre les moyennes des chantillons trop improbable, c'est dire dont la
probabilit est infrieure au risque de premire espce fix.
1
1
p (1 p ) + o p dsigne la valeur commune de p1 et p2.
n1 n 2
Dans les applications la valeur p est bien sure inconnue, il n'est donc pas possible de
dterminer la valeur critique avant de connatre les rsultats du sondage ; on remplacera alors
cette valeur par l'estimation p obtenue en "regroupant" les deux chantillons(voir plus haut).
La rgle de dcision est alors la suivante, si sur les chantillons lcart observ ( p 1 p 2 ) est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
5.4.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob(Z >= p 1 p 2 ) = (1 prob(Z < p 1 p 2 ))
Ou encore en utilisant la loi normale centre rduite, ici il suffit simplement de rduire,
puisque sous l'hypothse H0, la loi de Z est dj centre :
Page 139
Tests d'hypothse
p p 2
1
1
p (1 p ) +
n1 n2
p tant la valeur commune de p1 et p2, sous l'hypothse H0 ; cette valeur est inconnue est sera
bien entendu remplace par son estimation dans les applications numriques.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
5.4.3 Utilisation d'Excel
Comme nous l'avons annonc, nous utiliserons dans ce paragraphe la loi normale standard,
c'est dire centre rduite.
Nous ne reprendrons pas ici le calcul intermdiaire de l'estimation du pourcentage commun,
les formules spcifiques du test unilatral sont les suivantes :
Remarque : tant donn les rsultats obtenus sur l'chantillon, il est plus "naturel" ici de tester
p2>p1 plutt que l'inverse..
Les valeurs obtenues sont alors :
On ne pourra donc pas rejeter l'hypothse H0, au risque de 5%, puisque l'cart observ (3%)
est infrieur la valeur critique 5,28%. On voit d'ailleurs par le niveau de signification que si
l'hypothse H0 est vraie, plus de 17,5% des chantillons pourraient conduire un cart, entre
l'estimation de p2 et celle de p1,suprieur 3%.
6 Comparaison de deux moyennes
La moyenne des ventes en rayon "produits frais" est effectivement suprieure celle des
ventes en rayon "produits laitiers", cependant la diffrence est-elle suffisamment importante
Page 140
Tests d'hypothse
pour pouvoir extrapoler ce rsultat l'ensemble de la population, c'est dire l'ensemble des
supermarchs qui vendront bientt ce produit. Ce problme est un peu plus compliqu que le
problme de pourcentage dans la mesure o interviennent ici les dispersions (cart type) des
ventes dans chacun des rayons.
6.1 Formalisation du problme
Nous pouvons ici encore prsenter la formalisation de deux faons diffrentes, soit comme la
comparaison de moyennes sur deux populations, soit comme l'tude d'une liaison entre deux
variables (une variable quantitative et une variable indicatrice) dfinies sur une mme
population (cas particulier de la liaison entre une variable quantitative et une variable
qualitative que nous reverrons lors de la rgression).
pour i = 1,2
en dsignant par 1 et 2 les esprances respectives, c'est dire les moyennes des variables X1
et X2 sur chacune des populations (nous noterons 1 et 2 les carts types), l'hypothse nulle
s'exprime alors sous la forme :
H 0 1 = 2
l'hypothse alternative dans le cas de M Durlan est simplement la prfrence pour le rayon
"produits frais" (test unilatral), mais pourrait tre simplement un comportement diffrent
(test bilatral) :
H 1 1 > 2
ou
1 2
Nous supposerons de plus que les deux variables suivent une loi normale.
6.1.2 Formalisation l'aide de deux variables
Dans ce cas la population P unique est l'ensemble des supermarchs o sera distribu le
nouveau produit, quelque soit le rayon, la variable X est toujours la variable quantitative du
volume des ventes hebdomadaire, et nous allons introduire une nouvelle variable indicatrice Y
du rayon : cette variable vaut 1 pour le rayon "produits frais" et 0 pour le rayon "produits
laitiers". Le problme de M Durlan se rsume savoir s'il existe une forme de dpendance
entre ces variables, une fois la population munie d'une loi de probabilit uniforme ; la loi de X
est de plus suppose normale.
Les hypothses portent uniquement dans la formulation de M Durlan sur les esprances
conditionnelles, et non pas sur les deux paramtres. En effet, la moyenne 1 reprsente
l'esprance de X sachant Y=1, de mme la moyenne 2 reprsente l'esprance de X sachant
Y=0.
L'hypothse H0 revient alors crire :
1 = E ( X Y = 1) = E ( X = 0 Y = 0) = 2
Ce qui est peut s'interprter comme une "indpendance" en moyenne.
Page 141
Tests d'hypothse
L'hypothse alternative dans le cas bilatral est simplement la supposition d'une liaison entre
les deux moyennes sans en indiquer le sens, le cas unilatral tant l'existence d'une corrlation
de signe donn.
Dans la suite nous utiliserons la formalisation en termes de deux populations, la deuxime
formalisation sera gnralise aux variables qualitatives lors de la rgression (et en ajoutant
une hypothse supplmentaire sur les variances).
6.2 Statistique associe au test
L'hypothse nulle peut aussi s'crire
H0
1 2 = 0
Sur un chantillon de taille n1 tir de la population P1, le paramtre 1 aura pour estimateur
X n11 , de mme pour un chantillon de taille n2 tir de la population P2, l'estimateur du
paramtre 2 sera X n22 ; la statistique utilise sera donc la variable alatoire Z = X n11 X n22 . En
faisant l'hypothse de normalit des lois, nous connaissons thoriquement la loi de Z :
Z
N ( , ')
avec = 1 2 et ' 2 =
12
n1
22
n2
2
n1 + n2 2
n1 + n 2 2
, alors T =
S
2
n1 + n2 2
1
1
+
n1 n 2
n1 + n2 2 degrs de libert.
Tests d'hypothse
dl =
(s
2
1
n1 )
(s
2
1
n1 + s 22 n2 )
(n1 1) + (s
2
2
n2 )
(n2 1)
Cette formule est utilise par les logiciels statistiques tels que SPSS ou SAS, c'est pourquoi
nous l'utiliserons aussi.
6.3 Test unilatral
Dans ce cas l'hypothse alternative est H 1 1 > 2 , il est inutile de distinguer ici le test droit
du test gauche puisque cela revient simplement changer les indices!, comme pour le test
contre un standard, nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette
hypothse) un cart entre les moyennes des chantillons trop improbable, c'est dire dont la
probabilit est infrieure au risque de premire espce fix.
1
1
En cas d'galit des variances : c = t1 * s + o s dsigne l'estimation
n1 n 2
, la loi de
s2 s2
En cas d'ingalit de variance : c = t1 1 + 2 , le nombre de degrs de libert tant
n1 n2
donn par la formule de Satterthwaite.
La rgle de dcision est alors la suivante, si sur les chantillons lcart observ ( p 1 p 2 ) est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
6.3.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob(Z >= x1 x 2 ) = (1 prob(Z < x1 x 2 ))
Page 143
Tests d'hypothse
x x2
ns = 1 prob T < 1
avec le nombre convenable de degrs de libert.
'
Remarque : Nous avons dcompos les formules de faon pouvoir facilement les copier
pour le cas d'ingalit des variances. L'cart type de Z reprsente le dnominateur de la loi de
Student ; le 2*B14 qui apparat dans la formule de la cellule C15 est du la dfinition de la
fonction LOI.STUDENT.INVERSE d'Excel qui est symtrique ; enfin le troisime paramtre
1 de la fonction LOI.STUDENT indique le cumul. La valeur standard reprsente la diffrence
entre les deux moyennes estimes divise par l'cart type de Z.
Les valeurs obtenues sont alors :
On pourra donc rejeter l'hypothse H0, au risque de 5%, puisque l'cart observ (334,30320,95=13,35) est suprieur la valeur critique 9,36. On voit d'ailleurs par le niveau de
signification que si l'hypothse H0 est vraie, moins de 1% des chantillons pourraient conduire
un cart, entre l'estimation de p2 et celle de p1,suprieur 13,35.
2) Variances ingales
Avec les mmes conventions et notations que prcdemment on a les formules :
Page 144
Tests d'hypothse
On pourra donc rejeter l'hypothse H0, au risque de 5%, puisque l'cart observ (334,30320,95=13,35) est suprieur la valeur critique 9,34. On voit d'ailleurs par le niveau de
signification que si l'hypothse H0 est vraie, moins de 1% des chantillons pourraient conduire
un cart, entre l'estimation de p2 et celle de p1,suprieur 13,35.
Remarquons enfin que sur des tailles d'chantillon "raisonnables" comme celles que nous
avons ici, il n'y a que peu de diffrence entre les rsultats sous les deux hypothses d'galit
ou d'ingalit des variances, et il serait tout fait possible d'utiliser directement la loi normale
en remplaant les carts types thoriques par leurs estimations (exercice laiss au lecteur).
6.4 Test bilatral
Dans ce cas l'hypothse alternative est H 1 p1 p 2 , comme pour le test contre un standard,
nous liminerons de l'hypothse H0, les chantillons conduisant (sous cette hypothse) un
cart en valeur absolue entre les moyennes des chantillons trop improbable, c'est dire dont
la probabilit est infrieure au risque de premire espce fix. Nous supposerons ici que les
tailles d'chantillons sont suffisamment grandes pour pouvoir utiliser l'approximation normale
directement, nous librant ainsi de l'hypothse de la normalit des lois sous jacentes.
Le lecteur pourra facilement passer du cas unilatral au cas bilatral pour les lois de Student.
6.4.1 Dtermination de la valeur critique
La valeur critique au-del de laquelle on rejettera l'hypothse H0 est donc dfinie par la valeur
c telle que :
prob( Z > c / H 0 ) = soit encore en tenant compte de la symtrie de la loi normale
Page 145
Tests d'hypothse
s2 s2
c = z1 2 1 + 2 o s1 et s2 dsignent les estimations des carts types de X1 et X2.
n1 n2
La rgle de dcision est alors la suivante, si sur les chantillons lcart absolu observ est
suprieur c, alors lhypothse H0 est rejete au risque derreur ; sinon on conservera
lhypothse H0 sans toutefois connatre le risque derreur.
6.4.2 Calcul du niveau de signification
Le niveau de signification est dans ce cas la probabilit, sous lhypothse H0, dobserver un
cart entre les deux estimateurs qui soit en valeur absolu au moins gal lcart absolu
observ sur les chantillons :
ns = prob( Z >= x1 x 2 ) = (1 prob(Z < x1 x 2 )) * 2
Puisque la loi normale suivi par Z est de moyenne nulle sous l'hypothse H0.
Si ce niveau de signification est infrieur au risque de premire espce , lhypothse H0 est
alors rejete.
6.4.3 Utilisation d'Excel
Sous Excel, nous avons la possibilit d'utiliser soit la loi normale, soit la loi normale centre
rduite (nomme standard sous Excel), pour le test bilatral nous donnerons les formules
utilisant la loi normale.
Sur la feuille de calcul Excel nous calculons tout dabord l'estimation de l'cart type de la loi
normale suivie par Z, ce qui nous permettra de calculer alors la valeur critique pour un risque
de premire espce donn ou/et le niveau de signification du test. Les formules sont les
suivantes :
On pourra rejeter l'hypothse H0, au risque de 5% puisque l'cart observ est de 13,35 donc
suprieur 11,10. On voit d'ailleurs par le niveau de signification, que le risque de premire
espce assum est au plus de 1,84%. Cette dernire valeur tait attendue, elle correspond
Page 146
Tests d'hypothse
1 pour un test dit "pair", on utilise la variable alatoire gale la diffrence des
deux variables, ce qui suppose que cette diffrence ait un sens et que le nombre
d'observations des deux chantillons soit le mme.
7 Test du KHI-DEUX
Le test de contingence du Khi deux a pour objectif de mettre en vidence un lien ventuel
entre deux variables qualitatives. Nous allons l'illustrer sur un exemple (fichier Tchi2.xls) : le
fabricant de shampoing DIP, veut dterminer quels sont les critres de choix d'un shampoing
suivant les catgories d'ages, de faon plus prcise il veut savoir si ces critres diffrent
suivant les tranches d'ages. Aprs une enqute auprs d'un chantillon de 535 consommateurs,
il a t constitu un fichier de donnes o sont relevs le principal critre de choix, l'age et le
lieu d'achat habituel du consommateur.
7.1 Formalisation du problme
La population E est constitue de l'ensemble des consommateurs de shampoing, sur cette
population sont dfinies plusieurs variables qualitatives, dont les deux variables qui nous
intressent notes X et Y concernant le choix et la tranche d'age.
L'hypothse nulle, que l'on cherche rejeter est l'indpendance des deux variables,
l'hypothse alternative est la liaison entre les deux variables sans toutefois prciser de quel
type est cette liaison.
L'hypothse nulle peut se formuler de la faon suivante :
Tests d'hypothse
Les probabilits correspondent aux frquences observes sur la population toute entire,
puisque la loi mise pour l'chantillonnage quiprobable est la loi uniforme.
7.2 Tableaux croiss ou de contingence (observ et thorique)
Sur un chantillon de taille n, nous utiliserons les notations suivantes :
nij
n
n j
n
ni
est donc l'estimation de prob( X = ai ) .
n
On regroupe ces lments dans un tableau, appel tableau crois ou tableau de contingence
des deux variables, les lments n j et ni s'appellent les marges du tableau. On a donc la
prsentation suivante :
Y
X
Total
bj
..
..
..
ai
nij
..
..
ni
..
Total
n j
Sous l'hypothse H 0 , on peut construire le tableau thorique que l'on devrait obtenir si
l'indpendance tait parfaitement respecte sur l'chantillon ; on suppose que l'chantillon
parfait a les mmes marges que l'chantillon observ. Nous noterons eij les effectifs thoriques
correspondant l'indpendance. Nous aurons alors les relations suivantes :
i [1, m] j [1, p ]
eij
n
ni n j
*
n
n
soit
eij =
ni n j
n
ai
Total
bj
..
..
eij
Page 148
..
ni
Tests d'hypothse
..
Total
..
n j
Seules les cellules grises diffrent du tableau de contingence observ sur l'chantillon, si ces
deux tableaux sont suffisamment diffrents nous rejetterons l'hypothse H 0 . Il nous faut donc
dfinir une distance entre tableau et connatre la loi de cette distance sous l'hypothse nulle,
pour appliquer la mme dmarche que dans les tests prcdents.
7.3 Construction des tableaux sous Excel
Si l'on dispose des donnes brutes comme c'est le cas ici (feuille Enqute), il faut tout d'abord
construire le tableau de contingence observ. Pour cela on peut soit utiliser les tables (cf. le
chapitre rappel Excel), soit utiliser la commande "Tableau Crois dynamique" du menu
Donnes, que nous allons illustrer ici.
La cellule active tant une des cellules de donnes, pour qu'Excel dtermine lui-mme la zone
de donnes, nous choisissons donc la commande Donnes, puis Rapport de Tableau Crois
dynamique ; l'assistant va alors nous guider dans le choix des diffrents lments.
Tout d'abord nous devons indiquer partir de quelles donnes doit tre construit le tableau
crois :
Nous confirmons le choix par dfaut (Liste ou base de donnes) en cliquant sur suivant. Si la
cellule active est dans la zone de donnes l'tape suivante est simplement une confirmation de
la plage de donnes (sinon il faudra alors indiquer cette plage) ; nous passons directement
l'tape suivante qui est la cration du tableau crois.
Cette cration se fait en prcisant la variable en ligne, la variable en colonne et le contenu des
cases du tableau, ici le nombre des individus. Il suffit de faire glisser les champs apparaissant
droite de la bote de dialogue leur place dans le tableau crois (figure 1), puis de glisser
l'intrieur du tableau le champ correspondant une variable qualitative :
Page 149
Tests d'hypothse
Figure 1
Figure2
Si la variable est quantitative, Excel propose la somme des valeurs de cette variable pour
chacun des couples de modalit, en double cliquant sur l'tiquette intrieure au tableau il est
possible de modifier cette caractristique.
En cliquant sur "Suivant", on obtient une dernire boite de dialogue qui permet de choisir o
sera cr le rapport, nous choisirons l'option "Nouvelle feuille" et terminerons la cration du
tableau crois, ce qui nous donne le rsultat suivant sur une feuille qui a t renomme
"Choix-Age" :
Remarque : contrairement ce que l'on obtient par les tables d'hypothse, ce tableau ne
contient aucune formule, mais uniquement des valeurs (pour les marges aussi).
Il est alors facile d'obtenir le tableau thorique sous l'hypothse H0, par les formules suivantes
obtenues par recopie de l'une d'entre elles :
Il est clair dans la mesure o les valeurs ne sont pas entires, ce tableau thorique ne peut
videmment pas tre observ. Il nous faut savoir si l'cart entre le tableau observ et le tableau
thorique doit tre attribu aux alas de l'chantillonnage ou une dpendance structurelle
entre les variables. Ceci va se faire en dfinissant une distance entre les tableaux.
Page 150
Tests d'hypothse
7.4 Distance du Chi2 Test
Pour mesurer la distance entre deux tableaux A et B m lignes et p colonnes, l'ide naturelle
est de prendre la distance euclidienne dans Rmp, c'est dire :
d ( A, B ) =
2
(a
m, p
i , j =1,1
bij )
ij
cependant dans notre dmarche, cette distance ne correspond pas exactement ce que nous
recherchons. En effet, les deux tableaux (observ et thorique) ne jouent pas des rles
symtriques, nous voulons calculer la distance du tableau observ au tableau thorique
puisque nous nous plaons sous l'hypothse H0. Il est donc naturel d'accepter un cart plus
grand pour une case du tableau thorique prsentant un effectif plus grand, on va donc tenir
compte dans la distance des effectifs thoriques attendus, et nous utiliserons comme distance,
m , p (n e )2
ij
ij
2
i =1
i =1
j =1
j =1
N ij = eij = n j
N ij = eij = ni
ce qui revient dire que seules (m-1)*(p-1) d'entre elles sont indpendantes, comme on peut
le voir quand on veut remplir "au hasard" un tableau m lignes et p colonnes en respectant
des marges donnes l'avance.
On peut alors dmontrer le rsultat suivant : quand n tend vers l'infini (et si aucun eij n'est
born), la variable D2 tend en loi vers une loi du Chi2 (m-1)*(p-1) degrs de libert.
Remarque : la condition impose sur les eij est rapprocher du cas de convergence d'une loi
binomiale vers une loi de Poisson.
L'hypothse H0 est rejete si la distance entre le tableau thorique et le tableau observ est
trop grande, c'est dire si la probabilit d'observer sous l'hypothse H0 une telle distance est
infrieure au risque de premire espce donn.
La valeur critique c de rejet de l'hypothse H0 est donc dtermine en fonction du risque
assume par la formule prob 2
> c = . On voit que la valeur critique peut
(
)(
)
1
1
m
tre fixe avant tirage de l'chantillon. La rgle de dcision est alors la suivante : si la valeur
de la statistique d 2 observe sur l'chantillon est suprieure c, l'hypothse H0 est rejete et
on conclut une liaison entre les deux variables, ceci avec un risque d'erreur infrieur .
Page 151
Tests d'hypothse
niveau de signification est infrieur , dans ce cas le risque d'erreur est infrieur ou gal
ns.
Il faut alors calculer la statistique sur l'chantillon, voici les formules correspondantes (les
colonnes C et D ont t masqu), la valeur de la statistique est dans le coin infrieur droit du
tableau, chaque case contient la diffrence entre l'effectif thorique et l'effectif observ au
carr divise par l'effectif thorique. La statistique est simplement la somme de toutes les
cases du tableau :
Page 152
Tests d'hypothse
Nous allons indiquer ici succinctement la procdure de test d'galit de deux variances,
l'hypothse alternative tant le fait que les variances sont diffrentes, les cas unilatraux tant
laisss au lecteur dans la mesure o ils sont trs rarement utiliss dans la pratique.
Nous considrons deux variables quantitatives X1 et X2 dfinies sur deux populations P1 et
P2(comme dans le paragraphe 6- comparaison de deux moyennes), nous supposerons de plus
que ces deux variables suivent une loi normale d'cart type respectif 1 et 2.
L'hypothse nulle et l'hypothse alternative sont respectivement :
H0
H1
1 = 2
1 2
nous savons que (n 2 1)S n22 22 suit une loi du Chi2 (n 2 1) degrs de libert (voir le
chapitre sur l'estimation).
Pour le test nous allons utiliser la statistique
S n21
S n22
car alors les deux variances sont gales donc les deux dnominateurs rappels ci-dessus le
sont aussi. Cette loi est la loi de Fisher-Snedecor (n1 1, n 2 1) degrs de libert, nous
noterons FS n , p la loi gnrique (n,p) degrs de libert. D'aprs la dfinition mme de cette
loi, on peut voir que :
pour f > 1
puisque changer le couple (n,p) en (p,n) revient simplement inverser la fraction dfinissant
la loi.
8.1 Dtermination de la valeur critique
Page 153
Tests d'hypothse
S n21 1
S n21
Sn
2 c
2
S n21
prob 2 > c =
2
Sn
2
La rgle de dcision est alors la suivante : si s1 et s2 sont les carts type estims sur les
chantillons, on rejettera l'hypothse H0 avec un risque d'erreur infrieur , si :
s2 s2
max 12 , 22 > c
s 2 s1
Valeurs
Formules
Comme la valeur critique est infrieure la valeur observe, nous ne pouvons pas rejeter
l'hypothse H0 au risque de 5%, nous conserverons donc l'hypothse d'galit des variances.
8.2 Calcul du niveau de signification
Page 154
Tests d'hypothse
Formules
Valeurs
Il y a ici plus de 77% de chances d'observer une telle valeur de f sous l'hypothse H0, on ne
rejette donc pas l'hypothse nulle au risque de 5%.
Un fabricant de lessive affirme que le taux de phosphates contenu dans les lessives de sa
marque est infrieur 6% du poids total. Un institut de consommation a fait analyser un
chantillon de 150 paquets dont les rsultats sont donns dans le fichier "phos.xls".
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez sous forme de test le problme de l'institut de consommation.
3. Quelle conclusion tirez-vous de l'analyse de l'chantillon?
2 AntiSmoke(tabac.xls)
Un laboratoire pharmaceutique envisage de lancer sur le march un nouveau "patch" antitabac "Antismoke", que s'il assure au moins 25% de russite, c'est dire qu'au moins 25% des
utilisateurs ne doivent pas recommencer fumer aprs un mois de traitement.
Des essais ont t faits sur un panel de 100 fumeurs et les rsultats sont donns dans le fichier
"tabac.xls", la reprise=1 indique que le fumeur a rechut avant la fin du mois sinon il est
indiqu 0.
1. Dfinissez la population, la variable et le paramtre concerns par l'analyse.
2. Formulez le test du laboratoire
3. Le laboratoire doit-il lancer son produit?
4. Peut-on faire une diffrence sur l'efficacit du mdicament selon le sexe de la personne?
Page 155
Tests d'hypothse
3 Le groupe de presse AES
Le groupe de presse AES (Avenir et Socit) est spcialis dans l'dition de livres et de revues
scientifiques. L'une de ces revues Sciences du Futur, est diffuse exclusivement par
abonnement. La direction commerciale dsire prospecter le segment de clientle des
professions mdicales par des offres d'abonnement des tarifs prfrentiels. Pour cela elle
envisage d'acqurir le fichier des abonns de la revue mdicale CADUCOR.
CADUCOR annonce que l'exprience passe montre quentre 8 12 % environ des mdecins
du fichier rpondent positivement aux offres qui leur sont faites par correspondance
(abonnements, livres, objets etc...). Aprs un calcul de rentabilit, AES estime que le fichier
peut se rvler intressant sil prsente un taux de rponse suprieur 10%.
1. Prciser la population, la variable de description et le paramtre faisant l'objet de l'tude.
2. Formuler le problme sous forme d'un test. Donner la forme gnrale de la rgion de rejet
de l'hypothse H0. Donner une interprtation des deux types d'erreur.
3. AES dsire contrler l'erreur de type I en fixant le risque associ a = 0.05. Prciser la
rgion de rejet du test si la taille de l'chantillon retenue est de 400.
4. Une proposition d'abonnement a t envoye 400 mdecins; 58 d'entre eux ont rpondu
favorablement.
D'aprs ce rsultat AES doit-il acheter le fichier CADUCOR ?
4 Contrle de qualit (quali.xls)
La socit LOCVIDEO est une entreprise de location de vidos du Sud-Est de la France, il est
principalement implant dans la rgion Lyonnaise, Grenobloise et Marseillaise. Jusqu'
prsent l'approvisionnement des points de ventes se faisait de la mme faon quelle que soit la
ville, au bout d'un an d'existence la direction se demande si elle ne devrait modifier sa
politique. Vous disposez d'un chantillon de la consommation de 1192 clients sur un mois
pour faire vos recommandations.
1. Y a t-il une relation entre le premier ou le second choix de location et la ville?
2. Y a t il une relation entre le sexe et le choix des vidos?
3. Pouvez vous classer les trois rgions en fonction de leur consommation : quelle est la ville
qui consomme le plus de vidos?
Page 156
Tests d'hypothse
La socit SVC vend par correspondance des CD-Audio. Pour cela elle procde par
publipostage dans lequel on trouve une description du CD propos, accompagne dune offre
promotionnelle (remise ou cadeau en cas dachat). Le publipostage est envoy aux 120000
personnes figurant dans le fichier clients de la socit.
En 1996, la cinquime symphonie de Beethoven ft propose avec une remise de 10 % en cas
dachat sous huitaine une fois reu le publipostage. Elle ft vendue 18 000 exemplaires.
La direction Marketing dsire renouveler lopration avec la neuvime symphonie de
Beethoven. Elle hsite entre deux formules :
La formule F1 dj utilise pour promouvoir la cinquime symphonie.
La formule F2 offrant un mini dictionnaire de termes musicaux en cas dachat.
Il a t dcid de tester ces deux formules en recourant deux sondages dans le fichier des
120 000 clients : la formule F1 tant propose un premier chantillon et la formule F2 un
second diffrent du premier. Lobjectif des ces deux sondages est destimer la proportion
dacheteurs suivant chacune des deux formules avec un seuil de prcision de 1% 6. La taille
retenue pour chaque chantillon est de 4 900.
Les deux sondages ont donn les rsultats suivants :
Formule F1
Nombre dacheteurs
801
Formule F2
914
La socit Votre Sant est une entreprise de vente par correspondance de produits de beaut
dits naturels . Elle gre un fichier de 350 000 clients et propose chaque mois une offre
promotionnelle accompagne dun cadeau. Le taux de rponse cette offre est gnralement
de 15%, la marge moyenne par rponse de 340F. Mlle C. Claire, nouvellement en charge de
ce fichier, a retenu comme cadeau un abonnement gratuit de six mois, au mensuel Votre
beaut Madame . Elle pense que cela pourrait augmenter le taux de rponse la prochaine
offre ; toutefois cette proposition ne serait rentable que si le taux de rponse dpassait les
6
Le seuil de prcision est la demi-longueur de lintervalle de confiance. Il sagit dun seuil de prcision absolue.
Page 157
Tests d'hypothse
17,5% (avec la mme marge moyenne videmment). Elle envisage de tester la ralit de ces
hypothses sur un chantillon de clientes. La prcision voulue pour son estimation est de
lordre de 2%.
Questions
1. Quelle taille dchantillon doit-elle choisir afin d'atteindre la prcision voulue (avec un
degr de confiance de 0,95) ?
2. Les rsultats dun sondage sur un chantillon de 1225 clientes vous sont donns en
annexe 1.
3. Donner une estimation par intervalle au degr de confiance 0,95 du pourcentage de
rponses positives attendu loffre.
4. Mlle C. Claire se propose de procder au test dhypothse suivant :
H0 <=17,5%
H1 >17,5%
Expliquer pourquoi elle envisage ce test. Indiquer et dterminer la rgion de rejet associ ce
test (risque de type I gal 0,05). Que concluez-vous ?
5. Mlle C. Claire pense que les nouveaux clients (inscrits depuis moins de 6 mois) ont un
taux de rponse suprieur aux anciens. Confirmer ou infirmer cette hypothse.
6. Il sagit dans cette question de dterminer un intervalle de confiance au degr de
confiance 0,95 de la marge de la campagne promotionnelle.
Peut-on considrer que la marge moyenne attendue de cette campagne sera la mme que
pour les campagnes prcdentes. On posera cette alternative sous forme de test et on
prendra un risque de premire espce de 0,05
En dduire une estimation par intervalle de la marge totale attendue.
Annexe 1 Rsultats du sondage
Total
1225
258
Anciens Clients
850
193
Marge totale
85140 F
Marge Moyenne
330 F
Ecart-type de la marge
165 F
La socit Bricoplus a lanc pendant un mois une campagne publicitaire avec bons de
rduction dans la presse rgionale. Le cot de la campagne a t de 1000KF. A la fin du mois
elle a reu 20000 commandes (avec ou sans bon de rduction). Avant de traiter lensemble
des commandes, la socit voudrait avoir une estimation du succs de cette campagne. Pour
cela elle tudie un chantillon de 900 commandes prises au hasard. Les rsultats de cet
chantillon sont donns dans le tableau suivant :
Origine
Nombre
Page 158
Total
900
Tests d'hypothse
Valeur moyenne
Ecart-type(Valeur)
308
207,6
293
191,2
300,88
200
La socit ABC se propose de lancer un nouveau produit dans lensemble des 25000
magasins distribuant sa marque. Elle veut valuer la capacit de production hebdomadaire
ncessaire, pour cela elle a choisi un march test de 400 magasins. Les rsultats obtenus sur
cet chantillon sont les suivants :
Moyenne des ventes par magasin et par semaine : 800 units
Ecart-type estim des ventes : 360 units
1) Donner une estimation ponctuelle, puis un intervalle de confiance 0,95 du volume total
espr des ventes.
2) Quelle taille dchantillon aurait t ncessaire pour atteindre une prcision de 200000
units sur les ventes totales ?
Une enqute de satisfaction sur les utilisateurs dune voiture urbaine a montr que sur 1000
personnes interroges 640 se dclarait satisfaits du service aprs vente du constructeur.
Donner un intervalle de confiance au degr de confiance 0,95 du pourcentage de personnes
satisfaites
Peut-on considrer que plus de 60% des utilisateurs de ce service aprs vente sont satisfaits.
La rpartition des personnes satisfaites par tranche dge est la suivante :
Tranche dge
18-35 ans Plus de 35 ans
Nombre de personnes interroges
600
400
Satisfaits
350
290
Peut-on conclure que chez les moins de 35 ans le taux de satisfaction est significativement
plus lev que chez les plus de 35 ans(on prendra un risque de premire espce de 0,05) ?
11 Exercice 11 : La Socit Sogec (d'aprs J. Obadia)
La Socit SOGEC, filiale de la banque HERVA est spcialise dans le crdit la consommation.
En 1998, le montant des crdits accords ses clients tait de 2 4120 000 F et la provision
pour crances douteuses estime 1 206 000 F. Jusqu'en 1997, cette provision tait calcule
aprs un examen exhaustif de tous les comptes clients, permettant de mettre en vidence les
Page 159
Tests d'hypothse
crances douteuses (une crance tant dclare douteuse lorsqu'il est constat deux chances
non payes sur les quatre dernires dues).
En 1998, le chef comptable abandonne cette procdure, prsentant l'argument suivant :
Lorsque l'on examine les donnes des dix dernires annes, on constate que la proportion
de crances douteuses varie, suivant les annes entre 3% et 6%. Aussi afin d'viter un travail
long et fastidieux mon service (3 employs mobiliss pendant 45 jours), il est prfrable
d'estimer la proportion de crances douteuses 5% et dappliquer ce taux au montant global
des crdits accords pendant l'anne. Cela suppose bien sr que la valeur moyenne des
crances douteuses soit gale la valeur moyenne de l'ensemble des crances. Ce qui a t le
cas ces dernires annes .
M. Allais, charg par la maison mre du contrle des donnes comptables de la Socit
SOGEC, demande M. Salmain de raliser un sondage. Ce sondage devrait permettre, aprs
examen d'un chantillon de comptes clients, de vrifier les deux hypothses sur lesquelles
repose la procdure adopte par le chef comptable. M. Salmain considra que l'estimation du
pourcentage des crances douteuses tablie partir de ce sondage n'tait pas suffisamment
prcise (avec un degr de confiance de 0.95). Il procda un autre sondage, permettant
d'obtenir une prcision de l'ordre de 4% (toujours avec un degr de confiance de 0.95). Les
rsultats de ce deuxime sondage sont donns en annexe. M. Salmain avait en main tous les
lments pour estimer la valeur des crances douteuses.
1
Lorsqu'il prsente la nouvelle procdure qu'il a adopte, le chef comptable prcise : Cela
suppose bien sr que la valeur moyenne des crances douteuses soit gale la valeur
moyenne de l'ensemble des crances . Expliquez pourquoi ?
2.1
2.2
3.2
3.3
3.4
3.5
Tests d'hypothse
3.7
Annexe
Page 161
Rgression Linaire
LA REGRESSION LINEAIRE
1 Un exemple (fichier Pubradio.xls)
Une entreprise de produits de grande consommation dsire mesurer l'efficacit des campagnes
de publicit et promotion pour diffrents mdias. Spcialement trois types de mdias sont
utiliss rgionalement, la presse, la radio et la distribution d'extraits de catalogue gratuits. Un
chantillon de 22 villes de mme grandeur a t choisi, villes pour lesquelles diffrents
budgets de publicit ont t attribus aux trois. Aprs une priode d'un mois, les ventes du
produit (en milliers d'euros) ont t enregistres ainsi que les dpenses publicitaires.
Ville
1
2
3
4
5
6
7
8
9
10
11
Ventes
( 000)
894
1032
804
576
840
894
858
1086
810
906
1500
Radio
( 000)
0
0
9
9
13
13
16
16
19
19
19
Journaux Gratuits
( 000)
(00)
19
9
19
3
9
7
9
11
13
12
13
8
16
11
16
17
9
15
9
10
19
15
Ville
12
13
14
15
16
17
18
19
20
21
22
Ventes
( 000)
1452
960
840
1224
1224
1296
1320
1404
1602
1722
1584
La direction commerciale peut-elle utiliser ces donnes pour prvoir les ventes en fonction
des budgets dpenss?
2 La notion de modle en statistique
Un modle statistique met en relation une variable dite variable dpendante ou variable
expliquer et des variables dites indpendantes ou variables explicatives. Le vocabulaire
dpendant, indpendant est plutt anglo-saxon, la terminologie franaise correspond la
notion de variables explicatives et expliquer ; les deux terminologies sont sujettes caution,
dans la mesure o les variables explicatives ne sont pas forcment indpendantes au sens
probabiliste (sur la population munie de la loi uniforme), mais ne sont pas non plus cause des
variations de la variable expliquer. Dans la suite nous conserverons la terminologie
franaise, variable expliquer, variables explicatives. Les variations des variables explicatives
sont simplement supposes influencer les variations de la variable expliquer, le fait d'en tre
la cause ne peut tre prouv statistiquement, mais rsultera d'un raisonnement conomique ou
autre, tranger la statistique.
Un tel modle statistique doit permettre :
D'tablir une relation analytique ou structurelle entre la variable expliquer et les
variables explicatives (gnralement partir d'un chantillon).
D'analyser l'influence simultane et/ou individuelle des variables explicatives sur
la variable expliquer. Dans certains cas d'liminer des variables qui ne
s'avreraient pas influentes ou de prciser les liens de causalit supposs par
ailleurs.
De prvoir la valeur espre de la variable expliquer si les valeurs des variables
explicatives sont connues, et de prciser un intervalle de confiance pour cette
prvision.
Page 162
Rgression Linaire
Dans la suite nous noterons toujours Y la variable expliquer et ( X k )k =1, p les variables
explicatives (au nombre de p) ; si la variable explicative est unique nous la noterons X sans
indice. Toutes ces variables sont dfinies sur une mme population P.
Exemples :
Dans notre exemple P : population des villes o sont distribus les produits
pendant une priode donne
Y = ventes mensuelles des produits en milliers d'euros
X1 = budget mensuel publicitaire radios locales en milliers d'euros
X2 = budget mensuel publicitaire presse locale en milliers d'euros
X 3 = budget mensuel publicitaire pour les gratuits en milliers d'euros
L'objectif est alors de prvoir les ventes mensuelles en fonction des budgets
attribus aux deux mdias.
P : population des mnages en France pendant une priode donne
Y = consommation d'un mnage pendant cette priode
X = revenu du mnage pendant cette priode
Ou encore
Y = consommation d'un mnage pendant cette priode
X = revenu du mnage pendant cette priode
L'objectif pourrait alors tre de prvoir l'impact d'une politique de revenus sur la
consommation ou l'pargne.
P : population des appartements d'un quartier de Paris une priode donne
Y = prix d'un appartement
X1 = surface de l'appartement
X2 = l'existence d'un parking
Etc..
P : population des zones gographiques de reprsentation mdicale pendant une
priode donne
Y = nombre trimestriel de prescriptions d'un mdicament
X1 = dure moyenne de la visite
X2 = nombre d'chantillons distribus
X3 = nombre de visites par mdecins
Etc..
2.1 Relation dterministe/statistique
Une variable Y est dite en relation dterministe avec des variables ( X k )k =1, p s'il existe une
seule valeur y Y pour des valeurs x = ( x k )1 k p des variables X = ( X k )k =1, p . Un tel modle
appliqu au deuxime exemple du prix d'un appartement signifierait par exemple que tous les
Page 163
Rgression Linaire
appartements de 100m2 avec un parking ont le mme prix de vente. Ceci n'est videmment
pas raliste, dans un mme quartier des appartements de mme surface sont des prix
diffrents, ceci est du des lments tangibles tels que l'orientation, l'tage, la prsence d'un
gardien, ou des lments plus subjectifs regroups souvent sous le terme de charme.
L'exemple prcdent montre que pour une valeur donne des variables explicatives ne
correspond pas une seule valeur de Y, mais tout un ensemble de valeur de Y, qui bien sur
s'appliqueront diffrents individus de la population pour lesquels les variables explicatives
ont les mmes valeurs : un appartement donn aura toujours un prix et un seul, mais le fait de
connatre sa surface et la prsence ou non d'un parking ne suffiront pour que l'on connaisse de
faon dterministe son prix.
On exprimera cette notion en disant que les variables explicatives dterminent une loi de
probabilit de la variable expliquer Y, cette loi sera note Yx. Les paramtres de la loi de Yx
seront des fonctions dterministes de la variable X = ( X k )k =1, p , en particulier la moyenne sera
note x et sera l'esprance de Y conditionne par la valeur prise par les variables
explicatives :
x = E (Y / X = x )
on peut alors crire sans perdre de gnralit que
Yx = ( x ) + x
o x est une variable alatoire de moyenne nulle (obtenue aprs centrage de la variable Yx )
et dont les autres paramtres dpendent thoriquement de la valeur x prise par les variables
explicatives.
Ainsi sur le prix d'un appartement on aurait pour un appartement de 100 m2 avec parking
(cette dernire variable valant 1 pour l'existence d'un parking 0 sinon) :
Y100,1 = (100,1) + 100,1
se dcompose en deux parties, une partie dterministe qui donnera le prix moyen d'un tel
appartement et une partie alatoire cart entre le prix moyen et le prix de l'appartement, qui
prend en compte les autres lments pouvant intervenir dans la fixation du prix. On crira
souvent de manire abusive, le modle sous la forme :
Y = f (X ) + E X
1. La prsence d'un parking n'influence pas le prix de l'appartement dans ce cas seule la
surface est un lment dterminant du prix, la fonction dterministe dfinissant la
moyenne est une fonction d'une seule variable :
f ( X 1 , X 2 ) = a + bX 1 d'o Y = a + bX 1 + X
Rgression Linaire
Yx1 , x2 = a + bx1 + x1
b reprsente le prix du mtre carr dans le quartier (a serait en quelque sorte le cot
d'entre dans le quartier)
2. La prsence d'un parking est un cot fixe donc augmente de faon constante le prix de
l'appartement dans ce cas la fonction dterministe dfinissant la moyenne est une fonction
de deux variables :
f ( X 1 , X 2 ) = a + bX 1 + cX 2 d'o Y = a + bX 1 + cX 2 + X
en notant a'=a+c et b'=b+d nous pouvons rcrire ces deux quations sous la forme
unique suivante :
f ( X 1, X 2) = a + bX 1 + cX 2 + dX 1 X 2
ou encore en notant X3 la variable dfinie par X3=X1X2, nous avons un modle linaire
trois variables explicatives :
Y = a + bX 1 + cX 2 + dX 3 + X
pour des valeurs donnes x1 et x2 (x3=x1x2), nous aurons alors
Yx1 , x2 = a + bx1 + cx 2 + dx3 + x1 , x2
A partir d'un chantillon d'appartement, la modlisation statistique nous permettra d'estimer
les coefficients et de tester la validit de chacun des modles sur l'ensemble de la population.
La modlisation fait donc appel aux deux techniques que nous avons prsentes
prcdemment l'estimation et les tests d'hypothse.
3 Le modle de rgression linaire
Nous allons ici faire des hypothses tant sur la partie dterministe, fonctionnelle de la
moyenne conditionne, que sur la partie alatoire ; ces conditions vont nous permettre d'avoir
des outils pour estimer les lments du modle appel modle de rgression linaire.
3.1 Hypothse dterministe du modle de rgression linaire
La premire hypothse du modle de rgression linaire consiste modliser l'esprance
mathmatique conditionnelle par une fonction linaire (ou plus exactement une fonction
affine) :
(x1 , x 2 , K, x p ) = 0 + 1 x1 + 2 x 2 + K + p x p
Remarque : si l'on ajoute la variable "artificielle" X0 gale 1 sur toute la population (donc x0
vaut toujours 1), la formule peut alors s'crire :
Page 165
Rgression Linaire
k= p
(x0 , x1 , x 2 , K, x p ) = 0 x 0 + 1 x1 + 2 x 2 + K + p x p = k x k
k =0
ce qui peut s'crire de manire abusive, sans rappeler les valeurs spcifiques des variables
explicatives :
k= p
Y = k X k + X
k =0
X dsignant une famille de variables alatoires dont les paramtres dpendent des valeurs
prises par les variables explicatives ( X k )1 k p . C'est sur cette dernire famille de loi que vont
'
p
l'on traite des donnes indexes par le temps. Par exemple cela signifie qu'un mois de
Page 166
Rgression Linaire
surconsommation n'a pas plus de "chances" d'tre suivie d'un mois de sous consommation
qu'un autre (pas d'effet de stockage).
Normalit : on suppose enfin (et ceci pour les tests particulirement) que toutes les
variables alatoires de la famille X sont normales, donc suivent une loi normale de
moyenne nulle et d'cart type s.
Compte tenu de ces trois hypothses, on pourra alors par abus de langage utiliser une notation
gnrique unique en confondant toutes les lois de la famille X en une seule, et le modle
sera alors not :
k= p
Y = k X k +
o N (0, )
k =0
Les paramtres du modle sont estims partir d'un chantillon de taille n, sur lequel sont
releves les valeurs des variables explicatives et de la variable expliquer. On obtient ainsi un
tableau de donnes :
y1
y2
M
yi
M
yn
x11
x 21
M
xi1
M
x n1
x12
x 22
M
xi 2
M
xn 2
L x1k
L x2k
M
M
L xik
M
M
L x nk
L x1 p
L x2 p
M
M
L xip
M
M
L x np
Si le modle de rgression linaire est valide, nous devons avoir les n relations suivantes entre
les valeurs prises par la variable expliquer Y et les variables explicatives ( X k )1 k p :
y i = 0 + 1 xi1 + 2 xi 2 + K + p xip + ei
o ei , appele valeur rsiduelle, correspond la ralisation de la variable alatoire pour la
ime observation.
3.3.1 Critre des moindres carrs
Les valeurs rsiduelles dpendent des valeurs des paramtres du modle ( 0 , 1 , K, p ) , plus
l'amplitude de cette valeur est grande, moins bien l'observation est reprsente par le modle,
il est donc naturel de penser que si le modle de rgression est bien adapt aux donnes sur
l'ensemble des observations les valeurs rsiduelles ne sont pas, en valeur absolue, trop
Page 167
Rgression Linaire
leves, cette dmarche est rapprocher, bien que diffrente mais lie (voir plus loin), de la
mthode du maximum de vraisemblance en estimation.
On cherchera donc des valeurs des coefficients de rgression telles que l'ensemble des
amplitudes des valeurs rsiduelles soit le plus faible possible, pour des raisons historiques de
commodit de calcul analytiques on utilisera la somme des carrs pour mesurer cet ensemble.
Le critre des moindres consiste donc dterminer les valeurs des coefficients qui
minimisent :
h( 0 , 1 , K, p ) = ei2
n
i =1
h(b0 , b1 , K, b p ) = min h( 0 , 1 ,K , p )
Ce minimum peut tre dterminer en rsolvant le systme de p+1 quations p+1 inconnues
obtenu en, drivant la fonction h chacun des p+1 coefficients (on suppose que ce systme
d'quations une solution unique, ce que nous interprterons gomtriquement au paragraphe
suivant).
Nous noterons dans la suite y i l'estimation de la moyenne correspondant la variable
alatoire de la ime observation :
y i = b0 + b1 xi1 + b2 xi 2 + K + b p xip
et ei l'estimation de la ime valeur rsiduelle : ei = y i y i
3.3.2 Interprtation gomtrique du critre des moindres carrs
Nous allons interprter gomtriquement la mthode des moindres carrs, ce qui nous
permettra d'expliciter certaines proprits des estimations et estimateurs associs. Pour cela
nous allons nous placer dans l'espace des individus, c'est dire que nous allons considrer un
espace vectoriel n dimensions, chaque dimension tant associe un individu de
l'chantillon. Par exemple pour un chantillon de taille 3 nous aurons un espace de dimension
3, c'est ce que nous utiliserons pour les reprsentations graphiques.
Dans cet espace nous pouvons associer chaque variable (plus exactement chaque
chantillon image de chaque variable) un vecteur, que nous noterons avec des lettres
majuscules :
y1
Y = M
y n
x1 p
x11
1
e1
E = M
en
les n relations crites au paragraphe prcdent donnent une seule relation vectorielle :
Y = 0 X 0 + 1 X 1 + 2 X 2 + K + p X p + E
Page 168
Rgression Linaire
(X
, X 1 ,K, X p ) que nous supposerons indpendants (ce qui revient considrer que le
systme d'quations voqu au paragraphe prcdent a une solution unique), quelles que
soient les valeurs des k, d'autre part le critre des moindres carrs s'interprte comme la
norme (au carr) du vecteur E. Pour satisfaire le minimum de la norme de ce vecteur, il faut
donc projeter Y sur le plan . Les estimations des coefficients de la rgression sont donc les
coordonnes du vecteur Y projection de Y sur le plan . Le vecteur E est alors orthogonal
ce plan (donc tous les vecteurs de ce plan).
i =1
i =1
E , X 0 = 0 = ei 1 = ei
2. Les estimations des moyennes y i ont mme moyenne que les observations yi. En effet :
n
ei = 0 = ( yi y i ) = yi y i
i =1
i =1
i =1
donc
i =1
y=
1 n
1 n
y
=
y i
i n
n i =1
i =1
3. Le centre de gravit du nuage de points est dans le plan (sur la droite) de rgression, c'est
dire que l'on a la relation suivante :
y = b0 + b1 x1 + K + b p x p
Page 169
Rgression Linaire
n
Y , E = y i ei = 0 ou encore
i =1
i =1
i =1
i =1
( y i y )ei = y i ei y ei
(y
i =1
i =1
i =1
2
2
2
y ) = ( y i y ) + ( y i y i )
SCT = ( y i y )
i =1
SCE = ( y i y )
i =1
SCR = ( y i y i ) = ei2
2
i =1
i =1
Cette dcomposition exprime que la variabilit des valeurs observes ( y i )1i n mesure
par SCT est la somme des variabilits des valeurs ( y i )1i n reconstitues par le modle de
rgression mesure par SCE, et de la variabilit des rsidus mesure par SCR. En
consquence comme SCT est constant, on peut tre tent de dire qu'il faut rendre SCE le
plus grand possible ; il faut toutefois faire attention que seul l'chantillon est reconstitu
et que nous sommes concerns par l'ensemble de la population, et que cette
"optimisation" ne doit pas tre obtenue n'importe quel prix.
6. L'estimation de la variance commune des variables alatoires , est donne par :
n
s2 =
e
i =1
2
i
n p 1
Page 170
Rgression Linaire
4. On peut enfin dmontrer les rsultats suivants sur les estimateurs obtenus par la mthode
des moindres carrs :
Les estimateurs des coefficients de rgression sont des combinaisons linaires des
observations de la variable expliquer. Ils suivent donc une loi normale.
Les estimateurs des coefficients de rgression et de la variance de , sont sans biais
et convergents.
Les estimateurs des coefficients de rgression sont les meilleurs estimateurs non
biaiss, linaires, c'est dire que ce sont parmi les estimateurs linaires non biaiss
ceux qui ont la variance minimum.
Les estimateurs des coefficients de rgressions par la mthode des moindres carrs
sont les mme que ceux obtenus par la mthode du maximum de vraisemblance.
Ce n'est pas le cas pour l'estimation de .
1) Le coefficient de dtermination R2
Le coefficient de dtermination est le pourcentage de la somme des carrs totale expliqu par
le modle. Il est dfini par le rapport :
Page 171
Rgression Linaire
R2 =
SCE
SCT
trs souvent, mais par excs de langage on dit que R2 reprsente le pourcentage de variance
expliqu par le modle. L'excs est double, en effet les sommes des carrs (totale et
explique) ne sont pas des variances, ensuite le rapport ne porte que sur l'chantillon. Plus ce
rapport est proche de 1, meilleure est la reconstitution de la variabilit de la variable
expliquer sur l'chantillon. Comme nous l'avons vu au paragraphe prcdent, en prenant n-1
variables explicatives quelconques on reconstituera toujours 100% la variabilit de
l'chantillon.
Cet indicateur est donc un indicateur biais, il augmentera de faon systmatique avec le
nombre de variables explicatives. Sans qu'il y ait de rgle rationnelle donnant le nombre de
variables explicatives maximum pour un nombre donn d'observations, en pratique il est
recommand de prendre au moins 5 6 observations par variable explicative.
Enfin plus que la valeur du R2, ce qui est intressant, c'est la variation de cette valeur par ajout
de variable, si cette variation est trop faible la variable (ou les variables) ajoute(s) sont sans
intrt pour le modle, comme nous le verrons plus loin.
Le coefficient de dtermination est un indicateur intrinsque d'adquation linaire, un mauvais
R2 n'est pas le signe d'une non influence des variables explicatives choisies, mais le signe
d'une absence de liaison linaire. Si des raisons conomiques poussent croire une
influence des variables explicatives choisies, il faudra alors peut-tre utiliser des
transformations non linaires.
Enfin pour terminer, coefficient de dtermination, ne peut en aucun cas servir choisir une
rgression parmi plusieurs rgression n'ayant pas le mme nombre de variables.
s2 =
e
i =1
2
i
n p 1
SCR
n p 1
Bien que lie au coefficient de dtermination, cette valeur n'en a pas les dfauts, en effet le
dnominateur corrige l'effet de l'augmentation des variables, cette quantit n'est d'ailleurs pas
dfinie dans le cas de modle satur pour l'chantillon, c'est dire p=n-1 variables.
Page 172
Rgression Linaire
Entre deux modles on aura tendance choisir celui dont l'erreur type est la plus petite.
3.4.2 Validit globale du modle
La question pose ici est la suivante : les donnes observes permettent-elles d'infrer (sur la
population) qu'aucune des variables explicatives ( X k )1k p n'a d'influence sur les variations de
la variable Y. Ou en prenant la contrapose de cette proposition, peut penser qu'au moins unes
des variables ( X k )1 k p a une influence significative (au niveau de la population) sur les
variations de Y. Comme d'habitude, quand nous parlons d'influence, nous sous-entendons le
terme linaire.
Si aucune des variables ( X k )1k p n'avait d'influence sur les variations de Y, ceci signifierait
que seul resterait le terme alatoire autour de la moyenne de la population, le modle serait
alors :
Y = 0 +
Nous pouvons donc poser notre problme sous forme de test d'hypothse, l'hypothse nulle
correspondant la non influence des variables ( X k )1k p .
H0
: 1 = 2 = K = p = 0
La rgion du rejet de l'hypothse H0 est base sur la statistique dite du "Fisher global". L'ide
du test est de comparer l'apport explicatif moyen des variables choisies par l'analyste avec le
pouvoir explicatif moyen de variables complmentaires totalement arbitraires (correspondant
aux rsidus). Pour cela on va donc faire le rapport entre la diminution de la somme des carrs
due en moyenne chaque variable explicative et la diminution moyenne rsiduelle, c'est
dire l'estimation de l'cart type des rsidus. Si ce rapport n'est pas suffisamment grand
(significativement plus grand que 1), ceci signifiera que les variables explicatives n'ont pas de
pouvoir explicatif plus important que les variables rsiduelles et n'ont donc pas en tre
distingues. On utilisera donc la statistique :
SCE
CME
p
Fc =
=
SCR
CMR
n p 1
CME dsigne le carr moyen expliqu, c'est dire la somme des carrs explique par le
modle, divise par la dimension de l'espace explicatif (p = le nombre de variables
explicatives), CMR dsigne le carr moyen rsiduel, c'est dire la somme des carrs
rsiduelle divise par la dimension de l'espace rsiduel (n-p-1). La rgion critique de rejet de
l'hypothse H0, sera de la forme [ f ,+[ , f tant dtermin en fonction du risque de premire
espce par prob(Fc f ) = .
Pour pouvoir poursuivre la procdure de test, il nous faut connatre la loi de Fc sous
l'hypothse nulle, c'est ici qu'intervient l'hypothse de normalit de la variable . Sous
l'hypothse H0, la statistique Fc suit une loi dite de Fisher-Snedecor (p,n-p-1) degr de
liberts. On peut alors dterminer f soit l'aide de tables, soit par la fonction
INVERSE.LOI.F d'Excel. En pratique, on calcule la valeur fc de la statistique Fc sur
l'chantillon, puis on dtermine le niveau de signification ns = prob(FS ( p, n p 1) > f c ) du
Page 173
Rgression Linaire
test correspondant cette valeur, si ce niveau est infrieur on rejette l'hypothse. Le test
est prsent de faon classique, dans un tableau nomm Analyse de la Variance :
Source de
variation
Rgression
SCE
Rsiduelle
n-p-1
SCR
Totale
n-1
SCT
Carr Moyen
CME =
SCE
p
CMR =
SCR
n p 1
Niveau de
signification
fc
fc =
CME
CMR
ns
: k = 0
H1 : k 0
Evidemment l'estimation bk du coefficient n'est pas nul, mais est la valeur prise par un
estimateur sans biais Bk , sur l'chantillon de taille n. Cet estimateur suit une loi normale (si
les rsidus suivent une loi normale), dont l'cart type est inconnu, mais peut tre estim par un
estimateur S (Bk ) , la statistique utilise pour le test sera alors :
Tc =
Bk
S (Bk )
qui sous l'hypothse H0 suit une loi de Student (n-p-1) degrs de libert.
L'hypothse nulle sera rejete si la valeur observe de la statistique est significativement
diffrente de 0, c'est dire si l'estimation du coefficient est assez loigne de 0, compte tenu
de l'incertitude de cette estimation (incertitude exprime par l'cart type). La rgion critique
de rejet de l'hypothse H0.est de la forme ] ,t ]U [t ,+[ , la valeur de t est dtermine en
Tous les logiciels statistiques prfrent donner le niveau ns de signification, c'est dire en
notant t c la valeur de la statistique Tc observe sur l'chantillon :
ns = prob( Student (n p 1) > t c ) = 2 prob(Student (n p 1) > t c
Page 174
Rgression Linaire
Les lments ncessaires cette validation marginale sont toujours prsents, dans les
logiciels statistiques, dans un tableau donnant les coefficients du modle. Ce tableau la
forme suivante :
Variable
Coefficient
X1
b1
s (B1 )
Xp
bp
s (B p )
Constante
b0
s ( B0 )
tc
Niveau de
signification
b1
s (B1 )
ns1
M
bp
ns p
b0
s ( B0 )
ns 0
s (B p )
Remarques :
1. Si plusieurs variables explicatives ne conduisent pas au rejet de l'hypothse nulle,
ceci ne permet pas de penser que tous leurs coefficients sont nuls, c'est dire
qu'aucune d'entre elles n'est influente sur les variations de Y. En effet, la non
influence d'une variable peut rsulter de corrlation entre les variables explicatives,
ter alors unes de variables non influentes significativement peut rendre les autres
significativement influentes. Ne jamais oublier que ce test porte sur une variable
vis vis de toutes les autres.
2. Si la constante n'est pas significative (et elle seule), il est possible d'essayer un
modle sans constante, en forant 0 sa valeur. Nous indiquerons comment
procder dans Excel. Dans ce cas il faut modifier en consquence les degrs de
libert des rsidus qui ne sont plus n-p-1 mais n-p.
4 Utilisation d'Excel
Nous allons indiquer ici comment construire avec Excel les trois tableaux dfinis
prcdemment. La fonction de base permettant de construire ces tableaux est une fonction
matricielle nomme DROITEREG, partir des rsultats de cette fonction, nous indiquerons
les diffrentes formules conduisant gnrer le listing rsultat d'une rgression.
Nous utiliserons le fichier Pubradio.xls, renomm pour ce paragraphe Pubradio1.xls, pour
illustrer notre propos. Ce fichier comporte une premire feuille nomme "Data" contenant les
donnes dans la plage A1:D23. la premire ligne de cette plage contient le nom des variables
(Ventes, Radio, Journaux, Gratuits), dont les valeurs proprement dites sont dans la plage
A2:D23. La colonne A correspond la variable expliquer, les autres colonnes aux variables
explicatives. Nous nous fixerons un risque de premire espce de 5% pour interprter les
rsultats.
Page 175
Rgression Linaire
Les noms donns aux plages que nous utiliserons sont les suivants :
Nom
Contenu
Adresse
Xnom
$B$1:$D$1
Xdonnees
$B$2:$D$23
Ydonnees
$A$2:$A$23
Attention : dans Excel les variables explicatives doivent toujours tre dans une zone
rectangulaire (une plage) ne contenant pas de colonnes ou lignes vides. On ne peut pas
slectionner les variables explicatives sur des plages disjointes (mme en utilisant l'utilitaire
d'analyse).
4.1 La fonction DROITEREG
La fonction DROITEREG d'Excel est une fonction matricielle qui donne tous les lments
permettant de construire un listing standard de rgression. La plage contenant les rsultats de
la fonction est constitue (au maximum) de 5 lignes et p+1 colonnes, p dsignant le nombre
de variables explicatives. Les arguments de la fonction sont au nombre de 4 :
La plage contenant les valeurs de la variable expliquer (une seule colonne ou une
seule ligne).
La plage contenant les valeurs des variables explicatives, comme dit plus haut ces
variables doivent tre dans des colonnes (ou lignes) adjacentes.
Un paramtre boolen (Constante) permettant de forcer 0 la constante (auquel
cas la plage de rsultats de la fonction n'a plus besoin de comporter que p
colonnes), si ce paramtre est omis ou vaut VRAI, la constante est incluse dans la
rgression. Pour nous ce paramtre sera toujours omis, dans la mesure o pour le
modle sans constante, les rsultats fondamentaux SCT=SCE+SCM et ei = 0
ne sont plus vrifis, les indicateurs alors utiliss R2, f c , t c ne suivent plus les lois
indiques au paragraphe ci dessus.
Un paramtre boolen indiquant si l'on veut ou non les statistiques, prsentes au
paragraphe prcdent. Si ce paramtre vaut FAUX ou est omis seuls les
coefficients de rgression sont donns en rsultat, la plage de rsultat ne peut alors
contenir qu'une seule ligne. Le paramtre doit tre mis la valeur VRAI
explicitement pour pouvoir crer un listing de rgression.
Attention : Excel ne fait aucune vrification sur la dimension de la plage de rsultats
slectionne au moment de l'entre de la formule, si cette plage est trop petite les rsultats
sont tronqus, par exemple certains coefficients n'apparatront pas s'il manque des colonnes,
en revanche si la plage est trop grande, cela ne pose aucun problme autre qu'esthtique, dans
la mesure o les rsultats sont complts pour remplir la plage par des #NA.
Rgression Linaire
La deuxime ligne donne les estimations des carts typent des estimateurs des
coefficients, dans le mme ordre que les coefficients. Sur cette ligne nous avons
donc (s (B p ), s (B p 1 ), K, s (B1 ), s (B0 )) .
Seules les deux premires lignes ont un nombre d'lments qui dpend du nombre de
variables explicatives, les trois autres lignes comportent toujours exactement deux lments.
La troisime ligne contient le coefficient de dtermination R2 et l'erreur type de la
rgression (estimation de l'cart type des rsidus).
La quatrime ligne contient la valeur de la statistique de Fisher Snedecor globale
(fc) et le nombre de degrs de libert des rsidus (n-p-1 si il y a une constante, n-p
sinon).
Enfin la dernire ligne contient la somme des carrs explique (SCE) et la somme
des carrs rsiduelle (SCR).
Rappel : pour entrer une formule matricielle, il faut slectionner la zone de rsultat (sur notre
feuille $F$1:$I$5), entrer dans la cellule active la formule :
=DROITEREG(Ydonnees;Xdonnees;;VRAI)
puis valider, avec la touche Enter, en maintenant les touches Ctrl et Shift. La formule est
entre dans l'ensemble de la zone sous la forme :
{=DROITEREG(Ydonnees;Xdonnees;;VRAI)}
Voici les rsultats obtenus sur notre exemple :
(4,5238)
(5,3686)
(10,2281)
(138,0337)
La deuxime ligne donnant les cart types estims des coefficients et du terme alatoire. Avec
les renseignements complmentaires :
R2 = 0,8394
fc = 31,37
Nous avons ainsi presque tous les lments pour constitutifs du listing, mais les niveaux de
signification (par exemple) n'apparaissent pas clairement ici, l'interprtation des rsultats n'est
donc pas vidente sans calculs supplmentaires. Remarquons que seul manque dans ces
rsultats, pour construire le listing, le nombre de variables explicatives, que nous stockerons
dans une cellule de la feuille de rsultats. Nous allons maintenant construire sur une feuille
nomme "Listing", construire une sortie standard de rgression.
4.2 Listing de rgression
Nous allons ici construire pas pas chacun des lments d'un listing standard de rgression
fourni par des package statistiques. Nous avons nomm "Resreg" la plage contenant les
rsultats de la fonction DROITEREG ci-dessus ($F$1:$I$5). Les lments dont nous aurons
besoin dans cette plage seront obtenus grce la fonction INDEX(Resreg;i;j) qui retourne
Page 177
Rgression Linaire
Valeurs
Formules
et en valeurs:
Comme ici le niveau de signification de fc est infrieur 5%, nous pouvons rejeter l'hypothse
suivant laquelle aucune des variables explicatives n'est significative. Il nous reste vrifier la
validit marginale de notre modle. Pour cela nous allons construire le tableau des variables
du modle.
Page 178
Rgression Linaire
Nous remarquons sur ce listing que la variable Gratuits, n'est marginalement pas significative,
ceci est peut-tre du une corrlation entre les variables explicatives, nous reviendrons plus
loin sur cette question. Il est d'ailleurs rassurant de constater que cette variable n'est
statistiquement pas significative, car son coefficient ngatif, signifiait qu'une fois les budgets
publicitaires Radio et Journaux fixs, le fait de distribuer des extraits de catalogue gratuit
faisait diminuer les ventes!
Il faudrait donc faire une autre rgression en supprimant cette variable.
La construction de notre feuille listing n'est pas trs difficile, mais nous sommes passs par le
tableau intermdiaires (plage "Resreg") des rsultats de la fonction DROITEREG. Il est
possible de se passer de cette plage, pour cela il suffit dans toutes les formules de remplacer
Resreg par sa valeur c'est dire DROITEREG(Ydonnees;Xdonnees;;VRAI), ce qui donne par
exemple pour le rsum les formules suivantes (classeur Pubradio2.xls) :
Page 179
Rgression Linaire
Rsum
R2
Corrlation multiple
Erreur type
0,83945
0,91621
138,03371
Analyse de la Variance
Source
Rgression
Rsidus
Totale
Modle
Variable
Radio
Journaux
Gratuits
Constante
DL
Somme des
Carrs
3 1793129,948
18 342959,5063
21 2136089,455
Coefficient
23,84999639
32,62938845
-0,61874299
238,4578179
Carr Moyen
Ecart type
4,523786884
5,368631858
10,22809676
112,2421031
fc calcul
Prob F>fc
597709,9828
19053,3059
31,37040815 2,31065E-07
tc calcul
Prob T>|tc|
5,27213085
6,077784678
-0,060494441
2,124495277
5,0808E-07
1,12305E-08
0,951849364
0,035411499
Bien que le modle trouv ne soit pas satisfaisant statistiquement, nous allons indiquer
comment calculer les estimations des moyennes y i et des rsidus ei .
4.3.1 Calcul des estimations y i
Pour calculer ces estimations il est possible d'utiliser une fonction vectorielle d'Excel, la
fonction TENDANCE, cette fonction a la mme contrainte que la fonction DROITEREG, les
variables explicatives doivent tre dans des colonnes adjacentes. La fonction TENDANCE a
quatre arguments (un seul obligatoire)
La plage des valeurs connues de la variable expliquer (Y connus), ce paramtre
est obligatoire.
La plage des valeurs connues des variables explicatives (X connus), si cette plage
est omise, Excel considre que les X sont les valeurs 1,2,.,n.
La plage des X inconnus, si l'on veut prvoir des valeurs de Y .
L'existence d'une constante dans la rgression, qui sera implicitement refaite, par
dfaut la valeur de ce paramtre boolen est Vrai, pour indiquer la prsence d'une
constante.
La formule est entre matriciellement sur une plage unicolonne contenant autant de lignes que
la runion des plages X connus, X inconnus (classeur Pubradio1.xls) :
Page 180
Rgression Linaire
p
entre cette formule dans la premire cellule, puis on la recopie sur l'ensemble de la zone
(classeur Pubradio2.xls) :
=Listing!$B$19+PRODUITMAT(Data!B2:D2;Listing!$B$16:$B$18)
Avant de tester un modle de rgression, il est utile de vrifier graphiquement que les
hypothses du modle de rgression linaire, ne sont pas violes de faon vidente. Une fois
cette vrification faite et les changements de variables ventuels effectus, on peut procder
l'laboration de plusieurs modles, et obtenir diffrents listings de rgression.
L'analyse d'un listing de rgression consiste dterminer si un modle est acceptable
statistiquement et conomiquement. Le problme ne se pose que si la rgression est faite sur
un chantillon, et si on envisage d'tendre les rsultats l'ensemble de la population.
5.1 Analyse pralable des donnes Changement de variables
Gnralement on se contente d'une reprsentation graphique des donnes, en mettant en
abscisse les diffrentes variables explicatives et en ordonnes la variable expliquer. On
pourra obtenir diffrents types de graphiques :
figure 1
figure 2
figure 3
figure 4
Les figures 2, 3, 4 montrent des distributions de donnes qui ne satisfont les hypothses du
modle de rgression linaire. Sur la figure 1, en revanche, rien ne semble priori contrarier
ces hypothses (sauf ventuellement la normalit, mais il faut d'abord estimer le modle) : les
donnes semblent bien tre rparties autour d'une droite (hypothse de linarit) et l'paisseur
du nuage de point parat peu prs constante, sans tre systmatiquement d'un ct ou de
l'autre de la tendance linaire.
Les figures 2 et 3 indique clairement une allure non linaire de la moyenne des y pour une
abscisse x donne, on pourra dans les deux cas essayer une transformation puissance
d'exposant suprieur 1 pour la figure 2(par exemple x 2 ) et infrieure 1 pour la figure 3
Page 181
Rgression Linaire
(par exemple x ). Les cas les plus accentus (les plus loin du linaire) tant reprsents par
la fonction exponentielle pour la figure 2 et la fonction logarithmique pour la figure 3.
La figure 4 ne met en cause fondamentalement, la linarit de la moyenne, mais elle montre
clairement que la dispersion autour de cette moyenne n'est pas constante, les donnes ne
respectent pas l'hypothse d' homoscdasticit des rsidus, on peut penser ici que la dispersion
est proportionnelle une puissance (ou au logarithme) de la variable explicative X k
reprsente en abscisse. On pourra alors utiliser le changement de variable pour la variable
expliquer Y a ou Y
.
ln( X )
X
Toutes ces transformations, simples raliser sous Excel, doivent tre valides par un
nouveau graphique et aussi par le calcul des corrlations simples ventuellement (fonction
COEFFICIENT.CORRELATION(valeursY;valeursX)).
Application notre exemple, les trois graphiques sont les suivants :
Radio/Ventes
Journaux/Ventes
Gratuits/Ventes
Les graphiques n'infirment pas les hypothses du modle de rgression, ce qui est confirm en
calculant les corrlations simples entre la variable expliquer et les variables explicatives (la
formule est donne uniquement dans le cas des valeurs de la variable explicative Radio, elle
peut tre recopie pour les autres variables explicatives) :
Formule
Valeur
Radio/Ventes
Journaux/Ventes Gratuits/Ventes
=COEFFICIENT.CORRELATION(Ydonnees;B2:B23)
0,707132
0,539128
0,588683
La premire validation est la validation globale, cette validation se fait l'aide du tableau
d'analyse de la variance. Il suffit de vrifier que le niveau de signification de la statistique de
Fisher est infrieur au risque de premire espce. Si ce n'est pas le cas, l'ensemble des
variables explicatives est rejeter, au moins sans transformation nouvelle, l'analyse s'arrte l.
Si le modle est globalement accept, il faut ensuite passer la validation marginale. Sur
notre exemple le niveau de signification est quasi nul, trs infrieur 1%, donc nous validons
globalement notre modle.
Page 182
Rgression Linaire
La validation marginale se fait l'aide du tableau du modle, pour que le modle soit
statistiquement acceptable, il faut que le niveau de signification de chacun des tc soit infrieur
au risque de premire espce. Si ce n'est pas le cas, il est ncessaire d'ter au moins une des
variables explicatives prises en compte, gnralement on enlvera une et une seule des
variables dont l'apport marginal est non significatif.
Sur notre exemple, seule la variable Gratuits n'est pas marginalement significative nous
pouvons alors tester un modle sans cette variable. Le tableau du modle est alors le suivant :
Variable
Radio
Journaux
Constante
Coefficient
23,6460
32,5707
235,1678
Ecart type
2,9346
5,1400
95,5770
tc calcul
8,0577
6,3367
2,4605
Prob T>|tc|
0,0000
0,0000
0,0151
Cette fois toutes les variables sont marginalement significatives et le modle est donc
acceptable statistiquement.
Sur notre exemple, le modle valide statistiquement est cohrent d'un point de vue
conomique, les deux coefficients sont positifs, comme il est naturel de le supposer : la
publicit fait augmenter les ventes. Le modle nous permet d'ailleurs de quantifier cet effet,
budget Radio fix, 1000 de publicit dans les journaux font augmenter les ventes de 32 500
environ, et budget Journaux fix 1000 de publicit la Radio fait augmenter les ventes de
23 600 environ.
Remarque : en comparant les deux listings de rgression (Pubradio2.xls et Pub radio3.xls), on
obtient les rsums suivants :
Modle
3 variables
2 variables
R2
0,83945
0,83941
Erreur Type
138,034
134,37
Comme nous l'avions dit le coefficient de dtermination est plus grand dans le modle trois
variables que dans le modle deux, ce qui est purement mathmatique, mais ne garantit en
rien une meilleure adquation du modle aux donnes; En revanche l'erreur type, estimation
de l'cart type des rsidus est nettement plus faible pour le modle 2 variables que pour le
modle 3 variables, ce qui confirme bien l'inutilit de l'une des variables.
5.3 Analyse des rsidus
Quand un modle est satisfaisant statistiquement et conomiquement, il nous reste vrifier
que les hypothses faites sur les rsidus, la normalit, l'indpendance et l' homoscdasticit.
L'indpendance n'est facilement vrifiable que lorsque les variables sont temporelles, dans ce
cas le plus simple est de reprsenter sur un graphique cartsien le rsidu en t en fonction du
rsidu en t-1 (on peut aussi utiliser la statistique de Durbin-Watson).
5.3.1 Normalit et homoscdasticit des rsidus
Pour vrifier l'indpendance, on pourra utiliser le graphique normal (voir les rappels d'Excel)
ou un histogramme, pour l'homoscdasticit, plutt que de faire un graphique avec chacune
des variables explicatives, il est plus simple de faire un graphique des rsidus (ou rsidus
Page 183
Rgression Linaire
standardiss) en fonction des estimations ( y i )1i n ce qui rsume l'ensemble des graphiques.
Sur le modle retenu pour l'exemple (fichier Pubradio3.xls), les deux graphiques sont les
suivants :
Su le graphique de gauche, les points sont bien aligns sur la diagonale, il n'y a pas lieu de
remettre en cause la normalit des rsidus, sur le graphique de gauche on ne remarque aucune
forme particulire du nuage, qui est bien "quilibr" autour de l'axe des abscisses,
l'homoscdasticit ne semble pas non plus remettre en cause.
5.3.2 La statistique de Durbin-Watson
La statistique de Durbin-Watson sert dtecter des autocorrlations ventuelles entre les
rsidus. Cette statistique est dfinie par :
n
DW =
(ei ei1 )2
i =2
ei2
n 1
n 1
i =2
i =1
i =2
ei2 + ei2 2 ei ei 1
n
i =1
i =1
n 1
pour n grand 2 2
2
i
e e
i=2
n
i i 1
e
i =1
2
i
Si les rsidus ne sont pas corrls, le second terme sera nul en thorie, donc la statistique sera
proche de 2. En revanche si les rsidus sont corrls positivement le second terme sera proche
de -2 et la statistique proche de 0, enfin si les rsidus sont corrls ngativement le second
terme est proche de 2 et la statistique proche de 4. Le problme est de dterminer partir de
quelles valeurs on peut conclure l'existence d'une autocorrlation, ces valeurs sont donnes
dans table en annexe, et ne sont malheureusement pas accessibles directement par une
fonction d'Excel. Sur cette table ne figure que les valeurs correspondant une autocorrlation
positive, le cas d'une autocorrlation ngative se traitant par symtrie par rapport 2. Le test
de Durbin-Watson prsente une importante particularit, par rapport aux autres tests voqus
dans ce chapitre :
La valeur critique est double (pour un risque de premire espce donn) : une valeur en
dessous de laquelle on conclut l'autocorrlation positive et une valeur au-dessus de la
quelle on conclut l'absence d'autocorrlation.
p =1
n
p=2
p=3
dL
dU
dL
dU
dL
dU
1,27
1,45
1,19
1,55
1,10
1,66
M
24
Page 184
Rgression Linaire
M
Si on a fait une rgression (temporelle) deux variables explicatives, partir d'un chantillon
de 24 donnes, soit dw la valeur de la statistique de Durbin-Watson, calcule sur les rsidus.
On conclura de la faon suivante :
Si dw<1,19, on considrera (au risque 5%) qu'il existe une autocorrlation positive entre
les rsidus et donc que le modle de rgression linaire ne peut s'appliquer. Il faudra alors
utiliser d'autres types de modles tels que ceux de Box et Jenkins par exemple.
Si 1,55<dw<4-1,55=2,45 on considrera qu'il n'existe pas d'autocorrlation (positive ou
ngative) entre les rsidus, le modle de rgression linaire est alors applicable.
Si dw>4-1,19=2,81 on considrera (au risque 5%) qu'il y vidence d'une autocorrlation
ngative entre les rsidus et donc que le modle de rgression linaire ne peut s'appliquer
(voir le premier cas).
Dans les autres cas on ne peut conclure!
L'indicateur qui nous semble le plus appropri pour choisir un modle est l'erreur type de
rgression, elle donne une indication non biaise sur la dispersion autour de la valeur
moyenne calcule par la partie dterministe du modle. Il est toutefois important de distinguer
entre un modle descriptif et un modle prdictif, si le modle est uniquement descriptif (pour
valider une thorie par exemple), le modle de moindre erreur type s'impose, c'est celui qui
fournira le plus d'indications sur les variations de la variable expliquer. En revanche, si le
modle est usage prdictif, il sera important alors de prendre aussi en compte la facilit
qu'aura le dcideur prvoir la valeur des variables explicatives, on aura alors tendance
privilgier un modle ne faisant intervenir que des variables explicatives sous le contrle du
dcideur.
6 Les variables qualitatives dans le modle de rgression
Trs souvent l'tude des variations d'une variable expliquer peut se faire l'aide de variables
quantitatives, par exemple les ventes d'un produit de grande consommation dans une
population de points de points de ventes peuvent s'expliquer par la rgion, le type de magasin;
le type de promotion du produit etc.. Nous prendrons l'exemple dont les donnes sont dans le
classeur Enseignes.xls : un fabricant distribue des produits de jardinage sous trois enseignes
de magasin (codes de 1 3) et dans quatre rgions diffrentes (codes de 1 4). Il a recueilli
les rsultats de 25 magasins et voudrait dterminer si l'enseigne et/ou la rgion ont une
influence significative sur les ventes :
Page 185
Rgression Linaire
Ventes
Enseigne
(100)
266
2
179
3
178
3
112
1
117
1
107
1
265
3
146
1
279
2
171
1
233
1
365
3
Rgion
Ventes
Enseigne
(100)
103
1
261
3
360
2
324
2
463
2
260
1
215
3
384
2
121
1
125
3
214
1
144
1
3
4
2
1
1
1
4
1
4
1
1
3
Rgion
1
3
2
2
4
1
3
2
1
1
4
2
Il est donc ncessaire de coder convenablement ces variables pour pouvoir les utiliser dans
notre modle de rgression. Il nous faudra ensuite pourvoir dcider si une variable qualitative
a une relle influence sur les variations de la variable expliquer.
6.1 Le codage d'une variable qualitative Les indicatrices.
Une variable qualitative organise les units statistiques en catgories identifies par une
modalit, qu'il est d'usage de coder numriquement de 1 m, m tant le nombre de modalits.
Il n'est pas possible d'utiliser directement ce codage, supposons en effet que ce soit le cas,
nous aurions alors le modle thorique suivant (en ne faisant intervenir que cette variable) :
1 = 0 + 1 , 2 = 0 + 2 1 ,K, i = 0 + i 1 ,K, m = 0 + m 1
ce qui signifie que les modalits sont ordonnes de telle faon que ces moyennes soient
croissantes (si 1 est positif) ou dcroissantes (si 1 est ngatif), et que de plus la diffrence
entre deux moyennes pour de modalits conscutives est constante (=1). Clairement ces
hypothses ont peu de chances de se raliser dans la pratique, il nous faut donc coder
diffremment les variables explicatives qualitatives. Nous devons isoler les influences de
chaque modalit sur les variations de la variable expliquer, il est alors naturel d'introduire
des variables indicatrices de chacune des modalits, c'est dire pour chaque modalit une
variable prenant la valeur 1 si l'individu statistique prsente cette modalit, 0 sinon.
Donc si X1 est une variable qualitative prsentant m modalits on introduira m variables
indicatrices :
pour 1 j m
X 1 j = 1 si X 1 = m ,
X 1 j = 0 sinon
Toutefois ce codage n'est pas encore parfait dans la mesure o les variables ainsi cres ne
sont pas indpendantes, mais sont lies par la relation :
m
X
j =1
1j
=1
ce qui signifie qu'un individu statistique prsente une modalit et une seule. Un modle de
rgression incluant les m variables ne peut donc tre dtermin, puisqu'il suffirait de
Page 186
Rgression Linaire
remplacer l'une des variables par l'oppos de la somme des autres pour avoir un modle
quivalent. Il nous faudra donc liminer l'une quelconque de ces variables pour obtenir un
modle dterminable. Si toutes les variables incluses dans le modle prennent la valeur 0, ceci
signifie que l'individu pris en compte prsente la modalit associe la variable absente de la
rgression.
6.2 Cration des indicatrices sous Excel
La cration des indicatrices se fait simplement sous Excel en utilisant la fonction SI. Pour
l'utilisation des fonctions standard de rgression d'Excel, il est recommand de ne crer que
les m-1 indicatrices utiles dans la mesure o, comme nous l'avons signal plus haut, les
variables explicatives doivent tre dans une plage constitue de colonnes contigus. Nous
donnons plus loin une macro complmentaire qui permet de se passer de cette contrainte.
Dans notre exemple, la variable Enseigne donne naissance trois variables indicatrices,
nomme Enseigne1, Enseigne2, Enseigne3, dont seules les deux premires seront cres sur la
feuille. Les formules sont les suivantes :
Ces formules doivent tre entres pour chaque colonne correspondant une variable
indicatrice, si le nombre de modalits est plus important il est possible d'utiliser le nom des
variables indicatrices pour entrer une seule formule recopie sur la droite et vers le bas, c'est
ce que nous avons fait pour la rgion :
La formule utilise le fait que le dernier caractre du nom (dernier caractre droite) de la
variable indicatrice est gal la modalit associe cette variable.
6.3 Interprtation des coefficients du modle
Nous allons nous placer par le cas d'une seule variable explicative qualitative m modalits
X, reprsentes par m-1 variables indicatrices (X j )1 j m 1 dans la rgression, le modle est
alors le suivant :
Y = 0 + 1 X 1 + 2 X 2 + K + m 1 X m 1 +
Les seules valeurs possibles pour X j sont 1 ou 0, mais une seule des variables au plus est non
nulle, si toutes les variables sont nulles, ce qui correspond l'appartenance la modalit
absente m par exemple, la moyenne m = 0 , si seule la variable indicatrice X 1 est non nulle
la moyenne correspondante est 1 = 0 + 1 , de manire gnrale si seule la variable X j est
non nulle la moyenne correspondant cette modalit est j = 0 + j . Aux coefficients de la
rgression on peut donc associer :
Page 187
Rgression Linaire
Pour les autres coefficients : la diffrence des moyennes entre variable Y restreinte
la sous population prsentant la modalit j et la variable Y restreinte la sous
population prsentant la modalit absente.
Le test partiel de Student revient donc vrifier que les moyennes entre une modalit et la
modalit absente sont diffrentes. On a donc une gnralisation du test de comparaison de
deux moyennes, vu dans le chapitre prcdent. Notons cependant que l'hypothse
d'homoscdasticit des rsidus revient ne faire le test qu'en supposant les variances gales
sur chacune des sous populations.
L'estimation b0 est simplement la moyenne des valeurs de Y pour les individus de
l'chantillon prsentant la modalit absente, de mme l'estimation b0 + b j est la moyenne des
valeurs de Y pour les individus de l'chantillon prsentant la modalit j.
Sur notre exemple nous obtenons le tableau du modle suivant :
Variable
Enseigne1
Enseigne2
Constante
Coefficient
-69,76623377
119,1428571
226,8571429
Ecart type
tc calcul
32,35742517 -2,156112033
37,23317714 3,199911109
25,29496283 8,968471091
prob T>|tc|
0,04282314
0,004304405
1,25784E-08
La modalit de rfrence est la modalit 3, les estimations des moyennes des ventes dans les
magasins par enseigne sont les suivantes
Enseigne 3 (constante de la rgression b0 ) : 226,86*100=22 686.
Comme tous les tc sont significatifs au risque de premire espce de 5%, on peut donc
considrer qu'il y a une diffrence significative entre les enseignes, qui seront classes dans
l'ordre croissant des ventes : Enseigne 1, Enseigne 3, Enseigne 2.
6.4 Test de l'influence d'une variable qualitative
Si nous introduisons dans le modle prcdent les variables indicatrices de la rgion (des trois
premires rgions) nous obtenons le tableau du modle suivant :
Variable
Enseigne1
Enseigne2
Rgion1
Rgion2
Rgion3
Constante
Page 188
Rgression Linaire
variable qualitative) et non plus d'une seule variable. Nous nous intresserons ici au test de
l'influence d'un groupe de m variables explicatives parmi p, que ces variables correspondent
une variable qualitative ou non.
Pour simplifier les notations, et sans rien perdre de la gnralit du propos, nous supposons
que le groupe de m variables dont nous voulons tester l'influence marginale sont les m
dernires X p m +1 , X p m + 2 ,K, X p . Le test se posera alors de la faon suivante :
H0
: p m +1 = p m + 2 = K = p
H 1 : j [1, m] p j 0
Le principe du test sera identique celui du test global : si les m variables explicatives
supplmentaires ne sont pas plus intressantes que les variables associes la partie rsiduelle
du modle complet, autant les laisser dans cette partie. Pour juger de l'apport des m variables
explicatives supplmentaires, il suffit de prendre comme indicateur la diminution de la somme
des carrs due leur introduction dans le modle ; pour pouvoir le comparer aux rsidus on
utilisera en fait la diminution moyenne par variable introduite dans le modle. La statistique
que nous utiliserons, appele statistique de Fisher Partiel, sera alors :
(SCEC SCEP )
FP =
(R
2
C
RP2 )
(1 R )
2
C
(n p 1)
Sous l'hypothse nulle cette statistique suit une loi de Fisher-Snedecor (m,n-p-1) degrs de
libert, comme pour la statistique F globale, on rejette l'hypothse H0 si la valeur observe est
suffisamment grande, la valeur critique F est dtermine en fonction du risque de premire
espce par la formule prob(FS (m, n p 1) > F ) = . Nous utiliserons, avec Excel, le
niveau de signification dfinie en fonction de la valeur observe pour la statistique sur
l'chantillon FPc : ns = prob(FS (m, n p 1) > FPc ) . Si ce niveau est infrieur ,
l'hypothse H0 est rejete.
Remarques :
Dans le cas particulier m = p , on retrouve le test global de la rgression.
Dans le cas m = 1 , on retrouve le test marginal sous une autre forme, on peut en
effet dmontrer les deux rsultats suivant : t c2 = FPc et la loi de Fisher-Snedecor
Page 189
Rgression Linaire
(1,n-p-1) degrs de libert est gale au carr de la loi de Student n-p-1 degrs
de libert.
6.4.2 Tableau d'analyse de la variance
Il est d'usage de prsenter le rsultat du test par un tableau, permettant l'analyse marginale de
deux groupes de variables. Supposons que les p variables explicatives soient divises en deux
groupes Gm et Gp-m de variables contenant respectivement m et p-m variables. Nous noterons
SCEm la somme des carrs explique par le groupe de m variables et SCEp-m celle du groupe
de p-m variables. Le tableau dit d'analyse de la variance se prsente sous la forme suivante :
Source
Complet
Gm
Somme des
Carrs
SCEC
DL
Carr Moyen
SCEC
= SME
p
SCEC-SCEp-m
= Sm
Gp-m SCEC-SCEm
= Sp-m
Rsidus
SCRC
Totale
SCT
pm
n p 1
S m
m
S pm
SM
= SM p m
F
SME
SCRM
SM m
=
SCRM
fg =
m
pm
SCRC
= SCRM
n p 1
f mp
f pm =
p
SM p m
ns =Prob >F
prob(F p ,n p 1 > f g )
prob Fm ,n p 1 > f mp
prob F p m ,n p 1 > f pp m
SCRM
n 1
La fonction DROITEREG peut alors tre utilise pour calculer les diffrentes sommes de
carrs :
La somme des carrs explique du modle complet est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle complet :
(SCEC=)INDEX(DROITEREG(PlageY;Complet;;VRAI);5;1)
La somme des carrs rsiduelle du modle complet est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle complet :
(SCR=)INDEX(DROITEREG(PlageY;Complet;;VRAI);5;2)
La somme des carrs explique du modle Groupe1 est le premier lment de la
cinquime ligne de la fonction DROITEREG applique au modle ne comprenant
Page 190
Rgression Linaire
Les autres formules du tableau d'analyse de la variance ne prsentent aucune difficult, les
voici :
Comme nous avons vu plus haut que le modle Ventes/Enseigne tait valable statistiquement
nous ne garderons que la variable qualitative Enseigne.
7 La rgression pas pas
La mthode retire chaque tape une variable du modle construit l'tape prcdente. Au
dbut de l'algorithme les p variables sont prsentes dans le modle. Un seuil de sortie est
fix qui correspond la valeur maximale du niveau de signification d'une variable pour qu'elle
soit conserve dans la rgression ( ou ce qui revient au mme une valeur minimale de tc).
Page 191
Rgression Linaire
Bien videmment, le modle final dpend de la valeur du seuil retenu, plus ce seuil est faible,
moins il restera de variables dans le modle final.
Cette procdure n'est en rien optimale, elle ne remet jamais en cause l'limination d'une
variable. Or il est possible qu'une variable qui a t sortie du modle au cours des premires
tapes, du fait de sa corrlation d'autres variables du modle, se trouve finalement avoir un
apport marginal significatif par rapport au modle final, dans la mesure o certaines des
variables corrles ont t limines aprs elle.
7.2 Un exemple
Nous avons dj vu une illustration de cette mthode au paragraphe 5.2 pour le premier
exemple, il tait possible de pratiquer cette procdure car les donnes taient bien disposes
pour l'limination de la variable non significative, qui ne sparait l'ensemble des variables
explicatives. Nous allons illustrer cette mthode sur le deuxime exemple, les ventes en
fonction des enseignes et des rgions, en prenant un risque de premire espce =5%.
0,644842455
0,803020831
67,75276803
Analyse de la variance
Source
Rgression
Rsidus
Total
Carr Moyen
30004,69139
4590,437576
10115,27536
fc calcul
6,536346677
Prob F>fc
0,001245608
Coefficient
-21,46545455
121,8363636
-66,73963636
-26,36727273
10,73236364
235,5585455
Ecart type
45,86125854
40,85645638
47,9676374
43,62275818
47,19583919
37,09622249
tc calcul
-0,468052017
2,982059005
-1,391347166
-0,604438459
0,227400632
6,349933488
prob T>|tc|
0,645364908
0,007991
0,181078888
0,553095538
0,822675087
5,54823E-06
Modle Estim
Variable
Enseigne1
Enseigne2
Rgion1
Rgion2
Rgion3
Constante
Le modle est valide globalement mais ne l'est pas statistiquement. Quatre variables
explicatives ne sont pas significatives marginalement, la variable dont le niveau de
Page 192
Rgression Linaire
signification est le plus fort est la variable Rgion 3 qui va donc sortir du modle. La
deuxime tape nous donne les rsultats suivants :
Rgression
Ventes en fonction de Rgion2, Rgion1, Enseigne2, Enseigne1
Valeur de R2
Corrlation mult.
Erreur de la rgression
0,643822146
0,803020831
66,04035955
Analyse de la variance
Source
Rgression
Rsidus
Total
Carr Moyen
37446,52016
4361,329089
10115,27536
fc calcul
8,586034072
Prob F>fc
0,000391824
Coefficient
-23,97482014
119,9865108
-70,14658273
-30,42086331
241,2239209
Ecart type
43,38880151
39,02647901
44,41616195
38,80812385
26,79060865
tc calcul
-0,552557787
3,074489778
-1,579303111
-0,783878742
9,004047801
prob T>|tc|
0,587008636
0,006239747
0,130770816
0,442774438
2,77329E-08
Modle Estim
Variable
Enseigne1
Enseigne2
Rgion1
Rgion2
Constante
Le modle est valide globalement, mais il reste toujours trois variables non significatives
marginalement (dont le niveau de signification est suprieur 0,05). La variable qui va sortir
du modle est la variableEnseigne1. On obtient l'tape trois :
Rgression
Ventes en fonction de Rgion2, Rgion1, Enseigne2
Valeur de R2
Corrlation mult.
Erreur de la rgression
0,638098553
0,803020831
64,88330069
Analyse de la variance
Source
Rgression
Rsidus
Total
D.L.
3
20
23
Modle Estim
Variable
Enseigne2
Rgion1
Rgion2
Constante
Coefficient
Ecart type
tc calcul
prob T>|tc|
126,9791667
36,27086774
3,500858253
0,002250646
-86,72916667
32,17016733
-2,695950126
0,013900607
-34,41666667
37,46039112
-0,918748193
0,369175469
236,2291667
24,77771973
9,533934892
7,01583E-09
Le modle est toujours globalement acceptable, mais il reste encore une variable explicative
non marginalement significative, on obtient alors le modle final :
Rgression
Ventes en fonction de Rgion1, Enseigne2
Page 193
Rgression Linaire
Valeur de R2
Corrlation mult.
Erreur de la rgression
0,622824534
0,803020831
64,64200868
Analyse de la variance
Source
Rgression
Rsidus
Total
D.L.
Modle Estim
Variable
Enseigne2
Rgion1
Constante
Coefficient
Ecart type
tc calcul
prob T>|tc|
118,375
34,9106747
3,390796683
0,002756969
-78,125
30,66239699
-2,547909089
0,018728651
227,625
22,85440134
9,95978834
2,07897E-09
Cette macro complmentaire, permet de faire des rgressions, des rgressions pas pas, et des
calculs de F partiel en s'affranchissant de la contrainte portant sur la localisation des variables
explicatives dans des colonnes adjacentes. Le tableau de donnes doit tre une base de
donnes Excel (voir Rappels Excel), c'est dire que les variables sont associes des
colonnes adjacentes et que le nom des variables se trouve dans la premire ligne.
8.1 Installation de la macro complmentaire
La macro complmentaire est un fichier qui a pour non "Regression.xla". Copier ce fichier
dans un rpertoire de votre disque dur, par exemple "Mes macros". Dans le menu Outils
d'Excel choisir le sous menu Macros complmentaires apparat alors la boite de dialogue
suivante :
Page 194
Rgression Linaire
Cliquer alors sur le bouton parcourir pour aller dsigner le fichier que vous venez de copier, la
macro apparat alors coche dans la liste des macro complmentaires disponibles :
Aprs avoir cliqu sur OK, la macro est installe et le menu Outils mis jour, un sous menu
ModLinaire est cr..
8.2 Utilisation de la macro complmentaire
Pour utiliser la macro complmentaire Regression, il est recommand de choisir une cellule
de la plage de donnes comme cellule active. Dans le menu Outils choisir le sous menu
ModLinaire :
il suffit alors de choisir le sous menu Rgression ou Fpartiel qui fait apparatre une boite de
dialogue.
8.2.1 Boite de dialogue rgression
La boite de dialogue Rgression permet de faire soit une rgression unique soit une rgression
pas pas "backward". Dans un premier temps l'utilisateur doit slectionner la plage de
donnes, ensuite il choisira les variables explicatives et expliquer :
Page 195
Rgression Linaire
La liste de gauche contient les intitules de toutes les variables de la plage de donnes,
correspondant la premire ligne de cette plage. Le bouton
permet de slectionner (ou
"dselectionner") la variable expliquer, cette variable est te de la liste en cas de slection,
et rajoute la liste si elle avait dj t slectionne comme variable expliquer.
Les deux boutons
et
servent respectivement slectionner ou "dselectionner",
une ou plusieurs variables comme variables explicatives, les touches de slection multiple
(majuscule et Ctrl) peuvent tre utilises.
Enfin si la rgression pas pas est choisie, l'utilisateur doit donner la valeur du niveau de
signification maximum accept, seuil de sortie des variables explicatives, cette valeur est par
dfaut de 5%.
Une fois le dialogue valid, les rsultats de la rgression ou de la procdure de rgression pas
pas sont donns sur une nouvelle feuille nomme "Rapport de rgression n".
8.2.2 Boite de dialogue Fpartiel
Le processus est identique, l'utilisateur fixe d'abord la plage de donnes, contenant les
variables explicatives et expliquer. La deuxime partie du dialogue consiste dfinir la
variable expliquer ainsi que les deux groupes de variables sur lequel doit porter le test
partiel :
Page 196
Rgression Linaire
Carr Moyen
30004,69139
69297,78355
32294,02778
4590,437576
Page 197
F Calcul
6,536346677
5,788268848
0,829833008
Prob >F
0,001245608
0,011453192
0,494687671
Rgression Linaire
Les ventes
L'indice des prix dans cette zone; l'indice 100 tant l'inde de la France
mtropolitaine.
Les donnes ont t recueillies sur 18 zones. On prendra pour toutes les questions =0,01
comme risque de premire espce.
1. Reprsenter graphiquement les donnes, le modle linaire vous parat-il appropri?
2. Etude des rgressions une seule variable explicative : toutes les variables sont-elles
individuellement influente sur les variations des ventes? Les rgressions vous semblentelles toutes valides conomiquement (en particulier pour la rgression Ventes / Prix de
l'entreprise)
3. Etudier de la mme faon les rgressions deux variables explicatives? Quelle est pour
vous la meilleure rgression 2 variables pour expliquer les variations des ventes, pour
prvoir les ventes?
4. Que pensez-vous du modle complet? Comment expliquer que certaines variables
individuellement significatives ne le soient plus marginalement? Vrifiez vos assertions
l'aide de rgressions linaires.
5. Appliquer la mthode de rgression pas pas "backward" aux donnes, puis vrifier
l'aide du tes de Fisher partiel qu'il tait possible de passer directement du modle complet
au modle trouv par la mthode pas pas.
6. Sur le modle trouv la question prcdente, procdez l'analyse des rsidus. Quelles
sont les donnes mal reconstitu par le modle (donnes dont le rsidu standardis est
>2) ?
2 Les stylos Runild (Runild.xls)
Dans le cadre d'une tude sur l'efficacit commerciale de l'entreprise Le responsable des
tudes a recueilli les informations suivantes :
La distribution des produits est organise en 40 zones gographiques
Chaque zone est attribue en exclusivit un grossiste assist par une quipe de
reprsentants commerciaux. Le nombre de ces reprsentants est dcid par le
grossiste et peut varier d'une zone l'autre.
Page 198
Rgression Linaire
Chaque trimestre les grossistes sont valus sur une chelle de 1 4. La valeur 4 indiquant
que le grossiste est jug trs bon, la valeur 1 un grossiste jug trs mauvais. Dans chaque zone
la publicit est faite essentiellement par la presse locale et la distribution domicile. Le
classeur Runild.xls donne pour les 40 zones gographiques :
Le volume des ventes mensuelles
Le nombre mensuel de page de publicit
Le nombre de reprsentants de l'quipe commerciale
La note de qualit attribue au grossiste
1) Etude des ventes en fonction des deux variables publicit et nombre de reprsentant.
a) Reprsenter graphiquement les ventes en fonction des deux variables, le modle de
rgression linaire vous semble-t-il adapt?
b) Quelle est l'influence de chacune des variables prise sparment sur les variations des
ventes?
c) Le modle deux variables est-il valide statistiquement et conomiquement?
d) Sachant que le cot mensuel moyen d'un reprsentant est de 2000 et le cot moyen
d'une page de publicit de 850, pour quelle marge unitaire sur le produit est-il plus
intressant d'embaucher un reprsentant ou de faire une page de publicit
supplmentaire.
2) Etude des ventes en fonction de la qualit du grossiste
a) Le charg d'tude considre que la note de qualit est une variable quantitative et
procde une rgression simple sur cette variable. Analyser les rsultats obtenus.
b) Le directeur commercial n'est pas d'accord, il pense que l'on doit considrer cette
variable comme qualitative quatre modalits. Il demande de procder une tude en
prenant la modalit 4 comme modalit de rfrence. Construire le modle et analyser
les rsultats. En prenant un risque a de 0,01 peut considrer que les modalits 3 et 4
sont diffrentes? Qu'en conclure?
c) Quel modle explicatif des variations des ventes en fonction de la qualit du grossiste
vous parat le mieux adapt?
3) Construire le modle qui vous parat le plus pertinent avec les trois variables. Analyser les
rsidus correspondants.
3 Produits frais (fichier pfrais.xls)
La DV est gale au rapport des CA des magasins offrant la marque divise par la somme des CA de tous les
magasins de la zone. La DV donne une ide de la reprsentation, pondre par limportance des magasins, de la
marque dans la zone de chalandise.
Page 199
Rgression Linaire
Dans un premier temps, on nutilisera que les trois variables explicatives quantitatives
(Publicit, DV, Prix moyen). Aprs avoir effectu les 4 rgressions linaires de la variable
Ventes (Chiffre daffaires) en fonction d'au moins deux des variables explicatives, rpondre
aux questions suivantes.
Analyse du modle 3 variables
Analyser rapidement les modles 2 variables explicatives. Quelles remarques pouvezvous faire ? Quel est le meilleur modle 2 variables ? Utiliser ce modle pour faire une
estimation du chiffre daffaires espr avec les donnes suivantes :
Budget Publicitaire 100KF
DV de 0,95
Prix moyen du Kg : 8F
Choix dun modle
Quel est pour vous le meilleur modle ne faisant intervenir que les variables explicatives
quantitatives ? ?
Etude des variables qualitatives
Ici ne sont prises en compte que les variables qualitatives Marque et Rgion. Effectuer les
trois rgressions, ainsi que le tableau danalyse de la variance (test de Fisher partiel).
Etude de chacune des variables individuellement
Rgression Linaire
Quel modle vous semble-t-il le plus adapt pour lexplication et la prvision du chiffre
daffaires ?
Page 201