You are on page 1of 120

1

Universit
e Pierre et Marie Curie
Licence de Math
ematiques (3`eme ann
ee)
Ann
ee 2004/2005

Probabilit
es
Pierre Priouret

Mode demploi
Ce polycopie est destine aux etudiants de la Licence (3`eme annee) de Mathematiques
de lUniversite Pierre et Marie Curie. En principe ces etudiants ont deja suivi un
cours de theorie de la mesure et dintegration. Nous commencons par letude des
probabilites sur les ensembles finis (chapitre 1) puis sur les ensembles denombrables
(chapitre 2) avant de presenter (chapitre 3) les resultats dintegration utilises par la
suite. Le chapitre 4 introduit les principales notions de probabilites dans leur cadre
general. Le chapitre 5 traite des fonctions caracteristiques et des vecteurs gaussiens.
Les theor`emes limites sont abordes dans les chapitres 6 (avec, en particulier, la loi des
grands nombres) et 7 (avec, en particulier, la convergence en loi vers la loi normale).
Enfin le chapitre 8 presente quelques notions de statistique.
Les complements situes `a la fin de certains chapitres ne sont pas au programme
de lexamen.
Ce polycopie est divise en chapitres, sections et sous-sections. Ainsi 3.2.4 renvoie
au chapitre 3, section 2, sous-section 4 et 5.4 renvoie chapitre 5, section 4. A linterieur
dune meme section, les enonces sont numerotes en continu. Ainsi dapr`es le th. 5.4.6
renvoie au chapitre 5, section 4, enonce 6. Quant aux egalites, elles sont numerotees
entre parenth`eses et en continu au sein dun meme chapitre. Ainsi vu (3.5) ref`ere `a
la cinqui`eme egalite numerotee du chapitre 3. Le signe  indique la fin dune preuve.
Ce polycopie se termine par un index des notations et un index des termes.

Table des mati`


eres
1 Espace de probabilit
e fini
1.1 Notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Echantillon. Sous population . . . . . . . . . . . . . . . . . . . . . . .
1.3 Probabilite conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . .

5
5
8
11

2 Espace de probabilit
e discret
13
2.1 Famille sommable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Espace de probabilite discret . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Fonctions generatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Mesure. Int
egration
3.1 Tribus . . . . . .
3.2 Mesures . . . . .
3.3 Integration . . .
3.4 Mesures `a densite
3.5 Mesures produits

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

4 Espace de probabilit
e g
en
eral. Variables
4.1 Espace de probabilite . . . . . . . . . . .
4.2 Variables aleatoires . . . . . . . . . . . .
4.3 Probabilites sur R . . . . . . . . . . . .
4.4 Variables aleatoires independantes . . .
4.5 Vecteurs aleatoires . . . . . . . . . . . .
4.6 Calcul de lois . . . . . . . . . . . . . . .
4.7 Conditionnement . . . . . . . . . . . . .
4.8 Simulation . . . . . . . . . . . . . . . . .
4.9 Complement: echantillons ordonnes. . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

23
23
25
27
31
32

al
eatoires
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

37
37
38
41
43
46
48
52
54
58

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

5 Fonctions caract
eristiques. Vecteurs gaussiens
61
5.1 Transformee de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Fonctions caracteristiques . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

`
TABLE DES MATIERES

6 Convergence des suites de variables al


eatoires
6.1 Modes de convergence . . . . . . . . . . . . . .
6.2 Loi 0 -1 . . . . . . . . . . . . . . . . . . . . . .
6.3 Somme de v.a. independantes . . . . . . . . . .
6.4 La loi des grands nombres . . . . . . . . . . . .
6.5 Complement: crit`ere des trois series. . . . . . .
6.6 Complement: grandes deviations. . . . . . . . .

.
.
.
.
.
.

69
69
71
72
75
79
80

7 Convergence en loi
7.1 Convergence etroite . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Convergence vers la loi normale . . . . . . . . . . . . . . . . . . . . .
7.4 Complement : demonstration du theor`eme de Berry-Esseen. . . . . .
7.5 Complement: comportement asymptotique de la mediane empirique.

.
.
.
.
.

85
85
87
91
93
96

8 Notions de statistique
8.1 Echantillon. Mod`ele statistique
8.2 Estimation . . . . . . . . . . .
8.3 Intervalle de confiance . . . . .
8.4 Tests . . . . . . . . . . . . . . .

99
. 99
. 102
. 108
. 111

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.

A Index des notations

117

B Index des termes

119

Chapitre 1

Espace de probabilit
e fini
Dans ce premier chapitre, on presente les premi`eres notions de probabilite dans un
cadre elementaire.

1.1. Notions fondamentales


1.1.1. Probabilite sur un ensemble fini. Soit E un ensemble fini. Une probabilite sur
E est une famille (p(a), a E) de reels verifiant
X
0 p(a) 1,
p(a) = 1.
aE

On pose alors, pour A E, P(A) =


[0, 1] telle que

aA p(a).

P est une application de P(E) dans

P() = 1, P(A B) = P(A) + P(B) si A B = .

(1.1)

On voit immediatement, par recurrence, que, si A1 , . . . , Ar sont des sous-ensembles


de deux `a deux disjoints, alors
P(

r
[

i=1

Ai ) =

r
X

P(Ai ).

i=1

Reciproquement si une fonction densembles A 7 P(A), A P


E, verifie (1.1) et si on
pose, pour tout a E, p(a) = P({a}), on a 0 p(a) 1 et aE p(a) = 1 puisque
les ensembles {a} sont evidemment deux `a deux disjoints dunion E. En conclusion,
on appellera probabilite sur E aussi bien la famille (p(a), a E) que la fonction
densembles A 7 P(A).
1.1.2. Espace de probabilite fini. Un couple (, P) o`
u est un ensemble fini et P une
probabilite sur sappelle un espace de probabilite fini. Un sous-ensemble A de
sappelle un evenement et P(A) est la probabilite que levenement A ait lieu. Lelement
{} sappelle alors un evenement elementaire. On note Ac le complementaire de A,

Espace de probabilit
e fini

cest levenement A na pas lieu. De meme A B est levenement A ou B a lieu


et A B est levenement A et B ont lieu. Enfin est levenement certain et est
levenement impossible. Noter (cest la moindre des choses) que P() = 0 puisque, vu
que = ,
1 = P() = P( ) = P() + P() = 1 + P().
Donnons quelques consequences faciles de (1.1). On a A Ac = et A Ac = donc
1 = P() = P(A) + P(Ac ) do`
u
P(Ac ) = 1 P(A).

(1.2)

Si A B, on note B \ A = B Ac . On a alors B = A (B \ A) avec A (B \ A) =


do`
u
si A B, P(B \ A) = P(B) P(A).
(1.3)
En particulier, dans ce cas, P(A) P(B). Enfin on a
A B = (A B) (A \ A B) (B \ A B),
ces ensembles etant deux `a deux disjoints. On a donc
P(AB) = P(AB)+P(A\AB)+P(B\AB) = P(AB)+P(A)P(AB)+P(B)P(AB)
do`
u
P(A B) = P(A) + P(B) P(A B).

(1.4)

On note |A| le cardinal de A i.e. le nombre delements de A. Un cas particulier


important despace de probabilite fini (, P) est celui o`
u P est la probabilite uniforme
sur definie par
1
.
P({}) =
||
On a alors P(A) = |A|
es frequent mais nest pas le seul `a envisager (voir
|| . Ce cas est tr`
lexemple 4 de 1.1.4).
1.1.3. Variables aleatoires. Soit (, P) un espace de probabilite fini. On appelle variable aleatoire (en abrege v.a.) `a valeurs E toute application X de dans E. Puisque
X() est fini, on peut supposer E fini, cest ce quon fera par la suite. Pour a E et
E, on pose
{X = a} = X 1 (a) = {, X() = a}, {X } = X 1 () = {, X() }. (1.5)
On definit alors, pour tout a E, q(a) = P(X = a). On a 0 q(a)
P 1 et, les
ensembles {X = a}, a E, etant deux `a deux disjoints dunion , aE q(a) =
P() = 1. Les (q(a), a E) sont donc une probabilite sur E, notee X , appelee loi
de la v.a. X. Alors, pour tout E,
X
X
X () =
q(a) =
p() = P(X ).
a

, X()

7
1.1.4. Exemples.
1. On lance une pi`ece trois fois de suite. Lensemble des issues possibles est
= {P P P, P P F, P F P, P F F, F P P, F P F, F F P, F F F }.
On a || = 23 = 8. Les issues etant equiprobables, on munit de la probabilite P({}) = 81 . Soient A levenement on obtient exactement deux faces et
B levenement on obtient au moins deux faces. On a A = {P F F, F P F, F F P },
B = {P F F, F P F, F F P, F F F }, |A| = 3, |B| = 4, P(A) = 83 , P(B) = 12 .
2. On lance deux des, un rouge et un bleu. Lensemble des issues possibles est
= {11, 21, 12, . . . , 66} = {i1 i2 , 1 i1 , i2 6}.
On a || = 62 = 36. Les issues etant equiprobables, on munit de la proba1
bilite P({}) = 36
. Soit A levenement la somme des resultats vaut 5. On a
4
A = {14, 23, 32, 14} et P(A) = 36
= 19 . Soient X1 le resultat du de rouge, X2 le resultat
du de bleu et S la somme. Ce sont des variables aleatoires et on a X1 (i1 i2 ) = i1 ,
X2 (i1 i2 ) = i2 , S(i1 i2 ) = i1 + i2 = X1 (i1 i2 ) + X2 (i1 i2 ). Il est immediat que, pour
k = 1, . . . , 6, P(X1 = k) = P(X2 = k) = 16 . La loi de X1 (et de X2 ) est donc la loi
uniforme sur {1, 2, 3, 4, 5, 6}. Soit (qk , k = 2, 3, . . . , 12) la loi de S. Ci-dessus, on a
calcule q5 . De la meme facon, on obtient:
q2 = q12 =

2
3
4
5
6
1
, q3 = q11 = , q4 = q10 = , q5 = q9 = , q6 = q8 = , q7 = .
36
36
36
36
36
36

3. On met au hasard trois boules distinctes a, b, c dans trois urnes. Lensemble des
issues possibles est
= {(abc| |), (|abc|), (| |abc), (ab|c|), . . . . . .}.
1
On a || = 33 = 27 et, les issues etant equiprobables, P({}) = 27
. Soit A levenement
la premi`ere urne contient deux boules, la seconde une boule, evenement quon
3
note (2|1|0). On a A = {(ab|c|), (ac|b|), (bc|a|)} do`
u P(A) = 27
= 19 . Soit B
levenement chaque urne contient une boule, evenement quon note (1|1|1). On a
6
B = {(a|b|c), (b|a|c), (a|c|b), (c|a|b), (b|c|a), (c|b|a)} et P(B) = 27
= 29 . Par symetrie,
on a

P((3|0|0)) = P((0|3|0)) = P((0|0|3)) =

1
,
27

1
P((2|1|0)) = P((1|2|0)) = P((2|0|1)) = P((1|0|2)) = P((0|2|1)) = P((0|1|2)) = ,
9
2
P((1|1|1)) = .
9
4. On met au hasard trois boules indistinctes dans trois urnes. Lensemble des issues
possibles est
= {(3|0|0), (0|3|0), (0|0|3), (2|1|0), (1|2|0), (2|0|1), (1|0|2), (0|2|1), (0|1|2), (1|1|1)}.

Espace de probabilit
e fini

Mais, vu lexemple precedent, doit etre muni de la probabilite


(

1 1 1 1 1 1 1 1 1 1
, , , , , , , , , )
27 27 27 9 9 9 9 9 9 27

et non de la probabilite uniforme. Bien sur, muni de la probabilite uniforme est un


espace de probabilite mais il ne rend pas compte de lexperience aleatoire consideree.

1.2. Echantillon. Sous population


Soit S = {s1 , s2 , . . . , sn } une population de taille n.
1.2.1. Echantillon sans repetition. On tire un par un et sans remise r elements de S,
r n. On obtient ce quon appelle un echantillon sans repetition de taille r de la
population S. Cest une suite si1 si2 . . . sir delements de S tous distincts. Lensemble
des issues possibles est donc
= {si1 si2 . . . sir , sij S, sij 6= sik si j 6= k }.
On a
|| = n(n 1) . . . (n r + 1) =

n!
= Arn .
(n r)!

|| est le nombre dapplications injectives de {1, 2, . . . , r} dans {1, 2, . . . , n}. Evidemment chaque echantillon a la meme probabilite et
P({}) =

1
(n r)!
=
.
||
n!

Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors || = 12 et


= {12, 13, 14, 21, 23, 24, 31, 32, 34, 41, 42, 43}.

1.2.2. Echantillon avec repetitions. On tire un par un et avec remise r elements de


S, r quelconque. On obtient ce quon appelle un echantillon avec repetition de taille
r de la population S. Cest une suite si1 si2 . . . sir delements de S. Lensemble des
issues possibles est donc
= {si1 si2 . . . sir , sij S}.
On a
|| = nr .
|| est le nombre dapplications de {1, 2, . . . , r} dans {1, 2, . . . , n}. Evidemment chaque
echantillon a la meme probabilite et
P({}) =

1
1
= r.
||
n

9
Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors || = 16 et
= {11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34, 41, 42, 43, 44}.

1.2.3. Sous population. On tire en une fois r elements de S, r n. On obtient ce quon


appelle une sous population de taille r de S. Cest un sous ensemble {si1 , si2 , . . . , sir }
de r elements de S necessairement distincts (lordre nintervient pas) quon ecrira
simplement si1 si2 . . . sir . Lensemble des issues possibles est donc
= {si1 si2 . . . sir , sij S, i1 < i2 < . . . < ir }.
On a
|| = Cnr =

n!
.
r!(n r)!

|| est le nombre de sous-ensembles `a r elements dun ensemble `a n elements. Evidemment chaque sous population a la meme probabilite et
P({}) =

r!(n r)!
1
=
.
||
n!

Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors || = 6 et


= {12, 13, 14, 23, 24, 34}.

1.2.4. Loi hypergeometrique. On suppose que S = S1 S2 avec S1 S2 = , |S1 | = n1 ,


|S2 | = n2 , n = n1 + n2 . On appelle elements de type 1 les elements de S1 , elements
de type 2 ceux de S2 . On tire sans remise r elements de S (r n). Soit X le nombre
delements de type 1 obtenus. On se place dans le cadre de 1.2.1 et il sagit de calculer
la loi de la v.a. X. On doit calculer |A| o`
u A = {X = k}. Evidemment P(A) = 0
si k > n1 ou si r k > n2 . Sinon on construit un element de A en se donnant un
echantillon sans repetition de taille k de S1 (il y en a Akn1 ) puis en se donnant un
echantillon sans repetition de taille r k de S2 (il y en a Ark
n2 ) et en faisant un
echantillon sans repetition de taille r de S i.e en choisissant la place des elements de
k
S1 dans lechantillon total (il y a donc Crk possibilites). Finalement |A| = Akn1 Ark
n2 Cr
et
C k C rk
|A|
n1 !
n2 !
r!
(n r)!
P(A) =
=
= n1 rn2 .
||
(n1 k)! (n2 (r k))! k!(r k)! n!
Cn
En fait il est plus simple de se placer dans le cadre de 1.2.3 et de supposer quon
tire une sous population de taille r. On a alors A = {X = k} = {sous population de
taille k de S1 , sous population de taille r k de S2 } et |A| = Cnk1 Cnrk
do`
u
2
P(X = k) =

Cnk1 Cnrk
2
convenant que Cji = 0 si i > j.
Cnr

(1.6)

10

Espace de probabilit
e fini

Cette loi sappelle la loi hypergeometrique.


1.2.5. Loi binomiale. On suppose encore que S = S1 S2 avec S1 S2 = , |S1 | = n1 ,
|S2 | = n2 , n = n1 + n2 . On tire avec remise r elements de S, r quelconque, et soit X
le nombre delements de type 1 obtenus. On se place dans le cadre de 1.2.2 et il sagit
de calculer la loi de la v.a. X. On doit calculer |A| o`
u A = {X = k}. Evidemment
P(A) = 0 si k > r. Sinon on construit un element de A en se donnant un echantillon
avec repetition de taille k de S1 (il y en a nk1 ) puis en se donnant un echantillon
avec repetition de taille r k de S2 (il y en a nrk
echantillon
2 ) et en faisant un
avec repetition de taille r de S i.e en choisissant la place des elements de S1 dans
k
lechantillon total (il y a donc Crk possibilites). Ceci donne |A| = nk1 nrk
2 Cr et
P(A) =

|A|
k
r
= nk1 nrk
2 Cr /n .
||

Posant p = n1 /n, on obtient


P(X = k) = Crk pk (1 p)rk , k = 0, 1, . . . , r, P(X = k) = 0 si k > r.
(1.7)
P
Cette loi sappelle laPloi binomiale car 1 = rk=0 P(X = k) nest rien dautre que la
formule du binome rk=0 Crk pk (1 p)rk = (p + (1 p))r = 1.
Evidemment si n1 et n2 sont tr`es grands par rapport `a r, le fait de tirer sans remise
ou avec remise modifie peu le resultat et dans ce cas la loi binomiale est une bonne
approximation de la loi hypergeometrique. Cest ce que montre le calcul suivant o`
u
k, r sont fixes et o`
u n1 , n2 + avec n1 /n p. Alors
Cnk1 Cnrk
r! n1 (n1 1) . . . (n1 k + 1)n2 (n2 1) . . . (n2 r + k + 1)
2
=
Cnr
n(n 1) . . . (n r + 1) k!(r k)!
Crk

nk1 nrk
n1
n1
2
= Crk ( )k (1 )rk Crk pk (1 p)rk .
nr
n
n

1.2.6. Generalisation. On suppose maintenant que S = S1 S2 . . . Sm avec les Sj


deux `a deux disjoints, |Sj | = nj , n = n1 + . . . + nm . On appelle elements de type j
les elements de Sj , j = 1, . . . , m. On tire sans remise (resp. avec remise) r elements
de S (r n dans le premier cas) et soit Xj le nombre delements de type j obtenus.
On veut calculer P(X1 = k1 , . . . , Xm = km ), k1 + . . . + km = r, on a
a. Tirage sans remise.
P(X1 = k1 , . . . , Xm = km ) =

m
Cnk11 . . . Cnkm
, j, kj nj , k1 + . . . km = r ; = 0 sinon.
Cnr

b. Tirage avec remise. On pose pj =


P(X1 = k1 , . . . , Xm = km ) =

nj
n.

Alors

r!
pk1 . . . pkmm , k1 + . . . km = r ; = 0 sinon.
k1 ! . . . km ! 1

11
Si m = 2, il sagit des formules precedentes. Dans le cas general, elles se montrent de
la meme facon.
Exemple. Le bridge se joue avec un jeu de 52 cartes de 4 couleurs. Il oppose deux
camps de chacun deux joueurs. On distribue 13 cartes `a chaque joueur. On dit quune
main est 5521 si elle se compose de deux couleurs de 5 cartes, dune couleur de 2 cartes
et dune couleur de 1 carte. Quelle est la probabilite p quune main soit 5521? La
probabilite pour quune main comprenne 5 piques, 5 curs, 2 carreaux, 1 trefle est
(loi hypergeometrique generalisee)
=

5 C5 C2 C1
C13
13 13 13
= 0, 002645.
13
C52

On obtient la probabilite cherchee en permutant les couleurs. Il y a C42 facons de


choisir les deux couleurs de 5 cartes puis deux facons de choisir la couleur de 2 cartes.
On a donc p = 2C42 = 0, 03174.
Vous jouez un contrat avec pique comme atout. Vous avez avec votre partenaire
(le mort) 9 piques . Quelles sont les probabilites q1 , q2 , q3 que, chez vos adversaires,
les piques soient partages 4 0, 3 1, 2 2? La probabilite quun de vos adversaires
ait 4 (resp. 3, resp. 2) piques est (loi hypergeometrique)
10
11
9
C43 C22
C42 C22
C44 C22
=
0,
0478,
resp.
=
0,
2486,
resp.
13
13
13 = 0, 40695.
C26
C26
C26

On a donc q1 = 0, 09565, q2 = 0, 4974, q3 = 0, 40695.

1.3. Probabilit
e conditionnelle
On consid`ere un espace de probabilite fini (, P). On ecrit indifferemment A B ou
AB.
1.3.1. Probabilite conditionnelle.
Soient une population, A la sous population des hommes, Ac celle des femmes
et B celle des fumeurs. Si on tire au hasard un element de , la probabilite dobtenir
un fumeur est |B|
element tire est un homme, la probabilite que
|| . Si on observe que l
ce soit un fumeur est |AB|
e conditionnelle de B
|A| , cest ce quon appellera la probabilit
sachant A. Ceci conduit `a:
D
efinition 1.3.1. Soit A tel que P(A) > 0. On appelle probabilite conditionnelle
de B sachant A et on note P(B|A) la quantite P(AB)/P(A).
On a donc
P(AB) = P(A)P(B|A).
Noter que B 7 P(B|A) est une probabilite sur .

12

Espace de probabilit
e fini

Proposition 1.3.2. (Formule de Bayes) Soient A, B des evenements tels que P(A) >
0, P(Ac ) > 0, P(B) > 0. On a
P(A|B) =

P(A)P(B|A)
.
P(A)P(B|A) + P(Ac )P(B|Ac )

Preuve: Par definition P(A|B) = P(AB)/P(B). Dune part P(AB) = P(A)P(B|A).


Dautre part P(B) = P(BA) + P(BAc ) = P(A)P(B|A) + P(Ac )P(B|Ac ). Do`
u le
resultat. 
Proposition 1.3.3. Soient A1 , A2 , . . . , An des evenements tels que P(A1 A2 . . . An ) >
0. On a
P(A1 A2 . . . An ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ) . . . P(An |A1 A2 . . . An1 ) .
Preuve: Par definition P(A1 A2 ) = P(A1 )P(A2 |A1 ). Supposons la formule vraie au
rang n. Alors P(A1 A2 . . . An An+1 ) = P(A1 A2 . . . An )P(An+1 |A1 A2 . . . An ) et il suffit
dappliquer la formule au rang n pour conclure. 
1.3.2. Evenements independants. Si P(B|A) = P(B) i.e. P(AB) = P(A)P(B), savoir
si A a eu lieu ou non ne modifie pas la probabilite de B. Il est alors naturel de dire
que les evenements A et B sont independants do`
u
D
efinition 1.3.4. Les evenements A et B sont independants si P(AB) = P(A)P(B).
Supposons A et B independants, on a
P(AB c ) = P(A) P(AB) = P(A) P(A)P(B) = P(A)(1 P(B)) = P(A)P(B c ).
Donc A et B c sont independants. On voit facilement quil en est de meme de Ac et
B et de Ac et B c . Donc posant, pour F ;
(F ) = {, F, F c , },

(1.8)

on a que A et B sont independants ssi P(CD) = P(C)P(D) pour tout C (A) et


tout D (B). Ceci conduit `a:
D
efinition 1.3.5. Les evenements A1 , A2 , . . . , An sont independants si, pour tout
C1 (A1 ), tout C2 (A2 ),. . ., tout Cn (An ),
P(C1 C2 . . . Cn ) = P(C1 )P(C2 ) . . . P(Cn ).
On montre alors facilement:
Proposition 1.3.6. Les evenements A1 , A2 , . . . , An sont independants ssi, pour tout
{i1 , . . . , ik } {1, . . . , n},
P(Ai1 . . . Aik ) = P(Ai1 ) . . . P(Aik ).

Chapitre 2

Espace de probabilit
e discret
Dans ce chapitre, on introduit les espaces de probabilite denombrables. Pour cela, on
a besoin de la notion de famille sommable.

2.1. Famille sommable


Dans toute cette section, I designe un ensemble denombrable.
2.1.1. Notations. Soient E un ensemble, An E et fn : E R. On ecrit An A si
An An+1 et A = An , An A si An An+1 et A = An , fn f si fn fn+1 et
f = sup fn (alors f = lim fn ), fn f si fn fn+1 et f = inf fn (alors f = lim fn ).
2.1.2. Enumeration. On appelle enumeration de I toute bijection de N sur I. Soient
(ai , i I) une famille de nombres reels ou complexes et une enumeration de I. On
pose
Sn = a(0) + a(1) + . . . + a(n) .
(2.1)
2.1.3. Famille sommable positive. On suppose que, pour tout i I, ai 0. Alors la
+

suite Sn est croissante. Soit S = lim Sn R . Si est une autre enumeration de


I, on a, pour n fixe et m assez grand,
{a(0) , a(1) , . . . , a(n) } {a(0) , a(1) , . . . , a(m) }

et donc Sn Sm
S do`
u S S . Changeant le role de et , on a S S et

finalement S = S . On peut enoncer:

Th
eor`
eme 2.1.1. Soit (ai , i I) une famille de nombres positifs. Alors, pour toute
enumeration de I, la suite Sn , definie par (2.1), converge en croissant vers un
P
+
nombre S R independant de . On note S = iI ai . Si S < +, la famille est
dite sommable.
Quelques consequences immediates:
P
P
(i) Si In I, In fini, iIn ai iI ai .

14

Espace de probabilit
e discret
P

ai , il existe J I, J fini, tel que


P
P
(iii) Si 0 ai bi , iI ai iI bi .
(ii) Pour tout A <

iI

iJ

ai > A.

(iv) Pour 0, 0, ai 0, bi 0, on a
X

(ai + bi ) =

iI

Remarque. En fait
un i au moins.

iI

ai +

iI

bi .

iI

ai est defini pour ai R

et vaut + si ai = + pour

2.1.4. Passage `a la limite croissante.


Proposition 2.1.2. Soit, pour tout n N, (ai (n), i I) une famille de reels positifs.
On suppose que, pour tout i I, ai (n) ai lorsque n +. Alors
X

ai (n)

iI

ai lorsque n +.

iI

P
P
S = iI ai . Evidemment
Preuve: Soient S(n) = iI ai (n), S = lim n S(n),
P
S S.PSoit A < S. Il existe J fini, J I, tel que iJ ai > A. Donc, pour n assez
grand, iJ ai (n) > A et S A do`
u S S et S = S. 
2.1.5. Sommation par paquets. On dit que (Ij , j J) est une partition de I si les Ij
sont deux `a deux disjoints et si I = jJ Ij .
Proposition 2.1.3. Soient (ai , i I) une famille de reels positifs et (Ij , j J) une
partition de I. On a
X
XX
ai .
ai =
iI

jJ iIj

Preuve: Soient Kn I, Kn fini, et Jn = {j J, Kn Ij 6= }. Kn et Jn etant finis,


X
iKn

ai =

jJn iIj Kn

ai =

bj (n)

jJ

P
P
P
o`
u bj (n) = 0 si j
/ Jn , bj (n) = iIj Kn ai si j Jn . Dune part iKn ai n iI ai
P
P
et dautre part, pour chaque j, bj (n) n
ai do`
u (prop. 2.1.2) jJ bj (n) n
iI
j
P
P
jJ
iIj ai . 
2.1.6. Le cas general. On consid`ere maintenant une famille (ai , i I) de nombres
reels ou complexes.
D
efinition 2.1.4.
Une famille (ai , i I) de nombres reels ou complexes est dite
P
sommable si iI |ai | < +.

15
Th
eor`
eme 2.1.5. Soit(ai , i I) une famille sommable de nombres complexes.

(i) Pour toute enum


eration de I, SP
efinie par
n d
P
P(2.1) converge vers S C independant
de . On note S = iI ai . On a | iI ai | iI |ai |.
P
P
P
(ii) Soit (Ij , j J) une partition de I, on a iI ai = jJ iIj ai .

(iii) Si (bi , i I) est une autre famille sommable de nombres complexes et si , C,


la famille (ai + bi , i I) est sommable et
X

(ai + bi ) =

iI

ai +

iI

bi .

iI

Preuve: On pose, pour a R, a+ = max(a, 0), a = max(a, 0). On a a = a+ a


et |a| = a+ + a . Pour a C, on a a = <(a) + i=(a). Alors, pour tout i I,
[<(ai )]+ |ai |, [<(ai )] |ai |, [=(ai )]+ |ai |, [=(ai )] |ai |.
Ecrivant
Sn

n
X
k=0

[<(a(k) )]

n
X

[<(a(k) )] + i

k=0

n
X

[=(a(k) )] i

k=0

n
X

[=(a(k) )] ,

k=0

on est ramene au cas positif. 

2.2. Espace de probabilit


e discret
2.2.1. Probabilite sur E denombrable. Soit E un ensemble denombrable. Une probabilite sur E est une famille (p(a), a E) de reels verifiant
0 p(a) 1,

p(a) = 1.

aE

P
On pose alors, pour A E, P(A) = aA p(a). P est une application de P(E) dans
[0, 1] verifiant P(E) = 1, P(A B) = P(A) + P(B) si A B = (prop. 2.1.3) et
P(An ) P(A) si An A (prop. 2.1.2). Ceci implique que A 7 P(A) est -additive i.e.
que, pour touteP
famille (An , n N) de sous-ensembles de deux `a deux disjoints,
on a P(An ) = P(An ). En effet:
P(An ) = lim N P(N
0 An ) = lim N

N
X

P(An ) =

P(An ).

Reciproquement si une application de P(E) dans [0, 1], A 7 P(A), P


verifie P(E) = 1
et est -additive, on a, posant p(a) = P({a}), 0 p(a) 1 et
aE p(a) = 1.
Ici encore, on appellera probabilite sur E aussi bien la famille (p(a), a E) que la
fonction densembles A 7 P(A).

16

Espace de probabilit
e discret

2.2.2. Un couple (, P) o`
u est un ensemble fini ou denombrable et P une probabilite
sur sappelle un espace de probabilite discret. Toute application X de dans
E sappelle une variable aleatoire `a valeurs E. On peut supposer E denombrable
puisque X() est denombrable. Alors, vu la prop. 2.1.3, la famille (q(a), a E) o`
u
q(a) = P(X = a) est une probabilite sur E appelee loi de X.
2.2.3. Esperance. Soient (, P) un espace de probabilite discret et X une variable
aleatoire `a valeurs E discret (i.e. fini ou denombrable). On pose p() = P({}).
P
a. On suppose E R+ . On pose E(X) = X()p(). E(X), qui est un element
de [0, +], sappelle lesperance de X.
P
b. On suppose E R. Alors,
P si E(|X|) = |X()|p() < +, on appelle esperance
de X la quantite E(X) = X()p().
c.
P On suppose E quelconque et soit f : E R. Si f 0 ou si E(|f (X)|) =
|f (X())|p() < +, on a
X
E(f (X)) =
f (X())p().
(2.2)

Th
eor`
eme 2.2.1. Soient X une variable aleatoire `
a valeurs E discret et f : E R.
Si f 0, on a
X
E(f (X)) =
f (a)P(X = a).
(2.3)
aE

De plus, E(|f (X)|) < + ssi

a |f (a)|P(X

= a) < + et, dans ce cas, on a (2.3).

Preuve: Supposons dabord f 0. Alors, vu la prop. 2.1.3,


X
X X
E(f (X)) =
f (X())p() =
f (X())p()

aE / X()=a

f (a)p() =

aE / X()=a

f (a)

aE

/ X()=a

p() =

f (a)P(X = a).

aE

On a donc, pour f reelle, E(|f (X)|) = a |f (a)|P(X = a) et, si cette quantite est
finie, le calcul ci dessus est encore valable (th. 2.1.5). 
Soient X1 , X2 des v.a. `a valeurs E1 et E2 discrets. Alors (X1 , X2 ) est une v.a.
a` valeurs E1 E2 et on a, pour toute f : E1 E2 R positive ou telle que
E(|f (X1 , X2 )|) < +,
X
E(f (X1 , X2 )) =
f (a1 , a2 ) P(X1 = a1 , X2 = a2 ).
(2.4)
(a1 ,a2 )E1 E2

Si A , on appelle fonction indicatrice de A et on note 1A la fonction definie


par 1A () = 1 si A, 1A () = 0 si
/ A. Alors, notant p() = P({}),
X
X
E(1A ) =
1A ()p() =
p() = P(A).
(2.5)

17
2.2.4. Moments. Dans cette sous section, X designe une v.a. `a valeurs E R, E
discret. Soit p N . Si E(|X|p ) < +, E(|X|p ) sappelle le moment absolu dordre p
de X et E(X p ) sappelle le moment dordre p de X. Dapr`es le th. 2.2.1,
E(|X|p ) =

|a|p P(X = a).

aE

Noter que, pour 1 q p, E(|X|p ) < + implique E(|X|q ) < + puisque |X|q
1 + |X|p .
Supposons E(X 2 ) < +, alors m = E(X), quon appelle aussi moyenne de X,
existe et on definit la variance de X par
Var(X) = E[(X m)2 ] = E(X 2 ) m2 .

(2.6)

La variance donne une idee de lecart de X par rapport `a sa moyenne m comme le


montre:
Proposition 2.2.2. (Inegalite de Bienayme-Tchebychev) On suppose que E(X 2 ) <
+ et soit m = E(X). Alors, pour tout > 0,
1
Var(X).
2

P(|X m| )
Preuve: On a
Var(X) = E[(X m)2 ] =

(X() m)2 p()

(X() m)2 p()

{|Xm|}
2

p() = P(|X m| ). 

{|Xm|}

2.2.5. Lois usuelles.


Loi binomiale. On la dej`a rencontre en (1.7). Soit n N . Cest la loi dune v.a. `a
valeurs {0, 1, . . . , n} telle que
P(X = k) = Cnk pk (1 p)nk , k = 0, 1, . . . , n ; 0 < p < 1.

(2.7)

Elle est appelee loi binomiale de param`etre n, p et notee B(n, p). On ecrit X
B(n, p). En particulier si X B(1, p), on dit que X est une v.a. de Bernouilli.
Calculons la moyenne et la variance de X B(n, p). Dune part
E(X) =

k P(X = k) =

k0

n
X
k=1

= np

n1
X
i=0

kCnk pk (1p)nk

= np

n
X
k=1

(n 1)!
pk1 (1p)nk
(k 1)!(n k)!

i
Cn1
pi (1 p)n1i = np(p + (1 p))n1 = np.

18

Espace de probabilit
e discret

Dautre part
2

E(X ) =

k P(X = k) =

k0

n
X

k(k

1)Cnk pk (1

nk

p)

k=2

= n(n 1)p2

n
X
k=2

= n(n 1)p2

n2
X

n
X

k P(X = k)

k=1

(n 2)!
pk2 (1 p)nk + pn
(k 2)!(n k)!

i
Cn2
pi (1 p)n2i + pn = n(n 1)p2 + pn.

i=0

On a alors Var(X) = n(n 1)p2 + pn (np)2 = np(1 p).


Supposons que k soit fixe et que n + avec p = p(n) tel que np(n) . Alors
vu que log{(1 p(n))n } = n log(1 p(n)) np(n) , on a
n(n 1) . . . (n k + 1) k
p (n)(1 p(n))nk
k!
1 n(n 1) . . . (n k + 1)
1
=
(np(n))k (1 p(n))k (1 p(n))n k e .
k
k!
k!
n
P(X = k) =

1 k
e , k N) est une probabilite sur N.
Noter que ( k!

Loi de Poisson. Cest la loi dune v.a. `a valeurs N telle que


P(X = k) = e

k
, k N; > 0.
k!

(2.8)

Cette loi est appelee loi de Poisson de param`etre et se note P(). Calculons sa
moyenne et sa variance. Dune part
E(X) =

k P(X = k) =

k0

ke

k=0

X k1
k
= e
= .
k!
(k 1)!
k=1

Dautre part, comme ci-dessus


E(X 2 ) =

k 2 P(X = k) =

k0

k(k 1)e

k0

= 2 e

X
k=2

k X k
+
ke
k!
k!
k0

k2
+ = 2 + .
(k 2)!

On a alors Var(X) = 2 + 2 = .
On a vu quon peut approximer la loi B(n, p) par la loi de Poisson P(np) si n est
tr`es grand et p tr`es petit.
Loi geometrique. Cest la loi dune v.a. `a valeurs N telle que
P(X = k) = (1 a)ak , k N;

0 < a < 1.

(2.9)

19
Cette loi est appelee loi geometrique sur N de param`etre a et se note G(a). On
calculera sa moyenne et sa variance en 2.3. On rencontrera aussi la loi geometrique
sur N de param`etre a, notee G (a) definie par
P(X = k) = (1 a)ak1 , k N , 0 < a < 1.

(2.10)

2.2.6. Variables aleatoires independantes. Il est naturel de dire que deux v.a. discr`etes
X et Y sont independantes si, pour tous a X(), b Y (), les evenements {X = a}
et {Y = b} sont independants (voir 1.3.2) i.e. si pour tous a X(), b Y (),
P(X = a, Y = b) = P(X = a)P(Y = b). Plus generalement,
D
efinition 2.2.3. Les v.a. X1 , X2 , . . . , Xn `
a valeurs E1 , E2 , . . . , En discrets sont
independantes si, pour tous a1 E1 , a2 E2 , . . . , an En ,
P(X1 = a1 , X2 = a2 , . . . , Xn = an ) = P(X1 = a1 ) P(X2 = a2 ) . . . P(Xn = an ).
Th
eor`
eme 2.2.4. Les v.a. X1 , X2 , . . . , Xn `
a valeurs E1 , E2 , . . . , En discrets sont
independantes ssi, pour tous fi : Ei R+ ,
E(f1 (X1 ) . . . fn (Xn )) = E(f1 (X1 )) . . . E(fn (Xn ))

(2.11)

Dans ce cas, si fi : Ei R verifie E(|fi (Xi )|) < +, i = 1, 2, . . . , n, on a que


E(|f1 (X1 ) . . . fn (Xn )|) < + et (2.11) est satisfaite.
Preuve: On se limite `a n = 2. Si (2.11) est satisfaite, on a lindependance de X1 et
X2 en choisissant f1 = 1{a1 } , f2 = 1{a2 } et en utilisant (2.5). Reciproquement, si X1
et X2 sont independantes et f1 0, f2 0, vu la prop. 2.1.3 et (2.4),
X
E(f1 (X1 )f2 (X2 )) =
f1 (a1 )f2 (a2 )P(X1 = a1 , X2 = a2 )
a1 ,a2

f1 (a1 )f2 (a2 )P(X1 = a1 )P(X2 = a2 )

a1 ,a2

X
a1

f1 (a1 )P(X1 = a1 )

f2 (a2 )P(X2 = a2 ) = E(f1 (X1 ))E(f2 (X2 )).

a2

Dans le cas reel, on a, vu la premi`ere partie, E(|f1 (X1 )f2 (X2 )|) = E(|f1 (X1 )|)E(|f2 (X2 )|)
< + et la calcul ci-dessus reste valable. 
Prenant fi = 1i , on a, utilisant (2.5), que si X1 , X2 , . . . , Xn sont independantes,
pour tous i Ei ,
P(X1 1 , . . . Xn n ) = P(X1 1 ) . . . P(Xn n )
Enfin il resulte du th. 2.2.4 que, si X1 , X2 , . . . , Xn sont independantes,
(i) il en est de meme Y1 = g1 (X1 ), . . . , Yn = gn (Xn ) o`
u gi : E i Fi .

(2.12)

20

Espace de probabilit
e discret

(ii) il en est de meme de Xr(1) , . . . , Xr(n) pour toute permutation {r(1), . . . , r(n)} de
(1, . . . , n),
(iii) il en est de meme,pour tous 1 < m1 < . . . < mp = n, de Y1 , . . . , Yp o`
u
Y1 = (X1 , . . . , Xm1 ), Y2 = (Xm1 +1 , . . . , Xm2 ), . . . , Yp = (Xmp1 +1 , . . . , Xn ).
Par exemple, si X1 , X2 , X3 , X4 sont des variables aleatoires reelles independantes,
il en est de meme de X1 , X3 , X2 , X4 , de Y1 = (X1 , X3 ) et Y2 = (X2 , X4 ) et de
U1 = cos(X12 + X32 ) et U2 = eX2 X4 .
Exemple. Soient X et Y deux v.a. independantes `a valeurs N, de lois P() et P().
Cherchons la loi de S = X + Y . On a
P(S = k) = P(X + Y = k) =

k
X

P(X = j, Y = k j) =

j=0

k
X
j=0

k
X

P(X = j)P(Y = k j)

j=0
k

j kj
( + )k
1 X j j kj
= e(+)
e
= e(+)
Ck
.
j!
(k j)!
k!
k!
j=0

Donc S P( + ).

2.3. Fonctions g
en
eratrices
Dans cette section, on ne consid`
ere que des v.a. `
a valeurs N.
2.3.1. Definition.
Soit X une telle v.a. Notons dabord que, vu le th. 2.2.1, on a, pour
P
n
X
0
tout s 0,
n=0 P(X = n)s = E(s ) avec la convention s = 1 si s = 0.
D
efinition 2.3.1. On appelle fonction generatrice de X, la fonction
g(s) = gX (s) =

P(X = n)sn = E(sX ), 0 s 1.

n=0

On pose qn = P(X = n). On a gX (0) = q0 , gX (1) = 1 et, vu la prop. 2.1.2,


gX (s) gX (1) = 1 lorsque s 1. Sur [0, 1], la fonction
P gX n(s) est convexe et strictement
convexe si q0 + q1 < 1. De plus, la serie enti`ere
qn s a un rayon de
P convergence
0 (s) =
n1 ,
R 1. Donc gX (s) est indefiniment derivable sur [0, 1[ et gX
n1 nqn s
P
00 (s) =
n2 ,. . .. Enfin n!q = g (n) (0) do`
gX
u:
n
n2 n(n 1)qn s
X
Proposition 2.3.2. La fonction generatrice gX determine la loi de X. En fait:
P(X = n) =
Exemples.

1 (n)
g (0).
n! X

21
a. Loi binomiale B(n, p). On a
g(s) =

P(X = k)sk =

n
X

Cnk pk sk (1 p)nk = (ps + (1 p))n .

k=0

b. Loi de Poisson P(). On a


g(s) =

P(X = k)sk = e

X k sk
k0

k!

= e(s1) .

c. Loi geometrique G(a). On a


X
X
1a
g(s) =
P(X =)sk =
(1 a)ak sk =
.
1 as
k

k0

2.3.2. Calcul des moments. Rappelons (2.2.4) que E(X p ) < + implique E(X q ) <
+ pour tout q p.
Proposition 2.3.3. (i) E(X) < + ssi gX est derivable `
a gauche en 1 et, dans ce
0 (1).
cas, on a E(X) = gX
(ii) E(X 2 ) < + ssi gX est deux fois derivable `
a gauche en 1 et, dans ce cas, on a
00 (1).
E(X(X 1)) = gX
Preuve: (i) On a, utilisant la prop. 2.1.2, lorsque s 1,
X
g(s) g(1) X sn 1 X
=
=
qn
qn (1 + . . . + sn1 )
nqn = E(X)
s1
s1
n0

n0

n0

et le resultat cherche.
(ii) On remarque dabord que, si E(X 2 ) < +, E(X) < + et g 0 (1) < +. Alors,
lorsque s 1,
X
g 0 (s) g 0 (1) X
sn1 1 X
=
nqn
=
nqn (1+. . .+sn2 )
n(n1)qn = E(X(X1)).
s1
s1
n0

n0

n0

On conclut facilement. 
On peut continuer et, si E(X p ) < +, p N,
(p)
gX
(1) = E(X(X 1) . . . (X p + 1)).

Supposons E(X 2 ) < +. Alors


00
0
0
Var(X) = E(X 2 )[E(X)]2 = E(X(X1))+E(X)[E(X)]2 = gX
(1)+gX
(1)[gX
(1)]2 .

Le lecteur est invite `a calculer lesperance et la variance des lois binomiale et de


Poisson par cette methode. Considerons la loi geometrique G(a) (2.3.1). On a
g(s) =

a
2a2
a
1a
, g 0 (1) =
= E(X), g 00 (1) =
, Var(X) =
.
2
1 as
1a
(1 a)
(1 a)2

2.3.3. Somme de v.a. independantes.

22

Espace de probabilit
e discret

Proposition 2.3.4. Soient X et Y deux v.a. `


a valeurs N independantes. On a, pour
tout s [0, 1],
gX+Y (s) = gX (s) gY (s).
Preuve: On a, utilisant le th. 2.2.4,
gX+Y (s) = E(sX+Y ) = E(sX sY ) = E(sX ) E(sY ) = gX (s) gY (s). 
Exemples. (i) Soient X et Y deux v.a. independantes de loi P() et P(). On a
gX+Y (s) = e(s1) e(s1) = e(+)(s1)
et donc (prop. 2.3.2) X + Y P( + ).
(ii) Soient A1 , . . . , An des evenements independants de meme probabilite p = P(Ak ).
Soient Sn = 1A1 + . . . + 1An le nombre devenements realises, g la fonction generatrice
(commune) de 1A1 et gn la fonction generatrice de Sn . On a g(s) = E(s1A1 + 1Ac1 ) =
ps + 1 p. Donc gn (s) = [g(s)]n = (ps + 1 p)n et (prop. 2.3.2) Sn B(n, p).
2.3.4. Crit`ere dindependance. Soient X et Y deux v.a. `a valeurs N. On definit pour
u, v [0, 1],
X
g(X,Y ) (u, v) =
P(X = m, Y = n)um v n = E(uX v Y ).
(2.13)
m,n

(Toujours avec la convention 00 = 1). Alors g(X,Y ) sappelle la fonction generatrice du


couple (X, Y ).
Proposition 2.3.5. Les v.a. `
a valeurs N X et Y sont independantes ssi, pour tous
u, v [0, 1],
g(X,Y ) (u, v) = gX (u) gY (v).
(2.14)
Preuve: Si X et Y sont independantes, (2.14) resulte du th. 2.2.4. Reciproquement
(2.14) secrit
X
X
X
P(X = m, Y = n)um v m =
P(X = m)um
P(Y = n)v n .
m,n

Appliquant

m+n
un v m (0, 0)

aux deux membres, on obtient que, pour tous m, n,

P(X = m, Y = n) = P(X = m)P(Y = n)


i.e. lindependance de X et Y . 
La prop. 2.3.5 setend facilement au cas de n v.a.

Chapitre 3

Mesure. Int
egration
Dans ce chapitre, on rappelle les resultats de la theorie de la mesure et de lintegration
qui seront utilises par la suite.

3.1. Tribus
3.1.1. Soient E un ensemble et B P(E). On dit que B est une alg`ebre (resp. une
tribu) si E B, si B est stable par passage au complementaire et par reunion et
intersection finies (resp. denombrables). Un couple (E, B), B tribu sur E, sappelle
un espace mesurable. Sil est souvent possible de decrire les elements dune alg`ebre,
il nen est pas de meme pour ceux dune tribu. On remarque que P(E) est une tribu
et que lintersection dune famille non vide quelconque de tribus est une tribu. Donc,
etant donne C P(E), on peut considerer la plus petite tribu contenant C, cest
lintersection de toutes les tribus contenant C. Cette tribu se note (C) et sappelle
la tribu engendree par C. Le resultat suivant, appele theor`eme de classe monotone,
sera tr`es utile par la suite.
Proposition 3.1.1. Soient C M P(E). On suppose que C est stable par intersection finie, que E M, que A, B M et A B impliquent B \ A M et que M
est stable par limite croissante. Alors (C) M.
3.1.2. Supposons E = Rd et soit O la classe des ouverts de E. La tribu (O) sappelle
la tribu borelienne de Rd et se note B(Rd ). Il est facile de voir quelle est aussi engendree par les fermes, par les boules, par les paves et meme par les paves `a coordonnees rationnelles (cette derni`ere famille ayant lavantage detre denombrable).
Si d = 1, on considerera, outre B(R), B(R+ ) = {A B(R), A R+ }, B(R) =
(B(R), {+}, {}) et B(R+ ) = (B(R+ ), {+}). On etend les operations usuelles
`a R+ en posant (+) 0 = 0 (+) = 0.
3.1.3. Soient (E1 , B1 ) et (E2 , B2 ) deux espaces mesurables. Une application de E1
dans E2 est dite mesurable si, pour tout A B2 , f 1 (A) B1 . Il est facile de voir
que, pour cela, il suffit que f 1 (A) B1 pour tout A C avec (C) = B2 . Ceci

24

Mesure. Int
egration

implique que, si f est continue de Rd dans Rm , f est borelienne i.e. mesurable pour
les tribus boreliennes. De plus, cette notion est transitive i.e. la composee de deux
applications mesurables est mesurable. Quand lespace darrivee est R, R, R+ , Rd , C,
il est toujours suppose muni de sa tribu borelienne.
3.1.4. Soit (E, B) un espace mesurable. Pour quune application numerique soit
mesurable, il suffit que, pour tout a R, {f > a} := {x, f (x) > a} B. On
peut aussi considerer {f < a}, {f a}, {f a}. Ceci implique que, si f , g, fn sont
des fonctions numeriques mesurables, il en est de meme de f , sup(f, g), inf(f, g),
f + = sup(f, 0), f = sup(f, 0), sup fn , inf fn , lim sup fn , lim inf fn , lim fn si elle
existe.
Rappelons que, notant fn f (resp.fn f ) si, pour tout x E, fn (x) crot (resp.
decrot) vers f (x),
lim sup fn (x) = lim sup fk (x), lim inf fn (x) = lim inf fk (x),
n

kn

kn

(3.1)

ces quantites etant `a valeurs R et que f = lim fn ssi lim sup fn = lim inf fn = f .
Soient f, g des fonctions numeriques mesurables. Alors : x 7 (f (x), g(x)) est
mesurable de (E, B) dans R2 puisque 1 (A B) = f 1 (A) g 1 (B). Ceci implique
que, si H est une application borelienne de R2 dans R, H(f, g) est mesurable. On en
deduit que f + g, f g, fg , si elle existe, sont mesurables.
3.1.5. Pour A B, on appelle fonction indicatrice de A et on note 1A la fonction
valant 1 sur A et 0 sur Ac (on note Ac le complementaire de A). On a
Y
1Ac = 1 1A , 1An =
1An = inf 1An , 1An = sup 1An .
n

Une P
application f de E muni de la tribu B dans R est dite etagee si elle secrit
f = nk=1 ak 1Ak , Ak B. On notera
[B] lensemble des fonctions reelles B-mesurables,
bB lensemble des fonctions reelles B-mesurables bornees,
B + lensemble des fonctions B-mesurables `a valeurs R+ ,
eB + lensemble des fonctions etagees positives.
Le resultat suivant est `a la base de la construction de lintegrale
Proposition 3.1.2. Toute f B+ est limite dune suite croissante de fonctions de
eB + .
Preuve: Il suffit de considerer
fn (x) =

n 1
n2
X

k=0

k
1 k
k+1 + n1{f (x)n} .
2n { 2n f (x)< 2n }

(3.2)

3.1.6. Soit f une application de E dans un espace mesurable (A, A). On note (f )
et on appelle tribu engendree par f la plus petite tribu sur E rendant f mesurable.
On a donc (f ) = {f 1 (A), A A}.

25
Proposition 3.1.3. Soient f : E (A, A) et h : E R (resp. E R+ ). Alors h
est (f )-mesurable ssi il existe g [A] (resp. g A+ ) telle que h = g f .
Preuve: Evidemment si h = gf , h est (f )-mesurable
(transitivite). Reciproquement
Pn
a
1Bk avec Bk (f
supposons dabord h e[(f )]+ , on a h =
k
k=1
P ) et donc
Bk = f 1 (Ak ), Ak A. Vu que 1Bk = 1Ak f , on a h = g f avec g = nk=1 ak 1Ak .
Si h [(f )]+ , on a h = lim hn avec hn e [(f )]+ et donc hn = gn f ,
gn A+ . On en deduit h = g f avec g = lim sup gn A+ . Si h [(f )], on a
h = h+ h et h+ = g1 f , h = g2 f avec gi A+ . On a alors h = g f avec
g = g1 1{g1 <+} g2 1{g2 <+} [A]. 
Plus generalement si (fi , i I) est une famille dapplications de E dans des
espaces mesurables (Fi , Fi ), on note (fi , i I) et on appelle tribu engendree par les
fi la plus petite tribu sur E rendant toutes les fi mesurables. On a donc
(fi , i I) = (fi1 (Ai ), Ai Fi , i I).

3.2. Mesures
3.2.1. Soit (E, B) un espace mesurable.
D
efinition 3.2.1. On appelle mesure sur (E, B) toute application de B dans R+
telle que
(i) () = 0,
P
(ii) pour tous An B deux `
a deux disjoints, (n An ) = n (An ).
Le triplet (E, B, ) sappelle un espace mesure.
Propri
et
es: (i) si A, B B et A B, (A) (B),
P
(ii) si An B, (n An ) n (An ),
(iii) si An B et si An A (i.e. 1An 1A ), (An ) (A),
(iv) si An B, si An A (i.e. 1An 1A ) et si, pour un n0 , (An0 ) < +, (An )
(A).
Si E = n En avec En B et (En ) < +, la mesure est dite -finie. Si
(E) < +, la mesure est dite bornee. Si (E) = 1, la mesure est appelee une
probabilite.
Exemple. Soit a E. alors a (A) = 1A (a) definit une mesure sur (E, B)
Pappelee
mesure de Dirac de a. Plus geralement, etant donnes an E et n 0, = n n an
est une mesure sur (E, B) (prop. 2.1.2).
Remarque. La propriete (ii) de la def. 3.2.1 sappelle -additivite. Si dans la def.
3.2.1, on suppose que B est seulement une alg`ebre, la definition a encore un sens en
rajoutant dans (ii) la condition n An B. On a ainsi la notion de mesure sur une
alg`ebre.

26

Mesure. Int
egration

Proposition 3.2.2. Soient et deux mesures sur (E, B) et C B une classe


densembles stable par intersection finie. On suppose que, pour tout A C, (A) =
(A) < + et que E = lim En avec En C. Alors (A) = (A) pour tout
A (C).
Preuve: Supposons dabord (E) = (E) < +. Soit M = {A B, (A) = (A)}.
On verifie immediatement que les hypoth`eses de la prop. 3.1.2 sont verifiees. On
a donc (C) M. Le cas general se traite en appliquant ce resultat aux mesures
n (A) = (A En ) et n (A) = (A En ). 
Corollaire 3.2.3. Soient et deux probabilites sur (E, B) et C B une classe
densembles stable par intersection finie telle que (C) = B. Si (A) = (A) pour
tout A C, alors = .
3.2.2. Soit (E, B, ) un espace mesure. Un sous-ensemble A de E est dit negligeable
(ou -negligeable sil y a ambigute) si A B avec B B et (B) = 0. Une propriete
est vraie presque partout (en abrege p.p. ou, plus presisemment, p.p.) si elle est
vraie en dehors dun ensemble negligeable. Par exemple f = g p.p. signifie que {x
E, f (x) 6= g(x)} est negligeable. Si est une probabilite, on dit presque s
urement (en
abrege p.s.) pour presque partout. On note N la classe des ensembles negligeables.
Il faut noter que si An N , on a n An N . Si N B, lespace mesure (E, B, )
est dit complet. Si ce nest pas le cas, on peut le completer de la facon suivante.
On definit B = (B, N ). Alors A B ssi A = B N avec B B et N N . On
peut prolonger `a B en posant (A) = (B) (il est facile de voir que ceci ne depend
pas de lecriture de A). Lespace (E, B, ) est alors complet et sappelle le complete
de (E, B, ). Enfin on verifie aisement que f : E R est Bmesurable ssi il existe
g, h : E R Bmesurables telles que g f h et g = h p.p.
3.2.3. Construction. Dans la suite, la plupart du temps, on partira dun espace
mesurable ou dun espace de probabilite sans se soucier de sa construction. Il est
neanmoins indispensable de sassurer de lexistence de tels objets. On va sinteresser
aux mesures sur B(R) finies sur les intervalles bornes. Observons dabord que C =
{ ]a, b], < a < b < +} est une classe stable par intersection finie et que
(C) = B(R). Il resulte alors de la prop. 3.2.2 quune mesure sur B(R) finie sur les
intervalles bornes est determinee par les valeurs (]a, b]). Ensuite, etant donnee une
telle mesure, si on pose
F (0) = 0; F (x) = (]0, x]), x > 0; F (x) = (]x, 0]), x < 0,
F (x) est une fonction continue `a droite et croissante et lon a (]a, b]) = F (b) F (a).
On est donc ramene au probl`eme suivant. Soit F une application de R dans R continue
`a droite et croissante, existe-t-il une mesure sur B(R) telle que (]a, b]) = F (b)
F (a)? Il est facile de decrire lalg`ebre A engendree par C, on a
A = { A = nk=1 ]ak , bk ], a1 < b1 < a2 < . . . < bn1 < an < bn +}

27
en convenant que, si bn = +, ]an , bn ] =]an , +[. On definit sur A par (A) =
P
n
u F (+) = limx+ F (x), F () = limx F (x). Il est
k=1 F (bk ) F (ak ) o`
facile de montrer que est additive sur A, un peu plus delicat de montrer que est
-additive sur A mais cela se fait. On a donc construit une mesure sur A telle que
(]a, b]) = F (b) F (a). Pour passer `a B(R), on utilise le theor`eme de Caratheodory:
Th
eor`
eme 3.2.4. Soit une mesure sur une alg`ebre A, alors se prolonge en une
mesure sur (A). De plus, si est -finie, ce prolongement est unique.
Tout ceci donne, puisque dans notre cas (A) = B(R),
Th
eor`
eme 3.2.5. Soit F une application de R dans R continue `
a droite et croissante.
Il existe une et une seule mesure sur B(R) telle que, pour tous a < b, (]a, b]) =
F (b) F (a).
Si on choisit F (x) = x, on obtient lexistence et lunicite dune mesure sur B(R)
verifiant, pour tout intervalle I, (I) = |I|. Cest la mesure de Lebesgue sur R. Si
N est la classe des ensembles -negligeables, B(R) = (B, N ) sappelle la tribu des
ensembles Lebesgue-mesurables (elle est beaucoup plus grosse que B(R)) et se
prolonge sans peine `a B(R) comme en 3.2.2.

3.3. Int
egration
Soit (E, B, ) un espace mesure.
3.3.1. Integration des fonctions positives. On va construire
Pn lintegrale de f par rap+
port `a . Si f eB , cest tr`es facile, f secrit f = k=1 ak 1Ak , Ak B et lon
pose
Z
n
X
ak (Ak ).
f d :=
k=1

Des considerations elementaires montrent


pas deR lecriture de f
R que ceci ne depend
R
et que, Rpour f, gR eB + et a, b R+ , (af + bg) d = a f d + b g d et que, si
f g, f d g d. On a aussi le resultat plus technique suivant qui est la cle de
la construction.
+
Lemme
R 3.3.1. Si fnR, gn eB sont croissantes et si lim fn = lim gn , on a
lim fn d = lim gn d.
+
Soit f B + . Il existe
R (prop. 3.1.2)R une suite fn eB telle que fn f , on a alors
fn d et on pose f d = lim fn d. Le point important est que, dapr`es le
lem. 3.3.1, cette limite ne depend pas de la suite fn choisie. On a en particulier, vu
(3.2), pour f B + ,

Z
f d = lim

n 1
n2
X

k=0

k
k
k+1
({x, n f (x) <
}) + n({x, f (x) n}).
n
2
2
2n

(3.3)

28

Mesure. Int
egration

+
+
on obtient
immediatement que,
RPar passage `a la limite,
R
R
R pour f,Rg B et a, b R ,
(af + bg) d = a f d + bR g d et que, si f g, f d g d. Enfin on dira
que f B + est integrable si f d < +.

3.3.2. Integration des fonctions reelles ou complexes. On pose


Z
1
1
L = L (E, B, ) = {f [B],
|f | d < +}.

(3.4)

Si f L1 , f + et f sont integrables et on pose


Z
Z
Z
+
f d = f d f d.
Il estRfacile de voir (vu que |f + g| |f | + |g|) que L1 est un espace vectoriel
R et que
fR 7 f d est une forme lineaire positive sur L1 . De plus, pour f L1 , | f d|
|f | d.
Si f est B-mesurable `a valeurs C, on pose (|f | designant le module),
Z
|f | d < +}.
(3.5)
L1C = L1C (E, B, ) = {f B-mesurable complexe,
R
R
R
On definit alors, pour fR L1C , f d = <(f ) d + i =(f ) d. L1C est un espace
1
1
vectoriel
sur
R
R C et f 7 f d une forme lineaire sur LC . On a aussi, pour f LC ,
| f d| |f | d.
3.3.3. Proprietes.
(i) Si f B + et si

(ii) Si f B + et si

f d < +, f < + p.p.

f d = 0, f = 0 p.p.
R
R
(iii) Si f, g L1 et si f g p.p., f d g d.

(iv) Si f L1C et si A B, f 1A L1C . On pose alors


Z
Z
f d := f 1A d, A B, f L1C B + .
A

(v) Si f L1 et si, pour tout A B,


(vi) Si f, g

L1

d 0 alors f 0 p.p.
R
et si, pour tout A B, A f d A g d, alors f g p.p.
Af

Il nous reste `a enoncer les resultats concernant les passages `a la limite. Le premier
do`
u decoulent facilement les autres sappelle theor`eme de convergence monotone ou
theor`eme de Beppo-Levi.
Th
eor`
eme 3.3.2. Soit fn B + une suite croissante, alors
Z
Z
lim fn d = lim fn d.

29
Corollaire 3.3.3. Soit gn B + , alors
Z X
XZ
gn d.
gn d =
n

Proposition 3.3.4. (Lemme de Fatou) (i) Soit fn B + , alors


Z
Z
lim inf fn d lim inf fn d.
(ii) Soit fn [B] avec |fn | g L1 , alors
Z
Z
Z
Z
lim inf fn d lim inf fn d lim sup fn d lim sup fn d.
(ii) implique le cel`ebre theor`eme de Lebesgue,
Th
eor`
eme 3.3.5. Soit fn L1C telles que fn f p.p. avec |fn | g L1 , alors
Z
Z
lim fn d = f d.
Ce theor`eme a une version continue tr`es utile.
Corollaire 3.3.6. Soit (ft , t U ) une famille delements de L1C , U ouvert de Rd .
1
On suppose
que lim
R
R tt0 ft = f p.p. et que, pour tout t U , |ft | g L , alors
limtt0 ft d = f d.
R
R
Preuve: Il suffit de remarquer
que
lim
f
d
=
f d ssi, pour toute suite tn
tt
t
0
R
R
tendant vers t0 , limtn t0 ftn d = f d et dappliquer le th. 3.3.5. 
Donnons un exemple dutilisation de ce corollaire.
Proposition 3.3.7. Soient (E, B, ) un espace mesure, I un intervalle ouvert et
1
(f
R (t, x), t I) une famille delements de LC (). On pose, pour tout t I, (t) =
f (t, x) d(x). On suppose que, pour tout x A, t 7 f (t, x) est derivable sur I, que,
pour tous x A et t I, | f
x)| g(x), que g L1 () et que (Ac ) = 0. Alors
t (t,
R
est derivable sur I et 0 (t) = f
t (t, x) d(x).
Preuve: On a
1
((t + h) (t)) =
h

Z
A

1
(f (t + h, x) f (t, x)) d(x).
h

Dapr`es la formule des accroissements finis, on a, pour x A,


1
f
| (f (t + h, x) f (t, x))| = | (, x)| g(x)
h
t
si h est assez petit et
f
1
(f (t + h, x) f (t, x)) h0
(t, x).
h
t

30

Mesure. Int
egration

On peut appliquer le cor. 3.3.6 et


Z
Z
Z
1
f
f
(f (t + h, x) f (t, x)) d(x) h0
(t, x) d(x) =
(t, x) d(x). 
h
t
t
A
A
3.3.4. Lien avec lintegrale usuelle. RSoit f une fonction reelle continue sur [a, b] et
x
Rposons, pour a x b, F (x) = a f (t) dt (integrale au sens usuelle) et G(x) =
1[a,a+x[ f d, mesure de Lebesgue sur R. On sait que F (a) = 0, F est continue sur
[a, b] et que, sur ]a, b[, F est derivable avec F 0 = f . Il est facile de verifier que G a les
memes proprietes. Ceci implique que F = G sur [a, b] et, en particulier, que
Z
Z b
f (t) dt = 1[a,b[ f d.
a

Par additivite, cette formule est encore vraie si f est continue par morceaux sur [a, b].
Consid
rons maintenant une application f de R dans R continue par morceaux
R e+
telle que f (t) dt soit absolument convergente. Lorsque a et b +, dune
R +
Rb
R +
Rb
part, par definition,
a |f (t)| dt
R
R |f (t)| dt < + et a f (t) dt f (t) dt;
dautre part, R1[a,b[ |f | d R |f | d (convergence monotone) ce qui implique que
f L1 () puis 1[a,b[ f d f d (theor`eme de Lebesgue puisque |1[a,b[ f | |f |
L1 ()). Donc
Z
Z
+

f (t) dt =

f d.

R +
Par contre, si f (t) dt est convergente mais pas absolument convergente (par
exemple f (x) = sinx x ), f
/ L1 ().
3.3.5. Espaces Lp . Soit (E, B, ) un espace mesure. On note L0 lensemble des applications B-mesurables de E dans R finies p.p. On dit que f g si f = g p.p. Alors
est une relation dequivalence sur L0 . On note L0 = L0 / . En fait L0 est lespace
des classes
B-mesurables
d
R de fonctions
R
R
Refinies `a un p.p. pr`es. Puisque f = g p.p.
implique |f | d = |g| d et R f d = g d siR f et g sont dansR L1 , on peut definir
sans ambigute, pour f L0 , |f | d puis, si |f | d < +, f d. Par abus de
langage, dans toute la suite nous noterons de la meme facon une fonction et sa classe
dequivalence. On pose alors, pour 1 p < + et f L0 ,
Z
1
||f ||p = [ |f |p d] p
et, pour p = +,
||f || = inf(M, (|f | > M ) = 0).
On a deux inegalites fondamentales. Pour f, g L0+ ,
||f + g||p ||f ||p + ||g||p , 1 p +

(3.6)

qui sappelle linegalite de Minkowski et


||f g||1 ||f ||p ||g||q , 1 p +,

1 1
+ =1
p q

(3.7)

31
qui sappelle linegalite de Holder. Notons que pour p = q = 2, (3.7) implique
linegalite de Schwarz
Z
Z
Z
[ |f g| d]2 ( f 2 d)( g 2 d).
On note
Lp = {f L0 ,

|f |p d < +},

Lp = {f L0 ,

|f |p d < +}.

Alors Lp muni de la norme ||.||p est un espace de Banach et L2 est un espace de


Hilbert pour le produit scalaire
Z
< f, g >= f g d.
On peut aussi considerer le cas des fonctions `a valeurs complexes. On definit de la
meme facon LpC = LpC (E, B, ). Il faut noter que L2C est associe au produit scalaire
Z
< f, g >= f g d.
Proposition 3.3.8. Pour 1 p < +, E 0 = {f, f =
+} est dense dans Lp (E, B, ).

Pn

k=1 ak 1Ak ,

Ak B, (Ak ) <

Preuve: Il suffit de considerer f 0. Alors il existe (prop. 3.1.2) une suite fn eB +


telle que fn f . Vu que fnp f p L1 , fn E 0 . On a, puisque
f < + p.p.,
R
|f fn |p 0 p.p. et |f fn |p f p L1 donc (th. de Lebesgue) |f fn |p d 0. 

3.4. Mesures `
a densit
e
+
3.4.1. Soit une mesure
R sur (E, B).+On peut lui associer une application I de B dans
+
R en posant I(f ) = f d, f B . Lapplication I a les proprietes suivantes: I(f +
g) = I(f ) + I(g), I(af ) = aI(f ), a R+ et I(fn ) I(f ) si fn f . Reciproquement
on a,

Proposition 3.4.1. Soient (E, B) un espace mesurable et I une application de B +


dans R+ telle que
(i) si f, g B + , I(f + g) = I(f ) + I(g); si f B + et a R+ , I(af ) = aI(f ),
(ii) si fn B + et si fn f , I(fn ) I(f ).
Alors (A)
= I(1A ), A B, definit une mesure sur B et on a, pour toute f B + ,
R
I(f ) = f d.
Preuve:
Soient P
An B des ensembles deux `a deux disjoints dunion A, on a 1A =
P
n
n 1An = lim
k=1 1Ak et
(A) = I(1A ) = I(lim

n
X
k=1

n
n
X
X
X
1Ak ) = lim I(
1Ak ) = lim
I(1Ak ) =
(An ).
k=1

k=1

32

Mesure. Int
egration

Ce qui montre que est une mesure. On a alors, pour toute f eB + , I(f ) =
On conclut facilement en utilisant la prop. 3.1.2. 

f d.

3.4.2. Mesures `a densite.


+
RProposition 3.4.2. Soient (E, B, ) un espace mesure et h B . La formule (A) =
efinit une mesure sur B appelee mesure de densite h par rapport `
a
A h d, A B d
+
et notee h.. On a, pour toute f B ,
Z
Z
f d = f h d.
(3.8)

De plus f [B] est -integrable ssi f h est -integrable et lon a dans ce cas (3.8).
R
Preuve: On consid`ere la fonctionnelle I(f ) = f h d, f B + et on applique la
prop. 3.4.1. La derni`ere assertion est pure routine en ecrivant f = f + f . 
Supposons que = h1 . = h2 . et que soit bornee, alors h1 , h2 L1 () et on a
(3.3.3 (vi)) h1 = h2 p.p. On voit facilement que ceci est encore vrai si est -finie.
3.4.3. Theor`eme de Radon-Nikodym. Soient , deux mesures sur (E, B). On cherche
`a savoir si a une densite par rapport `a . Si = h., on a evidemment, pour
A B, (A) = 0 implique (A) = 0. Il est remarquable que cette propriete suffise `a
caracteriser les mesures ayant une densite par rapport `a .
D
efinition 3.4.3. On dit que est absolument continue par rapport `
a si
A B et (A) = 0 impliquent (A) = 0.
On note alors  . On a (theor`eme de Radon-Nikodym):
Th
eor`
eme 3.4.4. Soient , deux mesures -finies sur (E, B) telles que  .
Alors il existe h B + , unique `
a un p.p. pr`es, telle que = h..

3.5. Mesures produits


3.5.1. Soient (E1 , B1 ) (E2 , B2 ) deux espaces mesurables. On definit une tribu sur
E1 E2 , appelee tribu produit de B1 et B2 et notee B1 B2 , par
B1 B2 = (A1 A2 , A1 B1 , A2 B2 ).
Alors si f : E1 E2 R+ est une fonction B1 B2 -mesurable, on a que pour tout
x1 E1 , x2 7 f (x1 , x2 ) est B2 -mesurable et que, pour tout x2 E2 , x1 7 f (x1 , x2 )
est B1 -mesurable. En particulier si A B1 B2 , Ax2 = {x1 , (x1 , x2 ) A} B1 et
+
Ax1 = {x2 , (x1 , x2 ) A} B2 . On en deduit
R facilement que, si f (B1 B2 )
et si Ri est une mesure sur (Ei , Bi ), x1 7 f (x1 , x2 ) d2 (x2 ) est B1 -mesurable et
x2 7 f (x1 , x2 ) d1 (x1 ) est B2 -mesurable.

33
Th
eor`
eme 3.5.1. Soient (E1 , B1 , 1 ) et (E2 , B2 , 2 ) deux espaces mesures avec 1 et
2 -finies. Il existe une unique mesure sur B1 B2 , notee 1 2 et appelee mesure
produit de 1 et 2 , telle que,
pour tous A1 B1 , A2 B2 , 1 2 (A1 A2 ) = 1 (A1 ) (A2 ).
De plus, pour toute f (B1 B2 )+ ,
Z
Z Z
Z Z
f d1 2 = [ f (x1 , x2 ) d1 (x1 )] d2 (x2 ) = [ f (x1 , x2 ) d2 (x2 )] d1 (x1 ).
Preuve: (i) Unicite. On applique la prop. 3.2.2 `a C = {A, A = A1 A2 , A1
B1 , A2 B2 , (A1 ) < +, (A2 ) < +}.
R R
(ii) Existence. On applique la prop. 3.4.1 `a I1 (f ) = [ f (x1 , x2 ) d1 (x1 )] d2 (x2 ) ce
qui
R R donne lexistence. Mais on peut aussi appliquer la prop. 3.4.1 `a I2 (f ) =
[ f (x1 , x2 ) d2 (x2 )] d1 (x1 ) et, vu lunicite, on a I1 (f ) = I2 (f ). 
Si f L1C (1 2 ), on peut appliquer le theor`eme precedent `a [<(f )]+ , [<(f )] ,
[=(f )]+ et [=(f )] et lon obtient le theor`eme de Fubini:
R
1
Th
eor`
R eme 3.5.2. Soit f LC (1 2 ). Alors, |f (x1 , x2 )| d
R 2 (x2 ) < + 1
p.p., |f (x
,
x
)|
d
(x
)
<
+

p.p.
et,
posant

(x
)
=
f (x1 , x2 ) d2 (x2 ),
1 1
2
1 1
R 1 2
1
1
2 (x2 ) = f (x1 , x2 ) d1 (x1 ), 1 L (1 ), 2 L (2 ) et
Z
Z
Z
f d1 2 = 2 (x2 ) d2 (x2 ) = 1 (x1 ) d1 (x1 ).
3.5.2. Tout ceci setend sans (trop de) peine au cas de n espaces mesurables. Il y a
quelques verifications fastidieuses `a faire du type 1 (2 3 ) = (1 2 ) 3 . De
plus dans la formule dintegrations successives, les variables peuvent etre integrees
dans tous les ordres possibles. A ce sujet, le grand principe est: soit f mesurable, si f
est positive, tout est permis, si f est de signe quelconque ou complexe, on consid`ere
dabord |f | et on commence par montrer que |f | est integrable.
3.5.3. Mesures de Lebesgue sur Rd .
Lemme 3.5.3. B(R) B(R) . . . B(R) = B(Rd )
Preuve: Soit B d = B(R) B(R) . . . B(R).
(i) Si est U un ouvert de Rd , U = n Pn , Pn pave ouvert (i.e. Pn =
Donc U B d et B(Rd ) Bd .

Qd

k=1 ]ak , bk [).

(ii) Soient X1 , X2 , . . . , Xd les projections canoniques de Rd sur R. Les Xk sont continues donc mesurable de (Rd , B(Rd )) dans (R, B(R)) do`
u B d = (X1 , . . . , Xd )
d
B(R ). 
Soit la mesure de Lebesgue sur (R, B(R)). On definit alors, sur (Rd , B(Rd )),
d = . . . . On peut appliquer la prop. 3.2.2 `a
C = {A, A =

d
Y
i=1

]ai , bi [, < ai < bi < +}.

34

Mesure. Int
egration

On obtient que d est lunique mesure sur B(Rd ) telle que, pour tous < ai <
bi < +,
d
d
Y
Y
d (
]ai , bi [) =
(bi ai ).
i=1

On appelle d la mesure de Lebesgue sur

i=1

Rd .

3.5.4. Produit de convolution.


Soient , deux mesures bornees sur Rd . On pose,
R
pour f B + (Rd ), I(f ) = f (x + y) d (x, y). On verifie facilement que f 7 I(f )
satisfait les hypoth`eses de la prop. 3.4.1. Il existe donc une unique mesure sur B(Rd ),
notee et appelee produit de convolution de et , telle que
Z
Z Z
f (x) d( )(x) =
f (x + y) d(x)d(y), f B + (Rd ).
(3.9)
Proprietes.
(i) ( )(Rd ) = (Rd )(Rd ),
(ii) = , ( ) = ( ),
(iii) Si = ., = . ( mesure de Lebesgue sur Rd ), on a = ( ). avec
Z
(x) = (x y)(y) dy.
(3.10)

3.5.5. On termine ce chapitre par un resultat tr`es utile. On note Ck lespace des
applications continues `a support compact de Rd dans R et C0 lespace des applications
continues de Rd dans R tendant vers 0 `a linfini. On munit C0 de la norme de la
convergence uniforme ||f || = supx |f (x)|. Rappelons quune partie H de C0 est totale
dans C0 si lespace vectoriel engendre par H est dense dans (C0 , || ||).
Proposition 3.5.4. Soient , deux mesures bornees sur B(Rd ). On a = d`es
que lune des conditions suivantes est satisfaite:
(i) ai , bi R, Rai < bi , (]a1 , b1 [ . . . ]ad , bd [) = (]a
R 1 , b1 [ . . . ]ad , bd [),
(ii) fi Ck+ , f1 (x1 ) . . . fd (xd ) d(x1 , . . . , xd ) = f1 (x1 ) . .R. fd (xd ) d(x
R 1 , . . . , xd ).
(iii) il existe un ensemble H total dans C0 tel que, f H, f d = f d.
Preuve: Supposons (i) et soit C = {A B(Rd ), A =]a1 , b1 [ . . . ]ad , bd [}. C est
stable par intersection finie et (C) = B(Rd ). Donc (cor. 3.2.3) = .
Supposons (ii). Puisque, pour tous a < b, 1]a,b[ = lim fn avec fn Ck+ , (ii)
implique (i) (convergence monotone) et le resultat cherche.
R
R
Supposons (iii) et soit V = e.v.[H]. On a, pour toute f VR, f d =
R f d.
Soient f C0 etR fn V tendant
vers f dans R(C0 , || ||). Vu
R
R que | fnRd f Rd|
d
||fn f || (R ), fn d n f d. De meme gn d n g d do`
u f d = f d
pour toute f C0 . On applique (ii). 

35
Pour montrer quune partie de C0 est dense, le theor`eme de Stone-Weierstrass est
un outil precieux. Rappelons quune sous-alg`ebre V de C0 est un sous-espace vectoriel
tel que f, g V implique f g V . Alors:
Th
eor`
eme 3.5.5. Soit A une sous-alg`ebre de C0 verifiant
(i) pour tous x, y Rd , x 6= y, il existe f A telle que f (x) 6= f (y),
(ii) pour tout x Rd , il existe f A telle que f (x) 6= 0,
alors A = C0 .
Notant Ck lespace des fonctions indefiniment derivables `a support compact sur
Rd , on a:
Corollaire 3.5.6. Ck est dense dans C0 .
Preuve: Soit, pour t R, (t) = 1]0,+[ (t) exp( t12 ). On verifie facilement que
C (R). On pose, pour > 0, a Rd et x Rd , f,a (x) = (2 |x a|2 ). On a
f,a Ck , f,a (a) > 0, f,a (x) = 0 si |x a| > . On peut alors appliquer le th. 3.5.5

36

Mesure. Int
egration

Chapitre 4

Espace de probabilit
e g
en
eral.
Variables al
eatoires
4.1. Espace de probabilit
e
4.1.1. On peut maintenant aborder le cas general.
D
efinition 4.1.1. On appelle espace de probabilite un triplet (, A, P) o`
u (, A) est
un espace mesurable et P une probabilite sur A.
Les elements de A sappellent des evenements. Pour des evenements A et B, on
ecrira indifferemment A B ou AB.
Premi`
eres propri
et
es. An , A, B etant des evenements,
(i) P(Ac ) = 1 P(A); si A B, P(A) P(B),
(ii) P(A B) = P(A) + P(B) P(A B),
(iii) si An A, P(An ) P(A),
(iv) si An A, P(An ) P(A),
P
(v) P(An ) P(An ).
Rappelons quun sous-ensemble B de est dit negligeable si B A A tel
que P(A) = 0. Une propriete dependant de est vraie presque s
urement, en abrege
p.s., si elle est vraie en dehors dun ensemble negligeable. Notons quun ensemble
negligeable nest pas toujours un evenement sauf si lespace (, A, P) est complet. On
peut cependant toujours se ramener `a ce cas. Voir `a ce sujet 3.2.2.
4.1.2. Probabilite conditionnelle. Toutes les definitions et resultats de la section 1.3
restent valables en supposant que tous les ensembles consideres sont des evenements
i.e. sont des elements de A. En particulier la definition de n evenements independants
(def. 1.3.5) est inchangee. On dit alors que des evenements (An )nN sont independants
si, pour tout r, A1 , . . . , Ar sont independants.

38

Espace de probabilit
e g
en
eral. Variables al
eatoires

4.1.3. Lemme de Borel-Cantelli. On appelle traditionnellement ainsi le point (i) de


la proposition suivante; (ii) sappelant la reciproque du lemme de Borel-Cantelli.
Etant donne une suite (An , n N) devenements, on pose:
lim sup An = n kn Ak = lim n kn Ak .
P
On a donc lim sup An = {, An pour une infinite de n} = { n 1An = +} et
1lim sup An = lim sup 1An , ce qui justifie la denomination.
Proposition 4.1.2. Soit (An , n 0) une suite devenements.
P
(i) Si n P(An ) < +, P(lim sup An ) = 0.
P
(ii) Si les An sont independants et si n P(An ) = +, P(lim sup An ) = 1.
Preuve: (i) On a
P(lim sup An ) = lim n P(kn Ak ) lim n

P(Ak ) = 0.

k=n

(ii) Vu linegalite 1 u eu et lindependance des Acn , on a


c
P(m
k=n Ak ) =

m
Y

P(Ack ) =

k=n

donc

c
P(
k=n Ak )

= lim

m
Y

(1 P(Ak )) exp(

k=n
c
m P(m
k=n Ak )

m
X

P(Ak ))

k=n

= 0 si

P(An ) = +.

Passant au complementaire, on a P(
k=n Ak ) = 1 et P(lim sup An ) = 1. 

4.2. Variables al
eatoires
4.2.1. Soient (, A, P) un espace de probabilite et (E, E) un espace mesurable.
D
efinition 4.2.1. On appelle variable aleatoire (en abrege v.a.) `
a valeurs (E, E)
toute application mesurable de (, A) dans (E, E).
Si E est denombrable et E = P(E), on parle de v.a. discr`ete,
si E = R+ et E = B(R+ ), on parle de v.a. positive,
si E = R et E = B(R), on parle de v.a. reelle (v.a.r.),
si E = Rd et E = B(Rd ), on parle de v.a. vectorielle,
si E = C et E = B(C), on parle de v.a. complexe.
4.2.2. Loi dune v.a.. Soient X une v.a. `a valeurs (E, E) et E. Rappelons quon
note
{X } = {, X() } = X 1 ().

39
On pose alors:
X () = P(X ), E.

(4.1)

Evidemment X () 1 et X (E) = 1. Soient n E des ensembles deux `a deux


disjoints. Vu que
X 1 (m n ) = X 1 (m ) X 1 (n ),

X 1 (n n ) = n X 1 (n ),

les ensembles X 1 (n ) sont deux `a deux disjoints dunion X 1 (n n ). On a donc


X
X
X (n ).
P(X 1 (n )) =
X (n n ) = P(X 1 (n n )) =
n

Ceci montre que X est une probabilite sur (E, E).


D
efinition 4.2.2. Soit X une v.a. `
a valeurs (E, E). La probabilite X definie par
(4.1) sappelle la loi de X.
4.2.3. Esperance.
D
efinition 4.2.3.R (i) Soit X une v.a. positive. On appelle esperance de X et on note
E(X) la quantite X dP.
(ii) Soit X une v.a. complexe
R telle que E(|X|) < +. On appelle esperance de X et
on note E(X) la quantite X dP.
Vu (3.3), on a pour toute v.a. positive X,
E(X) = lim

n 1
n2
X

k=0

k
k
k+1
P(
X<
) + nP(X n).
2n 2n
2n

(4.2)

Plus generalement, soient X une v.a. `a valeurs (E, E) et f : E R E-mesurable,


alors f (X) est une v.a. reelle et on peut considerer E(f (X)) si f 0 ou si E(|f (X)|) <
+. Alors,
Th
eor`
eme 4.2.4. Soit X une v.a. `
a valeurs (E, E) de loi X , on a,
Z
pour toute f E + L1 (E, E, X ), E(f (X)) = f dX .

(4.3)

Preuve: Si f = 1 , cest la definition de X . Donc (4.3) est vraie pour f etagee


puis (limite croissante) pour f E + . Enfin, pour f L1 (E, E, X ), il suffit decrire
f = f + f .
Exemples. Il y a deux situations fondamentales.
(i) X est discr`ete i.e. E est denombrable. La loi X est alors determinee par la famille
(X (a), a E) o`
u X (a) := X ({a}) = P(X = a) et lon a
X
pour toute f 0, E(f (X)) =
f (a)X (a).
(4.4)
aE

40

Espace de probabilit
e g
en
eral. Variables al
eatoires

(ii) X est vectorielle i.e. `a valeurs Rd et X = hX ., etant la mesure de Lebesgue


sur Rd (3.5.3). On dit alors que X est une v.a. de densite hX . Dans ce cas, on a,
Z
pour toute f B + (Rd ), E(f (X)) = f hX d.
(4.5)
4.2.4. Moments. Dans la suite Lp designe Lp (, A, P). On ne distinguera pas deux
v.a.r. egales p.s. ce qui fait quon designe par X aussi bien la v.a. X que sa classe
dequivalence dans L0 . En particulier on ecrira indifferemment X Lp aussi bien que
X Lp . Notons que, si 1 q p, Lp Lq puisque |X|q 1 + |X|p . En fait, dapr`es
(3.7), on a le resultat plus precis:
{E(|X|q )}1/q {E(|X|p )}1/p , q p.
D
efinition 4.2.5. Soit X une v.a.r. Pour p [1, +[, E|X|p sappelle moment
absolu dordre p de X; pour p N , si X Lp , E(X p ) sappelle moment dordre p
de X.
R
R
Notons que, dapr`es (4.3), E(|X|p ) = |x|p dX (x), E(X p ) = xp dX (x). Les
deux moments les plus importants sont le moment dordre 1 qui nest rien dautre
que lesperance de X (on dit aussi la moyenne de X) et le moment dordre 2. On
pose, pour X L2 ,
Var(X) = E[(X E(X))2 ]
(4.6)
quon appelle la variance de X. On a Var(X) = E(X 2 ) (E(X))2 et:
Lemme 4.2.6. Si Y L2 , E[(Y a)2 ] est minimum pour a = E(Y ) et ce minimum
vaut Var(Y ).
Preuve: En effet, si m = E(Y ), E[(Y a)2 ] = E[(Y m)2 ] + (m a)2 . 
2 pour Var(X), la racine carr
On note aussi X
ee positive de Var(X) sappelle lecart
1
type et se note X . Une v.a. X L est dite centree si E(X) = 0. Une v.a. X L2
est dite centree reduite si E(X) = 0 et E(X 2 ) = Var(X) = 1. Noter que, si X L2
1 (X E(X)) est centr
et X > 0, X
ee reduite.

Proposition 4.2.7. (i) Soit X Lp , p 1. On a, pour tout > 0,


P(|X| )

1
E|X|p .
p

(ii) Soit X L2 . On a, pour tout > 0,


P(|X E(X)| )

1
Var(X).
2

Preuve: (i) On remarque que p 1{|X|} |X|p et on prend lesperance.


(ii) On applique (i) `a |X E(X)|. 
La premi`ere de ces inegalites sappellent linegalite de Markov, la seconde linegalite
de Bienayme-Tchebichev. Montrons maintenant linegalite de Jensen.

41
Proposition 4.2.8. Soient X une v.a.r. et f une application convexe de R dans R.
On suppose X et f (X) integrables. Alors f (E(X)) E(f (X)).
Preuve: Soit m = E(X). La fonction f etant convexe, il existe une droite passant
par (m, f (m)) et situee sous le graphe de f i.e. une fonction affine (x) = a(x m) +
f (m) f (x) pour tout x R. On a donc a(X m) + f (m) f (X) et, prenant
lesperance, f (m) E(f (X)). 
Corollaire 4.2.9. Soient une probabilite sur R, f une application convexe de R
dans R et g [B(R)]. On suppose g et f g -integrables. Alors
Z
Z
f ( g(x) d(x)) f (g(x)) d(x).
Preuve: On choisit = R, A = B(R), P = , X = g et on applique la prop. 4.2.8. 

4.3. Probabilit
es sur R
4.3.1. On a vu en 2.2 des exemples de lois discr`etes sur R. On consid`ere maintenant
quelques lois `a densites. Une application borelienne q de Rd dans R est une densite
de probabilite si:
Z
q(x) 0,

q(x) dx = 1.

(4.7)

Rd

On dit alors quune v.a. `a valeurs Rd X a pour densite q(x) si la loi de X est de
densite q par rapport `a la mesure de Lebesgue sur Rd ce quon ecrit X = q.. Dans
cette section, on suppose d = 1.
a. Loi uniforme sur [a, b] notee U (a, b), a, b R. Cest la loi sur R de densite
q(x) =
Si X U (a, b), E(X) =

a+b
2 ,

1
1 (x).
b a [a,b]

Var(X) =

(4.8)

(ba)2
12 .

b. Loi de Cauchy de param`etre a > 0. Cest la loi de densite


qa (x) =

1
.
(1 + (x a)2 )

(4.9)

Noter que, si X suit une loi de Cauchy, E(|X|) = +.


c. Loi de Laplace. Cest la loi de densite
1
q(x) = e|x| .
2
Noter que, si X suit une loi de Laplace, E(X) = 0, E(X 2 ) = 2.

(4.10)

42

Espace de probabilit
e g
en
eral. Variables al
eatoires

d. Loi gamma de param`etres a, c, a > 0, c > 0, notee G(a, c). Rappelons que la
fonction
Z +
ex xa1 dx
(4.11)
(a) =
0

est definie pour tout a > 0 et que lon a (1) = 1, (a + 1) = a(a) (integrer par
parties) do`
u (n) = (n 1)!. Donc
qa,c (x) =

ca cx a1
e x 1R+ (x)
(a)

(4.12)

est une densite de probabilite sur R. La loi de densite qa,c sappelle la loi G(a, c). On
a, si X G(a, c), E(X) = a/c, Var(X) = a/c2 .
En particulier, pour a = 1, on obtient la loi G(1, c) de densite cecx quon appelle
loi exponentielle de param`etre c.
e. Loi normale ou de Gauss N1 (m, 2 ). On appelle loi N1 (m, 2 ) la loi sur R de densite
fm,2 (x) =

1
2 2

(xm)2
2 2

(4.13)

Si X N1 (m, 2 ), E(X) = m, Var(X) = 2 . Noter que si X N1 (0, 1), m + X


N1 (m, 2 ).
4.3.2. Fonction de repartition. On a vu en 3.2.3 que, si est une probabilite sur R,
la fonction F (t) = (] , t]) est croissante de 0 `a 1 et continue `a droite et que,
reciproquement, si une fonction F a ces proprietes, il existe une probabilite sur R,
unique, telle que F (t) = (], t]). La fonction F sappelle la fonction de repartition
de .
D
efinition 4.3.1. Soit X une v.a. reelle de loi X . On appelle fonction de repartition
de X la fonction
FX (t) = P(X t) = X (] , t]).
Il resulte du rappel que FX crot de 0 `a 1 et est continue `a droite. Elle a donc une
limite `a gauche en tout point notee FX (x). De plus, on a
P(a < X b) = P(X b) P(X a) = FX (b) FX (a).
En particulier P(a < X a) = FX (a) FX (a ) do`
u, lorsque 0,
X ({a}) = P(X = a) = FX (a) FX (a).
Etant donnee une fonction de repartition F , on pose, pour u [0, 1],
F 1 (u) = inf(t, F (t) u).

(4.14)

Proposition 4.3.2. Soit une probabilite sur R de fonction de repartition F et U


une v.a.r. de loi uniforme sur [0, 1]. Alors F 1 (U ) est une v.a. de loi .

43
Preuve: Considerons, pour u [0, 1] fixe, I(u) = {t, F (t) u). Puisque F est
croissante, cest un intervalle de la forme [F 1 (u), +[ ou ]F 1 (u), +[. Soit tn
F 1 (u). Alors F (tn ) u et (continuite `a droite) F (F 1 (u)) u i.e. F 1 (u)
I(u) = [F 1 (u), +[. On a donc
{u F (t)} {t F 1 (u)}.

(4.15)

Finalement
P(F 1 (U ) t) = P(U F (t)) = F (t).
En conclusion, X = F 1 (U ) a pour fonction de repartition F i.e. a pour loi . 

4.4. Variables al
eatoires ind
ependantes
4.4.1. Dans cette sous-section, X1 , . . . , Xn designent des v.a. `a valeurs (E1 , E1 ), . . . , (En , En ).
D
efinition 4.4.1. Les v.a. X1 , . . . , Xn sont dites independantes si:
pour tous k Ek , P(X1 1 , . . . , Xn n ) = P(X1 1 ) . . . P(Xn n ). (4.16)
La suite (Xn , n N) est dite independante si, pour tout n, les v.a. X1 , . . . , Xn sont
independantes.
Supposons n = 2. On peut considerer (X1 , X2 ) comme une v.a. `a valeurs (E1
E2 , E1 E2 ). Sa loi est alors definie par
(X1 ,X2 ) (1 2 ) = P(X1 1 , X2 2 ).
Il resulte donc du th. 3.5.1 que X1 et X2 sont independantes ssi (X1 ,X2 ) = X1 X2 .
Il en est de meme pour n quelconque et on peut enoncer:
Proposition 4.4.2. Les v.a. X1 , . . . , Xn sont independantes ssi (X1 ,...,Xn ) = X1
. . . Xn .
Le resultat suivant, un peu technique, est tr`es utile.
Proposition 4.4.3. Soit Ck Ek une classe contenant Ek , stable par intersection
finie, et telle que (Ck ) = Ek , k = 1, . . . , n. Si
pour tous k Ck , P(X1 1 , . . . , Xn n ) = P(X1 1 ) . . . P(Xn n ),
les v.a. X1 , . . . , Xn sont independantes.
Preuve: Soit C = {, = 1 . . . n , k Ck }. Alors C est stable par intersection
finie et (C) = E1 . . . En (en effet E1 . . . Ek1 k Ek+1 . . . En C
si k Ck et donc E1 . . . Ek1 k Ek+1 . . . En (C) si k Ek ). Par
hypoth`ese, pour tout C, (X1 ,...,Xn ) () = X1 . . . Xn (). Donc (prop. 3.2.2)
(X1 ,...,Xn ) = X1 . . . XN et les v.a.X1 , . . . , Xn sont independantes. 

44

Espace de probabilit
e g
en
eral. Variables al
eatoires

Th
eor`
eme 4.4.4. Les v.a. X1 , . . . , Xn sont independantes ssi, pour toutes fi Ei+ ,
E(f1 (X1 ) . . . fn (Xn )) = E(f1 (X1 )) . . . E(fn (Xn )).

(4.17)

Dans ce cas, si, pour k = 1, 2, . . . , n, E(|fk (Xk )|) < +, on a E(|f1 (X1 ) . . . fn (Xn )|)
< + et (4.17) est satisfaite.
Preuve: On suppose n = 2.
(i) Si on a (4.17), il suffit de choisir f1 = 11 , f2 = 12 pour avoir lindependance de
X1 et X2 .
(ii) Supposons X1 et X2 independantes. On a, pour fk Ek+ , k = 1, 2,
Z
Z
E(f1 (X1 )f2 (X2 )) = f1 (x1 )f2 (x2 ) d(X1 ,X2 ) (x1 , x2 ) = f1 (x1 )f2 (x2 ) dX1 (x1 )dX2 (x2 )
Z
Z
= f1 (x1 ) dX1 (x1 ) f2 (x2 ) dX2 (x2 ) = E(f1 (X1 ))E(f2 (X2 )).
Enfin si E(|fk (Xk )|) < +, k = 1, 2,
E(|f1 (X1 )f2 (X2 )|) = E(|f1 (X1 )|)E(|f2 (X2 )|) < +
et le calcul ci-dessus reste valable. 
On en deduit facilement, comme en 2.2.6, que, si les v.a. X1 , X2 , . . . , Xn sont
independantes:
a. Pour toute permutation {r1 , . . . , rn } de {1, . . . , n}, les v.a. Xr(1) , . . . , Xr(n) sont
independantes.
b. Pour toutes gk [Ek ], les v.a. g1 (X1 ), . . . , gn (Xn ) sont independantes.
c. Posant
Y1 = (X1 , . . . , Xr1 ), Y2 = (Xr1 +1 , . . . , Xr2 ), . . . , Yp = (Xrp1 +1 , . . . , Xrp ),
les v.a. Y1 , . . . , Yp sont independantes.
4.4.2. On sinteresse plus particuli`erement aux v.a. reelles. Les prop. 4.4.2 et 3.5.4
impliquent immediatement:
Proposition 4.4.5. Soient X1 , . . . , Xn des v.a. reelles. Il y a equivalence entre:
(i) Les v.a. X1 , . . . , Xn sont independantes, Q
(ii) ai < bi , P(ai < Xi < bi , i = 1, . . . , n) = ni=1 P(ai < Xi < bi ),
(iii) fi Ck+ , E(f1 (X1 ) . . . fn (Xn )) = E(f1 (X1 )) . . . E(fn (Xn )).
4.4.3. Covariance. Soient X et Y deux v.a.r. reelles de carre integrable. On appelle
covariance de X et Y et on note Cov(X, Y ) la quantite
Cov(X, Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y ).

(4.18)

45
Proprietes.
(i) Cov(X,X)=Var(X). Pour tous a, b R, Cov(X + a, Y + b) = Cov(X, Y ).
(ii) Si les v.a. X et Y sont independantes, Cov(X, Y ) = 0.
(iii) (X, Y ) 7 Cov(X, Y ) est une forme bilineaire symetrique. En particulier, vu (i),
Var(

n
X

Xk ) =

k=1

n
X

Var(Xk ) + 2

k=1

Cov(Xj , Xk ).

1j<kn

Remarque. Cov(X, Y ) = 0 nimplique pas lindependance de X et Y . Par exemple si


la loi du couple (X, Y ) est donnee par:
1
P((X, Y ) = (1, 0)) = P((X, Y ) = (1, 0)) = P((X, Y ) = (0, 1)) = P((X, Y ) = (0, 1)) = ,
4
on a E(X) = E(Y ) = E(XY ) = Cov(X, Y ) = 0 et P(X = 1, Y = 0) =
1)P(Y = 0) = 81 .

1
4

6= P(X =

4.4.4. Coefficient de correlation. Soient X et Y deux v.a. reelles de carre integrable


non p.s. constantes (donc Var(X) > 0, Var(Y ) > 0). On appelle coefficient de
correlation de X et Y et on note (X, Y ) la quantite
Cov(X, Y )

(X, Y ) = p

Var(X)Var(Y )

(4.19)

Noter que (inegalite de Schwarz) |(X, Y )| 1, que (X, Y ) = (Y, X) et que


(X, Y ) = 0 si X et Y sont independantes. De plus
Proposition 4.4.6. Soit X et Y deux v.a.r. de carre integrable non p.s. constantes.
Alors (a, b) = E(Y aX b)2 est minimum pour
a
=

Cov(X, Y )
, b = E(Y ) a
E(X)
Var(X)

et ce minimum vaut Var(Y )(1 2 (X, Y )).


= X E(X), Y = Y E(Y ), b = b E(Y ) + a E(X), on a
Preuve: Posant X
b)2 ] = E(Y 2 ) + a2 E(X
2 ) + b2 2a E(X
Y )
(a, b) = E[(Y aX
Cov(X, Y ) 2 2
Cov2 (X, Y )
= Var(X)(a
) + b + Var(Y )
.
Var(X)
Var(X)
(X,Y )
Donc (a, b) est minimum pour a = Cov
et b = 0 i.e. b = b = E(Y ) a
E(X)
Var(X) = a
2
(X,Y )
2
et ce minimum vaut Var(Y ) Cov
Var(X) = Var(Y )(1 (X, Y )). 

Cette proposition implique que |(X, Y )| = 1 ssi Y = aX + b p.s.

46

Espace de probabilit
e g
en
eral. Variables al
eatoires

4.5. Vecteurs al
eatoires
4.5.1. Notations. (i) On note, pour x = (x1 , . . . , xd ) Rd , |x| = (x21 + . . . + x2d )1/2 .
(ii) On note Lpd = {X = (X1 , . . . , Xd ), Xk v.a. reelles et E|X|p < +}.
(iii) Si X L1d , on note E(X) = (E(X1 ), . . . , E(Xd )).
4.5.2. On appelle vecteur aleatoire toute v.a. `a valeurs Rd . On remarque dabord que
X = (X1 , . . . , Xd ) est un vecteur aleatoire ssi, pour k = 1, . . . , d, Xk est une v.a.r.
Soit X = (X1 , . . . , Xd ) un vecteur aleatoire. Les lois X1 , . . . , Xd sappellent les lois
marginales de X.
Proposition 4.5.1. Soit X un vecteur aleatoire de densite q. Alors Xk a pour densite
Z
qk (u) = q(x1 , . . . , xk1 , u, xk+1 , . . . , xd ) dx1 . . . dxk1 dxk+1 . . . dxd .
Preuve: On suppose d = 2. Alors, pour B + (R),
Z
Z
Z
E((X1 )) = (x1 )q(x1 , x2 ) dx1 dx2 = (x1 ){ q(x1 , x2 ) dx2 }dx1 . 
On sait (th. 4.4.2) que les composantes X1 , . . . , Xd sont independantes ssi X =
X1 . . . Xd . On en deduit immediatement:
Proposition 4.5.2. Soit X = (X1 , . . . , Xd ) un vecteur aleatoire de densite q. Les
composantes X1 , . . . , Xd sont independantes ssi
q(x1 , . . . , xd ) = q1 (x1 ) . . . qd (xd ) p.p.
o`
u qk est la densite de Xk .
En fait pour montrer lindependance de X1 , . . . , Xd , on utilise plutot:
Corollaire 4.5.3. Soit X = (X1 , . . . , Xd ) un vecteur aleatoire de densite q. Les
composantes X1 , . . . , Xd sont independantes ssi
q(x1 , . . . , xd ) = g1 (x1 ) . . . gd (xd ) p.p.
R
et alors Xk a pour densite qk (u) = gk (u)/ R gk (v) dv.
Preuve: (d = 2) On suppose que q(x1 , x2 ) = g1 (x1 )g2 (x2 ). La densite q1 de X1 est
donc
Z
Z
q1 (x1 ) = g1 (x1 )g2 (x2 ) dx2 = a1 g1 (x1 ), a1 = g2 (x2 ) dx2 .
R
De meme q2 (x2 ) = a2 g2 (x2 ), a2 = g1 (x1 ) dx1 . Mais
Z
Z
Z
Z
1 = q(x1 , x2 ) dx1 dx2 = g1 (x1 )g2 (x2 ) dx1 dx2 = g1 (x1 ) dx1 g2 (x2 ) dx2 = a1 a2 .

47
On conclut facilement. 
4.5.3. Matrice de covariance (ou de dispersion). On note M T la matrice transposee
de la matrice M . Alors on peut representer x Rd par un vecteur colonne i.e. une
matrice d 1 et on ecrira indifferemment x = (x1 , . . . , xd ) ou x = (x1 . . . xd )T . Pour
x = (x1 . . . xd )T et y = (y1 . . . yd )T , on a xT y = x1 y1 + . . . + xd yd =< x, y > et xy T est
la matrice de terme general xi yj .
Pour X L2d , on definit:
K(X) = E[(X E(X))(X E(X))T ] = E(XX T ) E(X)[E(X)]T .

(4.20)

K(X) sappelle la matrice de covariance ou la matrice de dispersion de X. On a

K(X) =

Var(X1 )
Cov(X1 , X2 )
Cov(X2 , X1 )
Var(X2 )
...
...
...
...
...
...
Cov(Xd , X1 )
...

...
...
...
...
...
...

...
...
...
...
...
...

. . . Cov(X1 , Xd )
. . . Cov(X2 , Xd )
...
...
...
...
...
...
...
Var(Xd )

Noter que, si les composantes X1 , . . . , Xd sont independantes, K(X) est diagonale.


Proposition 4.5.4. Soit X L2d . On a
(i) K(X) = 2 K(X), R; K(X + a) = K(X), a Rd ; K T (X) = K(X).
(ii) Pour tout Rd , T K(X) 0.
(iii) Soit M une matrice deterministe r d, on a K(M X) = M K(X)M T .
Preuve: (i) resulte de la definition (4.20).
(ii) Vu (i), on peut supposer E(X) = 0. Alors
T K(X) = T E(XX T ) = E(T XX T ) = E|T X|2 0.
(iii) Vu (i), on peut supposer E(X) = 0. Alors
K(M X) = E(M X(M X)T ) = E(M XX T M T ) = M E(XX T )M T = M K(X)M T . 
Les points (i) et (ii) montrent que K(X) est symetrique semi-definie positive.
Th
eor`
eme 4.5.5. Soient X, Y L2d des vecteurs aleatoires independants, on a
K(X +Y ) = K(X)+K(Y ). En particulier, si d = 1, Var(X +Y ) = Var(X)+Var(Y )
si les v.a.r. X et Y sont independantes.
Preuve: On peut supposer E(X) = E(Y ) = 0. Alors K(X + Y ) = E((X + Y )(X +
Y )T ) = E(XX T ) + E(Y Y T ) puisque, vu lindependance, E(XY T ) = E(X)E(Y T ) = 0
et de meme E(Y X T ) = 0. 
4.5.4. La matrice de dispersion donne des renseignements sur le support de la loi de
X.

48

Espace de probabilit
e g
en
eral. Variables al
eatoires

Proposition 4.5.6. Soit X L2d . On a P(X E(X) Im K(X)) = 1.


Preuve: Comme toujours on peut supposer E(X) = 0. Soit V = Im K(X). Si
dim(V ) = d, il ny a rien `a montrer. Supposons dim(V ) = r < d. Il existe a1 , . . . , adr
Ker(X) tels que x V ssi aTk x = 0, k = 1, . . . , d r (pour voir cela il suffit de se
placer dans une base o`
u K(X) est diagonale). On a alors, vu la prop. 4.5.4,
E(aTk X)2 = Var(aTk X) = K(aTk X) = aTk K(X)ak = 0
do`
u aTk X = 0 p.s. et X V p.s. 

4.6. Calcul de lois


Soit X une v.a. `a valeurs RdR. Une probabilite sur Rd est la loi de X ssi, pour
toute f B(Rd ), E(f (X)) = f d, soit encore, compte tenu de la prop. 3.5.4 et du
cor. 3.5.6, ssi:
Z

(4.21)
pour toute f positive de Ck , E(f (X)) = f d.
4.6.1. Commencons par deux exemples elementaires.
1
. On
(1+x2 )
posant y = ex ,

Exemple 1. Soit X une v.a.r. de densite (loi de Cauchy) q(x) =


Y =

Ck+

eX .

pose

arbitraire, on a,
Quelle est la loi de Y ? Soit f
Z +
Z +
dx
dy
X
x
E(f (Y )) = E(f (e )) =
f (e )
=
f (y)
.
2
(1 + x )
y(1 + (log y)2 )

Donc (4.21) Y a pour densite

1
1 + (y).
y(1+(log y)2 ) R

Exemple 2. Soit X une v.a.r. de densite N1 (0, 1). On pose Z = X 2 . Quelle est la loi
de Z ? De meme, pour f Ck+ arbitraire,
Z +
1
2
2
E(f (Z)) = E(f (X )) =
f (x2 )ex /2 dx.
2
Lapplication x 7 x2 netant pas une bijection de R sur R+ , on ne peut pas poser
brutalement z = x2 , mais on a
Z +
Z +
2
1
dz
2
2 x2 /2
E(f (Z)) = E(f (X )) =
f (x )e
dx =
f (z)ez/2 .
z
2 0
2 0
Donc (4.21) Z a pour densite

1 ez/2 z 1/2 1R+ (z)


2

i.e. Z G( 12 , 12 ).

4.6.2. Rappelons la formule de changement de variables dans Rd . Si est un diffeomorphisme


de louvert U sur louvert V , on a, pour toute f B + (Rd ),
Z
Z
f (v) dv =
f ((u))|J()(u)| du.
(4.22)
V

49
o`
u J() est le determinant de la matrice des
{J(1 )((u))}1 . Il en resulte:

j
uk .

Rappelons egalement que J()(u) =

Proposition 4.6.1. Soit X un vecteur aleatoire de densite h. On suppose que X D


p.s., D ouvert de Rd . Soient un diffeomorphisme de D sur un ouvert et Y =
(X), alors Y a pour densite
h( 1 (y))|J( 1 )(y)|1 (y).
Preuve: On a, pour toute f B + (Rd ),
Z
Z
f (y)h( 1 (y))|J( 1 )(y)| dy. 
f ((x))h(x) dx =
E(f (Y )) = E(f ((X))) =

Une premi`ere consequence de (4.22) est la suivante (voir aussi 5.1.1):


Proposition 4.6.2. Soient X et Y deux v.a. `
a valeurs Rd , independantes, de densite
respectives f et g. Alors la v.a. S = X + Y a pour densite h = f g definie par
Z
h(u) = f (v)g(u v) dv.
Preuve: On a, pour toute Ck+ ,
Z Z
Z Z
Z
E((S)) =
(x+y)f (x)g(y) dxdy =
(u)f (v)g(uv) dudv = (u)h(u) du.
Application. Soient X et Y des v.a.r. independantes de meme loi la loi uniforme sur
[0, 1]. Quelle est la loi de S = X + Y ? Soit h la densite de S. On a (attention aux
fonctions indicatrices):
Z
Z 1
Z 1
h(u) = 1[0,1] (v)1[0,1] (u v) dv =
1[0,1] (u v) dv =
1[u1,u] (v) dv.
0

Si 0 u 1, h(u) =
h(u) = 0 si u
/ [0, 2].

Ru
0

dv = u, si 1 u 2, h(u) =

R1
u1

dv = 2 u et evidemment

4.6.3. Exemple 3. Soient X et Y des v.a.r. independantes de lois respectives G(a, c)


X
. On veut calculer la loi
et G(b, c) (4.12), a, b, c > 0 . On pose S = X + Y , T = X+Y
du couple (S, T ). Vu lindependance, le couple (X, Y ) a pour densite
hX,Y (x, y) =

ca+b
ec(x+y) xa1 y b1 1]0,+[ (x)1]0,+[ (y).
(a)(b)

x
Soit lapplication (x, y) 7 (s = x + y, t = x+y
). est un diffeomorphisme de
1
]0, +[]0, +[ sur ]0, +[]0, 1[. De plus J( )(s, t) = s. La densite de (S, T )
est donc (prop.4.6.1)

hS,T (s, t) =

ca+b
ecs sa+b1 ta1 (1 t)b1 1]0,+[ (s)1]0,1[ (t).
(a)(b)

50

Espace de probabilit
e g
en
eral. Variables al
eatoires

Le cor.4.5.3 montre que S et T sont independantes, que S a pour densite


hS (s) =

ca+b
ecs sa+b1 1]0,+[ (s)
(a + b)

i.e. S G(a + b, c) et que T a pour densite


hT (t) =

(a + b) a1
t (1 t)b1 1]0,1[ (t).
(a)(b)

Puisque hT est une densite de probabilite, on a montre au passage la formule


Z 1
(a)(b)
ta1 (1 t)b1 dt =
.
(4.23)
(a + b)
0
4.6.4. Lexemple suivant sera tr`es utile pour simuler des v.a.r. gaussiennes.
Proposition 4.6.3. Soient
(X, Y ) un couple dev.a.r. independantes de meme loi

U (0, 1). On pose U = 2 log X. cos(2Y ), V = 2 log X. sin(2Y ). Alors les v.a.
U et V sont independantes de meme loi N1 (0, 1).

Preuve: Soit : (x, y) 7 (u = 2 log x. cos(2y), v = 2 log x. sin(2y). est


un diffeomorphisme de D =]0, 1[]0, 1[ sur = R2 \ (R+ {0}). On a J()(x, y) =
1 (u2 +v 2 )/2
2
2
1
2
. Le couple (X, Y )
x , et, vu que u + v = 2 log x, J( )(u, v) = 2 e
a pour densite 1D (x, y). Donc (prop. 4.6.1) (U, V ) = (X, Y ) a pour densite
1
1
1 (u2 +v2 )/2
2
2
e
1 (u, v) = eu /2 ev /2 p.p. 
2
2
2
4.6.5. Exemple 4. Soit (X, Y ) un couple de v.a.r. independantes de meme loi N1 (0, 1).
Y
(noter que P(X = 0) = 0). Quelle est la loi de T ? Evidemment
On pose T = X
on ne peut pas appliquer directement la prop. 4.6.1. On choisit dabord une v.a.
U = f (X, Y ) telle quon puisse utiliser la prop. 4.6.1 pour obtenir la densit de (T, U )
puis on obtient la loi de T comme marginale. Ici on peut choisir U = X.
Soit : (x, y) 7 (t = y/x, u = x). Alors est un diffeomorphisme de D = RR
sur = R R . On a x = u, y = tu, et J( 1 )(u, v) = u. Le couple (X, Y ) a pour
1 (x2 +y 2 )/2
densite 2
e
1D (x, y). Alors (prop. 4.6.1) (T, U ) = (X, Y ) a pour densite
1 u2 (1+t2 )/2
1 u2 (1+t2 )/2
e
|u|1
(t,
u) = 2
e
|u| p.p.

2
Donc T a pour densite
Z
Z +
1 + u2 (1+t2 )/2
1
1 u2 (1+t2 )/2
e
|u| du =
e
u du =
.
q(t) =
0
(1 + t2 )
2
La v.a. T suit donc une loi de Cauchy.
En fait, il est souvent plus rapide de calculer directement E(f (T )). Ici, par exemple, passant en coordonnees polaires, on a:
Z Z
Z 2 Z
2
1
y 1 (x2 +y2 )
1
2
E(f (T )) =
f ( )e
) dxdy =
f (tan )e 2 dd
2
x
2 0
0

51
1
=

1
f (tan ) d =

f (t)

1
dz.
1 + t2

4.6.6. Exemple 5. Soit (X, Y ) un couple de v.a.r. independantes de meme loi N1 (0, 1).
On pose U = X, V = X 2 + Y 2 . Quelle est la loi du couple (U, V ) ? Lapplication
(x, y) 7 (x, x2 + y 2 ) netant pas une bijection, on ne peut utiliser la prop. 4.6.1. Soit
f Ck+ (R2 ) arbitraire. On a
Z
1
2
2
E(f (U, V )) = E(f (X, X 2 + Y 2 )) =
f (x, x2 + y 2 )e(x +y )/2 dxdy
2 R2
Z
Z
1
1
=
... +
....
2 RR+
2 RR
Considerons lapplication (x, y) 7 (u = x, v = x2 +y 2 ). Cest
dune part une bijection
de R R+ sur = {(u, v), v u2 } et alors x = u, y = v u2 et dautre part une
bijection de R R sur et dans ce cas x = u, y = v u2 . Dans les deux cas,
1
|J| = 2vu
. On obtient
2
1
E(f (U, V )) =
2
Le couple a donc pour densite

ev/2
f (u, v)
dudv.
v u2

e
1 (u, v).
2 vu2
v/2

4.6.7. Exemple 6. On ne rencontre pas toujours des v.a. ayant une densite par rapport
`a la mesure de Lebesgue. Soit X une v.a.r. de densite ex 1R+ (x). On pose U =
[X], V = X [X] o`
u [x] designe la partie enti`ere de x. Quelle est la loi de (U, V ) ?
Quelles sont les lois de U et de V ? Les v.a. U et V sont-elles independantes ?
Soit f Ck+ (R2 ) arbitraire. On a
Z +
E(f (U, V )) =
f ([x], (x [x])ex dx
0

Z
X
k=0

k+1

f (k, x k)e

dx =

Z
X
k=0

f (k, t)ek et dt.

Si on note la mesure sur N definie par ({k}) = 1 et la mesure de Lebesgue sur


[0, 1], ce calcul implique que la loi de (U, V ) est la probabilite ek et . .
Prenant f (u, v) = (u), on a
E((U )) =

(k)e

k=0

(1 e

)=

(k)(e1 )k (1 e1 )

k=0

et U suit une loi geometrique de param`etre e1 .


Prenant f (u, v) = (u), on a
Z 1X
Z 1

k
t
E((V )) =
e (t)e dt =
(1 e1 )1 (t)et dt
0 k=0

52

Espace de probabilit
e g
en
eral. Variables al
eatoires

e et 1 (t).
et V a pour densite e1
]0,1[
Enfin E((U )(V )) = E((U )) E((V )) et U et V sont independantes (th. 4.4.4).
4.6.8. Loi des min et des max. Soient X1 , X2 , . . . , Xn des v.a. reelles independantes
de fonction de repartition F1 , F2 , . . . , Fn . On pose
U = min Xk ,
1kn

V = max Xk .
1kn

Dune part
P(V t) = P(X1 t, . . . , Xn t) =

n
Y

P(Xk t) =

k=1

et V a pour fonction de repartition FV (t) =

Qn

k=1 Fk (t).

P(U > t) = P(X1 > t, . . . , Xn > t) =

n
Y

Fk (t)

k=1

Dautre part

P(Xk > t) =

k=1

n
Y

n
Y

(1 Fk (t))

k=1

Q
et U a pour fonction de repartition FU (t) = 1 nk=1 (1 Fk (t)).
Si les Xk ont meme loi, pour tout k, Fk (t) = F (t) et
FV (t) = (F (t))n ,

FU (t) = 1 (1 F (t))n .

Si, de plus, les Xk ont une densite, F est derivable et on obtient les densites de
U et V en derivant FU (t) et FV (t).

4.7. Conditionnement
4.7.1. Soient A un evenement tel que P(A) > 0 et Y une v.a `a valeurs Rd . Posons,
pour B(Rd ),
Y (|A) = P(Y |A) =

1
P(A {Y }).
P(A)

(4.24)

Alors, A etant fixe, 7 Y (|A) est une probabilite sur Rd quon appelle loi conditionnelle de Y sachant A. De meme, pour L1 (Y ),
Z
Z
1
(y) dY (y|A) = E((Y )|A) =
(Y ) dP
(4.25)
P(A) A
sappelle lesperance conditionnelle de (Y ) sachant A.
4.7.2. Considerons une v.a. `a valeurs E fini ou denombrable telle que, pour tout
a E, P(X = a) > 0 et Y une v.a `a valeurs Rd . Prenant A = {X = a}, on obtient
la loi conditionnelle de Y sachant que X = a definie par
Y (|X = a) = P(Y |X = a) =

1
P(X = a, Y )
P(X = a)

(4.26)

53
et, pour L1 (Y ), lesperance conditionnelle de (Y ) sachant que X = a definie
par
Z
1
(Y ) dP.
(4.27)
E((Y )|X = a) =
P(X = a) {X=a}
4.7.3. Considerons maintenant une v.a. X `a valeurs Rp de densite q(x) et Y une
v.a `a valeurs Rd . Les formules (4.26) et (4.27) nont plus de sens puisque, pour tout
a, P(X R= a) = 0. Supposons que (X, Y ) ait une densite continue h(x, y) et que
q(x) = h(x, y) dy > 0. Soient B(a, ) la boule dans Rp de centre a et de rayon et
|B(a, )| son volume. On a, lorsque 0,
R
P(X B(a, ), Y )
B(a,) h(x, y) dxdy
R
P(Y |X B(a, )) =
=
P(X B(a, ))
B(a,) q(x) dx
R
Z |B(a, )|1
Z
h(a, y)
B(a,) h(x, y) dx
R
=
dy

dy.
1
|B(a,
)|
q(x)
dx

q(a)
B(a,)
Il est donc naturel dappeler loi conditionnelle de Y sachant que X = a la loi de
densite h(a, y)/q(a). Ceci conduit `a:
D
efinition 4.7.1.R Soient (X, Y ) un couple de v.a. `
a valeurs Rp Rd de densite
h(x, y) et q(x) = h(x, y) dy la densite de X. On appelle densite conditionnelle de
Y sachant que X = x la fonction
h(x, y)
si q(x) > 0, = densite arbitraire si q(x) = 0.
q(x)
R
Remarque 1. Noter que P(X {q = 0}) = {q=0} q(x) dx = 0.
h(y | x) =

Remarque 2. On voit donc que h(y | x) est le quotient de la densite de (X, Y ) par la
densite de X. Cest tout simplement lanalogue de la formule, pour des v.a. enti`eres,
P(Y = n | X = p) = P(X = p, Y = n) / P(X = p).
La loi de densite h(y | x) sappelle la loi conditionnelle de Y sachant que X = x
et, pour L1 (Y ),
Z
E((Y )|X = x) := (y)h(y | x) dy
sappelle lesperance conditionnelle de (Y ) sachant que X = x. Si d = 1, on peut
choisir (y) = y, on obtient lesperance conditionnelle de Y sachant que X = x.
Lenonce suivant est `a comparer au lem. 4.2.6.
Proposition 4.7.2. Soit (X, Y ) un couple de v.a. `
a valeurs Rp R de densite h(x, y)
2
avec Y L . Alors:
inf{ E[(Y f (X))2 ], f L2 (X ) } = E[(Y f(X))2 ] o`
u f(x) = E(Y |X = x).

54

Espace de probabilit
e g
en
eral. Variables al
eatoires

Preuve: Pour toute


g L2 (X ), on a E((Y f(X))g(X)) = 0. En effet, sur {q(x) >
R
1
0}, f(x) = q(x)
yh(x, y) dy et, vu la remarque 1,
Z
Z
1
g(x)q(x)
yg(x)h(x, y) dxdy =
yh(x, y) dy dx
q(x)
{q>0}
{q>0}
Z
=
g(x)f(x)q(x) dx = E(g(X)f(X)).

Z
E(Y g(X)) =

{q>0}

On en deduit:
E[(Y f (X))2 ] = E[(Y f(X) + f(X) f (X))2 ]
= E[(Y f(X))2 ] + E[(f(X) f (X))2 ] + 2E[(Y f(X))(f(X) f (X))]
= E[(Y f(X))2 ] + E[(f(X) f (X))2 ]
et le resultat cherche. 
Exemple. Soient Y, Z des v.a.r. independantes de meme densite ey 1R+ (y). On
pose X = Y + Z. On veut calculer la loi conditionnelle de Y sachant que X = x et
E(Y |X = x).
Pour appliquer la def.4.7.1, il faut calculer la densite du couple (X, Y ). On a
Z Z x
Z Z
(y+z)
2
2
(x, y)ex dxdy
(y + z)e
dydz =
E((X, Y )) =
0

et (X, Y ) a pour densite h(x, y) = 2 ex 1{0yx} . La densite de X est alors


Z x
2 x
dy = 2 xex si x > 0; q(x) = 0 si x 0.
q(x) = e
0

Finalement, pour x > 0 (noter que P(X 0) = 0),


h(y | x) =

h(x, y)
1
= 1[0,x] (y).
q(x)
x

La la loi conditionnelle de Y sachant que X = x est donc la loi uniforme sur [0, x] et
Z
Z
1 x
x
y dy =
E(Y |X = x) = yh(y | x) dy =
x 0
2
qui est evidemment la moyenne de la loi U (0, x).

4.8. Simulation
Soit une probabilite sur Rd . Simuler la loi , cest construire une suite x1 , x2 , . . . , xn , . . .
de points de Rd censes etre le resultat de tirages independants de points de Rd selon
la loi i.e. les valeurs prises par une suite X1 , X2 , . . . , Xn , . . . de v.a. independantes
de loi .

55
4.8.1. Nombres au hasard. En general, la fonction random dun ordinateur fournit
une suite de nombres entre 0 et 1 censes etre le resultat de tirages independants selon
la loi uniforme sur [0, 1]. Ces nombres sont obtenus par un algorithme qui fournit
des nombres ayant les memes proprietes quune suite de tirages independants selon
U (0, 1). A ce sujet, voir la sous-section 6.4.2. Le probl`eme est donc de construire `a
partir dune suite U1 , U2 , . . . , Un , . . . de v.a. independantes de loi U (0, 1) une suite
X1 , X2 , . . . , Xn , . . . de v.a. independantes de loi .
4.8.2. Simulation de v.a. reelles. Soit une probabilite sur R de fonction de repartition
F . On pose F 1 (u) = inf(t, F (t) u). On sait (prop. 4.3.2) que, si U U (0, 1),
F 1 (U ) a pour loi . Donc, si (Un , n 1) est une suite de v.a. independantes de loi
U (0, 1), (F 1 (Un ), n 1) est une suite de v.a. independantes de loi .
Exemple. Soit (pk , k = 0, . . . , n) une probabilite sur {0, 1, . . . , n}. Soit F (t) sa fonction
de repartition. On pose
a0 = 0, a1 = p0 , a2 = p0 + p1 , . . . , an = p0 + . . . + pn1 , an+1 = 1.
On a
F (t) = 0 = a0 si t < 0, F (t) = a1 si 0 t < 1, F (t) = a2 si 2 t < 3, . . .
et
F 1 (u) = k si ak u < ak+1 , k = 0, 1, . . . , n.
Rt
Si = f., F (t) = f (x) dx. Il nest pas toujours (en fait pas souvent) possible
de calculer F et F 1 . Cest en particulier le cas pour la loi N1 (0, 1).
4.8.3. Simulation de v.a. gaussiennes reelles. Soit (Un , n 1) une suite de v.a. independantes
de loi U (0, 1), on pose, pour n 1,
p
p
X2n1 = 2 log U2n1 . cos(2U2n ), X2n = 2 log U2n1 . sin(2U2n ).
Alors dapr`es la prop. 4.6.3, (Xn , n 1) est une suite de v.a. independantes de loi
N1 (0, 1). Pour simuler la loi N1 (m, 2 ), il suffit de remarquer que, si Y N1 (0, 1),
alors X = m + Y N1 (m, 2 ).
4.8.4. La methode de rejet. Soient (Zn , n 1) une suite de v.a. `a valeurs (E, E) et
B E. On consid`ere = inf(n 1, Zn B) avec la convention inf = +. Alors
() est la premier n tel que Zn () B et si, pour tout n, Zn ()
/ B, () = +.
est donc une v.a. `a valeurs N. Si P( < +) = 1, on peut definir une v.a. Z par
Z () = Zn () sur {, () = n}. La methode de rejet repose sur:
Proposition 4.8.1. Soient (Zn , n 1) une suite de v.a. independantes `
a valeurs
(E, E) de meme loi et B E avec (B) > 0. On pose 1 = inf(n 1, Zn B),
. . ., r = inf(n > r1 , Zn B), . . .. Alors, pour tout r 1, P(r < +) = 1 et
(Zr , r 1) est une suite de v.a. independantes de loi donnee par
(A) =

(A B)
= P(Z1 A | Z1 B)
(B)

56

Espace de probabilit
e g
en
eral. Variables al
eatoires

i.e. est donc la loi conditionnelle de Z1 sachant que Z1 B.


Preuve: Notons dabord que
P(1 = k) = P(Z1
/ B, . . . , Zk1
/ B, Zk B) = (1 (B))k1 (B)
(4.28)
P
do`
u P(1 < +) = k1 P(1 = k) = 1. Supposons que P(r1 < +) = 1, alors
X
X
P(r1 = k, r = k + j)
P(r1 = k, r < +) =
P(r < +) =
j,k1

k1

P(r1 = k, Zk+1
/ B, . . . , Zk+j1
/ B, Zk+j B)

j,k1

P(r1 = k)

(1 (B))k1 (B) =

j1

k1

P(r1 = k) = P(r1 < +) = 1.

k1

De meme
P(Z1 A) =

P(1 = k, Zk A B)

k1

P(Z1
/ B, . . . , Zk1
/ B, Zk AB) =

k1

(1(B))k1 (AB) =

k1

Supposons que P(Z1 A1 , . . . , Zr1 Ar1 ) =

(A1 B)
(B)

(A B)
.
(B)

r1 B)
. . . (A(B)
, alors

P(Z1 A1 , . . . , Zr1 Ar1 , Zr Ar )


=

P(Z1 A1 , . . . , Zr1 Ar1 , r1 = k, Zk+1


/ B, . . . , Zk+j1
/ B, Zk+j Ar B)

j,k1

P(Z1 A1 , . . . , Zr1 Ar1 , r1 = k)

(1 (B))j1 (Ar B)

j1

k1

= P(Z1 A1 , . . . , Zr1

(Ar B) Y (Ai B)
=
,
Ar1 )
(B)
(B)
i=1

ce qui montre que les v.a. (Zk , k 1) sont independantes et de meme loi. 
En pratique, soit z1 , . . . , zn , . . . une suite de tirages independants selon la loi . On
consid`ere z1 . Si z1 B, on pose x1 = z1 , k1 = 1. Sinon, on consid`ere z2 . Si z2 B, on
pose x1 = z2 , k1 = 2. Sinon, on consid`ere z3 . Si z3 B, on pose x1 = z3 , k1 = 3. . . . On
construit ainsi x1 , k1 . On consid`ere alors zk1 +1 . Si zk1 +1 B, on pose x2 = zk1 +1 , k2 =
k1 + 1. Sinon, on consid`ere zk1 +2 . Si zk1 +2 B, on pose x2 = zk1 +2 , k2 = k1 + 2.
Sinon, on consid`ere zk1 +3 . Si zk1 +3 B, on pose x2 = zk1 +3 , k2 = k1 + 3. . . . On
construit ainsi x2 , k2 . On continue.... et on obtient une suite x1 , . . . , xn , . . . de tirages
independants selon la loi (A) = (AB)
(B) .
Remarque 1. Vu (4.28), la v.a. 1 1 suit une loi geometrique de param`etre 1(B) et
1
on a E(1 ) = (B)
. Il est intuitif (et facile `a verifier) que les v.a. 1 , 2 1 , . . . , r r1

57
sont independantes et de meme loi. On a donc E(1 ) = E(2 1 ) = . . . = E(r
1
. Donc, si (B) est tr`es petit, cette simulation risque de prendre du
r1 ) = (B)
temps.
4.8.5. Simulation de la loi uniforme sur un domaine de mesure de Lebesgue finie.
Soit D un domaine de Rd tel que (D) < +, etant la mesure de Lebesgue sur Rd .
On appelle loi uniforme sur D, la probabilite de densite ((D))1 1D . La prop. 4.8.1
donne immediatement:
Corollaire 4.8.2. Soient D deux domaines de Rd avec () < + et (Zn , n
1) une suite de v.a. independantes de loi la loi uniforme sur . On pose 1 = inf(n
1, Zn D), . . ., r = inf(n > r1 , Zn D), . . .. Alors, pour tout r 1, P(r <
+) = 1 et (Zr , r 1) est une suite de v.a. independantes de loi la loi uniforme
sur D.
Preuve: Il suffit de remarquer que, si est la loi uniforme sur , la loi de X1 est
(A) =

(A D)
(A D) (D)
(A D)
=
:
=
(D)
()
()
(D)

i.e. la loi uniforme sur D. 


En pratique, si D est borne, on choisit = [a1 , b1 ] . . . [ad , bd ] et il est tr`es
facile de simuler la loi uniforme sur et donc sur D.
4.8.5. Soit D = {(x, y), 0 y < f (x)} R2 o`
u f est une densite de probabilite sur R.
Si (X, Y ) est un couple de v.a. de loi uniforme sur D, alors X est une v.a.r. de densite
f . Reciproquement, si X est une v.a.r. de densite f et si U est une v.a.r. de loi U (0, 1),
independante de X, alors (X, U f (X)) suit la loi uniforme sur D et, plus generalement,
(X, aU f (X)) (a > 0) suit la loi uniforme sur = {(x, y), 0 y < af (x)}. Ceci
fournit une methode, sachant simuler une loi de densite g, pour simuler une loi de
densite f si f a g (necessairement a 1)). Plus precisemment:
+
Proposition
R
R4.8.3. Soient une mesure -finie sur (F, F) et f, g F telles
que f d = g d = 1 et f ag p.p. Soient (Yn , n 1) une suite de v.a.
independantes `
a valeurs (F, F) de loi g. et (Un , n 1) une suite de v.a.r. independantes
de loi U (0, 1) et independantes de (Yn , n 1). On pose

1 = inf(n 1, aUn g(Yn ) < f (Yn ) ), . . . , r = inf(n > r1 , aUn g(Yn ) < f (Yn ) ), . . .
Alors les v.a. (Yr , r 1) sont independantes de loi f..
Preuve: Soient Zn = (Yn , Un ) et = {(y, u), a.u.g(y) < f (y) }. On a alors 1 =
inf(n 1, Zn ),. . ..
Lemme 4.8.4. Pour toute F + ,
1
E((Y1 )1{Z1 } ) = E((Y1 )1{aU1 g(Y1 )<f (Y1 )} ) =
a

Z
(y)f (y) d(y).

58

Espace de probabilit
e g
en
eral. Variables al
eatoires

Preuve: Notons que f 1{g=0} ag1{g=0} = 0 p.p. Alors


Z Z

(y)1 (y, u)g(y)1{g>0} (y) d(y)du


E((Y1 )1{Z1 } ) =
0
Z
Z 1
Z
f (y)
1{u< f (y) } du d(y) = (y)g(y)1{g>0} (y)
= (y)g(y)1{g>0} (y)
d(y)
ag(y)
ag(y)
0
Z
1
=
(y)f (y) d(y). 
a
Prenant = 1 dans le lem. 4.8.4, on obtient P(Z1 ) = a1 > 0 et on peut
appliquer la prop. 4.8.1 . Les v.a. (Zr , r 1) (resp. (Yr , r 1)) sont independantes
de meme loi que Z1 (resp. Y1 ). Enfin on a (prop. 4.8.1 et lem. 4.8.4)
Z
P(Y1 A, Z1 )
P(Y1 A) =
f d
=
P(Z1 )
A
et Y1 a pour loi f.. 
Remarque 2. Vu que P (Z1 ) = a1 , dapr`es la remarque 1, E(1 ) = E(r r1 ) = a.
Si a est trop grand, cette methode est co
uteuse en temps.

4.9. Compl
ement:
echantillons ordonn
es.
Dans cette section, on consid`ere une probabilite sur R. On note F sa fonction
de repartition (def. 4.3.1). On rappelle que F est continue ssi ({x}) = 0 pour tout
x R.
4.9.1. Echantillon ordonne. Soit X1 , . . . , Xn n v.a.r. independantes de loi . On
appelle X1 , . . . , Xn un echantillon de taille n (ou n-echantillon) de la loi . Les
X1 , . . . , Xn ranges par ordre croissant, quon note X(1) , . . . , X(n) , sappelle alors un
echantillon ordonne de taille n de la loi . En particulier
X(1) = min Xi ,
1in

X(n) = max Xi .
1in

Par exemple, si X1 () = 4, X2 () = 5, X3 () = 1, X4 () = 2, X5 () = 4, X6 () = 4,
X7 () = 2, X8 () = 3, on a X(1) () = 1, X(2) () = 2, X(3) () = 2, X(4) () = 3,
X(5) () = 4, X(6) () = 4, X(7) () = 4, X(8) () = 5.
Supposons F continue, on a alors, pour i 6= j,
Z Z
Z Z
P(Xi = Xj ) =
1{x=y} d(x)d(y) = ( 1{y} (x) d(x)) d(y) = 0,
et donc P(i6=j {Xi = Xj }) et X(1) < . . . < X(n) p.s.
Si on a un un echantillon ordonne de taille 2n + 1 de la loi , on pose
Mn = X(n+1)

(4.29)

59
et Mn sappelle la mediane de lechantillon ou la mediane empirique.
4.9.2. Loi de X(k) . Soit X1 , . . . , Xn un echantillon de taille n d!une loi . On pose
Nnt =

n
X

1],t ] (Xi ).

(4.30)

i=1

Alors Nnt B(n, F (t)) et {X(k) t} = {Nnt k}. On a donc, notant Fk la fonction
de repartition de X(k) ,
P(X(k) t) =

P(Nnt

k) =

n
X

Cnr (F (t))r (1 F (t))nr .

r=k

Vu que, pour 0 1,
n
n!
n!
d X
r (1 )nr =
k1 (1 )nk
d
r!(n r)!
(k 1)!(n k)!
r=k

(quand on derive tous les termes se detruisent deux `a deux sauf le premier), on obtient
finalement:
Proposition 4.9.1. Soient X1 , . . . , Xn un echantillon de taille n d!une loi de
fonction de repartition F et X(1) , . . . , X(n) lechantillon ordonne associe. Alors la
fonction de repartition de X(k) est donnee par:
n!
Fk (t) =
(k 1)!(n k)!

F (t)

k1 (1 )nk d.

(4.31)

En particulier (formule facile `a obtenir directement)


F1 (t) = 1 (1 F (t))n ,

Fn (t) = (F (t))n .

(4.32)

Le cas le plus important est celui o`


u a une densite p et dans ce cas:
Corollaire 4.9.2. Soit X1 , . . . , Xn un n echantillon dune loi sur R de densite p(x)
et de fonction de repartition F . Alors la densite de X(k) est donnee par:
qk (t) =

n!
(F (t))k1 (1 F (t))nk p(t).
(k 1)!(n k)!

(4.33)

4.9.3. En fait lorsque a une densite p, il est facile de calculer la densite de


lechantillon ordonne en tant que loi marginale.
Th
eor`
eme 4.9.3. Soit X1 , . . . , Xn un n echantillon dune loi sur R de densite p(x).
Alors la densite de (X(1) , . . . , X(n) ) est donnee par:
f (x1 , . . . , xn ) = n! p(x1 ) . . . p(xn )1x1 <...<xn .

(4.34)

60

Espace de probabilit
e g
en
eral. Variables al
eatoires

Preuve: Soit Sn lensemble des permutations de {1, 2, . . . , n}. On a, pour h 0,


X
E(h(X(1) , . . . , X(n) )1{X(1) <...<X(n) } )
E(h(X(1) , . . . , X(n) )) =
S

XZ

h(x(1) , . . . , x(n) )p(x1 ) . . . p(xn ) dx1 . . . dxn

S {x(1) <...<x(n) }

XZ

h(x1 , . . . , xn )p(x1 ) . . . p(xn ) dx1 . . . dxn

S {x1 <...<xn }

Z
h(x1 , . . . , xn )p(x1 ) . . . p(xn ) dx1 . . . dxn . 

= n!
{x1 <...<xn }

A partir de (4.34), il est facile de retrouver (4.33) i.e. la densite qk de X(k) consideree comme une marginale de (X(1) , . . . , X(n) ). On a donc, posant At = {x1 <
. . . < xk1 < t < xk+1 < . . . < xn },
Z
p(x1 ) . . . p(xk1 )p(t)p(xk+1 ) . . . p(xn ) dx1 . . . dxk1 dxk+1 . . . dxn
qk (t) = n!
At
Z
n!
=
p(x1 ) . . . p(xk1 ) dx1 . . . dxk1 (1 F (t))nk p(t)
(n k)! {x1 <...<xk1 <t }
n!
=
(F (t))k1 (1 F (t))nk p(t).
(k 1)!(n k)!
Exemple. Soit X1 , . . . , Xn un n echantillon de la loi uniforme sur [0, 1]. Alors la loi
de (X(1) , . . . , X(n) ) a pour densite n! 1{x1 <...<xn } et celle de X(k) , 1 k n, a pour
n!
densite (k1)!(nk)!
tk1 (1 t)nk 1]0,1[ (t). En particulier (calcul facile en utilisant la
formule (4.23)) E(X(k) ) =

k
n+1 .

Chapitre 5

Fonctions caract
eristiques.
Vecteurs gaussiens
5.1. Transform
ee de Fourier
5.1.1. Rappelons que le produit de convolution de deux mesures bornees sur Rd a
ete defini en 3.5.4. Soient X et Y deux v.a. independantes `a valeurs Rd . On pose
S = X + Y . Cherchons la loi de S. On a, pour toute f B + (Rd ),
Z
E(f (S)) = E(f (X + Y )) =

Z
f (x + y) dX (x)dY (y) =

f dX Y .

On peut enoncer:
Proposition 5.1.1. Soient X et Y deux v.a. independantes `
a valeurs Rd . On a
X+Y = X Y .
On sait que pour calculer des produits de convolution, la transformation de Fourier
est un outil indispensable.
5.1.2. Transformee de Fourier. On note Mb lensemble des mesures bornees sur B(Rd ).
Pour Mb , on pose
Z

(t) = ei<t,x> d(x), t Rd .


(5.1)
De meme, pour h L1 (Rd , ), mesure de Lebesgue sur Rd , on pose
=
h(t)

ei<t,x> h(x) dx, t Rd .

(5.2)

sappelle la transformee de Fourier de (resp. de h). RemarLa fonction


(resp h)
Alors,
quer que, si = h.,
= h.

62

Fonctions caract
eristiques. Vecteurs gaussiens

Th
eor`
eme 5.1.2. (i) Soient , Mb . Si
= , = .
1
(ii) Soit Mb telle que
L (). On a alors = h. avec
Z
d
ei<t,x>
(t) dt.
h(x) = (2)

(5.3)

Preuve: On pose:
g (x) = (2 2 )d/2 exp(

|x|2
), |x|2 = x21 + . . . + x2d .
2 2

(5.4)

Lemme 5.1.3. La famille (g (x a), > 0, a Rd ) est totale dans C0 (Rd ).


Preuve: Soit V lespace vectoriel engendre par les fonctions g (xa), > 0, a Rd .
Vu que
g (x a) g (x b) = C g (x c) avec 2 =

2 2
2 a + 2 b
,
c
=
,
2 + 2
2 + 2

V est une alg`ebre. On verifie immediatement (i) et (ii) du th. 3.5.5 do`
u V = C0 . 
2

Lemme 5.1.4. On a g (t) = exp( 2 |t|2 ) = (2 2 )d/2 g ( 2 t).


R
2
2
d itu
Preuve: Soit (t) = (2)1/2 eitu eu /2 du, t R. Vu que | dt
e | |u| L1 (eu /2 .),
on peut appliquer la prop. 3.3.7 et on a
Z
Z
2
0
1/2
itu
u2 /2
1/2
(t) = i(2)
e d(e
) = (2)
t eitu eu /2 du = t(t)
2 /2

do`
u (t) = Cet
2 d/2

(2 )

Z
e

2 /2

= et

puisque (0) = 1. Alors (th. 3.5.2)

i<t,x> |x|2 /2 2

dx =

d
Y

2 1/2

(2 )

eitk xk exk /2 dxk = e

2 |t|2 /2

.

k=1

Lemme 5.1.5. Soit Mb . On a


Z
Z
d/2
g (x a) d(x) = (2)
g1 (t)ei<a,t>
(t) dt.

(5.5)

Si, de plus,
L1 (),
Z
Z
Z
d
g (x a) d(x) = (2)
g (x a) ei<x,t>
(t) dt dx.

(5.6)

Preuve: Notons dabord que, vu le lem. 5.1.4,


2 d/2

g (x) = (2 )

x
g ( 2 ) = (2)d/2 d

g ( 2 t)ei<x,t> dt.

(5.7)

63
RR
(i) On a, puisque
g ( 2 t) dtd(x) < +,
Z Z
Z
g ( 2 t)ei<xa,t> dtd(x)
g (x a) d(x) = (2)d/2 d
Z
Z
Z
= (2)d/2 d g ( 2 t)ei<a,t> ei<x,t> d(x) dt = (2)d/2 d g ( 2 t)ei<a,t>
(t) dt
do`
u (5.5) puisque d g ( 2 t) = g1 (t).
(ii) Si
L1 (), g ( 2 u)
(t) L1 ( ) et on a, vu que g ( 2 t) = (2 2 )d/2 g (t),
Z
Z
g (x a) d(x) = (2)d/2 d g ( 2 t)ei<a,t>
(t) dt
Z
Z
d
i<a,t>
= (2)
e

(t) ei<u,t> g (u) dudt


Z
Z
Z
Z
i<ua,t>
d
d
g (x a) ei<x,t>
(t) dtdx.
g (u) e

(t) dtdu = (2)


= (2)
(On a pose u = a x et utilise que g (x) = g (x)). 
d
Fin de la preuve.
= , on a, vu (5.5), pour
R Soit H
R = {g (x a), > 0, a R }. Si
toute f H, f d = f d do`
uR, H etant total, = (prop. 3.5.4 (iii)). De meme,
1 , posant h(x) = (2)d ei<x,t>
si

L
(t) dt, on a vu (5.6), pour toute f H,
R
R
f d = f h d do`
u = h.. 

5.2. Fonctions caract


eristiques
Soit X une v.a. `a valeurs Rd de loi X . On a alors, vu le th. 4.2.4,
X (t) =
R5.2.1.
i<t,x>
e
dX (x) = E(ei<t,X> ). Ceci conduit `a:
D
efinition 5.2.1. Soit X une v.a. a
` valeurs Rd . La fonction
X (t) = E(ei<t,X> ) =
X (t)
sappelle la fonction caracteristique de X.
Premi`eres proprietes.
(i) X est continue. En effet, si tn t, ei<tn ,X> ei<t,X> en ayant un module borne
par 1. Il suffit dappliquer le theor`eme de Lebesgue.
(ii) Pour R et b Rd , X+b (t) = ei<t,X> X (t). En effet
X+b (t) = E(ei<t,X+b> ) = ei<t,b> E(ei<t,X> ) = ei<t,b> E(ei<t,X> ).
(iii) X (t) = E(ei<t,X> ) = X (t).
(iv) Si X = X i.e. si la loi de X est symetrique, X est reelle. Ceci resulte de (iii).
Le th. 5.1.2 devient:

64

Fonctions caract
eristiques. Vecteurs gaussiens

Th
eor`
eme 5.2.2. Soient X et Y des v.a. `
a valeurs Rd .
(i) Si, pour tout t, X (t) = Y (t), X et Y ont meme loi.
(ii) Si X L1 , X = h. avec
h(x) = (2)d

ei<t,x> X (t) dt.

Quant `a prop. 5.1.1, elle senonce:


Th
eor`
eme 5.2.3. Soient X et Y deux v.a. independantes `
a valeurs Rd . On a X+Y =
X Y .
Preuve: En fait cela se montre immediatement grace au th. 4.4.4:
X+Y (t) = E(ei<t,X+Y > ) = E(ei<t,X> ei<t,Y > ) = E(ei<t,X> )E(ei<t,Y > ) = X (t)Y (t). 
5.2.2. Crit`ere dindependance.
Th
eor`
eme 5.2.4. Des v.a. X1 ,. . . ,Xn `
a valeurs Rd1 , . . . , Rdn sont independantes ssi,
d
d
n
1
pour tous t1 R , . . . , tn R ,
(X1 ,...,Xn ) (t1 , . . . , tn ) = X1 (t1 ) . . . Xn (tn ).
Preuve: En effet cette condition signifie que (X1 ,...,Xn ) et X1 . . . Xn ont meme
transformee de Fourier i.e. (th. 5.1.2) que (X1 ,...,Xn ) = X1 . . . Xn ce qui equivaut
(prop. 4.4.2) `a lindependance de X1 , . . . , Xn . 
5.2.3. Calcul des moments.
Proposition 5.2.5. Soit X une v.a. `
a valeurs Rd .

(t) = E(iXk ei<t,X> ). En particulier


(i) Si X L1d , X est derivable et tX
k
iE(Xk ).
(ii) Si X L2d , X est deux fois derivable et
particulier

2 X
tj tk (0)

2 X
tj tk (t)

X
tk

(0) =

= E(Xj Xk ei<t,X> ). En

= E(Xj Xk ).

Preuve: (i) On remarque que | tk ei<t,X> | = |Xk | L1 et on applique la prop. 3.3.7.


(ii) On continue.... 
Il est facile de voir en appliquant la prop. 3.3.7 que si X Lm
d , X est m
fois derivable et quon obtient les derivees successives en derivant sous le signe E.
Reciproquement on a ,
Proposition 5.2.6. Soit X une v.a. `
a valeurs Rd . Si X est 2m fois derivable en 0,
2m
m entier, X Ld .

65
Preuve: On se limite `a d = 1, m = 1. On pose = X et = X . On a (0) =
limh0 h12 ((h) + (h) 2(0)) et
Z
Z
hx
ihx
ihx
(h) + (h) 2(0) = (e + e
2) d(x) = 4 sin2
d(x).
2
Appliquant le lemme de Fatou (prop. 3.3.4), on a
Z
Z
Z
sin2 hx
sin2 hx
2
2 2
(0) = lim 4
d(x) 4 lim inf 2 2 x d(x) = x2 d(x). 
h
h
h2
h x
5.2.4. Fonctions caracteristiques usuelles (voir 2.2.5 et 4.3.1 pour les definitions).
a. Loi binomiale B(n, p). Si X B(n, p), on a
X (t) = E(e

itX

)=

n
X

Cnk pk (1 p)nk eitk = (peit + 1 p)n .

k=0

Cette formule et le th. 5.2.3 montrent que, si X B(n, p) et Y B(m, p), X, Y


independantes, alors X + Y B(n + m, p). En particulier si X1 , . . . , Xn sont des v.a.
independantes avec P(Xk = 1) = p, P(Xk = 0) = 1p, Sn = X1 +. . .+Xn B(n, p).
b. Loi de Poisson P(). Si X P(),
X (t) = E(eitX ) =

X
k=0

k itk
e = exp((eit 1)).
k!

Donc si X P() et Y P(), X, Y independantes, X + Y P( + ).


c. Loi uniforme Si X U (a, b), a < b,
Z b
eitb eita
1
eitx dx =
.
X (t) =
b a a
it(b a)
d. Loi gamma G(a, c). Si X G(a, c), on a
Z +
ca
X (t) =
eitx ecx xa1 dx.
(a) 0
Utilisant la prop. 3.3.7 et integrant par partie, on obtient
Z +
Z +
ica
iaca
ia
0
itx cx a
X (t) =
e e x dx =
eitx ecx xa1 dx =
(t)
(a) 0
(a)(it c) 0
c it X
do`
u X (t) = (1 itc )a puisque X (0) = 1. Noter que pour a
/ N, on prend la
determination continue valant 1 en 0.
Si X G(a, c) et Y G(b, c), X, Y independantes, alors X + Y G(a + b, c). En
particulier si X1 , . . . , Xn sont des v.a. independantes de meme densite ex 1R+ et
n
ex xn1 1R+ .
donc de loi G(1, ), Sn = X1 +. . .+Xn G(n, ) et a pour densite (n1)!

66

Fonctions caract
eristiques. Vecteurs gaussiens
2

e. Loi normale N1 (m, 2 ). Si Y N1 (0, 1), Y (t) = et /2 (lem. 5.1.4). Soit X =


m + Y , alors X N1 (m, 2 ) et E(eitX ) = emt E(etY ), do`
u la formule:
1
X (t) = exp(itm 2 t2 ), X N1 (m, 2 ).
2

(5.8)

On en deduit immediatement
Proposition 5.2.7. Si X N1 (m, 2 ) et Y N1 (l, 2 ), X, Y independantes, alors
X + Y N1 (m + l, 2 + 2 ).
f. Loi de Laplace. Cest la loi dune v.a. X de densite q(x) = 12 e|x| . On a
1
X (t) =
2

itx |x|

1
dx =
2

x(it1)

1
dx +
2

ex(it+1) dx =

1
.
1 + t2

g. Loi de Cauchy de param`etre 0. Cest la loi dune v.a. X de densite q(x) =


Vu que

1
1+t2

1
.
(1+x2 )

L1 , on a dapr`es f. et le th. 5.2.2 (ii),


1
2

eitx

On en deduit
1
X (t) =

1
1
dt = e|x| .
2
1+t
2

eitx

1
dt = e|t| .
1 + x2

5.3. Vecteurs gaussiens


5.3.1. On dit quune probabilite sur R est gaussienne si elle a pour densite (4.13)
ou si = m . Il est normal dadjoindre les mesures de Dirac aux lois gaussiennes car
la loi N1 (m, 2 ) converge en un certain sens vers m lorsque 0. Une v.a. reelle
est dite gaussienne si sa loi est gaussienne.
D
efinition 5.3.1. Un vecteur aleatoire X = (X1 , . . . , Xd ) est dit gaussien si, pour
tout a Rd , aT X = a1 X1 + . . . + ad Xd est une v.a. gaussienne.
En particulier chaque composante Xk est une v.a.r. gaussienne mais cela ne suffit
pas `a assurer que le vecteur X est gaussien.
On appelle loi gaussienne sur Rd toute loi dun vecteur gaussien.
Exemples. (i) X = 0 Rd est un vecteur gaussien.
(ii) Soit X = (X1 , . . . , Xd ) avec X1 , . . . , Xd independants de meme loi N1 (0, 1). Alors
(prop. 5.2.7) a1 X1 + . . . + ad Xd N1 (0, a21 + . . . + a2d ) et X est un vecteur gaussien.
Cette notion est invariante par transformation lineaire, plus precisement:
Lemme 5.3.2. Soit X un vecteur gaussien `
a valeurs Rd de moyenne m et de matrice
de covariance D. Pour tous b Rr et M matrice r d, Y = b + M X est un vecteur
gaussien `
a valeurs Rr , de moyenne b + M m et de matrice de covariance M DM T

67
Preuve: En effet aT Y = aT b + (aT M )X est une v.a.r. gaussienne. On a E(Y ) =
b + M E(X) = b + M m et (prop. 4.5.4) K(Y ) = K(M X) = M K(X)M T = M DM T . 
Th
eor`
eme 5.3.3. Soit X un vecteur aleatoire de moyenne m et de matrice de covariance K. Le vecteur X est gaussien ssi sa fonction caracteristique est donnee par
1
X (t) = exp(itT m tT Kt).
2

(5.9)

Preuve: (i) Supposons X gaussien. Alors (lem. 5.3.2) tT X N1 (tT m, tT Kt) et


T
X (t) = E(eit X ) = tT X (1) = exp(itT m 21 tT Kt) do`
u (5.9).
T

(ii) Supposons (5.9). Alors aT X (u) = E(eiua X ) = exp(iuaT m 12 u2 aT Ka) donc aT X


est une v.a.r. gaussienne et X un vecteur gaussien. 
Toute loi gaussienne sur Rd est donc determinee par sa moyenne m et sa matrice de
covariance K. On note Nd (m, K) une telle loi. On a vu (exemple (ii)) que Nd (0, Id )
existe mais on na pas etabli lexistence dans le cas general. Pour cela, on utilise:
Lemme 5.3.4. Soit K une matrice d d symetrique semi-definie positive. Il existe
une matrice d d symetrique semi-definie positive A telle que K = A2 .
Preuve: Soient 1 , . . . , d les valeurs propres de K (elles sont 0). Il existe une
matrice orthogonale C (i.e. C T C = I) telle que C T KC = D = diag(1 , . . . , d ) o`
u
diag(1 , . . . , d ) designe la matrice
diagonale
ayant 1 , . . . , d sur la diagonale. On a
alors CDC T = K. Soit = diag( 1 , . . . , d ). On pose A = CC T . On a,
A2 = CC T CC T = C2 C T = CDC T = K. 
Appliquant le lem. 5.3.2, on a que, si X Nd (0, Id ), Y = m + AX Nd (m, K). On
a montre:
Th
eor`
eme 5.3.5. Etant donnes m Rd et une matrice d d symetrique semidefinie positive K, il existe une et une seule loi gaussienne sur Rd de moyenne m et
de matrice de covariance K.
5.3.2. Vecteurs gaussiens et independance.
Th
eor`
eme 5.3.6. Soient X = (X1 , . . . , Xd ) un vecteur gaussien.
(i) Les v.a.r. X1 , . . . , Xd sont independantes ssi la matrice de covariance K(X) est
diagonale.
(ii) On pose
Y1 = (X1 , . . . , Xd1 ), Y2 = (Xd1 +1 , . . . , Xd2 ), . . . Yr = (Xdr1 +1 , . . . , Xd ).
Les vecteurs (Y1 , . . . , Yr ) sont independants ssi Ki j (X) = Cov(Xi , Xj ) = 0 pour tous
i, j nappartenant pas au meme intervalle [1, d1 ], [d1 + 1, d2 ], . . . , [dr1 + 1, d].

68

Fonctions caract
eristiques. Vecteurs gaussiens

Preuve: Seule la suffisance demande une preuve.


(i) Supposons K(X) diagonale. On a K(X) = diag(12 , . . . , d2 ) o`
u k2 = Var(Xk ).
Alors, notant m = E(X),
X (t) = exp(i

d
X

mk tk

d
d
Y
1
1X 2 2
exp(imk tk k2 t2k ) = X1 (t1 ) . . . Xd (td )
k tk ) =
2
2
k=1

k=1

k=1

et donc (prop. 5.2.4) les Xk sont independantes.


(ii) Supposons la condition sur les covariances realisees. Elle implique, pour tous
u1 Rd1 , u2 Rd2 d1 , . . . et p 6= q, Cov(uTp Yp , uTq Yq ) = 0. Donc, dapr`es (i), les v.a.r.
uT1 Y1 , . . . , uTr Yr sont independantes. On a alors
T

E(ei(u1 Y1 +...+ur Yr ) ) = E(eiu1 Y1 ) . . . E(eiur Yr )


et (prop. 5.2.4) les v.a. Y1 , . . . , Yr sont independantes. 
Remarque. Attention `a lutilisation du th. 5.3.6. On peut avoir X et Y v.a.r.
gaussiennes, Cov(X, Y ) = 0 sans que les v.a. X et Y soient independantes. Par
exemple si X N1 (0, 1), si U est une v.a. independante de X telle que P(U =
1) = P(U = 1) = 21 et si Y = U X, on verifie facilement que Y N1 (0, 1). On a
Cov(X, Y ) = E(XY ) = E(U X 2 ) = E(U )E(X 2 ) = 0 et |X| = |Y | donc X et Y ne
sont pas independantes. En fait le couple (X, Y ) nest pas gaussien.
5.3.3. Le cas non degenere. On dit que la loi Nd (m, K) est non degeneree si det(K) 6=
0. Dans ce cas:
Th
eor`
eme 5.3.7. Si X Nd (m, K) et si det(K) 6= 0, X admet la densite
1
d
1
hm,K (x) = (2) 2 (det(K)) 2 exp( (x m)T K 1 (x m)).
2

Preuve: Soit A une matrice dd telle que K = AAT , on a det(A) = (det(K))1/2 et A


2
est inversible. Soit Y Nd (0, Id ) un vecteur gaussien de densite (2)d/2 exp( |y|2 ).
On a (lem . 5.3.2) Y = m + AY Nd (m, K) et, pour f B + (Rd ),
Z
|y|2
d2
f (m + Ay) exp(
) dy.
E(f (X)) = E(f (m + AY )) = (2)
2
On effectue le changement de variable y = A1 (x m), on a
d

E(f (X)) = (2) 2 det(A1 )

D(y)
D(x)

= det(A1 ) et

1
f (x) exp( (x m)T (A1 )T A1 (x m)) dx.
2

Comme K 1 = (AAT )1 = (A1 )T A1 , on a la formule annoncee. 

Chapitre 6

Convergence des suites de


variables al
eatoires
6.1. Modes de convergence
6.1.1. Principaux modes de convergence.
D
efinition 6.1.1. Soient Xn et X des v.a. `
a valeurs Rd .
(i) On dit que Xn converge en probabilite vers X si, pour tout > 0, P(|Xn X| >
) n 0.
(ii) On dit que Xn converge presque s
urement (en abrege p.s.) vers X si, pour tout

/ N , N negligeable, Xn () n X().
(iii) On dit que Xn converge vers X dans Lp , 1 p < +, si Xn et X sont dans Lp
et si E(|Xn X|p ) n 0.
La convergence dans L1 sappelle aussi la convergence en moyenne, la convergence dans L2 sappelle aussi la convergence en moyenne quadratique. On verifie
immediatement que Xn = (Xn1 , . . . , Xnd ) converge vers X = (X 1 . . . , X d ) en un des
sens ci-dessus ssi, pour k = 1, . . . , d, Xnk converge vers X k dans le meme sens. On ne
considerera donc plus que des v.a. reelles.
1

Rappelons quon note, pour X v.a.r., ||X||p = (E|X|p ) p . Vu linegalite de Holder


(3.7), on a, pour 1 p q, ||X||p ||X||q et donc la convergence dans Lq implique
la convergence dans Lp . En particulier la convergence dans L2 implique la convergence
dans L1 .
Proposition 6.1.2. La convergence dans L1 implique la convergence en probabilite,
la convergence p.s. implique la convergence en probabilite.
Preuve: (i) Dapr`es linegalite de Markov (prop. 4.2.7), P(|Xn X| > ) 1 E(|Xn
X|) ce qui montre le premier point.

70

Convergence des suites de variables al


eatoires

(ii) Supposons que Xn converge p.s. vers X. Alors, pour tout > 0, 1{|Xn X|>} n 0
p.s. et est manifestement borne par 1, donc (th. de Lebesgue) P(|Xn X| > ) =
E(1{|Xn X|>} ) n 0. 
Notons que si Xn converge en probabilite vers X et vers Y , on a P(|X Y | > )
P(|X Xn | > 2 ) + P(|Xn Y | > 2 ) n 0 et donc P(|X Y | > 0) = 0 et X = Y p.s.
Ceci implique, vu la prop. 6.1.2, que les limites de Xn en les differents sens definis
ci-dessus sont p.s. egales.
6.1.2. Exemples. Soit Xn une suite de v.a.r. independantes telles que P(Xn = an ) =
pn , P(Xn = 0) = 1 pn . On suppose 0 < pn < 1, pn n 0 et an 1.
a. On a, pour ]0, 1[, P(|Xn | > ) = P(Xn > ) = pn et Xn n 0 en probabilite.
P
P
P
b. On a
P(Xn > 0) = pn donc, si
pn < +, on a (prop. 4.1.2) que {Xn > 0}
na
p.s.
lieu
que
pour
un
nombre
fini
de
n donc Xn n 0 p.s. Reciproquement si
P
pn = +, on a (prop. 4.1.2) que {Xn = an } a p.s. lieu
Ppour une infinite de n donc
Xn ne converge pas p.s. vers 0. Donc Xn n 0 p.s. ssi
pn < +.
c. E|Xn | = E(Xn ) = an pn . Donc Xn n 0 dans L1 ssi an pn n 0.
d. E(Xn )2 = a2n pn . Donc Xn n 0 dans L2 ssi a2n pn n 0.
Si on choisit pn = n1 , an = 1, Xn converge vers 0 dans L1 mais pas p.s. Si on choisit
pn = n12 , an = n2 , Xn converge vers 0 p.s. mais pas dans L1 . Si on choisit pn = n12 ,
an = n, Xn converge vers 0 dans L1 mais pas dans L2 .
6.1.3. Crit`eres de convergence.
P
Proposition 6.1.3. Soit Xn une
suite
de
v.a.r.
Si
P(|Xn+1 Xn | > n ) < +
P
pour une suite n > 0 verifiant
n < +, la suite Xn converge p.s.
Preuve: Dapr`es le lemme de Borel-Cantelli (prop. 4.1.2), pour tout
/ N, N
negligeable, il existe n0 () tel que, pour tout n n0 (), |Xn+1 () Xn ()| n .
On a donc, pour n > m n0 (),
|Xn () Xm ()|

n1
X
k=m

Vu la convergence de
Xn () converge. 

|Xk+1 () Xk ()|

n1
X

k .

k=m

n , ceci implique que Xn () est une suite de Cauchy et donc

Corollaire 6.1.4. De toute suite Xn convergeant en probabilite, on peut extraire une


sous-suite Xnk convergeant p.s.
Preuve: Vu que, pour tout k, P(|Xn X| > 2(k+1) ) n 0, on peut construire une
suite croissante nk telle que, pour tout n nk , P(|Xn X| > 2(k+1) ) 2(k+1) . On
a alors,
P(|Xnk+1 Xnk | > 2k ) P(|Xnk+1 X| > 2(k+1) ) + P(|Xnk X| > 2(k+1) ) 2k .

71
Do`
u (prop. 6.1.3) Xnk converge p.s. 
Il est tr`es utile davoir des crit`eres de type Cauchy.
Proposition 6.1.5. Soit Xn une suite de v.a.r.
(i) Xn converge en probabilite ssi, pour tout > 0, supk P(|Xn+k Xn | > ) n 0,
(ii) Xn converge dans Lp (1 p < +) ssi supk E(|Xn+k Xn |p ) n 0,
(iii) Xn converge p.s. ssi, pour tout > 0, P(supk |Xn+k Xn | > ) n 0.
Preuve: (i) Supposons que, pour tout > 0, supk P(|Xn+k Xn | > ) n 0. On
peut alors construire une suite croissante dentiers nr telle que P(|Xnr +1 Xnr | >
2r ) 2r et donc (prop. 6.1.3) Xn converge p.s. et a fortiori en probabilite vers une
v.a. X. Alors, etant donne > 0,
P(|Xn X| > ) P(|Xn Xnr | > /2) + P(|X Xnr | > /2) <
pour tout n nr si on choisit r assez grand et Xn X en probabilite. Vu que
P(|Xn+k Xn | > ) P(|Xn+k X| > /2) + P(|Xn X| > /2), la reciproque est
immediate.
(ii) Ceci nest rien dautre que la completude de Lp (voir 3.3.5).
(iii) Supposons que, pour tout > 0, P(supk |Xn+k Xn | > ) n 0. Soit Vn =
supi,jn |Xi Xj |, alors Vn V et Xn converge p.s. ssi V = 0 p.s. (crit`ere de Cauchy).
Mais P(Vn > ) P(supk1 |Xn+k Xn | > /2) n 0 ce qui implique que V = 0
p.s. Reciproquement si Xn converge p.s., supk |Xn+k Xn | n 0 p.s. et aussi en
probabilite. 

6.2. Loi 0 -1
6.2.1. Soit X1 , . . . , Xn , . . . une suite de v.a. `a valeurs Rd . On pose:
Fn (X) = (X1 , . . . , Xn ), F (X) = (X1 , . . . , Xn , . . .) = (n1 Fn (X)),
F n (X) = (Xn , Xn+1 , . . . , Xn+k , . . .), F (X) = n1 F n (X).
Evidemment F (X) F (X). La tribu F (X) sappelle la tribu asymptotique ou
tribu de queue de la suite Xn .
Exemple. Soit X1 , . . . , Xn , . . . une suite de v.a. reelles. Les evenements
{

Xn converge}, {

1
|Xn | < +}, {lim sup (X1 + . . . + Xn ) < 1}
n

sont dans F (X). En effet il suffit de verifier que, pour tout p, ils sont dans F p , ce
qui est immediat.
6.2.2. En fait, si les Xn sont independantes, un evenement de F (X) est de probabilite 0 ou 1. Cest la loi 0 -1.

72

Convergence des suites de variables al


eatoires

Proposition 6.2.1. Soit X1 , . . . , Xn , . . . une suite de v.a. independantes `


a valeurs
d

R . Alors, pour tout A F (X), P(A) = 0 ou 1. De plus, si Y est une v.a.r.


F (X)-mesurable, Y = constante p.s.
Preuve: Soit A F (X) avec P(A) > 0. On pose
Q(B) =

P(A B)
, B F (X).
P(A)

Q est une probabilite sur F (X). Si B Fn (X), B et A sont independants puisque


A F n+1 (X). On a donc P(B) = Q(B) pour tout B C = n1 Fn (X). Cette classe
etant stable par intersection finie et engendrant F (X), on a (cor. 3.2.3) P(B) =
Q(B) pour tout B F (X) et en particulier pour B = A. Donc P(A) = Q(A) = 1.
Soit FY (t) = P(Y t). Par hypoth`ese, {Y t} F (X) et donc FY (t) = 0 ou
1 ce qui implique quil existe a R tel que FY (t) = 1[a,+[ (t) et donc Y = a p.s. 
Corollaire
6.2.2. Soit X1 , . . . , Xn , . . . une suite de v.a. reelles independantes. Alors,
P
(i)
Xn converge p.s. ou diverge p.s.,
(ii) si bn est une suite de reels tendant vers +, b1n (X1 + . . . + Xn ) diverge p.s. ou
converge vers une constante p.s.
P
Preuve: On a vu que { Xn converge} F (X) do`
u (i). De meme A = { b1n (X1 +
. . . + Xn ) converge} F (X) donc P(A) = 0 ou 1. Supposons que P(A) = 1.
Soit Z = limn b1n (X1 + . . . + Xn ). Vu que bn n +, on a aussi, pour tout p,
Z = limn b1n (Xp + . . . + Xn ) et donc Z [F (X)] do`
u Z = constante p.s. 

6.3. Somme de v.a. ind


ependantes
Soit X1 , . . . , Xn , . . . une suite de v.a. reelles de carre integrable. On pose Sn = X1 +
. . . + Xn et Yn = Xn E(Xn ). On a alors
Sn =

n
X

Yk +

k=1

n
X

E(Xk )

(6.1)

k=1

et E(Yk ) = 0, E(Yk2 ) = Var(Yk ) = Var(Xk ). Donc pour etudier la convergence de Sn ,


il suffit pour lessentiel de sinteresser au cas centre.
6.3.1. La convergence dans L2 est simple `a etudier.
Proposition 6.3.1. Soit X1 , . . . , Xn , . . . une suite de v.a. reelles, ind
Pependantes,
de carre integrable et centrees. Alors Sn converge dans L2 ssi la serie
E(Xn2 ) est
convergente.
Preuve: On a, pour n < m,
E[(Sm Sn )2 ] = E(

m
X

k=n+1

Xk )2 =

m
X
k=n+1

E(Xk2 ).

73
On en deduit que Sn est une suite de Cauchy de L2 et donc converge dans L2 ssi
P
E(Xn2 ) < +. 
6.3.2. Loutil de base est linegalite suivante due `a Kolmogorov.
Proposition 6.3.2. Soit X1 , . . . , Xn , . . . une suite de v.a. reelles, independantes, de
carre integrable et centrees. Alors, pour tout > 0 et tout n,
n
1 X
P( max |Sk | ) 2
E(Xk2 ).
1kn

k=1

Preuve: On pose A = {max1kn |Sk | } et, pour k = 1, . . . , n, Bk = {|S1 | <


, . . . , |Sk1 | < , |Sk | }. Les ensembles Bk sont disjoints dunion A. Noter que,
pour k n,
E(1Bk Sn2 ) = E(1Bk (Sk + Sn Sk )2 ) = E(1Bk Sk2 ) + E(1Bk (Sn Sk )2 ) E(1Bk Sk2 )
puisque, les v.a. 1Bk Sk et Sn Sk etant independantes,
E(1Bk Sk (Sn Sk )) = E(1Bk Sk )E(Sn Sk ) = 0.
On a alors, vu que Sk2 2 sur Bk ,
2

P(A) =

n
X
k=1

P(Bk )

n
X

E(1Bk Sk2 )

n
X

E(1Bk Sn2 )

E(Sn2 )

k=1

k=1

n
X

E(Xk2 ). 

k=1

6.3.3. On peut maintenant etablir le resultat principal.


Th
eor`
eme 6.3.3. Soit X1 , .P
. . , Xn , . . . une
P suite de v.a. reelles, independantes, de
carre integrable. Si les series
E(Xn ) et
Var(Xn ) convergent, Sn converge p.s. et
2
dans L .
Preuve: Supposons dabord les Xn centrees. Appliquant la prop. 6.3.2 `a la suite
Xm+1 , . . . , Xm+k , . . ., on a
P( max |Sm+k Sm | > ) = P( max |
1kn

1kn

k
X
i=1

n
m+n
1 X
1 X
2
Xm+i | > ) 2
E(Xm+i ) = 2
E(Xk2 ).

i=1

k=m+1

On en deduit
P(sup |Sm+k Sm | > ) = lim P( max |Sm+k Sm | > )
k1

n+

1kn

1 X
E(Xk2 ) m 0.
2
k>m

Donc (prop. 6.1.5) Sn converge p.s. et aussi (prop. 6.3.1) dans L2 .


Pour le cas general, il suffit dutiliser (6.1). 
Remarque. On peut se demander si le th. 6.3.3 admet une reciproque. Sans hypoth`ese supplementaire, il nen est rien. En effet, soit X1 , . . . , Xn , . . . une suite de

74

Convergence des suites de variables al


eatoires

v.a.r. independantes telles que P(Xn = an ) = pnP


, P(Xn = an ) = pP
n et P(Xn =
1
0) P
= 1 2pn avec an > 0, 0 < pn < 2 . On a
n P(Xn 6= 0) = 2
n pn . Donc
si n P
pn < +, dapr`es Borel-Cantelli, p.s. Xn = 0 P
`a partir dun P
certain rang et
n
E(Xn2 ) = 2 pn a2n = +
Sn =
k=1 Xk converge p.s. alors quon peut avoir
(prendre par exemple pn = n2 et an = n). Pour plus de precisions, voir 6.5.
6.3.4. On sinteresse maintenant `a la convergence de Sbnn , bn etant une suite tendant
vers +. On se ram`ene au cas precedent grace au lemme de Kronecker:
Lemme 6.3.4.
n 1, bn , xn R, 0 < bn n + et sn = x1 + . . . + xn .
P xn Soient, pour
sn
Si la serie
bn converge, bn 0.
Pn xk
Preuve: On pose b0 = 0, vn = bn bn1 , z0 = 0, zn =
k=1 bk . On a donc
Pn
bn = k=1 vk et
n
X

xk =

k=1

n
X

bk (zk zk1 ) = bn zn

k=1

n
X

vk zk1 =

k=1

n
X

vk (zn zk ).

k=1

On en deduit que, pour tout p < n,


|

p
n
n
1 X
1 X
1 X
vk (zn zk1 )| + (
vk ) max |zn zk1 |.
xk | |
pkn
bn
bn
bn
k=1

k=1

k=p+1

P
Do`
u, puisque bn n + et b1n ( nk=p+1 vk ) 1, pour tout p,
n
1 X
xk | sup |zj zk |,
lim sup |
bn
n
j,kp
k=1

quantite arbitrairement petite vu que zn converge. .


Proposition 6.3.5. . Soient X1 , . . . , Xn , . . . une suite de v.a. reelles independantes et
P
de carre integrable et bn n +. On pose Sn = X1 +. . .+Xn . Alors, si n Varb2(Xk ) <
k
P
+ et si b1n nk=1 E(Xk ) n m, Sbnn n m p.s. et dans L2 .
P
Preuve: On peut supposer les Xn centrees et alors m = 0. Vu le th. 6.3.3, nk=1 Xbkk
converge p.s. et donc (lem. 6.3.4) Sbnn n 0 p.s. Quant `a la convergence L2 , on a
n
Sn2
1 X
E( 2 ) = 2
E(Xk2 ) n 0
bn
bn
k=1

puisque

1
2
n b2 E(Xk )
k

converge (lem. 6.3.4 pour la suite b2n ). 

Corollaire 6.3.6. . Soient X1 , . . . , Xn , . . . une suite de v.a. reelles independantes et


de meme loi avec E(X12 ) < +. Alors Snn n E(X1 ) p.s. et dans L2 .
P
P
n)
= Var(X1 ) n n12 < + et dappliquer
Preuve: Il suffit de remarquer que n Varn(X
2
le th. 6.3.3. 
Le cor. 6.3.6 etablit la loi des grands nombres lorsque X1 a un moment dordre
deux fini.

75

6.4. La loi des grands nombres


6.4.1. On demontre la loi des grands nombres dans le cadre general.
Th
eor`
eme 6.4.1. . Soit X1 , . . . , Xn , . . . une suite de v.a. reelles independantes et
de meme loi. On pose Sn = X1 + . . . + Xn .
(i) Si E(|X1 |) < +, Snn converge p.s. et dans L1 vers E(X1 ).
(ii) Si Snn converge p.s., E(|X1 |) < +.
Dabord deux lemmes relatifs `a X v.a. reelle.
P
P
Lemme 6.4.2. . On a n1 P(|X| n) E(|X|) 1 + n1 P(|X| n).
Preuve: Soit (x) =
X

P(|X| n) = E(

n1

n1 1{xn} .

On a, pour x R+ , (x) x 1 + (x). Do`


u

1{|X|n} ) E(|X|) 1+E(

n1

Lemme 6.4.3. On a

1{|X|n} ) = 1+

n1
X2
n1 E( n2 1{|X|<n} )

P(|X| n). 

n1

2 + E(|X|).

Preuve: Vu que
k2

X
X
1
1
1
2
2
=
1
+
k

1
+
k
dx = 1 + k,
2
2
n
n
x2
k

n=k

n=k+1

on a, tout etant positif,

X
n=1

E(

X
X
X
X2
X2 X
1
2
1
)
=
E(
1
)
=
E(1
X
)
{k1|X|<k}
{k1|X|<k}
n2 {|X|<n}
n2
n2
n=1

k=1

X
2

E(1{k1|X|<k} k

k=1

n=k

k=1

1
)
n2

n=k

E(1{k1|X|<k} (1 + k))

k=1

E(1{k1|X|<k} (2 + |X|)) 2 + E(|X|). 

k=1

Revenons `a la demonstration du theor`eme.


k = Xk 1{|X |<k} , Sn = Pn X

(i) On suppose E(|X1 |) < +. Posons X


k=1 k . Alors, vu
k
le lem. 6.4.2,
X
X
X
k ) =
P(Xk 6= X
P(|Xk | k) =
P(|X1 | k) E(|X1 |) < +.
k

k a` partir dun certain rang p.s et


Donc (Borel-Cantelli) Xk = X
On est donc ramene `a etudier la limite de

Sn
n .

Sn
n

Sn
n

n 0 p.s.

Pour cela, on utilise la prop. 6.3.5.

76

Convergence des suites de variables al


eatoires

Dune part, vu le lem. 6.4.3,


X Var(X
n)
n2

n1

X E(X
n2 )
n2

n1

E(

n1

X12
1
) 2 + E(|X1 |) < +.
n2 {|X1 |<n}

k ) = E(Xk 1{|X |<k} ) = E(X1 1{|X |<k} ) k E(X1 ) (Lebesgue),


Dautre part, comme E(X
1
k
Sn
1

E(Sn ) n E(X1 ). Finalement


n E(X1 ) p.s. et il en est de meme de Sn .
n

Passons `a la convergence dans


M > 0,
E(|

L1 .

On peut supposer E(X1 ) = 0. On a, pour tout

k=1

k=1

Sn
1X
1X
|) E(|
Xk 1{|Xk |<M } |) + E(|
Xk 1{|Xk |M } |).
n
n
n

Dune part, vu la premi`ere partie et que 0 = E(X1 ) = E(X1 1{|X1 |<M } )+E(X1 1{|X1 |M } ),
n

1X
Xk 1{|Xk |<M } | n |E(X1 1{|X1 |<M } )| = |E(X1 1{|X1 |M } )|
n
k=1

p.s. en restant borne par M et donc aussi dans L1 . Dautre part


E(|

k=1

k=1

X
1X
1
Xk 1{|Xk |M } |) = E(|
X1 1{|X1 |M } |) E(|X1 |1{|X1 |M } ).
n
n

. Do`
u
lim sup E(|
n

Sn
|) |E(X1 1{|X1 |M } )| + E(|X1 |1{|X1 |M } ) 2E(|X1 |1{|X1 |M } ).
n

Mais cette derni`ere quantite est arbitrairement petite puisque E(|X1 |1{|X1 |M } ) 0
lorsque M + (Lebesgue).
(ii) Supposons que Snn converge p.s. Donc (cor. 6.2.2) Snn n c p.s et Xnn = Snn
n1 Sn1
n P
n1 0 p.s. Ceci implique que P(lim sup{|Xn | n}) = 0 et donc (prop. 4.1.2)
que n P(|Xn | n) < +. On a alors (lem. 6.4.2)
E(|X1 |) 1 +

X
n

P(|X1 | n) = 1 +

P(|Xn | n) < +  .

Remarque 1. Tradtionnellement le th. 6.4.1 sappelle la loi forte des grands nombres.
On reserve le nom de loi faible des grands nombres `a la convergence en probabilite
de Sn /n vers E(X1 ) qui est evidemment une consequence de la loi forte.
Remarque 2. Soit une probabilite sur un espace mesurable (E, E). Le tirage dune
suite de points de E selon peut se representer par une suite de v.a. independantes

77
de loi . Soit A E. Les v.a. 1A (X1 ), 1A (X2 ), . . . , 1A (Xn ), . . . sont independantes, de
meme loi, desperance (A). On a donc p.s.
n

nombre de k n tels que Xk A


1X
1A (Xk ) = lim
.
(A) = lim
n
n n
n
k=1

On retrouve l`a la justification frequentielle de la notion de probabilites.


Remarque 2. En raisonnant composante par composante, le th. 6.4.1 se generalise
immediatement aux v.a. `a valeurs Rd .
6.4.2. Nombres au hasard. On revient sur la question, posee en 4.8.1, de construire
une suite (un , n 1) de nombres compris entre 0 et 1 et pouvant etre consideree
comme le resultat de tirages independants selon la loi U (0, 1). Soit (Un , n 1) une
suite de v.a. independantes de loi U (0, 1). On a (loi des grands nombres), pour tous
0 a < b 1,
n
1X
1[a,b] (Uk ) n b a p.s.
n
k=1

Mais X1 = (U1 , U2 ), X2 = (U3 , U4 ), . . . , Xn = (U2n1 , U2n ), . . . est aussi une suite


de v.a. independantes `a valeurs R2 de loi uniforme sur [0, 1] [0, 1] et lon a, pour
tous 0 a1 < b1 1, 0 a2 < b2 1, posant D = [a1 , b1 ] [a2 , b2 ]
n

1X
1D (U2j+1 , U2j+2 ) n (b1 a1 )(b2 a2 ) p.s
n
j=0

Plus Q
generalement, pour tout k et tous 0 a1 < b1 1, . . . , 0 ak < bk 1, posant
D = kj=1 [aj , bj ],
n
k
Y
1X
1D (Ukj+1 , . . . , Ukj+k ) n
(bj aj ) p.s
n
j=0

j=1

Ceci conduit `a:


D
efinition 6.4.4. Une suite (un , n 1) de nombres compris entre 0 et 1 est dite
k-uniforme
(k N ) si, pour tous 0 a1 < b1 1, . . . , 0 ak < bk 1, posant
Qk
D = j=1 [aj , bj ],
n
k
Y
1X
1D (ukj+1 , . . . , ukj+k ) n
(bj aj ).
n
j=0

j=1

Lideal pour quune suite (un , n 1) puisse etre consideree comme le resultat
de tirages independants selon la loi uniforme sur [0, 1] serait que cette suite soit
k-uniforme pour tout k mais ceci, en pratique, est impossible et on se contente
dapproximations.

78

Convergence des suites de variables al


eatoires

On utilise frequemment des algorithmes du type suivant. On choisit M N grand


(de lordre de 108 ) et une application g de E = {0, 1 . . . , M 1} dans lui-meme.
On se donne v0 E et on pose vn+1 = g(vn ), un = vn /M . Les differents choix de
v0 engendrent differentes suites. Une telle suite etant necessairement periodique, ceci
nest quune approximation. On peut prendre M = 231 et g(x) = 75 x modulo M .
6.4.3. Methode de Monte-Carlo. Le principe de la methode est le suivant. Soient f
une densite sur Rd , (Xn , n 1) une suite de v.a. independantes de densite f et
L1 (f.). Alors, dapr`es la loi des grands nombres,
Z
n
1X
In =
(Xk ) n E((X1 )) = (x)f (x) dx = I p.s.
n
k=1

Donc, si on sait simuler des v.a. de densite f , on peut obtenir une valeur approchee
de I. Noter que In se met sous forme recursive:
1
((Xn+1 ) In ),
In+1 = In +
n+1
ce qui rend le calcul agreable. Examinons de plus pr`es deux cas.
R
1. On veut calculer D h(x) dx, D etant un domaine borne de Rd et h1D integrable.
Q
Q
Soient = dk=1 [ak , bk ] D, V = dk=1 (bk ak ) et (Xn , n 1) une une suite de
v.a. independantes de loi uniforme sur . On peut appliquer le resultat precedent `a
f = V1 1 , = h1D et on a
Z
Z
n
1
V X
h(Xk )1D (Xk ) n V
h(x)1D (x)1 (x) dx =
h(x) dx p.s.
n
V
D
k=1
R
2. On veut calculer (x)f (x) dx (f densite et L1 (f.)) et on sait simuler des
v.a. (Yn , n 1) independantes de densite g avec f a g. Alors on peut utiliser la
prop. 4.8.3 pour simuler des v.a. de densite f mais, en fait, on a directement:
Proposition 6.4.5. Soient f, g deux densites sur Rd telles que f a g, (Yn , n 1)
et (Un , n 1) deux suites de v.a. independantes de lois respectives g. et U (0, 1) et
independantes entre elles. Alors, pour toute L1 (f.),
Z
n
aX
(Yk )1{aUk g(Yk )<f (Yk )} n
(x)f (x) dx p.s.
n
Rd
k=1

Preuve: Les v.a. ((Yk )1{aUk g(Yk )<f (Yk )} , k 1) etant independantes, il suffit dappliquer
R
la loi des grands nombres vu que E((Y1 )1{aU1 g(Y1 )<f (Y1 )} ) = a1 f d pour 0
(lem. 4.8.4) puis, par difference, pour L1 (f.). 
Pour etre complet, il faudrait considerer les vitesses de convergence. (On dit que
an converge vers a `a la vitesse n1 si |a an | = O( n1 )). Vu le th.7.3.1 quon verra au
chapitre suivant, cette vitesse est, en general, de lordre de 1n ce qui fait que, pour
des petites valeurs de d, cette methode est peu competitive par rapport aux methodes
classiques danalyse numerique mais que, pour des valeurs assez grandes de d, elle
devient interessante.

79

6.5. Compl
ement: crit`
ere des trois s
eries.
6.5.1. On examine la reciproque du th. 6.3.3.
Proposition 6.5.1. Soit X1 , . . . , Xn , . . . une suite de v.a.r. independantes.P
On supn
pose quil existe M > 0 tel
que,
pour
tout
n,
|X
|

M
p.s.
Alors,
si
S
=
n
n
k=1 Xk
P
P
converge p.s., les series
E(Xn ) et
Var(Xn ) sont convergentes.
Preuve: Elle repose sur le lemme suivant.
Lemme 6.5.2. Soit X une v.a.r. centree verifiant |X| M p.s. On pose 2 = E(X 2 )
et on note (t) sa fonction caracteristique. alors, si |t| M 1 ,
1
|(t)| exp( 2 t2 ).
3
Preuve: Puisque E(|X|3 ) < +, on a (3) (t) = (i)3 E[X 3 eitX ] et |(3) (t)| E(|X|3 )
2
M 2 . Vu que 0 (0) = 0 et 00 (0) = 2 , on a (t) = 1 2 t2 + r(t) avec |r(t)|
|t|3
6

supls||t| |(3) (s)|


|(t)| 1

|t|3
2
6 M .

Alors, si |t| M 1 , 2 t2 2 M 2 1 et

2
t2
2
1
2 2 |t|3
t +
M 2 1 t2 + 2 = 1 t2 exp( 2 t2 ). 
2
6
2
6
3
3

On pose Yk = Xk E(Xk ) (alors |Yk | 2M p.s.), k2 = Var(Xk ), Sn = X1 + ... +


Xn , S n = Y1 + ... + Yn et on note n et n les fonctions caracteristiques de Sn et S n .
Puisque n (t) = exp(itE(Sn ))n (t), on a, dapr`es le lem. 6.5.2, pour |t| (2M )1 ,
|n (t)| = |n (t)| =

n
Y
k=1

1 X 2
|Yk (t)| exp( t2
k ).
3
k=1

Supposons que k k2 = +. Alors, pour tout t tel que |t| (2M )1 , |n (t)|
1{0} (t). Mais, par hypoth`ese, Sn converge vers S p. s. et donc (Lebesgue)
P 2Sn (t)
S (t) do`
u , pour tout t, |n (t)| |S (t)| qui est continue.
On
a
donc
k k < +.
P
Comme n2P= Var(Xn ) = Var(Yn ) et quePE(Yn ) =P0, k k2 < + implique (th.
6.3.3) que
Yn converge
Xn et (Xn E(Xn )) convergent p.s.
P p.s. Mais alors
donc, par difference,
E(Xn ) converge. 
P

6.5.2. Crit`ere des trois series.


Th
eor`
eme 6.5.3. Soient X1 , . . . , Xn , . . . une suite de v.a. reelles independantes et
K >P0. On pose XnK = Xn 1{|Xn |K} . Il y a equivalence entre
(i) nk=1 Xk converge
p.s.
P
P
P
(ii) Les series
P(|Xn | > K),
E(XnK ),
Var(XnK ) convergent.
P
P
Preuve:
(i) Supposons que n Xn converge p.s. Alors
P(|Xn | > K) < + car,
P
si
P(|Xn | > K) = +, on a p.s. (prop.
4.1.2) |Xn | > K infiniment souvent et Sn
P
diverge p.s. Alors la convergence de
P(|Xn | > K) implique ( prop. 4.1.2) que p.s.

80

Convergence des suites de variables al


eatoires

P
P K
|Xn | > K na lieu quunPnombre fini de fois. Les series
Xn et
Xn sont donc
K
K
p.s. de meme nature
P et K Xn PconvergeK p.s. Puisque |Xn | K, on peut appliquer
la prop. 6.5.1 et
E(Xn ) et
Var(Xn ) convergent.
P K
(ii) Supposons que les trois series convergent.
Vu la prop. 6.5.1,
Xn converge
P
Pp.s.
et, P
comme ci-dessus, la convergence de
P(|X
|
>
K)
implique
que
les
s
e
ries
Xn
P n
K
et
Xn sont p.s. de meme nature. Donc n Xn converge p.s. 

6.6. Compl
ement: grandes d
eviations.
6.6.1. Soit X1 , . . . , Xn , . . . une suite de v.a.r. independantes et de meme loi avec
E|X1 | < +. On pose m = E(X1 ). Si a > m, il resulte du th. 6.4.1 que, posant
Sn = X 1 + . . . + X n ,
Sn
P(
> a) n 0.
n
On voudrait preciser la vitesse de convergence. On sait que plus une v.a.r. possede
de moments finis, plus on peut esperer des estimatuions precises. On pose donc:
Z
X1
() = E(e
) = ex d(x), G() = log (), = {, () < +} (6.2)
et on suppose que 0 est un point int
erieur de . La fonction () est strictement positive et, vu que
a < b < c < d, n 0, M [b, c], |xn ex | M (eax + edx ),

(n)
est un intervalle, est indefiniment derivable sur
R et () =
0
dapr`es la prop. 3.3.7. En particulier (0) = 1, (0) = x d(x) = m.

xn ex d(x)

La fonction etant strictement positive, G est aussi indefiniment derivable sur

et lon a, pour ,
0 ()
G(0) = 0, G () =
=
()
0

y eyG() d(y), G0 (0) = m.

Enfin G est convexe puisque, pour 0 < < 1, vu linegalite de Holder:


Z
Z
Z
1 x (1)2 x
1 x

(1 + (1 )2 ) = e
e
d(x) [ e d(x)] [ e2 x d(x)]1 ,
G(1 + (1 )2 ) log (1 ) + (1 ) log (2 x) = G(1 ) + (1 )G(2 x).
6.6.2. Majoration. On a alors, pour a > m et tout > 0,
P(

Sn
a) = P(eSn ena ) ena E(eSn ) = ena [()]n = exp(n(a G()))
n

do`
u
P(

Sn
a) exp(n sup(a G())).
n
>0

(6.3)

81
Ceci conduit `a sinteresser `a la fonction
I(x) = sup(x G()), x R.

(6.4)

Cette fonction sappelle la transformee de Legendre de G. Elle joue un role important


en analyse convexe. Indiquons quelques proprietes.
Lemme 6.6.1. La fonction I(x) est positive, convexe, verifie I(m) = 0, est decroissante
sur ] , m] et croissante sur [m, +[. Pour x > m, I(x) = sup>0 (x G()).
Preuve: Vu que, pour = 0, x G() = 0, I(x) 0. La fonction I etant un sup
de fonctions affines, elle est convexe. De plus, dapr`es linegalite de Jensen,
eG() = E(eX1 ) eE(X1 ) = em ,
do`
u, pour tout , m G() et donc I(m) 0 et I(m) = 0. De plus la fonction I
etant positive, convexe et nulle en m, elle croit sur [m, +[ et decroit sur ] , m].
Enfin la fonction h() = x G() est concave, derivable au voisinage de 0 et
verifie h(0) = 0, h0 (0) = x G0 (0) = x m > 0 et donc sup>0 (x G()) =
supR (x G()). 
On en deduit immediatement les inegalites de Chernov:
Proposition 6.6.2. On a:
(i) pour tout a m, , P( Snn a) enI(a) ,
(ii) pour tout a m, P( Snn a) enI(a) .
Preuve: (i) resulte de (6.4) et du lem. 6.6.1 pour a > m et est evident pour a = m
puisque I(m) = 0. (ii) sobtient en appliquant (i) `a la suite (Xn ). 
6.6.3. Minoration.
Proposition 6.6.3. On a, pour tous a R et > 0,
lim inf
n

Sn
1
log P(|
a| < ) I(a).
n
n

Preuve: Si I(a) = +, il ny a rien `a montrer. On suppose donc I(a) < +. La


preuve repose sur letude de plusieurs cas selon que h() = a G() atteint son
maximum ou non.

(i) On suppose quil existe 0 tel que I(a) = 0 a G(0 ). La fonction h etant

derivable sur , on a h0 (0 ) = 0 i.e. G0 (0 ) = a. Soient la probabilite sur R definie


par:
d(x) = 1 (0 ) e0 x d(x)
(6.5)
et Y1 , . . . , Yn , . . . une suite de v.a.r. independantes de loi definies sur (0 ,RA0 , P0 ).
On pose n = Y1 + . . . + Yn . On verifie facilement que, notant E0 (Z) pour Z dP0 ,
E0 (|Y1 |) =< + et que
Z
Z
0 (0 )
0
1
= G0 (0 ) = a.
E (Y1 ) = x d(x) = (0 ) x e0 x d(x) =
(0 )

82

Convergence des suites de variables al


eatoires

Dautre part, pour toute f B + (R),


Z
E(f (Sn )) = f (x1 , . . . , xn ) d(x1 ) . . . d(xn )
Z
= n (0 ) f (x1 , . . . , xn ) e0 (x1 +...+xn ) d(x1 ) . . . d(xn ) = n (0 )E0 (f (n )e0 n ).
On en deduit que, pour tout ]0, ],
Sn
Sn
a| < ) P(|
a| < ) = n (0 )E0 (1{| n a|<} e0 n )
n
n
n
n
n
= n (0 )ena0 E0 (1{| n a|<} e0 n( n a)) ) n (0 )ena0 en0 P0 (|
a| < ).
n
n
P(|

Do`
u
Sn
1
n
1
log P(|
a| < ) a0 + G(0 ) 0 + log P0 (|
a| < )
n
n
n
n
et, puisque a0 + G(0 ) = I(a) et que P0 (| nn a| < ) n 1 (loi des grands
nombres),
1
Sn
lim inf log P(|
a| < ) I(a) 0 .
n
n
n
Ce qui etablit la proposition dans ce cas.

(ii) On suppose quil existe k , k +, tels que I(a) = limk k a G(k ). On


a alors
Z
I(a)
G(k )k a
e
= lim e
= lim ek (xa) d(x).
k

vu que
Alors

k (xa) d(x) 0,
k (xa) d(x)
k
],a[ e
[a,+[ e
ek (xa) + sur ]a, +], que (]a, +[) = 0 et

Puisque

k eI(a) ce qui implique,


donc que eI(a) = ({a}).

Sn
a| < ) P(X1 = . . . = Xn = a) = [({a})]n = enI(a)
n
et la minoration cherchee.
P(|

Supposons:
Z
pour tout R,

ex d(x) = E(eX1 ) < +.

(6.6)

Alors = R, G() est partout finie et h() = a G() est une fonction concave
C sur R et on est necessaiement soit dans le cas (i), soit dans le cas (ii), ce qui
prouve la proposition sous cette hypoth`ese.
Une autre situation interessante est la suivante. Rappelons que le support S de
est le plus petit ferme F tel que (F c ) = 0. On pose = inf S , = sup S (les
valeurs infinies ne sont pas exclues). Considerons lhypoth`ese:

pour tout a ] , [, il existe tel que G0 () = a.

(6.7)

83
Si a ] , [, on est dans la cas (i). Supposons < + et a . On a
Z
Z
x
ex d(x) e < +
pour tout > 0,
e d(x) =
], ]

ce qui implique que R+ . Mais, sur ,


Z
Z
x ex d(x) /
G0 () =

ex d(x) a.

], ]

], ]

La fonction h() = a G() est donc croissante sur R+ (h0 est 0) et on a


I(a) = sup (a G()) = lim (a G()).
+

On est dans le cas (ii). (Noter que, si a > , I(a) = + puisque ({a})) = 0). Enfin
on a le meme resultat pour a en considerant la suite (Xn ), ce qui montre la
proposition sous lhypoth`ese (6.7). Il reste `a examiner quelques situations speciales
que nous admettons. 
6.6.4. Le theor`eme de Cramer.
Th
eor`
eme 6.6.4. SoitR X1 , . . . , Xn , . . . une suite de v.a.r. independantes et de meme
loi . On suppose que ex d(x) < + si || 0 , 0 > 0. On pose:
Z
Sn = X1 + . . . + Xn , G() = log ex d(x), I(x) = sup(x G()).
R

Alors on a:
pour tout ferme F de R, lim sup

1
Sn
log P(
F ) inf I(x),
xF
n
n

pour tout ouvert G de R, lim inf

1
Sn
log P(
G) inf I(x).
xG
n
n

Preuve: La minoration est une consequence immediate de la prop. 6.6.3 car, si x G,


il existe > 0 tel que {y, |y x| < } G et P( Snn G) P(| Snn x| < ). Passons
`a la majoration. Supposons que F + = F [m, +[6= et F = F ] , m] 6= .
Soient b+ = inf F [m, +[ et b = sup F ] , m]. On a, vu la prop. 6.6.2 et la
monotonie de I sur ] , m] et [m, +[,
Sn
Sn
F + ) P(
b+ ) exp(nI(b+ )) exp(n inf I(x)),
xF
n
n
Sn
S
n
P(
F ) P(
b ) exp(nI(b )) exp(n inf I(x)),
xF
n
n
Sn
Sn
Sn
P(
F ) P(
F + ) + P(
F ) 2 exp(n inf I(x)).
xF
n
n
n

P(

On conclut facilement puisque n1 log 2 n 0 ! Si F = (resp. F + = ), il suffit de


considerer la majoration ci-dessus pour F + (resp. F ). 

84

Convergence des suites de variables al


eatoires

Corollaire 6.6.5. Sous les hypoth`eses du th. 6.6.4, si I est continue au point a,
si a > m, lim
n

Sn
1
Sn
1
log P(
a) = I(a), si a < m, lim log P(
a) = I(a).
n n
n
n
n

Preuve: Supposons a > m. Dune part lim supn


part
lim inf
n

1
n

log P( Snn a) I(a) et dautre

1
Sn
1
Sn
log P(
a) lim inf log P(
> a) inf I(x) = I(a). 
n
x>a
n
n
n
n

6.6.5. Exemples.
a. = m i.e. P(X1 = m) = 1. On a:
= R, () = em , G() = m,
I(x) = 0 si x = m, I(x) = + si x 6= m.
b. = p1 + (1 p)0 (0 < p < 1) i.e. P(X1 = 1) = p, P(X1 = 0) = 1 p. On a:
= R, () = pe + 1 p, G() = log(pe + 1 p),
1x
x
) si x [0, 1], I(x) = + si x
/ [0, 1].
I(x) = x log( ) + (1 x) log(
p
1p
c. = N1 (m, 2 ) i.e. d(x) =

1
2

exp( 21 2 (x m)2 ) dx. On a:

2 2
2 2
), G() = m +
,
2
2
(x m)2
I(x) =
.
2 2

= R, () = exp(m +

c. = G(1, ) i.e. d(x) = ex 1]0,+[ (x) dx. On a:

, < , G() = log(


), < , G(x) = +, ,

I(x) = x 1 log(x) si x > 0, I(x) = + si x 0.

=], [, () =

Noter que a pour support [0, +[ et que, pour tout a > 0, lequation G0 () = a
1
secrit
= a et a pour solution = a1 ] , [. La condition (6.7) est bien
verifiee dans ce cas.

Chapitre 7

Convergence en loi
7.1. Convergence
etroite
On note M1 lensemble des probabilites sur B(Rd ), Cb (resp. C0 , resp. Ck ) lensemble
des fonctions continues bornees (resp. tendant vers 0 `a linfini, resp. `a support compact) sur Rd . Soient n , M1 . On veut donner un sens `a n converge vers .
Il semble naturel de demander que, pour tout A B(Rd ), n (A) (A) mais ceci
est tr`es contraignant. Par exemple, sur R, si n = 1 et = 0 , on a n (]0, 1]) = 1
n
et (]0, 1]) = 0 et donc, en ce sens, n ne converge pas vers . Cest pourquoi on
introduit la notion de convergence etroite.
7.1.1. Definition.
D
efinition 7.1.1. RSoient n , R M1 . On dit que n converge etroitement vers si,
pour toute f Cb , f dn n f d.
Un crit`ere tr`es utile est le suivant. Rappelons que H C0 est total si e.v.[H] est
dense dans C0 pour la norme ||f || = supx |f (x)|.
Proposition
R
R 7.1.2. Soient n , M1 . Si, pour toute f H, H total dans C0 ,
f dn n f d, n converge etroitement vers .
R
R
Preuve: Montrons dabord que, pour toute
f

C
,
f
d

f d. Soit V =
0
n
n
R
R
e.v.[H]. On a V = C0 et, pour toute g V , g dn g d. Soient f C0 et g V ,
on a
Z
Z
Z
Z
Z
Z
Z
Z
| f dn f d| | f dn g dn | + | g dn g d| + | g d f d|
Z
Z
2||f g|| + | g dn g d|.
R
R
On a donc lim supn | R f dn Rf d| 2||f g||. Cette derni`ere quantite etant
arbitrairement petite, f dn f d.

86

Convergence en loi

Ceci fait, on a, pour f Cb et g Ck , 0 g 1,


Z
Z
Z
Z
Z
Z
Z
Z
| f dn f d| | f dn f g dn |+| f g dn f g d|+| f g d f d|
Z
Z
Z
Z
||f ||(1 g dn ) + | f g dn f g d| + ||f ||(1 g d).
R
R
R
On a donc lim supn | f dn f d|

2||f
||(1
g d). VuRquil existe gn Ck , 0
R
R
gn 1, tels
que
g

1
et
qualors
g
d

1
d
=
1, 1 g d est arbitrairement
n
n
R
R
petit et f dn n f d. Ceci montre que n converge etroitement vers . 
Il y a deus exemples particuli`erement interessants densemble total dans C0 `a
savoir lespace Ck (cor. 3.5.6) et la famille (g (x a), > 0, a Rd ) (lem. 5.1.3).
7.1.2. Lexemple introductif montre que n peut converger etroitement vers sans
que n (A) converge vers (A). La question est de savoir pour quels ensembles on a

cette convergence. On note A = A \ A la fronti`ere topologique de A i.e. la fermeture


moins linterieur.
Proposition 7.1.3. Soient n , M1 . On suppose que n converge etroitement
vers . Alors, pour tout A B(Rd ) tel que (A) = 0, n (A) (A).
R
Preuve: Il existe fp , gp Cb+ telles que gp 1A , fp 1 , alors gp d (A) et
A
R
R

fp d (A). Do`
u, vu lhypoth`ese, (gp fp ) d p 0.
R
Soit > 0. Il existe donc f, g Cb telles que f 1A g et (g f ) d < . On
a alors
Z
Z
Z
Z
f dn g d n (A) (A) g dn f d
R
do`
u lim supn |n (A) (A)| (g f ) d < . Ceci montre que n (A) (A). 
7.1.3. On a enfin le resultat tr`es important suivant:
Th
eor`
eme 7.1.4. Soient n , M1 . La suite n converge etroitement vers ssi,
pour tout t Rd ,
n (t) n
(t).
Preuve: La condition est evidemment necessaire puisque fx (t) = ei<t,x> Cb .
Reciproquement, dapr`es (5.5) et le theor`eme de Lebesgue,
Z
Z
g (x a) dn = (2)d/2 g1 (t)ei<a,t>
n (t) dt
Z
Z
n (2)d/2 g1 (t)ei<a,t>
(t) dt = g (x a) d.
Puisque H = (g (x a), > 0, a Rd ) est totale dans C0 , on conclut grace `a la
prop. 7.1.2. 

87

7.2. Convergence en loi


Dans cette section, Xn , X designent des v.a. `a valeurs Rd . Rappelons quon note X
la loi de X et X sa fonction caracteristique.
7.2.1. Convergence en loi des v.a..
D
efinition 7.2.1. On dit quune suite de v.a. Xn converge en loi vers une probabilite
(resp. une v.a. X) si la suite Xn converge etroitement vers (resp. vers X ).
La distinction entre convergence en loi vers ou vers X est une simple affaire de
langage car en fait cest la loi de Xn qui converge vers et donc vers la loi de X pour
toute v.a. X de loi . Vu la prop. 7.1.2 et le th. 7.1.4, on a:
Proposition 7.2.2. Soient Xn des v.a. `
a valeurs Rd et M1 . Il y a equivalence
entre:
(i) Xn converge en loi vers ,
R
(ii) pour toute f H, H total dans C0 , E(f (Xn )) n f d,
(iii) pour tout t Rd , Xn (t) n
(t).
En particulier Xn converge en loi vers X ssi:
pour tout t Rd , Xn (t) = E(ei<t,Xn > ) n X (t) = E(ei<t,X> ).
Proposition 7.2.3. Si Xn converge en loi vers X et si : Rd Rp est continue,
Yn = (Xn ) converge en loi vers Y = (X).
Preuve: Soit f Cb (Rp ), alors f Cb (Rd ) et
E(f (Yn )) = E(f ((Xn ))) n E(f ((X))) = E(f (Y )). 
Enfin la prop. 7.1.3 devient:
Proposition 7.2.4. Soit Xn une suite de v.a. convergeant en loi vers . Pour tout
A B(Rd ) tel que (A) = 0, on a P(Xn A) n (A).
7.2.2. Examinons le lien entre la convergence en loi et les convergences des v.a.
etudiees dans la section precedente.
Proposition 7.2.5. Si Xn converge en probabilite vers X, alors Xn converge en loi
vers X.
Preuve: Il Rsuffit (prop. 7.2.2) de montrer que, pour toute f Ck , E(f (Xn )) n
E(f (X)) = f dX . Soient donc f Ck et > 0. Il existe, f etant uniformement
continue, > 0 tel que |f (x) f (y)| si |x y| . On a alors
|E(f (Xn )) E(f (X))| E(|f (Xn )) f (X)|1{|Xn X|} )
+E(|f (Xn )) f (X)|1{|Xn X|>} ) + 2||f || P(|Xn X| > )

88

Convergence en loi

do`
u lim supn |E(f (Xn )) E(f (X))| et E(f (Xn )) n E(f (X)). 
Exemple. Soir Xn une suite de v.a.r. telle que P(Xn = 1) = pn et P(Xn = 0) = 1pn
avec 0 < pn < 1. Xn n 0 en probabilite ssi pn n 0, Xn n 1 en probabilite ssi
pn n 0 et sinon ne converge pas en probabilite tandis que, vu que E(f (Xn )) =
pn f (1) + (1 pn )f (0), Xn converge en loi ssi pn n p. Ceci montre quen general la
convergence en loi nimplique pas la convergence en probabilite. On a cependant:
Proposition 7.2.6. Si Xn converge en loi vers a Rd , alors Xn converge en probabilite vers a.
Preuve: Soit > 0. On choisit f Cb telle que f (a) = 0 et f (x) = 1 si |x a| .
Alors
P(|Xn a| > ) = E(1{|Xn a|>} ) E(f (Xn )) n f (a) = 0. 
Le resultat suivant sera utile.
Proposition 7.2.7. Soient Xn et Yn des v.a. reelles. On suppose que Xn converge
en loi vers X et que Yn converge en loi vers a R, alors (Xn , Yn ) converge en loi
vers (X, a). En particulier Xn + Yn converge en loi vers X + a et Xn Yn converge en
loi vers aX.
Preuve: Posons, pour u, v R, n = E(ei(uXn +vYn ) )E(ei(uX+va) ). Il suffit (prop.7.2.2)
de montrer que n n 0. On a
|n | |E[eiuXn (eivYn eiva )] | + |E[eiva (eiuXn eiuX )] |
E(|eivYn eiva |) + |E(eiuXn eiuX )| = an + bn .
Dune part, posant f (y) = |eivy eiva )|, f Cb et donc an = E(f (Yn )) n f (a) =
0; dautre part, par hypoth`ese, bn n 0. La fin de la proposition resulte de la
prop.7.2.3. 
7.2.3. Le cas des v.a. enti`eres.
Proposition 7.2.8. Soit Xn , X des v.a. `
a valeurs N. Alors Xn converge en loi vers
X ssi, pour tout k N, P(Xn = k) n P(X = k).
Preuve: (i) Supposons que Xn converge en loi vers X et soit f Ck telle que
f (k) = 1, f = 0 sur ]k 1, k + 1[c . On a
P(Xn = k) = E(f (Xn )) n E(f (X)) = P(X = k).
(ii) Supposons que, pour tout k N, P(Xn = k) n P(X = k). On a, pour f Ck
et donc nulle hors de ] m, +m[,
E(f (Xn )) =

m
X

f (k)P(Xn = k) n

k=m

On applique la prop. 7.2.2. 

m
X
k=m

Z
f (k)P(X = k) = E(f (X)) =

f dX .

89
7.2.4. Convergence en loi et convergence des esperances. Soit Xn une suite de v.a.
reelles integrables convergeant en loi vers X. A-t-on E(Xn ) n E(X) ? En general
non puisque la fonction f (x) = x est continue mais non bornee. Dans le sens positif,
on a:
Proposition 7.2.9. Soit Xn une suite de v.a. reelles convergeant en loi vers X. On
suppose quil existe > 0 tel que supn E(|Xn |1+ ) = M < +. Alors X L1 et
E(Xn ) n E(X).
Preuve: Soit a > 0. On pose fa (x) = |x| a, ga (x) = a (x a). Noter que
fa , ga Cb et que
|x|1+
|ga (x) x| |x|1{|x|>a}
.
a
Dune part
E(|X|1+ a) = E(fa (X)) = lim E(fa (Xn )) E(|Xn |1+ ) M
n

do`
u, pour a +,

E(|X|1+ )

= lim a E(|X|1+ a) M . Dautre part

|E(Xn ) E(X)| E(|Xn ga (Xn )|) + |E(ga (Xn )) E(ga (X))| + E(|ga (X) X|)
E(|Xn |1+ )
E(|X|1+ )
+
|E(g
(X
))

E(g
(X))|
+

a
n
a
a
a
do`
u lim supn |E(Xn ) E(X)|
grand. 

2M
a

et le resultat cherche a etant arbitrairement

7.2.5. Convergence en loi et fonctions de repartition


Proposition 7.2.10. Soient Xn une suite de v.a. reelles de fonctions de repartition
Fn et une probabilite sur R de fonction de repartition F . Alors Xn converge en loi
vers ssi, pour tout t point de continuite de F , Fn (t) n F (t).
Preuve: (i) Soit t un point de continuite de F . On a donc ({t}) = F (t)F (t) = 0.
Soit A =] , t], A = {t} et (A) = 0 donc (prop. 7.1.3):
Fn (t) = Xn (] , t]) n (] , t]) = F (t).
(ii) Si Fn (t) n F (t) pour tout t point de continuite de F , on a, les points de
discontinuite de F etant au plus denombrables puisque F est croissante, Fn n F
p.p. Soient n la loi de Xn et H = Ck1 . H etant total dans CR0 , pour montrer
R que Xn
converge en loi vers , il suffit (prop.
7.1.2) de montrer que f dn n f d pour
Rx
toute f H. Si f H, f (x) = f 0 (t) dt et on a (Fubini et Lebesgue):
Z
Z + Z x
Z +
Z +
0
0
f dn =
f (t) dt dn (x) =
f (t)
dn (x) dt

f 0 (t)(1 Fn (t)) dt n

f 0 (t)(1 F (t)) dt =

On en deduit un cas particulier dun resultat d


u `a Skorokhod.

f d. 

90

Convergence en loi

Corollaire 7.2.11. Soit Xn une suite de v.a.r. convergeant en loi vers X . Il existe
des v.a.r. (pas necessairement definies sur le meme espace de probabilite) Yn , 1
n +, telles que, pour 1 n +, loi de Yn = loi de Xn et Yn n Y presque
s
urement.
Preuve: Soient Fn et F les fonctions de repartition de Xn et X et C(F ) lensemble
des points de continuite de F . On pose F 1 (u) = inf(t, F (t) u). Soient A = {u
[0, 1], t1 6= t2 tels que F (t1 ) = F (t2 ) = u} et B = [0, 1] \ A. Noter que A est
denombrable. et que, pour tout u B, y < F 1 (u) F (y) < u et y > F 1 (u)
F (y) > u. On en deduit que, pour tout u B, Fn1 (u) n F 1 (u). En effet soient u
B et y C(F ) tels que y > F 1 (u), on a F (y) > u et aussi (th. 7.2.10), pour n assez
grand, Fn (y) > u et y Fn1 (u) ce qui implique, C(F ) etant dense, lim supn Fn1 (u)
F 1 (u). Considerant y C(F ) tel que y < F 1 (u), on a, par un argument symetrique
que lim inf n Fn1 (u) F 1 (u). Do`
u limn Fn1 (u) = F 1 (u) si u B. On consid`ere
alors lespace de probabilite ([0, 1], B([0, 1]), = mesure de Lebesgue) et soit U la v.a.
U (u) = u. On pose Yn = Fn1 (U ), Y = F 1 (U ). Dapr`es la prop. 4.3.2, Yn et Xn
ont meme loi et, pour tout u B, Yn (u) = Fn1 (u) n Y (u) = F 1 (u) et, comme
(B) = 1, Yn n Y p.s. 
7.2.6. Theor`eme de Levy. Sil est souvent facile de montrer que Xn (t) n (t), il
est plus delicat de montrer que (t) est une fonction caracteristique. De plus ce nest
pas toujours vrai. Donnons un exemple. Soit Xn une suite de v.a.r. de loi uniforme
sur [n, +n]. On a Xn (0) = 1 et, pour t 6= 0,
Z n
sin(nt)
1
eitx dx =
.
Xn (t) =
2n n
nt
Donc Xn (t) n 1{0} (t) qui nest pas une fonction caract
eristique puisque pas conR
tinue en 0. En fait, pour f Ck , il est immediat que f dXn n 0 et Xn converge
en un sens affaiblie vers 0. La reponse `a ce probl`eme est donnee par le theor`eme de
Levy.
Th
eor`
eme 7.2.12. Soit Xn une suite de v.a. telle que, pour tout t Rd , Xn (t) n
(t). Si est continue en 0, il existe une probabilite sur Rd telle que
= et Xn
converge en loi vers .
Preuve: On a besoin du resultat danalyse suivant que nous admettons. On dit quune
Rsuite n M
R b converge faiblement sil existe Mb telle que, pour toute f C0 ,
f dn n f d. Alors
Th
eor`
eme 7.2.13. Soient n Mb telles que A = supn n (Rd ) < +, alors il
existe une sous-suite nk convergeant faiblement.
Ceci fait, on note n la loi de Xn . Puisque n (Rd ) = 1, il existe (th.7.2.13) une
sous-suite nk telle que nk converge faiblement vers Mb . On pose 0k = nk .
Dapr`es (5.5), on a, pour tout a Rd ,
Z
Z
0
d/2
g (x a) dk (x) = (2)
ei<a,u> g1 (u)
0k (u) du.

91
Passant `a la limite en k, on a (justifier),
Z
Z
g (x a) d(x) = (2)d/2 ei<a,u> g1 (u)(u) du.
On a donc vu (5.5), pour tout a Rd ,
Z
Z
i<a,u>
e
g1 (u)
(u) du = ei<a,u> g1 (u)(u) du.
Do`
u (th.5.1.2)
(u)g1 (u) = (u)g1 (u) p.p. et, g1 etant > 0,
(u) = (u) p.p.
Soit E = {
= }, on a (E c ) = 0. Il existe donc xn E tel que xn 0. On a, pour
tout n,
(xn ) = (xn ) et, les deux fonctions etant continues en 0, (Rd ) =
(0) =
(0) = limn
n (0) = 1. Donc M1 et (prop. 7.1.2) 0k converge etroitement vers .
On en deduit que =
et que n converge etroitement vers . 

7.3. Convergence vers la loi normale


7.3.1. Le theor`eme de la limite centrale.
Th
eor`
eme 7.3.1. Soit Xn une suite de v.a. `
a valeurs Rd independantes et de meme
loi. On suppose que E(|X1 |2 ) < + et on pose m = E(X1 ), K = K(X1 ), Sn =
X1 + . . . , Xn . Alors 1n (Sn nm) converge en loi vers Nd (0, K).
Preuve: Il suffit de considerer le cas o`
u m = E(X1 ) = 0. On pose (t) = X1 (t). Vu
la prop. 5.2.5,

tk (0)

= 0,

2
tj tk (0)

= Kj,k . On a donc

1
(t) = 1 tT Kt + |t|2 (t) avec lim |(t)| = 0.
t0
2
On en deduit
t
t n
1 T
|t|2
t
1

t
Kt
+
( ))n n exp( tT Kt).
(t)
=

(
)
=
((
))
=
(1

S
n
Sn
2n
n
2
n
n
n
n

Ceci dapr`es le lem. 7.3.2 ci-dessous. Donc


la prop. 7.2.2.

1 Sn
n

converge en loi vers Nd (0, K) dapr`es

Lemme 7.3.2. Soient zn , z C tels que zn n z, alors on a (1 +

zn n
n)

n ez .

Preuve: Pour zn R, le resultat est classique. Remarquant que, pour a, b C, on a


|an bn | n|a b| si |a| 1, |b| 1, on a
(1 +

(1 +
n

zn n
n)
|zn | n
n )

|(1 +

1 + znn n
1 + znn
ez
en n
en
|z| | = |(
)

(
)
|

n
|
|z| |
|z|
|z
|
|z
|
n
n
e
1+ n
1+ n
en
en

|z|
zn
n
n )e

(1 +

(1 +
|z|
|zn |
n
n )e

z
|zn |
n
n )e |

|zn + |z| |zn | z + ( n1 )|


(1 +

|z|
|zn |
n
n )e

n 0.

92

Convergence en loi

Donc

(1+ znn )n
(1+

|zn | n
)
n

z
n ee|z| et, vu que (1 +

|zn | n
n )

n e|z| , (1 +

zn n
n)

n ez . 

7.3.2. Le cas reel.


Corollaire 7.3.3. Soit Xn une suite de v.a.r. independantes, de meme loi, de carre
integrable. On pose Sn = X1 + . . . + Xn , m = E(X1 ), 2 = Var(X1 ) quon suppose
> 0. Alors, pour a < b +,
Z b
t2
Sn nm
1

e 2 dt.
P(a <
< b) n
n
2 a
Preuve: Ceci resulte du th. 7.3.1 et de la prop. 7.2.4. 
Exemple. Soient X1 , . . . , Xn , . . . une suite de v.a. reelles independantes et de meme
loi de Poisson P(1) et Sn = X1 + . . . + Xn . On sait (2.3.3) que Sn P(n) et (2.2.5)
que E(Sn ) = n, Var(Sn ) = n. Posons
Yn =

Sn n
.
n

Dapr`es le th. 7.3.1, Yn converge en loi vers Z N1 (0, 1). Soit h(x) = (x) 0, h
est continue donc (prop.7.2.3) Yn = h(Yn ) converge en loi vers Z = h(Z). Vu que
E((Yn )2 ) E(Yn2 ) = n1 Var(Sn ) = 1, on a (prop. 7.2.9) E(Yn ) n E(Z ). Mais
+
X

Xnk
kn
nk
en
= E(h(Yn )) =
h( )P(Sn = k) =
k!
n
n
k=0
k=0

n
n
en X nk+1 X nk
en nn+1
en nn n
= {

}=
=
k!
(k 1)!
n!
n
n n!

E(Yn )

k=0

k=1

et
1
E(Z ) =
2

n nn
do`
u e n!

Z +
Z +
2
x2
1
1
1
x2

x e
dx =
xe
dx =
d(e 2 ) =
2 0
2 0
2

n 12 i.e. n! 2n en nn (formule de Stirling).


Z

x2

7.3.3. Vitesse de convergence. Pour d = 1, le theor`eme de la limite centrale nous dit

que, pour n assez grand, la loi de Snnm


i.e. de Sn centree reduite est proche de la loi
n
N1 (0, 1). Pour etre vraiment utile, un tel resultat doit etre accompagne de precisions
sur la vitesse de convergence. A ce sujet, on a le theor`eme de Berry-Esseen que nous
montrerons section 7.4.
Th
eor`
eme 7.3.4. Soit Xn une suite de v.a. independantes et de meme loi avec
E(|X1 |3 ) < +. On pose m = E(X1 ), 2 = E(X1 m)2 , = E(|X1 m|3 ). Alors:
Z x
t2
Sn nm
1

sup | P(
x)
e 2 dt | 3 .
n
n
x
2

93
P
Exemple. Soit Zn B(n, p). On a Zn = nk=1 Xk avec Xk v.a. independantes de loi
B(1, p). On a, posant q = 1 p, 2 (X1 ) = pq, = pq(p2 + q 2 ) pq et finalement
Z x
t2
1
Zn np
1
| P(
e 2 dt |
x)
.
npq
pqn
2
On voit que cette approximation est peu fiable pour p proche de 0 ou 1.

7.4. Compl
ement : d
emonstration du th
eor`
eme de BerryEsseen.
Il sagit de montrer le th. 7.3.4. En fait nous montrons un enonce un peu different
o`
u la conctante C nest pas precisee. Cette valeur de C nest pas connue, on sait
seulement que C 0, 8.
Th
eor`
eme. Il existe une constante universelle C telle que, pour toute suite Xn de
v.a.r. independantes et de meme loi avec E(|X1 |3 ) < +, on ait, posant m = E(X1 ),
2 = E(X1 m)2 , = E(|X1 m|3 ),
Z x
t2
Sn nm
1

sup | P(
x)
e 2 dt | C 3 .
n
n
x
2
7.4.1. Preuve: (Dapr`es Ho et Chen reprenant
Pnune methode de Stein).
Xi
m
On fixe n et on pose Yi = n , Un = 1 Yi = loi de Yi . On a E(Yi ) = 0,

n E(Yi2 ) = 1, n3/2 E(|Yi |3 ) = , n E(|Y1 | || nY1 ||3 || nY1 ||33 = puisque

|| nY1 ||3 || nY1 ||2 = 1. On note


Z x
t2
1
1 x2
2
, (x) =
e 2 dt.
(x) = e
2
2
Il sagit de montrer que

sup |P(Un x) (x)| C .


n
x
R
On consid`ere, pour b R, notant N (h) = h(t)(t) dt,
Z x
t2
x2
e 2 (hb (t) N (hb )) dt, hb = 1],b] .
fb (x) = e 2

(7.1)

(7.2)

La fonction fb est derivable en tout x 6= b, do`


u, posant fb0 (b) = bf (b) + 1 N (hb ),
pour tout x R,

fb0 (x) xfb (x) = hb (x) N (hb ).

(7.3)

On a donc
P(Un b) (b) = E(fb0 (Un ) Un fb (Un )).

(7.4)

94

Convergence en loi

7.4.2. On admet pour linstant que


pour tout x R, |fb (x)| 1, |fb0 (x)| 1.

(7.5)

On dira queR f C si f B(R) et, sil existe f 0 B(R) telle que, pour tous x < y,
y
f (y) f (x) = x f 0 (t) dt. Soit f C. Vu la symetrie, lindependance et Fubini,
E(Un f (Un )) =

n
X
i=1

n1
X
X
E(Yi f (
Yj + Yi )) = n E(Yn f (
Yi + Yn ))
i=1

j6=i

E(sf (Un1 + s)) d(s)) = n E(s(f (Un1 + s) f (Un1 )) d(s)


Z
Z s
Z
Z 0
= nE(
f 0 (Un1 + t) dt d(s) nE(
f 0 (Un1 + t) dt d(s).
=n

s0

s<0

On obtient donc, posant


Z
K(t) = n
s d(s), t 0,

Z
K(t) = n

[t,+[

s d(s), t < 0,

(7.6)

],t]

Z
E(Un f (Un )) = E( f 0 (Un1 + t)K(t) dt), f C.

(7.7)

Vu lindependance, (7.4) peut secrire:


Z Z
P(Un b) (b) = E(
[ fb0 (Un1 + s) fb0 (Un1 + t) ] K(t) dt d(s)).

(7.8)

Donnons quelques proprietes de K(t).


Lemme 7.4.1. K(t) est une densite de probabilite verifiant
R

{|t|/ n} K(t) dt 1/2.

|t|K(t) dt =

R
Preuve: Evidemment K(t) 0. Par Fubini sur R+ et R , |t|r K(t) dt =
R
R
Do`
u K(t) dt = nE(Y12 ) = 1 et |t|K(t) dt = n2 E(|Y1 |3 ) = 2 n . Enfin

n
r+1

2 n

et

|s|r+2 d(s).

Z
Z
n
n
1
K(t) dt
|t|K(t) dt
|t|K(t) dt = . 

{|t|>/ n}

2
{|t|>/ n}

La preuve repose sur une inegalite de concentration pour Un1 .

Lemme 7.4.2. On a, pour tous a < b, P(a < Un1 < b) b a + 2/ n.


Preuve: On consid`ere la fonction f definie par f (x) = ba
2
f (x) = x

b+a
2

si a

x b+

et f (x) =

ba
2

si x a

si x b +

.
n

,
n

On a

95
|f (x)|

ba
2

et f C avec f 0 (x) = 1{a

xb+ n } .

On a alors, vu (7.7), le

lem. 7.4.1 et que E(|Un |) {E(Un2 )}1/2 = 1,


Z
1{a<Un1 <b} K(t) dt )
P(a < Un1 < b) 2E(

{|t|/ n}
Z
Z
2E( 1{a <Un1 +t<b+ } K(t) dt ) = 2E( f 0 (Un1 + t)K(t) dt)
n

= 2E(Un f (Un )) 2||f || ||Un ||1 b a + 2 . 


n
On peut maintenant exploiter (7.8). Remarquons dabord que, vu (7.5),
|fb0 (u + s) fb0 (u + t)| |(u + s)fb (u + s) (u + t)fb (u + t)| + |hb (u + s) hb (u + t)|
|u| |fb (u + s) fb (u + t)| + |sfb (u + s)| + |tfb (u + t)| + |hb (u + s) hb (u + t)|
(|u| + 1)(|t| + |s|) + 1{st} 1{bsubt} + 1{s<t} 1{btubs} .
R
Reportant ceci dans (7.8), on obtient, utilisant le lem. 7.4.2, que |t|K(t) dt =
R
2 )}1/2 1,
que |s| d(s) = E(|Y1 |) n et que E(|Un1 |) {E(Un1

,
2 n

Z Z
sup |P(Un b) (b)|
b

Z Z
+

(|s| + |t|)(E(|Un1 | + 1)K(t) d(s) dt


Z Z
bt)d(s) dt+
1{s<t} P(bt Un1 bs)d(s) dt

1{st} P(bs Un1


Z Z
13
2
.
3
(|s| + |t|)K(t) d(s) dt +
2 n
n

7.4.3. Il reste `a montrer (7.5). On a les inegalites classiques suivantes:


pour x 0, (x) x(1 (x)),

pour x 0, (x) |x| (x).

En effet, pour x > 0, on a (deriver) :


Z +
(x)
1
1
2
=
(1 + 2 )et /2 dt 1 (x).
x
t
2 x
Par symetrie on obtient le cas x < 0.
On suppose b 0. Le cas b < 0 se traite de facon analogue mais on voit facilement,
remplacant Un par Un , quil suffit de montrer (7.1) pour x 0. On remarque dabors
que:
pour x b, fb (x) =

(b)(1 (x))
;
(x)

pour x b, fb (x) =

(x)(1 (b))
.
(x)

(i) On suppose x > b. Alors fb0 (x) = (b)( x(1(x))


1) do`
u 1 fb0 (x) 0.
(x)

96

Convergence en loi

(ii) On suppose 0 x < b. Alors fb0 (x) = 1 (b) + x(x)


u 0 fb0 (x)
(x) (1 (b)) do`
1 (b) +

x(x)
(x) (1

(x)) 1 (b) + (x) 1.

(iii) On suppose x < 0 b. Alors fb0 (x) = (1 (b))(1 +


1 (b) 1.

x(x)
(x) )

do`
u 0 fb0 (x)

Le calcul precedent montre que fb (x) atteint son maximum en b. On a donc


1. En effet (b)(1(b))
(b)
0 fb (x) (b)(1(b))
b 1 si b b0 avec b0 0, 8
(b)
(b)
et, pour 0 b b0 ,

(b)(1(b))
(b)

1
4(b)

1
4(b0 )

1
4(0,8)

1. 

7.5. Compl
ement: comportement asymptotique de la m
ediane
empirique.
La lecture de cette section suppose que lon a lu la section 4.9. Soit une probabilite
sur R. On note F sa fonction de repartition (def. 4.3.1). On sait que F est continue
ssi ({x}) = 0 pour tout x R.
7.5.1. Mediane. Tout reel tel que (] , ]) 21 et ([, +[)
mediane de . On a donc, X etant une v.a. de loi ,
P(X )
i.e. F ()

1
2

1
2

sappelle la

1
1
et P(X )
2
2

et F () 12 . Il y a donc trois cas possibles.

(i) Il existe un unique tel que F () = 21 . Ce nombre est alors lunique mediane.
En particulier, cest le cas si F est continue strictement croissante.
(ii) Il existe une infinite de tel que F () = 21 . Tous ces nombres sont des medianes
et ce sont les seuls.
(iii) Il existe (evidemment unique) tel que F ()
est lunique mediane.

1
2

et F () > 12 . Ce nombre

7.5.2. On consid`ere maintenant une suite X1 , . . . , Xn , . . . de v.a.r. independantes de


meme loi . On suppose que F fonction de repartition de est continue. Soit Mn la
mediane empirique de X1 , . . . , X2n+1 (voir (4.29)).
Proposition 7.5.1. On suppose quil existe un unique tel que F () = 21 . Alors
Mn n p.s.
P
Preuve: Soient s < < t et Fn (u) = n1 ni=1 1],u ] (Xi ). Noter que p.s. F2n+1 (Mn ) =
n+1
e de ) F (s) < F () < F (t). Vu le th.6.4.1, F2n+1 (s) n
2n+1 et que (vu lunicit
F (s) < 12 et F2n+1 (t) n F (t) > 12 p.s. et donc 1]s,t ] (Mn ) n 1 p.s. On en deduit
que p.s. lim inf n Mn et lim supn Mn i.e. Mn n p.s. 

97
Th
eor`
eme 7.5.2. On suppose que a une densite p(x), quil existe
un unique tel
1
que F () = 2 , que p est continue en et que p() > 0. Alors Zn = 2n + 1(Mn )
converge en loi vers N1 (0, 4p21() ).
Preuve: Nous allons montrer que la densite gn (u) de Zn converge vers celle de
N1 (0, 4p21() ) uniformement sur tout compact, ce qui montrera le theor`eme vu la
prop 7.2.2 en choisissant H = Ck . Dapr`es (4.33), la densite de Mn est:
(2n + 1)!
(F (t))n (1 F (t))n p(t).
(n!)2
Un changement de variable montre que celle de Zn est:
gn (u) = n . {n (u) }n . p( +

u
u
)(1 F ( +
)).
2n + 1
2n + 1
q

2
Utilisant la formule de Stirling n! ( ne )n 2n, on voit que n n
. Fixons
n =

(2n + 1)! 1

,
(n!)2 2n + 1 4n

u
)
2n + 1

n (u) = 4F ( +

A > 0. Lecriture n (u) = o( a1n ) signifie que an n (u) n 0 uniformement en |u| A.


On a alors, puisque F 0 = p et F () = 12 ,
u
u
) = 1+
p() (1 + o(1))
2n + 1
2n + 1
u
u
2(1 F ( +
)) = 1
p() (1 + o(1)),
2n + 1
2n + 1
2F ( +

do`
u
n log n (u) = n(

1
4u2 2
p () + o( )) = 2u2 p2 () + o(1).
2n + 1
n

Finalement
2p() 2u2 p2 ()
gn (u) n
e
uniformement en |u| A.
2
Mais cette derni`ere expression est la densite de N1 (0, 2 ) pour 2 =

1
.
4p2 ()

7.5.3. Dans bien des cas, le th. 7.5.2 peut remplacer avantageusement le th. 7.3.1. Par
exemple soit X1 , . . . , X2n+1 un 2n + 1 echantillon de la loi de Cauchy de densite
p (x) =

1
.
(1 + (x )2 )

Cette loi na pas de moyenne mais a pour mediane. De plus p () = 1 . Dans ce cas

2
Mn n p.s. et 2n + 1(Mn ) tend en loi vers N1 (0, 4 ).
Plus generalement soit p(x) une fonction definie sur R, positive,R paire, continue au
voisinage de 0 et dintegrale 1. On suppose que a = p(0) > 0 et que x2 p(x) dx = 2 <

98

Convergence en loi

+. On consid`ere un 2n+1 echantillon de la loi de densite p (x) = p(x). cette loi a


pour P
moyenne et pour mediane . Pour estimer , on peut utliser aussi bien X 2n+1 =
2n+1
1
es
i=1 Xi que Mn . Pour comparer ces estimateurs, on peut observer que, dapr`
2n+1
les th. 7.3.1 et 7.5.2, X 2n+1 et Mn sont, pour n assez grand, approximativement
2
1
gaussiens de moyenne et de variances 2n+1
et 4a2 (2n+1)
. On peut, suivant les cas,
preferer lun ou lautre.

Chapitre 8

Notions de statistique
8.1. Echantillon. Mod`
ele statistique
8.1.1. Repartition empirique. Soit une probabilite sur Rd .
D
efinition 8.1.1. On appelle echantillon de taille n (ou n-echantillon) de la loi
une suite X1 , . . . , Xn de n v.a. independantes et de loi .
On appelle realisation du n-echantillon le resultat de n tirages independants selon
la loi . Cest une suite x1 , . . . , xn de Rd .
Par extension, on appelle echantillon de taille infinie de la loi une suite de
(Xn , n 1) de v.a. independantes et de loi .
D
efinition 8.1.2. Soit X = (X1 , . . . , Xn , . . .) un echantillon de taille infinie de la
loi . La probabilite (aleatoire)
n

X
n =

1X
Xk
n

(8.1)

k=1

sappelle la repartition empirique dordre n de .


On a alors:
Proposition 8.1.3. Presque s
urement, X
etroitement vers .
n converge
Preuve: Dapr`es la loi des grands nombres, pour toute f Cb ,
n

Z
f

dX
n

1X
=
f (Xk ) n E(f (X1 )) =
n

Z
f d p.s.

k=1

R
R
Soit = {1 , . . . , p , . . .} un ensemble dense dans C0 . On a p.s. p dX
p d
n n
pour tout p et donc (prop. 7.1.2) p.s. X
converge

e
troitement
vers
.

n

100

Notions de statistique

8.1.2. Le cas reel. On suppose d = 1 et on note F la fonction de repartition de . La


fonction de repartition de X
epartition empirique de et
n sappelle la fonction de r
se note FnX . On a donc
n

FnX (t) = X
n (] , t ]) =

1X
1],t ] (Xk ).
n

(8.2)

k=1

Il resulte de (8.2) que nFnX (t) B(n, F (t)) et que, pour tout t, FnX (t) n F (t) p.s.
En fait, on a un resultat beaucoup plus fort appele theor`eme de Glivenko-Cantelli:
Th
eor`
eme 8.1.4. suptR |FnX (t) F (t)| n 0 p.s.
Preuve: On pose Fn = FnX .
(i) On suppose que est la loi uniforme sur [0, 1]. Dapr`es (8.2) et la loi des grands
nombres, il existe A A avec P(A) = 1 tel que, pour tout A, tout k 0 et
tout p > 0, Fn ( kp ) n F ( kp ). On a alors, pour A, pour k = 1, . . . , p et pour
k
t [ k1
p , p ],
Fn (

k1
k1 1
k1
k
k
k1
k
k 1
)
= Fn (
) Fn (t)t Fn ( )
= Fn ( ) +
p
p
p
p
p
p
p
p
p p

do`
u

k
k
1
sup |Fn (t) t| max |Fn ( ) | +
1kp
p
p
p
0t1

et lim supn sup0t1 |Fn (t) t|


sup0t1 |Fn (t) t| n 0.

1
p.

Comme p est arbitraire, ceci implique que

(ii) On suppose quil existe des v.a. U1 , . . . , Un , . . . independantes et de loi U (0, 1)


telles que Xn = F 1 (Un ) o`
u F 1 (u) = inf(t, F (t) u). Rappelons (voir(4.15)) que
u F (t)Pssi F 1 (u) t. On note G la fonction de repartition de U (0, 1) et on pose
Gn = n1 nk=1 1],t ] (Uk ). Vu que Uk F (t) ssi Xk t, on a
Fn (t)F (t) =

k=1

k=1

1X
1X
1],t ] (Xk )F (t) =
1],F (t) ] (Uk )F (t) = Gn (F (t))F (t).
n
n

On a donc suptR |Fn (t) F (t)| = suptR |Gn (F (t)) F (t)| sup0t1 |Gn (t) t|
avec egalite si F est continue car alors F (R) ]0, 1[. Ceci montre que suptR |Fn (t)
F (t)| n 0 p.s. et que sa loi est independante de F si F est continue.
(iii) En fait on ne peut pas toujours ecrire que Xn = F 1 (Un ) mais il existe un espace
de probabilite (0 , A0 , P0 ) et, sur cet espace, des v.a. U10 , . . . , Un0 , . . . independantes et
de loi U (0, 1) telles que les v.a. Xn0 = F 1 (Un0 ) soient independantes et de meme loi
que Xn (prop. 4.3.2). On conclut alors grace `a:
Lemme 8.1.5. Soient, pour i = 1, 2, (Xni , n 1) des v.a.r. definies sur (i , Ai , Pi )
telles que, pour tout n, (X11 , . . . , Xn1 ) et (X12 , . . . , Xn2 ) aient meme loi et n B + (Rn ).
Alors, si n (X11 , . . . , Xn1 ) n 0 P1 p.s., n (X12 , . . . , Xn2 ) n 0 P2 p.s.

101
Preuve: Ceci resulte de ce que Zni = n (X1i , . . . , Xni ) n 0 Pi p.s ssi, pour tout
> 0,
sup Pi ( max |Zni | > ) n 0. 
nkn+m

R
8.1.3. Moments empiriques.
Soit une
probabilite sur R telle que |x|p d < +,
R
R
p 2. On note m = x d(x), 2 = (x m)2 d(x). On pose, pour r N, r p,
Mnr

Z
=

dX
n (x)

1X r
Xk .
=
n

(8.3)

k=1

Alors Mnr sappelle le moment empirique dordre r. En particulier, on note


n

X n = Mn1 =

1X
Xk ,
n

(8.4)

k=1

quantite qui sappelle la moyenne empirique. On a


E(X n ) = m, Var(X n ) =

n
2
1 X
Var(X
)
=
k
n2
n
k=1

et (loi des grands nombres) X n n m p.s.


Lemme 8.1.6. Soient a, x1 , . . . , xn R et x =
n
X

(xk x) =

k=1

n
X

1
n

Pn

k=1 xk .
2

(xk a) n(x a) =

k=1

n
X

Alors
x2k n(x)2 .

k=1

P
Preuve: Il suffit de noter que (xk x) = 0 et decrire xk x = xk a + a x. 
Soit s2n la variance de la repartition empirique X
n . On a, vu le lem.8.1.6,
s2n

k=1

k=1

k=1

1X 2
1X
1X
=
Xk (X n )2 =
(Xk X n )2 =
(Xk m)2 (X n m)2
n
n
n
2

et E(
s2n ) = 2 n 6= 2 . Cest pourquoi on pref`ere en general appele variance empirique
la quantite
n
1 X
2
sn =
(Xk X n )2
(8.5)
n1
k=1

qui verifie

E(s2n )

2.

Noter (lem. 8.1.6) que


n

s2n =

1 X 2
n
Xk
(X n )2 n E(X12 ) m2 = 2 p.s.
n1
n1
k=1

Si n est fixe, on ecrit simplement X et s2 pour X n et s2n .

102

Notions de statistique

8.1.4. Mod`ele statistique. Soit X = (X1 , . . . , Xn ) un n-echantillon dune loi sur R.


En statistique, la loi est totalement ou partiellement inconnue, ce quon mod`elise
en disant que appartient `a la famille ( , ). Dans ce polycopie, le plus souvent
on aura Rp . Alors X = (X1 , . . . , Xn ) est une v.a. de loi n
. Ceci est un cas
particulier de la situation plus generale suivante.
D
efinition 8.1.7. On appelle mod`ele statistique un terme (X , A, (P ) ) o`
u (P )
est une famille de probabilites sur lespace mesurable (X , A).
Lensemble sappelle lespace des param`etres et on note X lapplication identique de X dans X . On appellera statistique `a valeurs (E, E) toute application
mesurable de (X , A) dans (E, E). Evidemment, pour chaque , (X , A, P ) est
un espace de probabilite. On note alors E lesperance pour P . Tr`es grossi`erement le
probl`eme est le suivant. On tire x X selon P , etant inconnu et, `a la vue du
point x tire, on cherche `a dire quelque chose sur .
Exemple. Soit X1 , . . . , Xn ) un n-echantillon de la loi N1 (m, 2 ), m et 2 etant inconnus. Decrivons le mod`ele statistique correspondant. On a
X = Rn , A = B(Rn ), = (m, 2 ), = R]0, [, P = q .
avec
q (x1 , . . . , xn ) = (2 2 )n/2 exp(

n
1 X
(xk m)2 ).
2 2
k=1

Plus generalement:
D
efinition 8.1.8. Soit ( , ) une famille de probabilites sur Rd . On appelle mod`ele statistique associe `
a un echantillon de taille infinie de le mod`ele
(X , A, (P ) ) o`
u
X = (Rd )N , x = (x1 , . . . , xn , . . .), Xn (x) = xn , A = (Xn , n 1)
et o`
u, pour chaque , P est une probabilite sur (X , A) telle que les v.a. X1 , . . . , Xn , . . .
soient independantes et de loi .
On admet lexistence dune telle probabilite P qui est unique vu le cor. 3.2.3
applique `a C = n (X1 , . . . , Xn ).

8.2. Estimation
Soient (X , A, (P ) ) un mod`ele statistique et f une application mesurable de
dans R. On veut estimer f () `a la vue de x X resultat dun tirage selon P ,
inconnu. Un estimateur de f () est donc une application mesurable T de X dans
R. Si on a tire x, on estime f () par T (x). Il reste `a preciser ce quest un bon
estimateur.
8.2.1. Risque quadratique.

103
D
efinition 8.2.1. Soit T un estimateur de f (). On appelle risque quadratique de T
la fonction
RT () = E [(T f ())2 ].
(8.6)
Soient S et T deux estimateurs de f (). On dit que T est au moins aussi bon que
S si, pour tout , RT () RS (). On dit T est meilleur que S sil est au moins
aussi bon et si, pour un , RT () < RS (). Enfin on dit que T est admissible
sil nexiste pas un meilleur estimateur. Il faut noter que comparer des estimateurs,
cest comparer des fonctions de et, quen general, il ny a aucune raison pour que
lun soit meilleur que lautre. Par exemple, soit a et T = f (a). Alors RT (a) = 0
et, en a, cet estimateur aura un risque plus faible que tous les autres alors que, pour
dautres valeurs de , son risque sera eleve. Pour avoir un estimateur optimal, on
est donc amene `a restreindre la classe des estimateurs consideres. Cest pourquoi on
introduit:
D
efinition 8.2.2. On dit que T est un estimateur sans biais de f () (en abrege
e.s.b.) si, pour tout , E (T ) = f ().
Cest une qualite quil est naturel dimposer `a un estimateur. Cependant cette
condition est assez contraignante ce qui est un avantage (on aura assez facilement
des estimateurs sans biais optimaux parmi les e.s.b.) et un inconvenient (on laisse
echapper de tr`es bons estimateurs).
Si T est un e.s.b. de f (), alors
RT () = E [(T f ())2 ] = E [(T E (T ))2 ] = Var (T ),
ce qui conduit `a la definition suivante.
D
efinition 8.2.3. Soit T un estimateur de f (). On dit que T est un estimateur
sans biais de variance minimum de f () (en abrege e.s.b.v.m.) si T est un e.s.b. de
f () et si, pour tout S e.s.b. de f (), on a, pour tout , Var (T ) Var (S).
8.2.2. Exemple. Soit X un 1-echantillon de B(n, ), 0 < < 1 inconnu. On veut
estimer f1 () = , f2 () = 2 , f3 () = 2 .
Notons dabord que, si 1 et 2 sont deux e.s.b. de f (), on a, posant = 1 2 ,
pour tout , E ((X)) = 0, soit:
0=

n
X

Cnk k (1 )nk (k) = (1 )n

k=0

n
X
k=0

Cnk (

k
) (k).
1

Pn

Donc, pour tout u ]0, 1[, k=0 Cnk (k)uk = 0 et 0 i.e. 1 = 2 . Un e.s.b. est
donc unique et cest un e.s.b.v.m.
(i) On sait que E (X) = n do`
u

X
n

est un e.s.b. et donc un e.s.b.v.m. de .

(ii) On sait que Var (X) = n(1) do`


u E (X 2 ) = n2 2 +n(1) = n(n1)2 +n
X(X1)
et n(n1 est un e.s.b. et donc un e.s.b.v.m. de 2 .

104

Notions de statistique

(iii) Il resulte de (i) et (ii) que E ( X


n
2
et aussi un e.s.b.v.m. de .

X(X1)
n(n1 )

= 2 . Donc

X(nX)
n(n1

est un e.s.b.

8.2.3. Un crit`ere general.


Proposition 8.2.4. Soit T un e.s.b. de f (). Cest un e.s.b.v.m. ssi, pour toute
statistique reelle U telle que, pour tout , E (U ) = 0, on a, pour tout ,
E (T U ) = 0.
Preuve: (i) On suppose que T verifie la condition ci-dessus. Soient S un e.s.b. de
f () et U = S T . On a E (U ) 0 et
Var (S) = Var (T + U ) = Var (T ) + Var (U ) + 2Cov (T, U ) Var (T )
puisque Cov (T, U ) = E (T U ) E (T )E (U ) 0.
(ii) On suppose que T est un e.s.b.v.m. de f (). Soient U telle que E (U ) 0 et
S = T + U . Evidemment S est un e.s.b. de f (). On a, puisque E (U ) 0,
Var (S) = Var (T + U ) = Var (T ) + 2E (T U ) + 2 Var (U ).
Supposons E (T U ) > 0. Choisissant < 0 assez pr`es de 0, on a Var (S) < Var (T ) ce
qui contredit T e.s.b.v.m. On fait le meme raisonnement si E (T U ) < 0 et finalement
on obtient E (T U ) 0.
8.2.4. Applications.
(i) Soit X1 , . . . , Xn un n-echantillon de la loi de Poisson P(), > 0 inconnu. On
veut estimer . La loi de (X1 , . . . , Xn ) est
P (X1 = x1 , . . . , Xn = xn ) = en

x1 +...+xn
, xk N.
x1 ! . . . xn !

P
Puisque E (X1 ) = , X = n1 nk=1 Xk est un e.s.b. de . Soit U = U (x1 , . . . , xn ),
xk N, telle que E (U ) 0. On a alors, pour tout > 0,
X

U (x1 , . . . , xn )

x1 ,...,xn

x1 +...+xn
= 0.
x1 ! . . . xn !

(8.7)

Derivant (8.7) en , on a, pour tout ,


X

U (x1 , . . . , xn )(x1 + . . . + xn )

x1 ,...,xn

x1 +...+xn
= 0,
x1 ! . . . xn !

soit encore E (U X) 0. On applique la prop. 8.2.4 et X est un e.s.b.v.m. de .


(ii) Soit X1 , . . . , Xn un n-echantillon de la loi normale N1 (m, 2 ), = (m, 2 ) inconnu.
On veut estimer m et 2 . On sait que la densite de (X1 , . . . , Xn ) est
2 n/2

q (x1 , . . . , xn ) = (2 )

n
1 X
exp( 2
(xk m)2 ).
2
k=1

105
Posant

n
n
1X
1
1 X
2
x
=
,
x
,
s
=
(xk x)2 ,
k
0
2 2
n
n1
k=1
k=1
P
Pn
on a, puisque (lem.8.1.6) k=1 (xk m)2 = nk=1 (xk x)2 + n(x m)2 ,

q (x1 , . . . , xn ) = ( )n/2 exp((n 1)s20 n(x m)2 ).

Soit U = U (x1 , . . . , xn ) telle que E (U ) 0. Alors, pour tous m, ,


Z
U (x1 , . . . , xn ) exp((n 1)s20 n(x m)2 ) dx1 . . . dxn = 0.
Derivant (8.8) en m, on a, pour tous tous m, ,
Z
U (x1 , . . . , xn )(x m) exp((n 1)s20 n(x m)2 ) dx1 . . . dxn = 0.

(8.8)

(8.9)

Soit encore E (U (X m)) 0 et, vu que E (U ) 0, E (U X) 0. Comme X est un


e.s.b. de m, la prop. 8.2.4 implique que cest un e.s.b.v.m.
Derivant (8.9) en m, on a, pour tous tous m, ,
Z

U (x1 , . . . , xn )(1 + 2n(x m)2 ) exp((n 1)s20 n(x m)2 ) dx1 . . . dxn = 0,

do`
u E ((1 + 2n(X m)2 )U ) 0 et E ((X m)2 U ) 0.
Derivant (8.8) en , on a, pour tous tous m, ,
Z

U (x1 , . . . , xn )((n 1)s20 + n(x m)2 ) exp((n 1)s20 n(x m)2 ) dx1 . . . dxn = 0

1 Pn
2
i.e. E (U ((n 1)s2 + n(X m)2 )) 0 o`
u s2 = n1
k=1 (Xk X) . On a vu que
E ((X m)2 U ) 0, on a donc E (U s2 ) 0. On sait (8.1.2) que s2 est un e.s.b. de
2 , cest donc un e.s.b.v.m. (prop.8.2.4).

8.2.5. Consistance. Soit (X , A, (P ) ) un mod`ele statistique.


D
efinition 8.2.5. Une suite Tn destimateurs de f () est dite consistante si, pour
tout , Tn n f () P p.s.
Il est clair que cette definition a un sens si f est `a valeurs Rp et alors Tn est une
suite dapplications de X dans Rp . Elle est surtout utile pour un mod`ele statistique
associe (voir la def. 8.1.8) `a un echantillon de taille infinie X1 , . . . , Xn , . . . dune loi
et des estimateurs Tn de la forme Tn = n (X1 , . . . , Xn ). Par exemple, si est une
loi sur R admettant un moment dordre 2, X n et sn sont des estimateurs consistants
de la moyenne et la variance de .

106

Notions de statistique

8.2.6. Methode des moments. Soient ( , ) une famille de probabilites sur Rd ,


(X , A, (P ) ) le mod`ele statistique associe `a un echantillon de taille infinie de
(def. 8.1.8) et f : Rp . On veut estimer f (). On consid`ere des fonctions g1 , . . . gr
de Rd dans R telles que, pour tout et pour i = 1, . . . , r, E (|gi (X1 )|) <
+ et on pose mi () = E (gi (X1 )). On suppose que f () peut secrire f () =
(m1 (), . . . , mr ()) avec continue.
Dapr`es la loi forte des grands nombres,
n

pour tout , pour i = 1, . . . , r,

m
ni

1X
=
gi (Xk ) n mi () P p.s..
n
k=1

Donc, si on pose,
Tn = (m
n1 , . . . , m
nr ),

(8.10)

pour tout , Tn n f (), P p.s. i.e. Tn est une suite consistante destimateurs
de f (). Donc, si n est asez grand, on peut utiliser Tn comme estimateur de f ().
Si d = 1, on peut choisir g1 (u) = u, g2 (u) = u2 . . . , gr (u) = ur et lon a mi () =
E (X1r ) do`
u le nom de methode des moments.
Exemple 1. Soit X1 , . . . , Xn un n-echantillon de la loi sur R+ G(a, c), = (a, c)
inconnu. On a (voir 4.3.1.d):
m1 () = E (X1 ) =

a
a
, m2 () = E (X12 ), 2 () = Var (X1 ) = m2 () (m1 ())2 = 2 .
c
c

Donc

(m1 ())2
m1 ()
, c= 2
.
2
()
()
P
P
On a m
1 = n1 nk=1 Xk = X, m
2 = n1 nk=1 Xk2 et, posant
a=

2 = m
2 (m
1 )2 =

k=1

k=1

1X 2
1X
Xk (X)2 =
(Xk X)2 ,
n
n

on obtient comme estimateurs de a et c:


a
=

(X)2
X
, c = 2 .
2

Exemple 2. Soit X1 , . . . , Xn un n-echantillon de la loi sur R de densite q donnee


par
q (x) = q1 (x) + (1 ) q2 (x),
o`
u q1 et q2 sont des densites connues et [0, 1] un param`etre inconnu quon veut
estimer. Soit (i , i = 1, . . . , r) une partition de R en intervalles. On pose
Z
Z
i,1 =
q1 (u) du, i,2 =
q2 (u) du
i

107
et on suppose i,1 6= i,2 pour tout i. On choisit
gi (u) = 1{ui }
et on a
mi () = P (X1 i ) = i,1 + (1 )i,2 .
Il y a de multiple facon dexprimer comme fonction des mi () puisque, pour chaque
m ()
i, = ii,1 i,2i,2 . On choisit
r

1 X mi () i,2
.
=
r
i,1 i,2
k=1

On obtient alors comme estimateur de :


r

k=1

k=1

i i,2
1X m
1X
=
, m
i =
1{Xk i } .
r
i,1 i,2
n
8.2.7. Methode du maximum de vraisemblance. Considerons le mod`ele statistique
suivant. X = {x1 , x2 }, = {1 , 2 },
P1 (x1 ) =

1
99
99
1
, P1 (x2 ) =
, P2 (x1 ) =
, P2 (x2 ) =
.
100
100
100
100

On tire un point de X selon Pi , i = 1, 2, inconnu. Supposons quon obtienne x1 .


1
Il est naturel destimer par 2 . Qua-t-on fait ? On a compare P1 (x1 ) = 100
et
99
P2 (x1 ) = 100 et on a choisi la valeur de rendant maximum la fonction 7 P (x1 ).
Cest le principe de la methode du maximum de vraisemblance.
Soit (X , A, (P ) ) un mod`ele statistique. On suppose quil existe une mesure
-finie sur (X , A) telle que, pour tout , P = f . et on pose
L(x; ) = f (x).

(8.11)

La fonction 7 L(x; ) sappelle la fonction de vraisemblance associee `a x.


D
efinition 8.2.6. Soit T : X . On dit que T est un estimateur du maximum de
vraisemblance de (en abrege e.m.v.) si,
pour tout x X , L(x; T (x)) = sup L(x; ).

(8.12)

Pour calculer un e.m.v., on est donc amene `a chercher, pour tout x X , pour
quelle(s) valeur(s), 7 L(x; ) ou, ce qui revient au meme, 7 log L(x; ) est
maximum. Si est un ouvert de Rd , si L(x; ) 0 lorsque tend vers le bord de
et si L est derivable en , ces valeurs sont `a chercher parmi les solutions de

log L(x; ) = 0, i = 1, . . . , d.
i

(8.13)

108

Notions de statistique

Lequation (8.13) sappelle lequation de vraisemblance.


Pour un echantillon de taille finie, il est difficile de justifier cette methode. Par
contre, pour un echantillon de taille infinie X1 , . . . , Xn , . . . et sous des hypoth`eses
relativement generales, il existe une suite Tn consistante (voir 8.2.5) destimateurs de
, Tn etant un e.m.v. associe au n-echantillon (X1 , . . . , Xn ).
8.2.8. Exemples.
(i) Soit X1 , . . . , Xn un n-echantillon de la loi sur R+ de densite ex , > 0 inconnu.
+
Prenant = n
+ , + mesure de Lebesgue sur R , on a
L(x; ) = L(x1 , . . . , xn ; ) = n e(x1 +...+xn )
et, posant x = n1 (x1 + . . . + xn ),
log L(x; ) = n log nx.
d
Alors d
log L(x; ) = n nx = 0 pour = = 1/x. Vu que L(x; ) 0 lorsque
0 et +, cette valeur correspond `a un maximum est 1/x est le.m.v. de .

(ii) Soit X1 , . . . , Xn un n-echantillon de N1 (m, 2 ), = (m, 2 ) inconnu. On a


n
n
1 X
n
(xk m)2 .
log L(x; ) = log L(x1 , . . . , xn ; ) = log 2 log 2 2
2
2
2
k=1

On en deduit (on consid`ere 2 comme une variable)

log L(x; ) =
m

n
1 X
(xk m)
2
k=1

n
1 X
(xk m)2 .
log
L(x;
)
=

+
2
2 2 2 4
k=1

Alors

log L(x; ) =
m
=

log L(x; ) = 0 a pour solution

k=1

k=1

k=1

1X
1X
1X
2 =
xk = x,
(xk m)
2=
(xk x)2 .
n
n
n

On verifie que ces valeurs


correspondent bien `a un maximum. Le.m.v. de (m, 2 ) est
1 Pn
2
2
2
donc (X, s ) o`
u s = n k=1 (Xk X)2 . Noter que s2 = n1
n s nest pas sans biais.

8.3. Intervalle de confiance


On consid`ere un mod`ele statistique (X , A, (P ) ) et une application mesurable f
de dans R. Plutot que destimer f () par un nombre T (x) qui est probablement
voisin de f () mais pratiquement jamais egal `a f (), on peut envisager de repondre

109
f () I(x), I(x) etant un intervalle dependant du point tire x et de preciser cette
reponse en disant que f () I(x) avec une probabilite au moins egale `a 0, 9 ou
0, 95 . . . . . ..
8.3.1. Ceci conduit `a:
D
efinition 8.3.1. On appelle intervalle de confiance de niveau 1 pour f () une
famille dintervalles (I(x), x X ) telles que, pour tout ,
P (f () I(X)) 1 .
Evidemment une deuxi`eme notion intervient pour juger de la qualite dun intervalle de confiance, `a savoir sa longueur et, plus on voudra petit, plus lintervalle
sera long.
8.3.2. Fonction pivotale. On presente un procede relativement general pour construire
des intervalles de confiance. On appellera fonction pivotale monotone une application
mesurable g(x, u) de X R dans R telle que
(i) pour tout , la v.a. g(X, f ()) suit une loi independante de ,
(ii) pour tout x X , u 7 g(x, u) est strictement monotone.
On choisit alors a < b tels que (]a, b[) = 1 , on a donc, pour tout ,
P (g(X, f ()) ]a, b[) = (]a, b[) = 1 . Mais, vu la monotonie, {g(X, f ())
]a, b[} = {f () ]A(X), B(X)[} et I(x) =]A(x), B(x)[ est un intervalle de confiance
de niveau 1 pour f ().
Exemple. Soit X1 , . . . , Xn un n-echantillon de N1 (, 2 ), 2 etant connu et inconnu.
2
Alors X N1 (, n ) et
X
n
N1 (0, 1).

Donc g(x, ) = n x
est une fonction pivotale monotone.
Etant
donn
e
,
on choisit c = c() dans une table de loi normale telle que
R c t2 /2
1
e
dt = 1 et on a , pour tout R,
2 c
|X |
c
c
< c) = P ( ]X , X + [) = 1 .
P ( n

n
n
Evidemment, dans la plupart des cas, 2 nest pas connu. On peut envisager de

remplacer par son estime s ce qui conduit `a etudier la distribution de n X


s .
8.3.3. Echantillons gaussiens.
D
efinition 8.3.2. Soit X1 , . . . , Xn un n-echantillon de N1 (0, 1). On appelle loi de
chi-carre `
a n degres de liberte et on note 2n la loi de X12 + . . . + Xn2 .
On sait (4.6.1) que X12 G( 21 , 12 ) donc (5.2.2.d) X12 + . . . + Xn2 G( n2 , 12 ) et la
densite de la loi 2n est:
(x) =

x
n
1
e 2 x 2 1 1R+ (x).
n
2 ( 2 )
n
2

(8.14)

110

Notions de statistique

D
efinition 8.3.3. Soient X et Y deux v.a.r. independantes avec X N1 (0, 1) et
Y 2n . On appelle loi de Student `
a n degres de liberte et on note tn la loi de
X
T =p
.
Y /n
Un calcule facile montre que la loi tn a pour densite:
h(t) =

( n+1
t2 n+1
2 )
(1
+
) 2
n
n + 1 ( n2 )

(8.15)

Th
eor`
eme 8.3.4. Soit X1 , . . . , Xn un n-echantillon de N1 (m, 2 ). Alors X et s2
2
2
definis par (8.4) et (8.5) sont independants, X N1 (m, n ) et (n 1) s 2 2n1 . En

particulier n Xm
tn1 .
s
Preuve: A. On suppose m = 0 et 2 = 1. Alors X = (X1 , . . . , Xn ) Nn (0, In ).
Soient A une matrice orthogonale n n de la forme

A=

...
...
...
...

...
...
...
...

1
n

1
n

...
...
...
...
...

...
...
...
...
1
n

et Y = (Y1 , . . . , Yn ) = AX. On a Y Nn (0, In ) puisque K(Y ) = A K(X) AT =

A AT = In , Yn = 1n (X1 + . . . + Xn ) = n X et, vu que ||X||2 = ||AX||2 = ||Y ||2 ,


(n 1)s2 =

n
X

(Xk X)2 =

k=1

Ceci implique que X =


qui suit 2n1 .

n
X

Xk2 n(X)2 =

k=1
1 Yn
n

n
X
k=1

Yk2 Yn2 =

n1
X

Yk2 .

k=1

N1 (0, 1n ) et est independant de (n1)s2 =

Pn1
k=1

Yk2

B. On revient au cas general. On pose Zk = 1 (Xk m). Alors Z = (Z1 , . . . , Zn )


un n-echantillon de N1 (0, 1), X = m + Z et
(n 1)s2X =

n
X
k=1

(Xk X)2 = 2

n
X

(Zk Z)2 = 2 (n 1)s2Z .

k=1

2
Do`
u n Xm
N1 (0, 1), (n 1) s 2 2n1 et sont independants. Appliquant la

def. 8.3.3, on obtient la derni`ere affirmation. 


Application. Soit X1 , . . . , Xn un n-echantillon de N1 (m, 2 ), = (m, 2 ) inconnu. On
cherche des intervalles de confiance pour m et 2 .

111
(i) On choisit c = c() tel que P(|T | < c) = 1 o`
u T tn1 . Alors (th.8.3.4), pour
2
tout = (m, ),
X m
cs
cs
| < c) = P (m ] X , X + [) = 1 .
P ( n |
s
n
n
(ii) On choisit a < b tels que P(a < Y < b) = 1 o`
u Y 2n1 . Alors (th.8.3.4),
2
pour tout = (m, ),
P (a < (n 1)

(n 1)s2 (n 1)s2
s2
2
<
b)
=
P
(

]
,
[) = 1 .

2
b
a

8.3.4. Intervalle de confiance asymptotique. Un intervalle de confiance asymptotique


de niveau 1 pour f () est une suite de familles dintervalles (In (x), x X ) telle
que, pour tout ,
P (f () In (X) ) n 1 .
Pour construire de tels intervalles, on peut utiliser (rappelons que X n et sn ont ete
definis en (8.4) et (8.5)):
Proposition 8.3.5. Soit (Xn , n 1) une suite de v.a.r. de carre integrable independantes
et de meme loi. On pose m = E(X1 ), 2 = Var(X1 ) quon suppose > 0. Alors
X n m
n sn 1{sn >0} converge en loi vers N1 (0, 1).
Preuve: On a

Xn m
Xn m
n
1{sn >0} = n
. 1{sn >0} .
sn

sn

Dune part n X nm converge en loi vers N1 (0, 1) (th. 7.3.1). Dautre part sn n
p.s. (8.1.3) et donc sn 1{sn >0} n 1 p.s. On conclut par la prop. 7.2.7. 
Soit (Xn , n 0) Run echantillon de taille infinie dune loi sur R de densite q
de moyenne m avec x2 d(x) < +. On a alors P(X1 = X2 ) = 0 et, a fortiori,
Rc
2
P (sn > 0) = 1. On choisit c = c() tel que (2)1/2 c et /2 dt = 1 . Donc, vu
les prop. 8.3.5 et 7.2.4,
|X n m|
csn
csn
P( n
< c) = P( m ]X n , X n + [ ) n 1 .
sn
n
n
On a construit un intervalle de confiance asymptotique de niveau 1 pour m.

8.4. Tests
8.4.1. Generalites. Soit (X , A, (P ) ) un mod`ele statistique. On suppose que =
H0 H1 avec H0 H1 = . Il sagit, `a la vue du point x tire selon P , inconnu, de
decider si H0 ou non. Cela sappelle tester lhypoth`ese H0 contre lhypoth`ese H1 .
Un test de H0 contre H1 est donc un sous-ensemble W de X , appele region critique

112

Notions de statistique

ou region de rejet. Si le point tire x appartient `a W , on rejette lhypoth`ese H0 , si


x
/ W , on laccepte.
Il y a deux types derreur.
(i) Si H0 , P (W ) represente la probabilite de rejeter `a tort H0 , cest lerreur de
premi`ere esp`ece.
(ii) Si H1 , P (W c ) = 1 P (W ) represente la probabilite daccepter `a tort H0 ,
cest lerreur de deuxi`eme esp`ece.
Dans la theorie classique des tests, on fixe un seuil maximum `a lerreur de premi`ere
esp`ece `a savoir 0, 1, 0, 05, 0, 01 . . . ce qui conduit `a la definition:
D
efinition 8.4.1. Soit W la region critique dun test de H0 contre H1 . La quantite
= (W ) = sup P (W )

(8.16)

H0

sappelle le niveau du test. La fonction de H1 dans [0, 1], 7 P (W ), sappelle la


fonction puissance du test.
Le niveau etant fixe, il sagit de trouver des regions W telles que, pour H1 ,
P (W ) soit le plus grand possible. Comme en estimation, il est quasiment impossible
de trouver un test optimal si on ne restreint pas la classe consideree.
D
efinition 8.4.2. Soit W la region critique dun test de H0 contre H1 . On dit que
le test est sans biais au seuil sil est de niveau inferieur ou egal `
a et si, pour tout
H1 , P (W ) .
D
efinition 8.4.3. Un test de region critique W de niveau de H0 contre H1 est dit
uniformement plus puissant sans biais (en abrege U.P.P.S.B.) sil est sans biais au
seuil et si, pour tout test de region critique W 0 sans biais au seuil de H0 contre
H1 , on a, pour tout H1 , P (W ) P (W 0 ).
Terminons ces generalites par un mot de la theorie asymptotique.
D
efinition 8.4.4. Une suite de tests de H0 contre H1 de region critique Wn est dite
consistante de niveau asymptotique si, pour tout H0 , P (Wn ) n et si, pour
tout H1 , P (Wn ) n 1.
8.4.2. Le lemme de Neyman-Pearson. Dans le cas dhypoth`eses simples i.e. reduites
`a un point, il est facile davoir un test optimal.
Lemme 8.4.5. On suppose = {0 , 1 } et P0 = h0 ., P1 = h1 .. Alors W =
{x, h1 (x) h0 (x)} est, pour tout > 0, la region critique de = 0 contre = 1
le plus puissant `
a son niveau.

113
Preuve: Soit D la region critique dun autre
R test tel que P0 (D) P0 (W ). On
remarque que (1W 1D )(h1 h0 ) 0 do`
u (1W 1D )(h1 h0 ) d 0 et
Z
Z
P1 (W )P1 (D) = (1W 1D )h1 d (1W 1D )h0 d = (P0 (W )P0 (D)) 0.
Le test de region critique W est plus puissant que le test de region critique D. 
Pour utiliser le lem.8.4.5, etant donne , on determine par la condition
Z
h0 d = .
P0 ({h1 h0 }) =
{h1 h0 }

8.4.3. Tests sur echantillons gaussiens.


1. Soit X1 , . . . , Xn un n-echantillon de N1 (m, 2 ) avec = (m, 2 ) inconnu. Soit
m0 R fixe. Il sagit de tester H0 : m = m0 contre H1 : m 6= m0 . On sait (def. 8.3.3)

que n Xm
tn1 . Considerons
s
W ={

n|

X m0
| > c}.
s

Sous H0 i.e. si m = m0 , P (W ) = P(|T | > c) o`


u T tn1 . On determine c = c()
comme solution de P(|T | > c) = `a laide dune table de la loi de Student et W est
la region critique dun test de niveau de m = m0 contre m 6= m0 . On peut montrer
que ce test est U.P.P.S.B.
2. Soient X1 , . . . , Xn un n-echantillon de N1 (m1 , 2 ) et Y1 , . . . , Yr un r-echantillon
de N1 (m2 , 2 ). On suppose (Xi , 1 i n) et (Yj , 1 j r) independants. On a
= (m1 , m2 , 2 ) inconnu. Il sagit de tester H0 : m1 = m2 contre H1 : m1 6= m2 .
On pose
X=

i=1

i=1

j=1

j=1

1 X
1 X
1X
1X
Xi , s21 =
(Xi X)2 , Y =
Yj , s22 =
(Yj Y )2 .
n
n1
r
r1

Lemme 8.4.6. Sous les hypoth`eses ci-dessus, on a, si m1 = m2 ,


s
X Y
n+r2
p
tn+r2 .
Z=
1
1
(n 1)s21 + (r 1)s22
n + r
2

Preuve: Dune part X N1 (m1 , n ), Y N1 (m2 , r ) et, vu lindependance (prop. 5.2.7),


2
2
XY
X Y N1 (m1 m2 , n + r ) et, si m1 = m2 , q
N1 (0, 1).
1
1

Dautre part (n 1)
s2

s2

s21
2

2n1 , (r 1)

s22
2

+r

2r1 et, vu lindependance,

(n 1) 12 + (r 1) 22 2n+r2 .
Puisque (X, Y ) est independant de (s21 , s22 ), on peut appliquer la def. 8.3.3. 

114

Notions de statistique

Posons W = {|Z| > c} o`


u P(|T | > c) = , T tn+r2 . On a, sous H0 i.e. si
m1 = m2 , P (W ) = P(|T | > c) = et W est la region critique dun test de niveau
de m1 = m2 contre m1 6= m2 . On peut montrer que ce test est U.P.P.S.B.
Remarque. Le lecteur peut noter une grande ressemblance entre la construction de
tests et celle dintervalles de confiance. Cela na rien detonnant. En effet, etant donne
un mod`ele stastique (X , A, (P ) ), soit (Wa , a R) une famille de sous ensembles
de X (avec Wa A mais nous ninsistons pas sur ce point). On pose, pour x X ,
S(x) = {a, x
/ Wa }. Evidemment Wa = {x, a
/ S(x)} et, pour tout et tout
a R,
P (Wa ) = P (x, a
/ S(x)) = 1 P (x, a S(x)).
(8.17)
Soit f : R. Il resulte de (8.17) que si, pour tout a, Wa est la region critique dun
test de niveau de H0 : f () = a contre H1 : f () 6= a, alors S(x) = {a, x
/ Wa }
est une region de confiance de niveau 1 pour f () (cest la meme definition
que celle dun intervalle de confiance mais a priori S(x) nest pas un intervalle).
De meme si (S(x), x X ) est une region de confiance de niveau 1 pour f (),
Wa = {x, a
/ S(x)} est la region critique dun test de niveau de H0 : f () = a
contre H1 : f () 6= a.
8.4.4. Test dadequation. Soient E un ensemble fini quon peut supposer etre {1, . . . , r}
et lensemble des probabilites sur E. On fixe p telle que, pour tout j, pj > 0.
On consid`ere un echantillon X1 , . . . , Xn , . . . dune loi inconnue et on veut tester
H0 : = p contre H1 : 6= p. Posant
Nnj =

n
X

1{j} (Xk ),

(8.18)

k=1

Pearson a propose un test `a partir des frequences


j = 1, . . . , r qui repose sur:

1 j
n Nn

dobservation des points j,

Proposition 8.4.7. Soit (Xn , n 1) une suite de v.a. independantes `


a valeurs E
de meme loi . On pose
Tn =

j=1

j=1

1 X (Nnj npj )2 X n Nnj


=
(
pj )2 .
n
pj
pj n

(8.19)

(i) Si = p, Tn converge en loi vers 2r1 .


(ii) Si 6= p, Tn converge p.s. vers +.
Preuve: (i) Supposons = p. On a
n

1 X
1
1
Tn = |
Uk |2 , Uk = ( (1{1} (Xk ) p1 ), . . . , (1{r} (Xk ) pr ) ).
p1
pr
n
k=1

115
Les vecteurs aleatoires U1 , . . . , Un , . . . sont independants de meme loi avec E(U1 ) = 0
et un calcul facile montre que

K(U1 ) = Ir aaT , aT = ( p1 . . . pr ).
P
Le th. 7.3.1 implique que 1n nk=1 Uk converge en loi vers Nr (0, Ir aaT ). Alors
(prop. 7.2.3) Tn = | 1n Un |2 converge en loi vers |Y |2 o`
u Y Nr (0, Ir aaT ). Vu que
|a| = 1, il existe une matrice A orthogonale r r telle que Aa = (0 . . . 01)T et posons
Z = AY . On a


Ir1 0
T
T
K(Z) = AK(Y )A = Ir (Aa)(Aa) =
0
0
et |Y |2 = |Z|2 2r1 .
(ii) Supposons 6= p. Dapr`es la loi des grands nombres,
6= 0 pour au moins un j et Tn n + p.s. 

Nnj
n

pj n j pj qui est

Considerons maintenant la region critique Wn = {Tn c} o`


u c = c() est tel que
2
P(X c) = , X r1 . On a, vu les prop. 8.4.7 et 7.2.4, Pp (Wn ) n et, pour
6= p, P (Wn ) n 1. On a construit un test consistant de niveau asymptotique
(def. 8.4.4) de H0 : = p contre H1 ; 6= p.
Ce test est susceptible de nombreuses generalisations pour lesquelles nous renvoyons aux ouvrages specialises. Par exemple, soit X1 , . . . , Xn un echantillon dune
loi inconnue sur (E, E). On veut tester = 0 contre 6= 0 , 0 probabilite donnee.
On peut partager E en r ensembles disjoints E1 , . . . , Er dunion E (on a interet `a
choisir 0 (Ej ) voisin de 1r ) et tester `a laide du test precedent H0 : (Ej ) = 0 (Ej )
pour j = 1, . . . , r contre H1 : (Ej ) 6= 0 (Ej ) pour au moins un j.

116

Notions de statistique

Annexe A

Index des notations


1.2.3 renvoie chapitre 1, section 2, sous-section 3.

AT (A matrice) 4.5.1
1A 3.1.5
Ac 1.1.2
B(n, p) 2.2.5
B 3.2.2
[B], bB, B + 3.1.5
B(R) 3.1.2
B(R) 3.1.2
B(R+ ) 3.1.2
B1 B2 3.5.1

F (X) 6.2.1
g (x) 5.1.2
gX 2.3.1
G(a, c) 4.3.1
G(a) 2.2.5
h. 3.4.3
J() 4.6.2
K(X) 4.5.3

C0 3.5.5
Cb 7.1
Ck 3.5.5
Ck 3.5.5
Cov(X, Y ) 4.4.3
E 4.2.3
E 8.1.4
e.s.b. 8.2.1
e.s.b.v.m. 8.2.1
eB + 3.1.5
FX 4.3.2

lim sup An 4.1.3


lim sup fn 3.1.4
lim inf fn 3.1.4
Lp , LpC 3.3.5
Lpd 4.5.1
L(x; ) 8.2.7
Lp 3.3.5
Mnr 8.1.3
M1 7.1
Mb 5.1.2

118

Index des notations


N1 (m, 2 ) 4.3.1
Nd (m, K) 5.3.1
p.p. 3.2.2
p.s. 3.2.2, 4.1.1
P() 2.2.5
s, sn 8.1.3

5.1.2
X 4.2.2
1 2 3.5.1
3.5.4
(X, Y ) 4.4.4
(C) 3.1.1
(fi , i I) 3.1.5

tn 8.4.3
X 5.2.1
U.P.P.S.B. 8.4.1
2n 8.4.3
v.a. 4.2.1
v.a.r. 4.2.1

(, A, P) 4.1.1

X, X n 8.1.3
{X } 4.2.2
(X , A, (P ) ) 8.1.4

A 7.1.2

(a) 4.3.1

|| ||p 6.1.1

a 3.2.1

 3.4.3

Annexe B

Index des termes


1.2.3 renvoie chapitre 1, section 2, sous-section 3.

absolument continue (mesure) 3.4.2


adequation (test d) 8.4.4
alg`ebre (densembles) 3.1.1
alg`ebre (de fonctions) 3.5.5
Bayes (formule de) 1.3.1
Beppo-Levi (theor`eme de) 3.3.3
Bernouilli (v.a. de) 2.2.5
Bienaime-Tchebychev (inegalite de) 4.2.4
binomiale (loi) 1.2.5
Borel-Cantelli (lemme de) 4.1.3
borelienne (tribu) 3.1.2
caracteristique (fonction) 5.2.1
Cauchy (loi de) 4.3.1
centree (v.a.) 4.2.4
centree reduite (v.a.) 4.2.4
chi-carre (loi du) 8.4.3
conditionnelle (densite) 4.7.3
conditionnelle (esperance) 4.7.1, 4.7.3
conditionnelle (loi) 4.7.1, 4.7.3
conditionnelle (probabilite) 1.3.1, 4.1.2
consistante (suite destimateurs) 8.2.5
convergence dans Lp 6.1.1
convergence en loi 7.2.1

convergence en probabilite 6.1.1


convergence etroite 7.1.1
convergence monotone (theor`eme de) 3.3.3
convergence presque sure 6.1.1
convolution (produit de) 3.5.4
correlation (coefficient de) 4.4.4
covariance 4.4.3
covariance (matrice de) 4.5.3
crit`ere des trois series 6.5.2
densite de probabilite 4.3.1
R
derivation sous le signe 3.3.3
Dirac (mesure de) 3.2.1
echantillon avec repetition 1.2.2
echantillon (dune loi) 8.1.1
echantillon sans repetition 1.2.1
espace de probabilite 4.1.1
espace mesurable 3.1.1
espace mesure 3.2.1
esperance 2.2.3, 4.2.3
estimateur 8.2
etagee (fonction) 3.1.5
evenement 4.1.1

120

Index des termes


famille sommable 2.1
Fatou (lemme de) 3.3.3
Fubini (theor`eme de) 3.5.1
gamma (fonction) 4.3.1
gamma (loi) 4.3.1
Gauss (loi de) 4.3.1
geometrique (loi) 2.2.5
Glivenko-Cantelli (theor`eme de) 8.1.2
Holder (inegalite de) 3.3.5
hypergeometrique (loi) 1.2.4
independance (evenements) 1.3.2, 4.3.2
independance (variables aleatoires) 4.4.1
indicatrice (fonction) 3.1.5
intervalle de confiance 8.3.1
Jensen (inegalite de) 4.2.4
Kolmogorov (inegalite de) 6.3.2
Kronecker (lemme de) 6.3.4
Laplace (loi de) 4.3.1
Lebesgue (mesure de) 3.2.3, 3.5.3
Lebesgue-mesurable 3.2.3
Lebesgue (theor`eme de) 3.3.3, 3.5.3
Levy (theor`eme de) 7.2.5
limite centrale (theor`eme de la) 7.3.1
loi (dune variable aleatoire) 4.2.2
loi des grands nombres 6.4.1
loi 0-1 6.2.2
Markov (inegalite de) 4.2.4
maximum de vraisemblance 8.2.7
mesurable (application) 3.1.2
mesure 3.2.1
mesure bornee 3.2.1
mesure de densite h 3.4.2
mesure -finie 3.2.1
Minkowski(inegalite de) 3.3.5
mod`ele statistique 8.1.4
moments 2.2.4, 4.2.4
moments empiriques 8.1.3
moyenne 4.2.4
moyenne empirique 8.1.3
Monte-Carlo (methode de) 6.4.3

negligeable (ensemble) 3.2.2, 4.1.1


Neyman-Pearson (lemme de) 8.4.2
niveau (dun intervalle de confiance) 8.3.1
niveau (dun test) 8.4.1
nombres au hasard 4.8.1, 6.4.2
normale (loi) 4.3.1
pivotale (fonction) 8.3.2
Poisson (loi de) 2.2.5
presque partout 3.2.2
presque s
urement 3.2.2, 4.1.1
probabilite 3.2.1
puissance (fonction) 8.4.1
Radon-Nikodym (theor`eme de) 3.4.2
region critique 8.4.1
rejet (methode de) 4.8.4
repartition (fonction de) 4.3.2
repartition empirique 8.1.1
repartition empirique (fonction de) 8.1.2
risque quadratique 8.2.1
sans biais (estimateur) 8.2.1
sans biais (test) 8.4.1
Schwarz (inegalite de) 3.3.5
sommation par paquets 2.1.5
sous-population 1.2.3
statistique 8.1.4
Stone-Weierstrass (theor`eme de) 3.5.5
Student (loi de) 8.4.3
test 8.4.1
totale (partie) 3.5.5
transformee de Fourier 5.1.2
tribu 3.1.1
tribu asymptotique 6.2.1
tribu engendree 3.1.1, 3.1.6
uniforme (loi) 4.3.1
variable aleatoire 4.2.1
variance 2.2.4, 4.2.4
variance empirique 8.1.3
vecteur aleatoire 4.5.2
vecteur gaussien 5.3.1
vraisemblance (fonction de) 8.2.7
vraisemblance (equation de) 8.2.7

You might also like