Professional Documents
Culture Documents
Universit
e Pierre et Marie Curie
Licence de Math
ematiques (3`eme ann
ee)
Ann
ee 2004/2005
Probabilit
es
Pierre Priouret
Mode demploi
Ce polycopie est destine aux etudiants de la Licence (3`eme annee) de Mathematiques
de lUniversite Pierre et Marie Curie. En principe ces etudiants ont deja suivi un
cours de theorie de la mesure et dintegration. Nous commencons par letude des
probabilites sur les ensembles finis (chapitre 1) puis sur les ensembles denombrables
(chapitre 2) avant de presenter (chapitre 3) les resultats dintegration utilises par la
suite. Le chapitre 4 introduit les principales notions de probabilites dans leur cadre
general. Le chapitre 5 traite des fonctions caracteristiques et des vecteurs gaussiens.
Les theor`emes limites sont abordes dans les chapitres 6 (avec, en particulier, la loi des
grands nombres) et 7 (avec, en particulier, la convergence en loi vers la loi normale).
Enfin le chapitre 8 presente quelques notions de statistique.
Les complements situes `a la fin de certains chapitres ne sont pas au programme
de lexamen.
Ce polycopie est divise en chapitres, sections et sous-sections. Ainsi 3.2.4 renvoie
au chapitre 3, section 2, sous-section 4 et 5.4 renvoie chapitre 5, section 4. A linterieur
dune meme section, les enonces sont numerotes en continu. Ainsi dapr`es le th. 5.4.6
renvoie au chapitre 5, section 4, enonce 6. Quant aux egalites, elles sont numerotees
entre parenth`eses et en continu au sein dun meme chapitre. Ainsi vu (3.5) ref`ere `a
la cinqui`eme egalite numerotee du chapitre 3. Le signe indique la fin dune preuve.
Ce polycopie se termine par un index des notations et un index des termes.
5
5
8
11
2 Espace de probabilit
e discret
13
2.1 Famille sommable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Espace de probabilite discret . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Fonctions generatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Mesure. Int
egration
3.1 Tribus . . . . . .
3.2 Mesures . . . . .
3.3 Integration . . .
3.4 Mesures `a densite
3.5 Mesures produits
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Espace de probabilit
e g
en
eral. Variables
4.1 Espace de probabilite . . . . . . . . . . .
4.2 Variables aleatoires . . . . . . . . . . . .
4.3 Probabilites sur R . . . . . . . . . . . .
4.4 Variables aleatoires independantes . . .
4.5 Vecteurs aleatoires . . . . . . . . . . . .
4.6 Calcul de lois . . . . . . . . . . . . . . .
4.7 Conditionnement . . . . . . . . . . . . .
4.8 Simulation . . . . . . . . . . . . . . . . .
4.9 Complement: echantillons ordonnes. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
25
27
31
32
al
eatoires
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
41
43
46
48
52
54
58
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Fonctions caract
eristiques. Vecteurs gaussiens
61
5.1 Transformee de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2 Fonctions caracteristiques . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
`
TABLE DES MATIERES
.
.
.
.
.
.
69
69
71
72
75
79
80
7 Convergence en loi
7.1 Convergence etroite . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Convergence vers la loi normale . . . . . . . . . . . . . . . . . . . . .
7.4 Complement : demonstration du theor`eme de Berry-Esseen. . . . . .
7.5 Complement: comportement asymptotique de la mediane empirique.
.
.
.
.
.
85
85
87
91
93
96
8 Notions de statistique
8.1 Echantillon. Mod`ele statistique
8.2 Estimation . . . . . . . . . . .
8.3 Intervalle de confiance . . . . .
8.4 Tests . . . . . . . . . . . . . . .
99
. 99
. 102
. 108
. 111
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
117
119
Chapitre 1
Espace de probabilit
e fini
Dans ce premier chapitre, on presente les premi`eres notions de probabilite dans un
cadre elementaire.
aA p(a).
(1.1)
r
[
i=1
Ai ) =
r
X
P(Ai ).
i=1
Espace de probabilit
e fini
(1.2)
(1.4)
, X()
7
1.1.4. Exemples.
1. On lance une pi`ece trois fois de suite. Lensemble des issues possibles est
= {P P P, P P F, P F P, P F F, F P P, F P F, F F P, F F F }.
On a || = 23 = 8. Les issues etant equiprobables, on munit de la probabilite P({}) = 81 . Soient A levenement on obtient exactement deux faces et
B levenement on obtient au moins deux faces. On a A = {P F F, F P F, F F P },
B = {P F F, F P F, F F P, F F F }, |A| = 3, |B| = 4, P(A) = 83 , P(B) = 12 .
2. On lance deux des, un rouge et un bleu. Lensemble des issues possibles est
= {11, 21, 12, . . . , 66} = {i1 i2 , 1 i1 , i2 6}.
On a || = 62 = 36. Les issues etant equiprobables, on munit de la proba1
bilite P({}) = 36
. Soit A levenement la somme des resultats vaut 5. On a
4
A = {14, 23, 32, 14} et P(A) = 36
= 19 . Soient X1 le resultat du de rouge, X2 le resultat
du de bleu et S la somme. Ce sont des variables aleatoires et on a X1 (i1 i2 ) = i1 ,
X2 (i1 i2 ) = i2 , S(i1 i2 ) = i1 + i2 = X1 (i1 i2 ) + X2 (i1 i2 ). Il est immediat que, pour
k = 1, . . . , 6, P(X1 = k) = P(X2 = k) = 16 . La loi de X1 (et de X2 ) est donc la loi
uniforme sur {1, 2, 3, 4, 5, 6}. Soit (qk , k = 2, 3, . . . , 12) la loi de S. Ci-dessus, on a
calcule q5 . De la meme facon, on obtient:
q2 = q12 =
2
3
4
5
6
1
, q3 = q11 = , q4 = q10 = , q5 = q9 = , q6 = q8 = , q7 = .
36
36
36
36
36
36
3. On met au hasard trois boules distinctes a, b, c dans trois urnes. Lensemble des
issues possibles est
= {(abc| |), (|abc|), (| |abc), (ab|c|), . . . . . .}.
1
On a || = 33 = 27 et, les issues etant equiprobables, P({}) = 27
. Soit A levenement
la premi`ere urne contient deux boules, la seconde une boule, evenement quon
3
note (2|1|0). On a A = {(ab|c|), (ac|b|), (bc|a|)} do`
u P(A) = 27
= 19 . Soit B
levenement chaque urne contient une boule, evenement quon note (1|1|1). On a
6
B = {(a|b|c), (b|a|c), (a|c|b), (c|a|b), (b|c|a), (c|b|a)} et P(B) = 27
= 29 . Par symetrie,
on a
1
,
27
1
P((2|1|0)) = P((1|2|0)) = P((2|0|1)) = P((1|0|2)) = P((0|2|1)) = P((0|1|2)) = ,
9
2
P((1|1|1)) = .
9
4. On met au hasard trois boules indistinctes dans trois urnes. Lensemble des issues
possibles est
= {(3|0|0), (0|3|0), (0|0|3), (2|1|0), (1|2|0), (2|0|1), (1|0|2), (0|2|1), (0|1|2), (1|1|1)}.
Espace de probabilit
e fini
1 1 1 1 1 1 1 1 1 1
, , , , , , , , , )
27 27 27 9 9 9 9 9 9 27
n!
= Arn .
(n r)!
|| est le nombre dapplications injectives de {1, 2, . . . , r} dans {1, 2, . . . , n}. Evidemment chaque echantillon a la meme probabilite et
P({}) =
1
(n r)!
=
.
||
n!
1
1
= r.
||
n
9
Exemple. On suppose S = {1, 2, 3, 4} et r = 2. Alors || = 16 et
= {11, 12, 13, 14, 21, 22, 23, 24, 31, 32, 33, 34, 41, 42, 43, 44}.
n!
.
r!(n r)!
|| est le nombre de sous-ensembles `a r elements dun ensemble `a n elements. Evidemment chaque sous population a la meme probabilite et
P({}) =
r!(n r)!
1
=
.
||
n!
Cnk1 Cnrk
2
convenant que Cji = 0 si i > j.
Cnr
(1.6)
10
Espace de probabilit
e fini
|A|
k
r
= nk1 nrk
2 Cr /n .
||
nk1 nrk
n1
n1
2
= Crk ( )k (1 )rk Crk pk (1 p)rk .
nr
n
n
m
Cnk11 . . . Cnkm
, j, kj nj , k1 + . . . km = r ; = 0 sinon.
Cnr
nj
n.
Alors
r!
pk1 . . . pkmm , k1 + . . . km = r ; = 0 sinon.
k1 ! . . . km ! 1
11
Si m = 2, il sagit des formules precedentes. Dans le cas general, elles se montrent de
la meme facon.
Exemple. Le bridge se joue avec un jeu de 52 cartes de 4 couleurs. Il oppose deux
camps de chacun deux joueurs. On distribue 13 cartes `a chaque joueur. On dit quune
main est 5521 si elle se compose de deux couleurs de 5 cartes, dune couleur de 2 cartes
et dune couleur de 1 carte. Quelle est la probabilite p quune main soit 5521? La
probabilite pour quune main comprenne 5 piques, 5 curs, 2 carreaux, 1 trefle est
(loi hypergeometrique generalisee)
=
5 C5 C2 C1
C13
13 13 13
= 0, 002645.
13
C52
1.3. Probabilit
e conditionnelle
On consid`ere un espace de probabilite fini (, P). On ecrit indifferemment A B ou
AB.
1.3.1. Probabilite conditionnelle.
Soient une population, A la sous population des hommes, Ac celle des femmes
et B celle des fumeurs. Si on tire au hasard un element de , la probabilite dobtenir
un fumeur est |B|
element tire est un homme, la probabilite que
|| . Si on observe que l
ce soit un fumeur est |AB|
e conditionnelle de B
|A| , cest ce quon appellera la probabilit
sachant A. Ceci conduit `a:
D
efinition 1.3.1. Soit A tel que P(A) > 0. On appelle probabilite conditionnelle
de B sachant A et on note P(B|A) la quantite P(AB)/P(A).
On a donc
P(AB) = P(A)P(B|A).
Noter que B 7 P(B|A) est une probabilite sur .
12
Espace de probabilit
e fini
Proposition 1.3.2. (Formule de Bayes) Soient A, B des evenements tels que P(A) >
0, P(Ac ) > 0, P(B) > 0. On a
P(A|B) =
P(A)P(B|A)
.
P(A)P(B|A) + P(Ac )P(B|Ac )
(1.8)
Chapitre 2
Espace de probabilit
e discret
Dans ce chapitre, on introduit les espaces de probabilite denombrables. Pour cela, on
a besoin de la notion de famille sommable.
et donc Sn Sm
S do`
u S S . Changeant le role de et , on a S S et
Th
eor`
eme 2.1.1. Soit (ai , i I) une famille de nombres positifs. Alors, pour toute
enumeration de I, la suite Sn , definie par (2.1), converge en croissant vers un
P
+
nombre S R independant de . On note S = iI ai . Si S < +, la famille est
dite sommable.
Quelques consequences immediates:
P
P
(i) Si In I, In fini, iIn ai iI ai .
14
Espace de probabilit
e discret
P
iI
iJ
ai > A.
(iv) Pour 0, 0, ai 0, bi 0, on a
X
(ai + bi ) =
iI
Remarque. En fait
un i au moins.
iI
ai +
iI
bi .
iI
et vaut + si ai = + pour
ai (n)
iI
ai lorsque n +.
iI
P
P
S = iI ai . Evidemment
Preuve: Soient S(n) = iI ai (n), S = lim n S(n),
P
S S.PSoit A < S. Il existe J fini, J I, tel que iJ ai > A. Donc, pour n assez
grand, iJ ai (n) > A et S A do`
u S S et S = S.
2.1.5. Sommation par paquets. On dit que (Ij , j J) est une partition de I si les Ij
sont deux `a deux disjoints et si I = jJ Ij .
Proposition 2.1.3. Soient (ai , i I) une famille de reels positifs et (Ij , j J) une
partition de I. On a
X
XX
ai .
ai =
iI
jJ iIj
ai =
jJn iIj Kn
ai =
bj (n)
jJ
P
P
P
o`
u bj (n) = 0 si j
/ Jn , bj (n) = iIj Kn ai si j Jn . Dune part iKn ai n iI ai
P
P
et dautre part, pour chaque j, bj (n) n
ai do`
u (prop. 2.1.2) jJ bj (n) n
iI
j
P
P
jJ
iIj ai .
2.1.6. Le cas general. On consid`ere maintenant une famille (ai , i I) de nombres
reels ou complexes.
D
efinition 2.1.4.
Une famille (ai , i I) de nombres reels ou complexes est dite
P
sommable si iI |ai | < +.
15
Th
eor`
eme 2.1.5. Soit(ai , i I) une famille sommable de nombres complexes.
(ai + bi ) =
iI
ai +
iI
bi .
iI
n
X
k=0
[<(a(k) )]
n
X
[<(a(k) )] + i
k=0
n
X
[=(a(k) )] i
k=0
n
X
[=(a(k) )] ,
k=0
p(a) = 1.
aE
P
On pose alors, pour A E, P(A) = aA p(a). P est une application de P(E) dans
[0, 1] verifiant P(E) = 1, P(A B) = P(A) + P(B) si A B = (prop. 2.1.3) et
P(An ) P(A) si An A (prop. 2.1.2). Ceci implique que A 7 P(A) est -additive i.e.
que, pour touteP
famille (An , n N) de sous-ensembles de deux `a deux disjoints,
on a P(An ) = P(An ). En effet:
P(An ) = lim N P(N
0 An ) = lim N
N
X
P(An ) =
P(An ).
16
Espace de probabilit
e discret
2.2.2. Un couple (, P) o`
u est un ensemble fini ou denombrable et P une probabilite
sur sappelle un espace de probabilite discret. Toute application X de dans
E sappelle une variable aleatoire `a valeurs E. On peut supposer E denombrable
puisque X() est denombrable. Alors, vu la prop. 2.1.3, la famille (q(a), a E) o`
u
q(a) = P(X = a) est une probabilite sur E appelee loi de X.
2.2.3. Esperance. Soient (, P) un espace de probabilite discret et X une variable
aleatoire `a valeurs E discret (i.e. fini ou denombrable). On pose p() = P({}).
P
a. On suppose E R+ . On pose E(X) = X()p(). E(X), qui est un element
de [0, +], sappelle lesperance de X.
P
b. On suppose E R. Alors,
P si E(|X|) = |X()|p() < +, on appelle esperance
de X la quantite E(X) = X()p().
c.
P On suppose E quelconque et soit f : E R. Si f 0 ou si E(|f (X)|) =
|f (X())|p() < +, on a
X
E(f (X)) =
f (X())p().
(2.2)
Th
eor`
eme 2.2.1. Soient X une variable aleatoire `
a valeurs E discret et f : E R.
Si f 0, on a
X
E(f (X)) =
f (a)P(X = a).
(2.3)
aE
a |f (a)|P(X
aE / X()=a
f (a)p() =
aE / X()=a
f (a)
aE
/ X()=a
p() =
f (a)P(X = a).
aE
On a donc, pour f reelle, E(|f (X)|) = a |f (a)|P(X = a) et, si cette quantite est
finie, le calcul ci dessus est encore valable (th. 2.1.5).
Soient X1 , X2 des v.a. `a valeurs E1 et E2 discrets. Alors (X1 , X2 ) est une v.a.
a` valeurs E1 E2 et on a, pour toute f : E1 E2 R positive ou telle que
E(|f (X1 , X2 )|) < +,
X
E(f (X1 , X2 )) =
f (a1 , a2 ) P(X1 = a1 , X2 = a2 ).
(2.4)
(a1 ,a2 )E1 E2
17
2.2.4. Moments. Dans cette sous section, X designe une v.a. `a valeurs E R, E
discret. Soit p N . Si E(|X|p ) < +, E(|X|p ) sappelle le moment absolu dordre p
de X et E(X p ) sappelle le moment dordre p de X. Dapr`es le th. 2.2.1,
E(|X|p ) =
aE
Noter que, pour 1 q p, E(|X|p ) < + implique E(|X|q ) < + puisque |X|q
1 + |X|p .
Supposons E(X 2 ) < +, alors m = E(X), quon appelle aussi moyenne de X,
existe et on definit la variance de X par
Var(X) = E[(X m)2 ] = E(X 2 ) m2 .
(2.6)
P(|X m| )
Preuve: On a
Var(X) = E[(X m)2 ] =
{|Xm|}
2
p() = P(|X m| ).
{|Xm|}
(2.7)
Elle est appelee loi binomiale de param`etre n, p et notee B(n, p). On ecrit X
B(n, p). En particulier si X B(1, p), on dit que X est une v.a. de Bernouilli.
Calculons la moyenne et la variance de X B(n, p). Dune part
E(X) =
k P(X = k) =
k0
n
X
k=1
= np
n1
X
i=0
kCnk pk (1p)nk
= np
n
X
k=1
(n 1)!
pk1 (1p)nk
(k 1)!(n k)!
i
Cn1
pi (1 p)n1i = np(p + (1 p))n1 = np.
18
Espace de probabilit
e discret
Dautre part
2
E(X ) =
k P(X = k) =
k0
n
X
k(k
1)Cnk pk (1
nk
p)
k=2
= n(n 1)p2
n
X
k=2
= n(n 1)p2
n2
X
n
X
k P(X = k)
k=1
(n 2)!
pk2 (1 p)nk + pn
(k 2)!(n k)!
i
Cn2
pi (1 p)n2i + pn = n(n 1)p2 + pn.
i=0
1 k
e , k N) est une probabilite sur N.
Noter que ( k!
k
, k N; > 0.
k!
(2.8)
Cette loi est appelee loi de Poisson de param`etre et se note P(). Calculons sa
moyenne et sa variance. Dune part
E(X) =
k P(X = k) =
k0
ke
k=0
X k1
k
= e
= .
k!
(k 1)!
k=1
k 2 P(X = k) =
k0
k(k 1)e
k0
= 2 e
X
k=2
k X k
+
ke
k!
k!
k0
k2
+ = 2 + .
(k 2)!
On a alors Var(X) = 2 + 2 = .
On a vu quon peut approximer la loi B(n, p) par la loi de Poisson P(np) si n est
tr`es grand et p tr`es petit.
Loi geometrique. Cest la loi dune v.a. `a valeurs N telle que
P(X = k) = (1 a)ak , k N;
0 < a < 1.
(2.9)
19
Cette loi est appelee loi geometrique sur N de param`etre a et se note G(a). On
calculera sa moyenne et sa variance en 2.3. On rencontrera aussi la loi geometrique
sur N de param`etre a, notee G (a) definie par
P(X = k) = (1 a)ak1 , k N , 0 < a < 1.
(2.10)
2.2.6. Variables aleatoires independantes. Il est naturel de dire que deux v.a. discr`etes
X et Y sont independantes si, pour tous a X(), b Y (), les evenements {X = a}
et {Y = b} sont independants (voir 1.3.2) i.e. si pour tous a X(), b Y (),
P(X = a, Y = b) = P(X = a)P(Y = b). Plus generalement,
D
efinition 2.2.3. Les v.a. X1 , X2 , . . . , Xn `
a valeurs E1 , E2 , . . . , En discrets sont
independantes si, pour tous a1 E1 , a2 E2 , . . . , an En ,
P(X1 = a1 , X2 = a2 , . . . , Xn = an ) = P(X1 = a1 ) P(X2 = a2 ) . . . P(Xn = an ).
Th
eor`
eme 2.2.4. Les v.a. X1 , X2 , . . . , Xn `
a valeurs E1 , E2 , . . . , En discrets sont
independantes ssi, pour tous fi : Ei R+ ,
E(f1 (X1 ) . . . fn (Xn )) = E(f1 (X1 )) . . . E(fn (Xn ))
(2.11)
a1 ,a2
X
a1
f1 (a1 )P(X1 = a1 )
a2
Dans le cas reel, on a, vu la premi`ere partie, E(|f1 (X1 )f2 (X2 )|) = E(|f1 (X1 )|)E(|f2 (X2 )|)
< + et la calcul ci-dessus reste valable.
Prenant fi = 1i , on a, utilisant (2.5), que si X1 , X2 , . . . , Xn sont independantes,
pour tous i Ei ,
P(X1 1 , . . . Xn n ) = P(X1 1 ) . . . P(Xn n )
Enfin il resulte du th. 2.2.4 que, si X1 , X2 , . . . , Xn sont independantes,
(i) il en est de meme Y1 = g1 (X1 ), . . . , Yn = gn (Xn ) o`
u gi : E i Fi .
(2.12)
20
Espace de probabilit
e discret
(ii) il en est de meme de Xr(1) , . . . , Xr(n) pour toute permutation {r(1), . . . , r(n)} de
(1, . . . , n),
(iii) il en est de meme,pour tous 1 < m1 < . . . < mp = n, de Y1 , . . . , Yp o`
u
Y1 = (X1 , . . . , Xm1 ), Y2 = (Xm1 +1 , . . . , Xm2 ), . . . , Yp = (Xmp1 +1 , . . . , Xn ).
Par exemple, si X1 , X2 , X3 , X4 sont des variables aleatoires reelles independantes,
il en est de meme de X1 , X3 , X2 , X4 , de Y1 = (X1 , X3 ) et Y2 = (X2 , X4 ) et de
U1 = cos(X12 + X32 ) et U2 = eX2 X4 .
Exemple. Soient X et Y deux v.a. independantes `a valeurs N, de lois P() et P().
Cherchons la loi de S = X + Y . On a
P(S = k) = P(X + Y = k) =
k
X
P(X = j, Y = k j) =
j=0
k
X
j=0
k
X
P(X = j)P(Y = k j)
j=0
k
j kj
( + )k
1 X j j kj
= e(+)
e
= e(+)
Ck
.
j!
(k j)!
k!
k!
j=0
Donc S P( + ).
2.3. Fonctions g
en
eratrices
Dans cette section, on ne consid`
ere que des v.a. `
a valeurs N.
2.3.1. Definition.
Soit X une telle v.a. Notons dabord que, vu le th. 2.2.1, on a, pour
P
n
X
0
tout s 0,
n=0 P(X = n)s = E(s ) avec la convention s = 1 si s = 0.
D
efinition 2.3.1. On appelle fonction generatrice de X, la fonction
g(s) = gX (s) =
n=0
1 (n)
g (0).
n! X
21
a. Loi binomiale B(n, p). On a
g(s) =
P(X = k)sk =
n
X
k=0
P(X = k)sk = e
X k sk
k0
k!
= e(s1) .
k0
2.3.2. Calcul des moments. Rappelons (2.2.4) que E(X p ) < + implique E(X q ) <
+ pour tout q p.
Proposition 2.3.3. (i) E(X) < + ssi gX est derivable `
a gauche en 1 et, dans ce
0 (1).
cas, on a E(X) = gX
(ii) E(X 2 ) < + ssi gX est deux fois derivable `
a gauche en 1 et, dans ce cas, on a
00 (1).
E(X(X 1)) = gX
Preuve: (i) On a, utilisant la prop. 2.1.2, lorsque s 1,
X
g(s) g(1) X sn 1 X
=
=
qn
qn (1 + . . . + sn1 )
nqn = E(X)
s1
s1
n0
n0
n0
et le resultat cherche.
(ii) On remarque dabord que, si E(X 2 ) < +, E(X) < + et g 0 (1) < +. Alors,
lorsque s 1,
X
g 0 (s) g 0 (1) X
sn1 1 X
=
nqn
=
nqn (1+. . .+sn2 )
n(n1)qn = E(X(X1)).
s1
s1
n0
n0
n0
On conclut facilement.
On peut continuer et, si E(X p ) < +, p N,
(p)
gX
(1) = E(X(X 1) . . . (X p + 1)).
a
2a2
a
1a
, g 0 (1) =
= E(X), g 00 (1) =
, Var(X) =
.
2
1 as
1a
(1 a)
(1 a)2
22
Espace de probabilit
e discret
Appliquant
m+n
un v m (0, 0)
Chapitre 3
Mesure. Int
egration
Dans ce chapitre, on rappelle les resultats de la theorie de la mesure et de lintegration
qui seront utilises par la suite.
3.1. Tribus
3.1.1. Soient E un ensemble et B P(E). On dit que B est une alg`ebre (resp. une
tribu) si E B, si B est stable par passage au complementaire et par reunion et
intersection finies (resp. denombrables). Un couple (E, B), B tribu sur E, sappelle
un espace mesurable. Sil est souvent possible de decrire les elements dune alg`ebre,
il nen est pas de meme pour ceux dune tribu. On remarque que P(E) est une tribu
et que lintersection dune famille non vide quelconque de tribus est une tribu. Donc,
etant donne C P(E), on peut considerer la plus petite tribu contenant C, cest
lintersection de toutes les tribus contenant C. Cette tribu se note (C) et sappelle
la tribu engendree par C. Le resultat suivant, appele theor`eme de classe monotone,
sera tr`es utile par la suite.
Proposition 3.1.1. Soient C M P(E). On suppose que C est stable par intersection finie, que E M, que A, B M et A B impliquent B \ A M et que M
est stable par limite croissante. Alors (C) M.
3.1.2. Supposons E = Rd et soit O la classe des ouverts de E. La tribu (O) sappelle
la tribu borelienne de Rd et se note B(Rd ). Il est facile de voir quelle est aussi engendree par les fermes, par les boules, par les paves et meme par les paves `a coordonnees rationnelles (cette derni`ere famille ayant lavantage detre denombrable).
Si d = 1, on considerera, outre B(R), B(R+ ) = {A B(R), A R+ }, B(R) =
(B(R), {+}, {}) et B(R+ ) = (B(R+ ), {+}). On etend les operations usuelles
`a R+ en posant (+) 0 = 0 (+) = 0.
3.1.3. Soient (E1 , B1 ) et (E2 , B2 ) deux espaces mesurables. Une application de E1
dans E2 est dite mesurable si, pour tout A B2 , f 1 (A) B1 . Il est facile de voir
que, pour cela, il suffit que f 1 (A) B1 pour tout A C avec (C) = B2 . Ceci
24
Mesure. Int
egration
implique que, si f est continue de Rd dans Rm , f est borelienne i.e. mesurable pour
les tribus boreliennes. De plus, cette notion est transitive i.e. la composee de deux
applications mesurables est mesurable. Quand lespace darrivee est R, R, R+ , Rd , C,
il est toujours suppose muni de sa tribu borelienne.
3.1.4. Soit (E, B) un espace mesurable. Pour quune application numerique soit
mesurable, il suffit que, pour tout a R, {f > a} := {x, f (x) > a} B. On
peut aussi considerer {f < a}, {f a}, {f a}. Ceci implique que, si f , g, fn sont
des fonctions numeriques mesurables, il en est de meme de f , sup(f, g), inf(f, g),
f + = sup(f, 0), f = sup(f, 0), sup fn , inf fn , lim sup fn , lim inf fn , lim fn si elle
existe.
Rappelons que, notant fn f (resp.fn f ) si, pour tout x E, fn (x) crot (resp.
decrot) vers f (x),
lim sup fn (x) = lim sup fk (x), lim inf fn (x) = lim inf fk (x),
n
kn
kn
(3.1)
ces quantites etant `a valeurs R et que f = lim fn ssi lim sup fn = lim inf fn = f .
Soient f, g des fonctions numeriques mesurables. Alors : x 7 (f (x), g(x)) est
mesurable de (E, B) dans R2 puisque 1 (A B) = f 1 (A) g 1 (B). Ceci implique
que, si H est une application borelienne de R2 dans R, H(f, g) est mesurable. On en
deduit que f + g, f g, fg , si elle existe, sont mesurables.
3.1.5. Pour A B, on appelle fonction indicatrice de A et on note 1A la fonction
valant 1 sur A et 0 sur Ac (on note Ac le complementaire de A). On a
Y
1Ac = 1 1A , 1An =
1An = inf 1An , 1An = sup 1An .
n
Une P
application f de E muni de la tribu B dans R est dite etagee si elle secrit
f = nk=1 ak 1Ak , Ak B. On notera
[B] lensemble des fonctions reelles B-mesurables,
bB lensemble des fonctions reelles B-mesurables bornees,
B + lensemble des fonctions B-mesurables `a valeurs R+ ,
eB + lensemble des fonctions etagees positives.
Le resultat suivant est `a la base de la construction de lintegrale
Proposition 3.1.2. Toute f B+ est limite dune suite croissante de fonctions de
eB + .
Preuve: Il suffit de considerer
fn (x) =
n 1
n2
X
k=0
k
1 k
k+1 + n1{f (x)n} .
2n { 2n f (x)< 2n }
(3.2)
3.1.6. Soit f une application de E dans un espace mesurable (A, A). On note (f )
et on appelle tribu engendree par f la plus petite tribu sur E rendant f mesurable.
On a donc (f ) = {f 1 (A), A A}.
25
Proposition 3.1.3. Soient f : E (A, A) et h : E R (resp. E R+ ). Alors h
est (f )-mesurable ssi il existe g [A] (resp. g A+ ) telle que h = g f .
Preuve: Evidemment si h = gf , h est (f )-mesurable
(transitivite). Reciproquement
Pn
a
1Bk avec Bk (f
supposons dabord h e[(f )]+ , on a h =
k
k=1
P ) et donc
Bk = f 1 (Ak ), Ak A. Vu que 1Bk = 1Ak f , on a h = g f avec g = nk=1 ak 1Ak .
Si h [(f )]+ , on a h = lim hn avec hn e [(f )]+ et donc hn = gn f ,
gn A+ . On en deduit h = g f avec g = lim sup gn A+ . Si h [(f )], on a
h = h+ h et h+ = g1 f , h = g2 f avec gi A+ . On a alors h = g f avec
g = g1 1{g1 <+} g2 1{g2 <+} [A].
Plus generalement si (fi , i I) est une famille dapplications de E dans des
espaces mesurables (Fi , Fi ), on note (fi , i I) et on appelle tribu engendree par les
fi la plus petite tribu sur E rendant toutes les fi mesurables. On a donc
(fi , i I) = (fi1 (Ai ), Ai Fi , i I).
3.2. Mesures
3.2.1. Soit (E, B) un espace mesurable.
D
efinition 3.2.1. On appelle mesure sur (E, B) toute application de B dans R+
telle que
(i) () = 0,
P
(ii) pour tous An B deux `
a deux disjoints, (n An ) = n (An ).
Le triplet (E, B, ) sappelle un espace mesure.
Propri
et
es: (i) si A, B B et A B, (A) (B),
P
(ii) si An B, (n An ) n (An ),
(iii) si An B et si An A (i.e. 1An 1A ), (An ) (A),
(iv) si An B, si An A (i.e. 1An 1A ) et si, pour un n0 , (An0 ) < +, (An )
(A).
Si E = n En avec En B et (En ) < +, la mesure est dite -finie. Si
(E) < +, la mesure est dite bornee. Si (E) = 1, la mesure est appelee une
probabilite.
Exemple. Soit a E. alors a (A) = 1A (a) definit une mesure sur (E, B)
Pappelee
mesure de Dirac de a. Plus geralement, etant donnes an E et n 0, = n n an
est une mesure sur (E, B) (prop. 2.1.2).
Remarque. La propriete (ii) de la def. 3.2.1 sappelle -additivite. Si dans la def.
3.2.1, on suppose que B est seulement une alg`ebre, la definition a encore un sens en
rajoutant dans (ii) la condition n An B. On a ainsi la notion de mesure sur une
alg`ebre.
26
Mesure. Int
egration
27
en convenant que, si bn = +, ]an , bn ] =]an , +[. On definit sur A par (A) =
P
n
u F (+) = limx+ F (x), F () = limx F (x). Il est
k=1 F (bk ) F (ak ) o`
facile de montrer que est additive sur A, un peu plus delicat de montrer que est
-additive sur A mais cela se fait. On a donc construit une mesure sur A telle que
(]a, b]) = F (b) F (a). Pour passer `a B(R), on utilise le theor`eme de Caratheodory:
Th
eor`
eme 3.2.4. Soit une mesure sur une alg`ebre A, alors se prolonge en une
mesure sur (A). De plus, si est -finie, ce prolongement est unique.
Tout ceci donne, puisque dans notre cas (A) = B(R),
Th
eor`
eme 3.2.5. Soit F une application de R dans R continue `
a droite et croissante.
Il existe une et une seule mesure sur B(R) telle que, pour tous a < b, (]a, b]) =
F (b) F (a).
Si on choisit F (x) = x, on obtient lexistence et lunicite dune mesure sur B(R)
verifiant, pour tout intervalle I, (I) = |I|. Cest la mesure de Lebesgue sur R. Si
N est la classe des ensembles -negligeables, B(R) = (B, N ) sappelle la tribu des
ensembles Lebesgue-mesurables (elle est beaucoup plus grosse que B(R)) et se
prolonge sans peine `a B(R) comme en 3.2.2.
3.3. Int
egration
Soit (E, B, ) un espace mesure.
3.3.1. Integration des fonctions positives. On va construire
Pn lintegrale de f par rap+
port `a . Si f eB , cest tr`es facile, f secrit f = k=1 ak 1Ak , Ak B et lon
pose
Z
n
X
ak (Ak ).
f d :=
k=1
Z
f d = lim
n 1
n2
X
k=0
k
k
k+1
({x, n f (x) <
}) + n({x, f (x) n}).
n
2
2
2n
(3.3)
28
Mesure. Int
egration
+
+
on obtient
immediatement que,
RPar passage `a la limite,
R
R
R pour f,Rg B et a, b R ,
(af + bg) d = a f d + bR g d et que, si f g, f d g d. Enfin on dira
que f B + est integrable si f d < +.
(3.4)
(ii) Si f B + et si
f d = 0, f = 0 p.p.
R
R
(iii) Si f, g L1 et si f g p.p., f d g d.
L1
d 0 alors f 0 p.p.
R
et si, pour tout A B, A f d A g d, alors f g p.p.
Af
Il nous reste `a enoncer les resultats concernant les passages `a la limite. Le premier
do`
u decoulent facilement les autres sappelle theor`eme de convergence monotone ou
theor`eme de Beppo-Levi.
Th
eor`
eme 3.3.2. Soit fn B + une suite croissante, alors
Z
Z
lim fn d = lim fn d.
29
Corollaire 3.3.3. Soit gn B + , alors
Z X
XZ
gn d.
gn d =
n
Z
A
1
(f (t + h, x) f (t, x)) d(x).
h
30
Mesure. Int
egration
Par additivite, cette formule est encore vraie si f est continue par morceaux sur [a, b].
Consid
rons maintenant une application f de R dans R continue par morceaux
R e+
telle que f (t) dt soit absolument convergente. Lorsque a et b +, dune
R +
Rb
R +
Rb
part, par definition,
a |f (t)| dt
R
R |f (t)| dt < + et a f (t) dt f (t) dt;
dautre part, R1[a,b[ |f | d R |f | d (convergence monotone) ce qui implique que
f L1 () puis 1[a,b[ f d f d (theor`eme de Lebesgue puisque |1[a,b[ f | |f |
L1 ()). Donc
Z
Z
+
f (t) dt =
f d.
R +
Par contre, si f (t) dt est convergente mais pas absolument convergente (par
exemple f (x) = sinx x ), f
/ L1 ().
3.3.5. Espaces Lp . Soit (E, B, ) un espace mesure. On note L0 lensemble des applications B-mesurables de E dans R finies p.p. On dit que f g si f = g p.p. Alors
est une relation dequivalence sur L0 . On note L0 = L0 / . En fait L0 est lespace
des classes
B-mesurables
d
R de fonctions
R
R
Refinies `a un p.p. pr`es. Puisque f = g p.p.
implique |f | d = |g| d et R f d = g d siR f et g sont dansR L1 , on peut definir
sans ambigute, pour f L0 , |f | d puis, si |f | d < +, f d. Par abus de
langage, dans toute la suite nous noterons de la meme facon une fonction et sa classe
dequivalence. On pose alors, pour 1 p < + et f L0 ,
Z
1
||f ||p = [ |f |p d] p
et, pour p = +,
||f || = inf(M, (|f | > M ) = 0).
On a deux inegalites fondamentales. Pour f, g L0+ ,
||f + g||p ||f ||p + ||g||p , 1 p +
(3.6)
1 1
+ =1
p q
(3.7)
31
qui sappelle linegalite de Holder. Notons que pour p = q = 2, (3.7) implique
linegalite de Schwarz
Z
Z
Z
[ |f g| d]2 ( f 2 d)( g 2 d).
On note
Lp = {f L0 ,
|f |p d < +},
Lp = {f L0 ,
|f |p d < +}.
Pn
k=1 ak 1Ak ,
Ak B, (Ak ) <
3.4. Mesures `
a densit
e
+
3.4.1. Soit une mesure
R sur (E, B).+On peut lui associer une application I de B dans
+
R en posant I(f ) = f d, f B . Lapplication I a les proprietes suivantes: I(f +
g) = I(f ) + I(g), I(af ) = aI(f ), a R+ et I(fn ) I(f ) si fn f . Reciproquement
on a,
n
X
k=1
n
n
X
X
X
1Ak ) = lim I(
1Ak ) = lim
I(1Ak ) =
(An ).
k=1
k=1
32
Mesure. Int
egration
Ce qui montre que est une mesure. On a alors, pour toute f eB + , I(f ) =
On conclut facilement en utilisant la prop. 3.1.2.
f d.
De plus f [B] est -integrable ssi f h est -integrable et lon a dans ce cas (3.8).
R
Preuve: On consid`ere la fonctionnelle I(f ) = f h d, f B + et on applique la
prop. 3.4.1. La derni`ere assertion est pure routine en ecrivant f = f + f .
Supposons que = h1 . = h2 . et que soit bornee, alors h1 , h2 L1 () et on a
(3.3.3 (vi)) h1 = h2 p.p. On voit facilement que ceci est encore vrai si est -finie.
3.4.3. Theor`eme de Radon-Nikodym. Soient , deux mesures sur (E, B). On cherche
`a savoir si a une densite par rapport `a . Si = h., on a evidemment, pour
A B, (A) = 0 implique (A) = 0. Il est remarquable que cette propriete suffise `a
caracteriser les mesures ayant une densite par rapport `a .
D
efinition 3.4.3. On dit que est absolument continue par rapport `
a si
A B et (A) = 0 impliquent (A) = 0.
On note alors . On a (theor`eme de Radon-Nikodym):
Th
eor`
eme 3.4.4. Soient , deux mesures -finies sur (E, B) telles que .
Alors il existe h B + , unique `
a un p.p. pr`es, telle que = h..
33
Th
eor`
eme 3.5.1. Soient (E1 , B1 , 1 ) et (E2 , B2 , 2 ) deux espaces mesures avec 1 et
2 -finies. Il existe une unique mesure sur B1 B2 , notee 1 2 et appelee mesure
produit de 1 et 2 , telle que,
pour tous A1 B1 , A2 B2 , 1 2 (A1 A2 ) = 1 (A1 ) (A2 ).
De plus, pour toute f (B1 B2 )+ ,
Z
Z Z
Z Z
f d1 2 = [ f (x1 , x2 ) d1 (x1 )] d2 (x2 ) = [ f (x1 , x2 ) d2 (x2 )] d1 (x1 ).
Preuve: (i) Unicite. On applique la prop. 3.2.2 `a C = {A, A = A1 A2 , A1
B1 , A2 B2 , (A1 ) < +, (A2 ) < +}.
R R
(ii) Existence. On applique la prop. 3.4.1 `a I1 (f ) = [ f (x1 , x2 ) d1 (x1 )] d2 (x2 ) ce
qui
R R donne lexistence. Mais on peut aussi appliquer la prop. 3.4.1 `a I2 (f ) =
[ f (x1 , x2 ) d2 (x2 )] d1 (x1 ) et, vu lunicite, on a I1 (f ) = I2 (f ).
Si f L1C (1 2 ), on peut appliquer le theor`eme precedent `a [<(f )]+ , [<(f )] ,
[=(f )]+ et [=(f )] et lon obtient le theor`eme de Fubini:
R
1
Th
eor`
R eme 3.5.2. Soit f LC (1 2 ). Alors, |f (x1 , x2 )| d
R 2 (x2 ) < + 1
p.p., |f (x
,
x
)|
d
(x
)
<
+
p.p.
et,
posant
(x
)
=
f (x1 , x2 ) d2 (x2 ),
1 1
2
1 1
R 1 2
1
1
2 (x2 ) = f (x1 , x2 ) d1 (x1 ), 1 L (1 ), 2 L (2 ) et
Z
Z
Z
f d1 2 = 2 (x2 ) d2 (x2 ) = 1 (x1 ) d1 (x1 ).
3.5.2. Tout ceci setend sans (trop de) peine au cas de n espaces mesurables. Il y a
quelques verifications fastidieuses `a faire du type 1 (2 3 ) = (1 2 ) 3 . De
plus dans la formule dintegrations successives, les variables peuvent etre integrees
dans tous les ordres possibles. A ce sujet, le grand principe est: soit f mesurable, si f
est positive, tout est permis, si f est de signe quelconque ou complexe, on consid`ere
dabord |f | et on commence par montrer que |f | est integrable.
3.5.3. Mesures de Lebesgue sur Rd .
Lemme 3.5.3. B(R) B(R) . . . B(R) = B(Rd )
Preuve: Soit B d = B(R) B(R) . . . B(R).
(i) Si est U un ouvert de Rd , U = n Pn , Pn pave ouvert (i.e. Pn =
Donc U B d et B(Rd ) Bd .
Qd
(ii) Soient X1 , X2 , . . . , Xd les projections canoniques de Rd sur R. Les Xk sont continues donc mesurable de (Rd , B(Rd )) dans (R, B(R)) do`
u B d = (X1 , . . . , Xd )
d
B(R ).
Soit la mesure de Lebesgue sur (R, B(R)). On definit alors, sur (Rd , B(Rd )),
d = . . . . On peut appliquer la prop. 3.2.2 `a
C = {A, A =
d
Y
i=1
34
Mesure. Int
egration
On obtient que d est lunique mesure sur B(Rd ) telle que, pour tous < ai <
bi < +,
d
d
Y
Y
d (
]ai , bi [) =
(bi ai ).
i=1
i=1
Rd .
3.5.5. On termine ce chapitre par un resultat tr`es utile. On note Ck lespace des
applications continues `a support compact de Rd dans R et C0 lespace des applications
continues de Rd dans R tendant vers 0 `a linfini. On munit C0 de la norme de la
convergence uniforme ||f || = supx |f (x)|. Rappelons quune partie H de C0 est totale
dans C0 si lespace vectoriel engendre par H est dense dans (C0 , || ||).
Proposition 3.5.4. Soient , deux mesures bornees sur B(Rd ). On a = d`es
que lune des conditions suivantes est satisfaite:
(i) ai , bi R, Rai < bi , (]a1 , b1 [ . . . ]ad , bd [) = (]a
R 1 , b1 [ . . . ]ad , bd [),
(ii) fi Ck+ , f1 (x1 ) . . . fd (xd ) d(x1 , . . . , xd ) = f1 (x1 ) . .R. fd (xd ) d(x
R 1 , . . . , xd ).
(iii) il existe un ensemble H total dans C0 tel que, f H, f d = f d.
Preuve: Supposons (i) et soit C = {A B(Rd ), A =]a1 , b1 [ . . . ]ad , bd [}. C est
stable par intersection finie et (C) = B(Rd ). Donc (cor. 3.2.3) = .
Supposons (ii). Puisque, pour tous a < b, 1]a,b[ = lim fn avec fn Ck+ , (ii)
implique (i) (convergence monotone) et le resultat cherche.
R
R
Supposons (iii) et soit V = e.v.[H]. On a, pour toute f VR, f d =
R f d.
Soient f C0 etR fn V tendant
vers f dans R(C0 , || ||). Vu
R
R que | fnRd f Rd|
d
||fn f || (R ), fn d n f d. De meme gn d n g d do`
u f d = f d
pour toute f C0 . On applique (ii).
35
Pour montrer quune partie de C0 est dense, le theor`eme de Stone-Weierstrass est
un outil precieux. Rappelons quune sous-alg`ebre V de C0 est un sous-espace vectoriel
tel que f, g V implique f g V . Alors:
Th
eor`
eme 3.5.5. Soit A une sous-alg`ebre de C0 verifiant
(i) pour tous x, y Rd , x 6= y, il existe f A telle que f (x) 6= f (y),
(ii) pour tout x Rd , il existe f A telle que f (x) 6= 0,
alors A = C0 .
Notant Ck lespace des fonctions indefiniment derivables `a support compact sur
Rd , on a:
Corollaire 3.5.6. Ck est dense dans C0 .
Preuve: Soit, pour t R, (t) = 1]0,+[ (t) exp( t12 ). On verifie facilement que
C (R). On pose, pour > 0, a Rd et x Rd , f,a (x) = (2 |x a|2 ). On a
f,a Ck , f,a (a) > 0, f,a (x) = 0 si |x a| > . On peut alors appliquer le th. 3.5.5
36
Mesure. Int
egration
Chapitre 4
Espace de probabilit
e g
en
eral.
Variables al
eatoires
4.1. Espace de probabilit
e
4.1.1. On peut maintenant aborder le cas general.
D
efinition 4.1.1. On appelle espace de probabilite un triplet (, A, P) o`
u (, A) est
un espace mesurable et P une probabilite sur A.
Les elements de A sappellent des evenements. Pour des evenements A et B, on
ecrira indifferemment A B ou AB.
Premi`
eres propri
et
es. An , A, B etant des evenements,
(i) P(Ac ) = 1 P(A); si A B, P(A) P(B),
(ii) P(A B) = P(A) + P(B) P(A B),
(iii) si An A, P(An ) P(A),
(iv) si An A, P(An ) P(A),
P
(v) P(An ) P(An ).
Rappelons quun sous-ensemble B de est dit negligeable si B A A tel
que P(A) = 0. Une propriete dependant de est vraie presque s
urement, en abrege
p.s., si elle est vraie en dehors dun ensemble negligeable. Notons quun ensemble
negligeable nest pas toujours un evenement sauf si lespace (, A, P) est complet. On
peut cependant toujours se ramener `a ce cas. Voir `a ce sujet 3.2.2.
4.1.2. Probabilite conditionnelle. Toutes les definitions et resultats de la section 1.3
restent valables en supposant que tous les ensembles consideres sont des evenements
i.e. sont des elements de A. En particulier la definition de n evenements independants
(def. 1.3.5) est inchangee. On dit alors que des evenements (An )nN sont independants
si, pour tout r, A1 , . . . , Ar sont independants.
38
Espace de probabilit
e g
en
eral. Variables al
eatoires
P(Ak ) = 0.
k=n
m
Y
P(Ack ) =
k=n
donc
c
P(
k=n Ak )
= lim
m
Y
(1 P(Ak )) exp(
k=n
c
m P(m
k=n Ak )
m
X
P(Ak ))
k=n
= 0 si
P(An ) = +.
Passant au complementaire, on a P(
k=n Ak ) = 1 et P(lim sup An ) = 1.
4.2. Variables al
eatoires
4.2.1. Soient (, A, P) un espace de probabilite et (E, E) un espace mesurable.
D
efinition 4.2.1. On appelle variable aleatoire (en abrege v.a.) `
a valeurs (E, E)
toute application mesurable de (, A) dans (E, E).
Si E est denombrable et E = P(E), on parle de v.a. discr`ete,
si E = R+ et E = B(R+ ), on parle de v.a. positive,
si E = R et E = B(R), on parle de v.a. reelle (v.a.r.),
si E = Rd et E = B(Rd ), on parle de v.a. vectorielle,
si E = C et E = B(C), on parle de v.a. complexe.
4.2.2. Loi dune v.a.. Soient X une v.a. `a valeurs (E, E) et E. Rappelons quon
note
{X } = {, X() } = X 1 ().
39
On pose alors:
X () = P(X ), E.
(4.1)
X 1 (n n ) = n X 1 (n ),
n 1
n2
X
k=0
k
k
k+1
P(
X<
) + nP(X n).
2n 2n
2n
(4.2)
(4.3)
40
Espace de probabilit
e g
en
eral. Variables al
eatoires
1
E|X|p .
p
1
Var(X).
2
41
Proposition 4.2.8. Soient X une v.a.r. et f une application convexe de R dans R.
On suppose X et f (X) integrables. Alors f (E(X)) E(f (X)).
Preuve: Soit m = E(X). La fonction f etant convexe, il existe une droite passant
par (m, f (m)) et situee sous le graphe de f i.e. une fonction affine (x) = a(x m) +
f (m) f (x) pour tout x R. On a donc a(X m) + f (m) f (X) et, prenant
lesperance, f (m) E(f (X)).
Corollaire 4.2.9. Soient une probabilite sur R, f une application convexe de R
dans R et g [B(R)]. On suppose g et f g -integrables. Alors
Z
Z
f ( g(x) d(x)) f (g(x)) d(x).
Preuve: On choisit = R, A = B(R), P = , X = g et on applique la prop. 4.2.8.
4.3. Probabilit
es sur R
4.3.1. On a vu en 2.2 des exemples de lois discr`etes sur R. On consid`ere maintenant
quelques lois `a densites. Une application borelienne q de Rd dans R est une densite
de probabilite si:
Z
q(x) 0,
q(x) dx = 1.
(4.7)
Rd
On dit alors quune v.a. `a valeurs Rd X a pour densite q(x) si la loi de X est de
densite q par rapport `a la mesure de Lebesgue sur Rd ce quon ecrit X = q.. Dans
cette section, on suppose d = 1.
a. Loi uniforme sur [a, b] notee U (a, b), a, b R. Cest la loi sur R de densite
q(x) =
Si X U (a, b), E(X) =
a+b
2 ,
1
1 (x).
b a [a,b]
Var(X) =
(4.8)
(ba)2
12 .
1
.
(1 + (x a)2 )
(4.9)
(4.10)
42
Espace de probabilit
e g
en
eral. Variables al
eatoires
d. Loi gamma de param`etres a, c, a > 0, c > 0, notee G(a, c). Rappelons que la
fonction
Z +
ex xa1 dx
(4.11)
(a) =
0
est definie pour tout a > 0 et que lon a (1) = 1, (a + 1) = a(a) (integrer par
parties) do`
u (n) = (n 1)!. Donc
qa,c (x) =
ca cx a1
e x 1R+ (x)
(a)
(4.12)
est une densite de probabilite sur R. La loi de densite qa,c sappelle la loi G(a, c). On
a, si X G(a, c), E(X) = a/c, Var(X) = a/c2 .
En particulier, pour a = 1, on obtient la loi G(1, c) de densite cecx quon appelle
loi exponentielle de param`etre c.
e. Loi normale ou de Gauss N1 (m, 2 ). On appelle loi N1 (m, 2 ) la loi sur R de densite
fm,2 (x) =
1
2 2
(xm)2
2 2
(4.13)
(4.14)
43
Preuve: Considerons, pour u [0, 1] fixe, I(u) = {t, F (t) u). Puisque F est
croissante, cest un intervalle de la forme [F 1 (u), +[ ou ]F 1 (u), +[. Soit tn
F 1 (u). Alors F (tn ) u et (continuite `a droite) F (F 1 (u)) u i.e. F 1 (u)
I(u) = [F 1 (u), +[. On a donc
{u F (t)} {t F 1 (u)}.
(4.15)
Finalement
P(F 1 (U ) t) = P(U F (t)) = F (t).
En conclusion, X = F 1 (U ) a pour fonction de repartition F i.e. a pour loi .
4.4. Variables al
eatoires ind
ependantes
4.4.1. Dans cette sous-section, X1 , . . . , Xn designent des v.a. `a valeurs (E1 , E1 ), . . . , (En , En ).
D
efinition 4.4.1. Les v.a. X1 , . . . , Xn sont dites independantes si:
pour tous k Ek , P(X1 1 , . . . , Xn n ) = P(X1 1 ) . . . P(Xn n ). (4.16)
La suite (Xn , n N) est dite independante si, pour tout n, les v.a. X1 , . . . , Xn sont
independantes.
Supposons n = 2. On peut considerer (X1 , X2 ) comme une v.a. `a valeurs (E1
E2 , E1 E2 ). Sa loi est alors definie par
(X1 ,X2 ) (1 2 ) = P(X1 1 , X2 2 ).
Il resulte donc du th. 3.5.1 que X1 et X2 sont independantes ssi (X1 ,X2 ) = X1 X2 .
Il en est de meme pour n quelconque et on peut enoncer:
Proposition 4.4.2. Les v.a. X1 , . . . , Xn sont independantes ssi (X1 ,...,Xn ) = X1
. . . Xn .
Le resultat suivant, un peu technique, est tr`es utile.
Proposition 4.4.3. Soit Ck Ek une classe contenant Ek , stable par intersection
finie, et telle que (Ck ) = Ek , k = 1, . . . , n. Si
pour tous k Ck , P(X1 1 , . . . , Xn n ) = P(X1 1 ) . . . P(Xn n ),
les v.a. X1 , . . . , Xn sont independantes.
Preuve: Soit C = {, = 1 . . . n , k Ck }. Alors C est stable par intersection
finie et (C) = E1 . . . En (en effet E1 . . . Ek1 k Ek+1 . . . En C
si k Ck et donc E1 . . . Ek1 k Ek+1 . . . En (C) si k Ek ). Par
hypoth`ese, pour tout C, (X1 ,...,Xn ) () = X1 . . . Xn (). Donc (prop. 3.2.2)
(X1 ,...,Xn ) = X1 . . . XN et les v.a.X1 , . . . , Xn sont independantes.
44
Espace de probabilit
e g
en
eral. Variables al
eatoires
Th
eor`
eme 4.4.4. Les v.a. X1 , . . . , Xn sont independantes ssi, pour toutes fi Ei+ ,
E(f1 (X1 ) . . . fn (Xn )) = E(f1 (X1 )) . . . E(fn (Xn )).
(4.17)
Dans ce cas, si, pour k = 1, 2, . . . , n, E(|fk (Xk )|) < +, on a E(|f1 (X1 ) . . . fn (Xn )|)
< + et (4.17) est satisfaite.
Preuve: On suppose n = 2.
(i) Si on a (4.17), il suffit de choisir f1 = 11 , f2 = 12 pour avoir lindependance de
X1 et X2 .
(ii) Supposons X1 et X2 independantes. On a, pour fk Ek+ , k = 1, 2,
Z
Z
E(f1 (X1 )f2 (X2 )) = f1 (x1 )f2 (x2 ) d(X1 ,X2 ) (x1 , x2 ) = f1 (x1 )f2 (x2 ) dX1 (x1 )dX2 (x2 )
Z
Z
= f1 (x1 ) dX1 (x1 ) f2 (x2 ) dX2 (x2 ) = E(f1 (X1 ))E(f2 (X2 )).
Enfin si E(|fk (Xk )|) < +, k = 1, 2,
E(|f1 (X1 )f2 (X2 )|) = E(|f1 (X1 )|)E(|f2 (X2 )|) < +
et le calcul ci-dessus reste valable.
On en deduit facilement, comme en 2.2.6, que, si les v.a. X1 , X2 , . . . , Xn sont
independantes:
a. Pour toute permutation {r1 , . . . , rn } de {1, . . . , n}, les v.a. Xr(1) , . . . , Xr(n) sont
independantes.
b. Pour toutes gk [Ek ], les v.a. g1 (X1 ), . . . , gn (Xn ) sont independantes.
c. Posant
Y1 = (X1 , . . . , Xr1 ), Y2 = (Xr1 +1 , . . . , Xr2 ), . . . , Yp = (Xrp1 +1 , . . . , Xrp ),
les v.a. Y1 , . . . , Yp sont independantes.
4.4.2. On sinteresse plus particuli`erement aux v.a. reelles. Les prop. 4.4.2 et 3.5.4
impliquent immediatement:
Proposition 4.4.5. Soient X1 , . . . , Xn des v.a. reelles. Il y a equivalence entre:
(i) Les v.a. X1 , . . . , Xn sont independantes, Q
(ii) ai < bi , P(ai < Xi < bi , i = 1, . . . , n) = ni=1 P(ai < Xi < bi ),
(iii) fi Ck+ , E(f1 (X1 ) . . . fn (Xn )) = E(f1 (X1 )) . . . E(fn (Xn )).
4.4.3. Covariance. Soient X et Y deux v.a.r. reelles de carre integrable. On appelle
covariance de X et Y et on note Cov(X, Y ) la quantite
Cov(X, Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y ).
(4.18)
45
Proprietes.
(i) Cov(X,X)=Var(X). Pour tous a, b R, Cov(X + a, Y + b) = Cov(X, Y ).
(ii) Si les v.a. X et Y sont independantes, Cov(X, Y ) = 0.
(iii) (X, Y ) 7 Cov(X, Y ) est une forme bilineaire symetrique. En particulier, vu (i),
Var(
n
X
Xk ) =
k=1
n
X
Var(Xk ) + 2
k=1
Cov(Xj , Xk ).
1j<kn
1
4
6= P(X =
(X, Y ) = p
Var(X)Var(Y )
(4.19)
Cov(X, Y )
, b = E(Y ) a
E(X)
Var(X)
46
Espace de probabilit
e g
en
eral. Variables al
eatoires
4.5. Vecteurs al
eatoires
4.5.1. Notations. (i) On note, pour x = (x1 , . . . , xd ) Rd , |x| = (x21 + . . . + x2d )1/2 .
(ii) On note Lpd = {X = (X1 , . . . , Xd ), Xk v.a. reelles et E|X|p < +}.
(iii) Si X L1d , on note E(X) = (E(X1 ), . . . , E(Xd )).
4.5.2. On appelle vecteur aleatoire toute v.a. `a valeurs Rd . On remarque dabord que
X = (X1 , . . . , Xd ) est un vecteur aleatoire ssi, pour k = 1, . . . , d, Xk est une v.a.r.
Soit X = (X1 , . . . , Xd ) un vecteur aleatoire. Les lois X1 , . . . , Xd sappellent les lois
marginales de X.
Proposition 4.5.1. Soit X un vecteur aleatoire de densite q. Alors Xk a pour densite
Z
qk (u) = q(x1 , . . . , xk1 , u, xk+1 , . . . , xd ) dx1 . . . dxk1 dxk+1 . . . dxd .
Preuve: On suppose d = 2. Alors, pour B + (R),
Z
Z
Z
E((X1 )) = (x1 )q(x1 , x2 ) dx1 dx2 = (x1 ){ q(x1 , x2 ) dx2 }dx1 .
On sait (th. 4.4.2) que les composantes X1 , . . . , Xd sont independantes ssi X =
X1 . . . Xd . On en deduit immediatement:
Proposition 4.5.2. Soit X = (X1 , . . . , Xd ) un vecteur aleatoire de densite q. Les
composantes X1 , . . . , Xd sont independantes ssi
q(x1 , . . . , xd ) = q1 (x1 ) . . . qd (xd ) p.p.
o`
u qk est la densite de Xk .
En fait pour montrer lindependance de X1 , . . . , Xd , on utilise plutot:
Corollaire 4.5.3. Soit X = (X1 , . . . , Xd ) un vecteur aleatoire de densite q. Les
composantes X1 , . . . , Xd sont independantes ssi
q(x1 , . . . , xd ) = g1 (x1 ) . . . gd (xd ) p.p.
R
et alors Xk a pour densite qk (u) = gk (u)/ R gk (v) dv.
Preuve: (d = 2) On suppose que q(x1 , x2 ) = g1 (x1 )g2 (x2 ). La densite q1 de X1 est
donc
Z
Z
q1 (x1 ) = g1 (x1 )g2 (x2 ) dx2 = a1 g1 (x1 ), a1 = g2 (x2 ) dx2 .
R
De meme q2 (x2 ) = a2 g2 (x2 ), a2 = g1 (x1 ) dx1 . Mais
Z
Z
Z
Z
1 = q(x1 , x2 ) dx1 dx2 = g1 (x1 )g2 (x2 ) dx1 dx2 = g1 (x1 ) dx1 g2 (x2 ) dx2 = a1 a2 .
47
On conclut facilement.
4.5.3. Matrice de covariance (ou de dispersion). On note M T la matrice transposee
de la matrice M . Alors on peut representer x Rd par un vecteur colonne i.e. une
matrice d 1 et on ecrira indifferemment x = (x1 , . . . , xd ) ou x = (x1 . . . xd )T . Pour
x = (x1 . . . xd )T et y = (y1 . . . yd )T , on a xT y = x1 y1 + . . . + xd yd =< x, y > et xy T est
la matrice de terme general xi yj .
Pour X L2d , on definit:
K(X) = E[(X E(X))(X E(X))T ] = E(XX T ) E(X)[E(X)]T .
(4.20)
K(X) =
Var(X1 )
Cov(X1 , X2 )
Cov(X2 , X1 )
Var(X2 )
...
...
...
...
...
...
Cov(Xd , X1 )
...
...
...
...
...
...
...
...
...
...
...
...
...
. . . Cov(X1 , Xd )
. . . Cov(X2 , Xd )
...
...
...
...
...
...
...
Var(Xd )
48
Espace de probabilit
e g
en
eral. Variables al
eatoires
(4.21)
pour toute f positive de Ck , E(f (X)) = f d.
4.6.1. Commencons par deux exemples elementaires.
1
. On
(1+x2 )
posant y = ex ,
Ck+
eX .
pose
arbitraire, on a,
Quelle est la loi de Y ? Soit f
Z +
Z +
dx
dy
X
x
E(f (Y )) = E(f (e )) =
f (e )
=
f (y)
.
2
(1 + x )
y(1 + (log y)2 )
1
1 + (y).
y(1+(log y)2 ) R
Exemple 2. Soit X une v.a.r. de densite N1 (0, 1). On pose Z = X 2 . Quelle est la loi
de Z ? De meme, pour f Ck+ arbitraire,
Z +
1
2
2
E(f (Z)) = E(f (X )) =
f (x2 )ex /2 dx.
2
Lapplication x 7 x2 netant pas une bijection de R sur R+ , on ne peut pas poser
brutalement z = x2 , mais on a
Z +
Z +
2
1
dz
2
2 x2 /2
E(f (Z)) = E(f (X )) =
f (x )e
dx =
f (z)ez/2 .
z
2 0
2 0
Donc (4.21) Z a pour densite
i.e. Z G( 12 , 12 ).
49
o`
u J() est le determinant de la matrice des
{J(1 )((u))}1 . Il en resulte:
j
uk .
Si 0 u 1, h(u) =
h(u) = 0 si u
/ [0, 2].
Ru
0
dv = u, si 1 u 2, h(u) =
R1
u1
dv = 2 u et evidemment
ca+b
ec(x+y) xa1 y b1 1]0,+[ (x)1]0,+[ (y).
(a)(b)
x
Soit lapplication (x, y) 7 (s = x + y, t = x+y
). est un diffeomorphisme de
1
]0, +[]0, +[ sur ]0, +[]0, 1[. De plus J( )(s, t) = s. La densite de (S, T )
est donc (prop.4.6.1)
hS,T (s, t) =
ca+b
ecs sa+b1 ta1 (1 t)b1 1]0,+[ (s)1]0,1[ (t).
(a)(b)
50
Espace de probabilit
e g
en
eral. Variables al
eatoires
ca+b
ecs sa+b1 1]0,+[ (s)
(a + b)
(a + b) a1
t (1 t)b1 1]0,1[ (t).
(a)(b)
U (0, 1). On pose U = 2 log X. cos(2Y ), V = 2 log X. sin(2Y ). Alors les v.a.
U et V sont independantes de meme loi N1 (0, 1).
2
Donc T a pour densite
Z
Z +
1 + u2 (1+t2 )/2
1
1 u2 (1+t2 )/2
e
|u| du =
e
u du =
.
q(t) =
0
(1 + t2 )
2
La v.a. T suit donc une loi de Cauchy.
En fait, il est souvent plus rapide de calculer directement E(f (T )). Ici, par exemple, passant en coordonnees polaires, on a:
Z Z
Z 2 Z
2
1
y 1 (x2 +y2 )
1
2
E(f (T )) =
f ( )e
) dxdy =
f (tan )e 2 dd
2
x
2 0
0
51
1
=
1
f (tan ) d =
f (t)
1
dz.
1 + t2
4.6.6. Exemple 5. Soit (X, Y ) un couple de v.a.r. independantes de meme loi N1 (0, 1).
On pose U = X, V = X 2 + Y 2 . Quelle est la loi du couple (U, V ) ? Lapplication
(x, y) 7 (x, x2 + y 2 ) netant pas une bijection, on ne peut utiliser la prop. 4.6.1. Soit
f Ck+ (R2 ) arbitraire. On a
Z
1
2
2
E(f (U, V )) = E(f (X, X 2 + Y 2 )) =
f (x, x2 + y 2 )e(x +y )/2 dxdy
2 R2
Z
Z
1
1
=
... +
....
2 RR+
2 RR
Considerons lapplication (x, y) 7 (u = x, v = x2 +y 2 ). Cest
dune part une bijection
de R R+ sur = {(u, v), v u2 } et alors x = u, y = v u2 et dautre part une
bijection de R R sur et dans ce cas x = u, y = v u2 . Dans les deux cas,
1
|J| = 2vu
. On obtient
2
1
E(f (U, V )) =
2
Le couple a donc pour densite
ev/2
f (u, v)
dudv.
v u2
e
1 (u, v).
2 vu2
v/2
4.6.7. Exemple 6. On ne rencontre pas toujours des v.a. ayant une densite par rapport
`a la mesure de Lebesgue. Soit X une v.a.r. de densite ex 1R+ (x). On pose U =
[X], V = X [X] o`
u [x] designe la partie enti`ere de x. Quelle est la loi de (U, V ) ?
Quelles sont les lois de U et de V ? Les v.a. U et V sont-elles independantes ?
Soit f Ck+ (R2 ) arbitraire. On a
Z +
E(f (U, V )) =
f ([x], (x [x])ex dx
0
Z
X
k=0
k+1
f (k, x k)e
dx =
Z
X
k=0
(k)e
k=0
(1 e
)=
(k)(e1 )k (1 e1 )
k=0
k
t
E((V )) =
e (t)e dt =
(1 e1 )1 (t)et dt
0 k=0
52
Espace de probabilit
e g
en
eral. Variables al
eatoires
e et 1 (t).
et V a pour densite e1
]0,1[
Enfin E((U )(V )) = E((U )) E((V )) et U et V sont independantes (th. 4.4.4).
4.6.8. Loi des min et des max. Soient X1 , X2 , . . . , Xn des v.a. reelles independantes
de fonction de repartition F1 , F2 , . . . , Fn . On pose
U = min Xk ,
1kn
V = max Xk .
1kn
Dune part
P(V t) = P(X1 t, . . . , Xn t) =
n
Y
P(Xk t) =
k=1
Qn
k=1 Fk (t).
n
Y
Fk (t)
k=1
Dautre part
P(Xk > t) =
k=1
n
Y
n
Y
(1 Fk (t))
k=1
Q
et U a pour fonction de repartition FU (t) = 1 nk=1 (1 Fk (t)).
Si les Xk ont meme loi, pour tout k, Fk (t) = F (t) et
FV (t) = (F (t))n ,
FU (t) = 1 (1 F (t))n .
Si, de plus, les Xk ont une densite, F est derivable et on obtient les densites de
U et V en derivant FU (t) et FV (t).
4.7. Conditionnement
4.7.1. Soient A un evenement tel que P(A) > 0 et Y une v.a `a valeurs Rd . Posons,
pour B(Rd ),
Y (|A) = P(Y |A) =
1
P(A {Y }).
P(A)
(4.24)
Alors, A etant fixe, 7 Y (|A) est une probabilite sur Rd quon appelle loi conditionnelle de Y sachant A. De meme, pour L1 (Y ),
Z
Z
1
(y) dY (y|A) = E((Y )|A) =
(Y ) dP
(4.25)
P(A) A
sappelle lesperance conditionnelle de (Y ) sachant A.
4.7.2. Considerons une v.a. `a valeurs E fini ou denombrable telle que, pour tout
a E, P(X = a) > 0 et Y une v.a `a valeurs Rd . Prenant A = {X = a}, on obtient
la loi conditionnelle de Y sachant que X = a definie par
Y (|X = a) = P(Y |X = a) =
1
P(X = a, Y )
P(X = a)
(4.26)
53
et, pour L1 (Y ), lesperance conditionnelle de (Y ) sachant que X = a definie
par
Z
1
(Y ) dP.
(4.27)
E((Y )|X = a) =
P(X = a) {X=a}
4.7.3. Considerons maintenant une v.a. X `a valeurs Rp de densite q(x) et Y une
v.a `a valeurs Rd . Les formules (4.26) et (4.27) nont plus de sens puisque, pour tout
a, P(X R= a) = 0. Supposons que (X, Y ) ait une densite continue h(x, y) et que
q(x) = h(x, y) dy > 0. Soient B(a, ) la boule dans Rp de centre a et de rayon et
|B(a, )| son volume. On a, lorsque 0,
R
P(X B(a, ), Y )
B(a,) h(x, y) dxdy
R
P(Y |X B(a, )) =
=
P(X B(a, ))
B(a,) q(x) dx
R
Z |B(a, )|1
Z
h(a, y)
B(a,) h(x, y) dx
R
=
dy
dy.
1
|B(a,
)|
q(x)
dx
q(a)
B(a,)
Il est donc naturel dappeler loi conditionnelle de Y sachant que X = a la loi de
densite h(a, y)/q(a). Ceci conduit `a:
D
efinition 4.7.1.R Soient (X, Y ) un couple de v.a. `
a valeurs Rp Rd de densite
h(x, y) et q(x) = h(x, y) dy la densite de X. On appelle densite conditionnelle de
Y sachant que X = x la fonction
h(x, y)
si q(x) > 0, = densite arbitraire si q(x) = 0.
q(x)
R
Remarque 1. Noter que P(X {q = 0}) = {q=0} q(x) dx = 0.
h(y | x) =
Remarque 2. On voit donc que h(y | x) est le quotient de la densite de (X, Y ) par la
densite de X. Cest tout simplement lanalogue de la formule, pour des v.a. enti`eres,
P(Y = n | X = p) = P(X = p, Y = n) / P(X = p).
La loi de densite h(y | x) sappelle la loi conditionnelle de Y sachant que X = x
et, pour L1 (Y ),
Z
E((Y )|X = x) := (y)h(y | x) dy
sappelle lesperance conditionnelle de (Y ) sachant que X = x. Si d = 1, on peut
choisir (y) = y, on obtient lesperance conditionnelle de Y sachant que X = x.
Lenonce suivant est `a comparer au lem. 4.2.6.
Proposition 4.7.2. Soit (X, Y ) un couple de v.a. `
a valeurs Rp R de densite h(x, y)
2
avec Y L . Alors:
inf{ E[(Y f (X))2 ], f L2 (X ) } = E[(Y f(X))2 ] o`
u f(x) = E(Y |X = x).
54
Espace de probabilit
e g
en
eral. Variables al
eatoires
Z
E(Y g(X)) =
{q>0}
On en deduit:
E[(Y f (X))2 ] = E[(Y f(X) + f(X) f (X))2 ]
= E[(Y f(X))2 ] + E[(f(X) f (X))2 ] + 2E[(Y f(X))(f(X) f (X))]
= E[(Y f(X))2 ] + E[(f(X) f (X))2 ]
et le resultat cherche.
Exemple. Soient Y, Z des v.a.r. independantes de meme densite ey 1R+ (y). On
pose X = Y + Z. On veut calculer la loi conditionnelle de Y sachant que X = x et
E(Y |X = x).
Pour appliquer la def.4.7.1, il faut calculer la densite du couple (X, Y ). On a
Z Z x
Z Z
(y+z)
2
2
(x, y)ex dxdy
(y + z)e
dydz =
E((X, Y )) =
0
h(x, y)
1
= 1[0,x] (y).
q(x)
x
La la loi conditionnelle de Y sachant que X = x est donc la loi uniforme sur [0, x] et
Z
Z
1 x
x
y dy =
E(Y |X = x) = yh(y | x) dy =
x 0
2
qui est evidemment la moyenne de la loi U (0, x).
4.8. Simulation
Soit une probabilite sur Rd . Simuler la loi , cest construire une suite x1 , x2 , . . . , xn , . . .
de points de Rd censes etre le resultat de tirages independants de points de Rd selon
la loi i.e. les valeurs prises par une suite X1 , X2 , . . . , Xn , . . . de v.a. independantes
de loi .
55
4.8.1. Nombres au hasard. En general, la fonction random dun ordinateur fournit
une suite de nombres entre 0 et 1 censes etre le resultat de tirages independants selon
la loi uniforme sur [0, 1]. Ces nombres sont obtenus par un algorithme qui fournit
des nombres ayant les memes proprietes quune suite de tirages independants selon
U (0, 1). A ce sujet, voir la sous-section 6.4.2. Le probl`eme est donc de construire `a
partir dune suite U1 , U2 , . . . , Un , . . . de v.a. independantes de loi U (0, 1) une suite
X1 , X2 , . . . , Xn , . . . de v.a. independantes de loi .
4.8.2. Simulation de v.a. reelles. Soit une probabilite sur R de fonction de repartition
F . On pose F 1 (u) = inf(t, F (t) u). On sait (prop. 4.3.2) que, si U U (0, 1),
F 1 (U ) a pour loi . Donc, si (Un , n 1) est une suite de v.a. independantes de loi
U (0, 1), (F 1 (Un ), n 1) est une suite de v.a. independantes de loi .
Exemple. Soit (pk , k = 0, . . . , n) une probabilite sur {0, 1, . . . , n}. Soit F (t) sa fonction
de repartition. On pose
a0 = 0, a1 = p0 , a2 = p0 + p1 , . . . , an = p0 + . . . + pn1 , an+1 = 1.
On a
F (t) = 0 = a0 si t < 0, F (t) = a1 si 0 t < 1, F (t) = a2 si 2 t < 3, . . .
et
F 1 (u) = k si ak u < ak+1 , k = 0, 1, . . . , n.
Rt
Si = f., F (t) = f (x) dx. Il nest pas toujours (en fait pas souvent) possible
de calculer F et F 1 . Cest en particulier le cas pour la loi N1 (0, 1).
4.8.3. Simulation de v.a. gaussiennes reelles. Soit (Un , n 1) une suite de v.a. independantes
de loi U (0, 1), on pose, pour n 1,
p
p
X2n1 = 2 log U2n1 . cos(2U2n ), X2n = 2 log U2n1 . sin(2U2n ).
Alors dapr`es la prop. 4.6.3, (Xn , n 1) est une suite de v.a. independantes de loi
N1 (0, 1). Pour simuler la loi N1 (m, 2 ), il suffit de remarquer que, si Y N1 (0, 1),
alors X = m + Y N1 (m, 2 ).
4.8.4. La methode de rejet. Soient (Zn , n 1) une suite de v.a. `a valeurs (E, E) et
B E. On consid`ere = inf(n 1, Zn B) avec la convention inf = +. Alors
() est la premier n tel que Zn () B et si, pour tout n, Zn ()
/ B, () = +.
est donc une v.a. `a valeurs N. Si P( < +) = 1, on peut definir une v.a. Z par
Z () = Zn () sur {, () = n}. La methode de rejet repose sur:
Proposition 4.8.1. Soient (Zn , n 1) une suite de v.a. independantes `
a valeurs
(E, E) de meme loi et B E avec (B) > 0. On pose 1 = inf(n 1, Zn B),
. . ., r = inf(n > r1 , Zn B), . . .. Alors, pour tout r 1, P(r < +) = 1 et
(Zr , r 1) est une suite de v.a. independantes de loi donnee par
(A) =
(A B)
= P(Z1 A | Z1 B)
(B)
56
Espace de probabilit
e g
en
eral. Variables al
eatoires
k1
P(r1 = k, Zk+1
/ B, . . . , Zk+j1
/ B, Zk+j B)
j,k1
P(r1 = k)
(1 (B))k1 (B) =
j1
k1
k1
De meme
P(Z1 A) =
P(1 = k, Zk A B)
k1
P(Z1
/ B, . . . , Zk1
/ B, Zk AB) =
k1
(1(B))k1 (AB) =
k1
(A1 B)
(B)
(A B)
.
(B)
r1 B)
. . . (A(B)
, alors
j,k1
(1 (B))j1 (Ar B)
j1
k1
= P(Z1 A1 , . . . , Zr1
(Ar B) Y (Ai B)
=
,
Ar1 )
(B)
(B)
i=1
ce qui montre que les v.a. (Zk , k 1) sont independantes et de meme loi.
En pratique, soit z1 , . . . , zn , . . . une suite de tirages independants selon la loi . On
consid`ere z1 . Si z1 B, on pose x1 = z1 , k1 = 1. Sinon, on consid`ere z2 . Si z2 B, on
pose x1 = z2 , k1 = 2. Sinon, on consid`ere z3 . Si z3 B, on pose x1 = z3 , k1 = 3. . . . On
construit ainsi x1 , k1 . On consid`ere alors zk1 +1 . Si zk1 +1 B, on pose x2 = zk1 +1 , k2 =
k1 + 1. Sinon, on consid`ere zk1 +2 . Si zk1 +2 B, on pose x2 = zk1 +2 , k2 = k1 + 2.
Sinon, on consid`ere zk1 +3 . Si zk1 +3 B, on pose x2 = zk1 +3 , k2 = k1 + 3. . . . On
construit ainsi x2 , k2 . On continue.... et on obtient une suite x1 , . . . , xn , . . . de tirages
independants selon la loi (A) = (AB)
(B) .
Remarque 1. Vu (4.28), la v.a. 1 1 suit une loi geometrique de param`etre 1(B) et
1
on a E(1 ) = (B)
. Il est intuitif (et facile `a verifier) que les v.a. 1 , 2 1 , . . . , r r1
57
sont independantes et de meme loi. On a donc E(1 ) = E(2 1 ) = . . . = E(r
1
. Donc, si (B) est tr`es petit, cette simulation risque de prendre du
r1 ) = (B)
temps.
4.8.5. Simulation de la loi uniforme sur un domaine de mesure de Lebesgue finie.
Soit D un domaine de Rd tel que (D) < +, etant la mesure de Lebesgue sur Rd .
On appelle loi uniforme sur D, la probabilite de densite ((D))1 1D . La prop. 4.8.1
donne immediatement:
Corollaire 4.8.2. Soient D deux domaines de Rd avec () < + et (Zn , n
1) une suite de v.a. independantes de loi la loi uniforme sur . On pose 1 = inf(n
1, Zn D), . . ., r = inf(n > r1 , Zn D), . . .. Alors, pour tout r 1, P(r <
+) = 1 et (Zr , r 1) est une suite de v.a. independantes de loi la loi uniforme
sur D.
Preuve: Il suffit de remarquer que, si est la loi uniforme sur , la loi de X1 est
(A) =
(A D)
(A D) (D)
(A D)
=
:
=
(D)
()
()
(D)
1 = inf(n 1, aUn g(Yn ) < f (Yn ) ), . . . , r = inf(n > r1 , aUn g(Yn ) < f (Yn ) ), . . .
Alors les v.a. (Yr , r 1) sont independantes de loi f..
Preuve: Soient Zn = (Yn , Un ) et = {(y, u), a.u.g(y) < f (y) }. On a alors 1 =
inf(n 1, Zn ),. . ..
Lemme 4.8.4. Pour toute F + ,
1
E((Y1 )1{Z1 } ) = E((Y1 )1{aU1 g(Y1 )<f (Y1 )} ) =
a
Z
(y)f (y) d(y).
58
Espace de probabilit
e g
en
eral. Variables al
eatoires
4.9. Compl
ement:
echantillons ordonn
es.
Dans cette section, on consid`ere une probabilite sur R. On note F sa fonction
de repartition (def. 4.3.1). On rappelle que F est continue ssi ({x}) = 0 pour tout
x R.
4.9.1. Echantillon ordonne. Soit X1 , . . . , Xn n v.a.r. independantes de loi . On
appelle X1 , . . . , Xn un echantillon de taille n (ou n-echantillon) de la loi . Les
X1 , . . . , Xn ranges par ordre croissant, quon note X(1) , . . . , X(n) , sappelle alors un
echantillon ordonne de taille n de la loi . En particulier
X(1) = min Xi ,
1in
X(n) = max Xi .
1in
Par exemple, si X1 () = 4, X2 () = 5, X3 () = 1, X4 () = 2, X5 () = 4, X6 () = 4,
X7 () = 2, X8 () = 3, on a X(1) () = 1, X(2) () = 2, X(3) () = 2, X(4) () = 3,
X(5) () = 4, X(6) () = 4, X(7) () = 4, X(8) () = 5.
Supposons F continue, on a alors, pour i 6= j,
Z Z
Z Z
P(Xi = Xj ) =
1{x=y} d(x)d(y) = ( 1{y} (x) d(x)) d(y) = 0,
et donc P(i6=j {Xi = Xj }) et X(1) < . . . < X(n) p.s.
Si on a un un echantillon ordonne de taille 2n + 1 de la loi , on pose
Mn = X(n+1)
(4.29)
59
et Mn sappelle la mediane de lechantillon ou la mediane empirique.
4.9.2. Loi de X(k) . Soit X1 , . . . , Xn un echantillon de taille n d!une loi . On pose
Nnt =
n
X
1],t ] (Xi ).
(4.30)
i=1
Alors Nnt B(n, F (t)) et {X(k) t} = {Nnt k}. On a donc, notant Fk la fonction
de repartition de X(k) ,
P(X(k) t) =
P(Nnt
k) =
n
X
r=k
Vu que, pour 0 1,
n
n!
n!
d X
r (1 )nr =
k1 (1 )nk
d
r!(n r)!
(k 1)!(n k)!
r=k
(quand on derive tous les termes se detruisent deux `a deux sauf le premier), on obtient
finalement:
Proposition 4.9.1. Soient X1 , . . . , Xn un echantillon de taille n d!une loi de
fonction de repartition F et X(1) , . . . , X(n) lechantillon ordonne associe. Alors la
fonction de repartition de X(k) est donnee par:
n!
Fk (t) =
(k 1)!(n k)!
F (t)
k1 (1 )nk d.
(4.31)
Fn (t) = (F (t))n .
(4.32)
n!
(F (t))k1 (1 F (t))nk p(t).
(k 1)!(n k)!
(4.33)
(4.34)
60
Espace de probabilit
e g
en
eral. Variables al
eatoires
XZ
S {x(1) <...<x(n) }
XZ
S {x1 <...<xn }
Z
h(x1 , . . . , xn )p(x1 ) . . . p(xn ) dx1 . . . dxn .
= n!
{x1 <...<xn }
A partir de (4.34), il est facile de retrouver (4.33) i.e. la densite qk de X(k) consideree comme une marginale de (X(1) , . . . , X(n) ). On a donc, posant At = {x1 <
. . . < xk1 < t < xk+1 < . . . < xn },
Z
p(x1 ) . . . p(xk1 )p(t)p(xk+1 ) . . . p(xn ) dx1 . . . dxk1 dxk+1 . . . dxn
qk (t) = n!
At
Z
n!
=
p(x1 ) . . . p(xk1 ) dx1 . . . dxk1 (1 F (t))nk p(t)
(n k)! {x1 <...<xk1 <t }
n!
=
(F (t))k1 (1 F (t))nk p(t).
(k 1)!(n k)!
Exemple. Soit X1 , . . . , Xn un n echantillon de la loi uniforme sur [0, 1]. Alors la loi
de (X(1) , . . . , X(n) ) a pour densite n! 1{x1 <...<xn } et celle de X(k) , 1 k n, a pour
n!
densite (k1)!(nk)!
tk1 (1 t)nk 1]0,1[ (t). En particulier (calcul facile en utilisant la
formule (4.23)) E(X(k) ) =
k
n+1 .
Chapitre 5
Fonctions caract
eristiques.
Vecteurs gaussiens
5.1. Transform
ee de Fourier
5.1.1. Rappelons que le produit de convolution de deux mesures bornees sur Rd a
ete defini en 3.5.4. Soient X et Y deux v.a. independantes `a valeurs Rd . On pose
S = X + Y . Cherchons la loi de S. On a, pour toute f B + (Rd ),
Z
E(f (S)) = E(f (X + Y )) =
Z
f (x + y) dX (x)dY (y) =
f dX Y .
On peut enoncer:
Proposition 5.1.1. Soient X et Y deux v.a. independantes `
a valeurs Rd . On a
X+Y = X Y .
On sait que pour calculer des produits de convolution, la transformation de Fourier
est un outil indispensable.
5.1.2. Transformee de Fourier. On note Mb lensemble des mesures bornees sur B(Rd ).
Pour Mb , on pose
Z
(5.2)
62
Fonctions caract
eristiques. Vecteurs gaussiens
Th
eor`
eme 5.1.2. (i) Soient , Mb . Si
= , = .
1
(ii) Soit Mb telle que
L (). On a alors = h. avec
Z
d
ei<t,x>
(t) dt.
h(x) = (2)
(5.3)
Preuve: On pose:
g (x) = (2 2 )d/2 exp(
|x|2
), |x|2 = x21 + . . . + x2d .
2 2
(5.4)
2 2
2 a + 2 b
,
c
=
,
2 + 2
2 + 2
V est une alg`ebre. On verifie immediatement (i) et (ii) du th. 3.5.5 do`
u V = C0 .
2
do`
u (t) = Cet
2 d/2
(2 )
Z
e
2 /2
= et
i<t,x> |x|2 /2 2
dx =
d
Y
2 1/2
(2 )
2 |t|2 /2
.
k=1
(5.5)
Si, de plus,
L1 (),
Z
Z
Z
d
g (x a) d(x) = (2)
g (x a) ei<x,t>
(t) dt dx.
(5.6)
g (x) = (2 )
x
g ( 2 ) = (2)d/2 d
g ( 2 t)ei<x,t> dt.
(5.7)
63
RR
(i) On a, puisque
g ( 2 t) dtd(x) < +,
Z Z
Z
g ( 2 t)ei<xa,t> dtd(x)
g (x a) d(x) = (2)d/2 d
Z
Z
Z
= (2)d/2 d g ( 2 t)ei<a,t> ei<x,t> d(x) dt = (2)d/2 d g ( 2 t)ei<a,t>
(t) dt
do`
u (5.5) puisque d g ( 2 t) = g1 (t).
(ii) Si
L1 (), g ( 2 u)
(t) L1 ( ) et on a, vu que g ( 2 t) = (2 2 )d/2 g (t),
Z
Z
g (x a) d(x) = (2)d/2 d g ( 2 t)ei<a,t>
(t) dt
Z
Z
d
i<a,t>
= (2)
e
L
(t) dt, on a vu (5.6), pour toute f H,
R
R
f d = f h d do`
u = h..
64
Fonctions caract
eristiques. Vecteurs gaussiens
Th
eor`
eme 5.2.2. Soient X et Y des v.a. `
a valeurs Rd .
(i) Si, pour tout t, X (t) = Y (t), X et Y ont meme loi.
(ii) Si X L1 , X = h. avec
h(x) = (2)d
2 X
tj tk (0)
2 X
tj tk (t)
X
tk
(0) =
= E(Xj Xk ei<t,X> ). En
= E(Xj Xk ).
65
Preuve: On se limite `a d = 1, m = 1. On pose = X et = X . On a (0) =
limh0 h12 ((h) + (h) 2(0)) et
Z
Z
hx
ihx
ihx
(h) + (h) 2(0) = (e + e
2) d(x) = 4 sin2
d(x).
2
Appliquant le lemme de Fatou (prop. 3.3.4), on a
Z
Z
Z
sin2 hx
sin2 hx
2
2 2
(0) = lim 4
d(x) 4 lim inf 2 2 x d(x) = x2 d(x).
h
h
h2
h x
5.2.4. Fonctions caracteristiques usuelles (voir 2.2.5 et 4.3.1 pour les definitions).
a. Loi binomiale B(n, p). Si X B(n, p), on a
X (t) = E(e
itX
)=
n
X
k=0
X
k=0
k itk
e = exp((eit 1)).
k!
66
Fonctions caract
eristiques. Vecteurs gaussiens
2
(5.8)
On en deduit immediatement
Proposition 5.2.7. Si X N1 (m, 2 ) et Y N1 (l, 2 ), X, Y independantes, alors
X + Y N1 (m + l, 2 + 2 ).
f. Loi de Laplace. Cest la loi dune v.a. X de densite q(x) = 12 e|x| . On a
1
X (t) =
2
itx |x|
1
dx =
2
x(it1)
1
dx +
2
ex(it+1) dx =
1
.
1 + t2
1
1+t2
1
.
(1+x2 )
eitx
On en deduit
1
X (t) =
1
1
dt = e|x| .
2
1+t
2
eitx
1
dt = e|t| .
1 + x2
67
Preuve: En effet aT Y = aT b + (aT M )X est une v.a.r. gaussienne. On a E(Y ) =
b + M E(X) = b + M m et (prop. 4.5.4) K(Y ) = K(M X) = M K(X)M T = M DM T .
Th
eor`
eme 5.3.3. Soit X un vecteur aleatoire de moyenne m et de matrice de covariance K. Le vecteur X est gaussien ssi sa fonction caracteristique est donnee par
1
X (t) = exp(itT m tT Kt).
2
(5.9)
68
Fonctions caract
eristiques. Vecteurs gaussiens
d
X
mk tk
d
d
Y
1
1X 2 2
exp(imk tk k2 t2k ) = X1 (t1 ) . . . Xd (td )
k tk ) =
2
2
k=1
k=1
k=1
D(y)
D(x)
= det(A1 ) et
1
f (x) exp( (x m)T (A1 )T A1 (x m)) dx.
2
Chapitre 6
/ N , N negligeable, Xn () n X().
(iii) On dit que Xn converge vers X dans Lp , 1 p < +, si Xn et X sont dans Lp
et si E(|Xn X|p ) n 0.
La convergence dans L1 sappelle aussi la convergence en moyenne, la convergence dans L2 sappelle aussi la convergence en moyenne quadratique. On verifie
immediatement que Xn = (Xn1 , . . . , Xnd ) converge vers X = (X 1 . . . , X d ) en un des
sens ci-dessus ssi, pour k = 1, . . . , d, Xnk converge vers X k dans le meme sens. On ne
considerera donc plus que des v.a. reelles.
1
70
(ii) Supposons que Xn converge p.s. vers X. Alors, pour tout > 0, 1{|Xn X|>} n 0
p.s. et est manifestement borne par 1, donc (th. de Lebesgue) P(|Xn X| > ) =
E(1{|Xn X|>} ) n 0.
Notons que si Xn converge en probabilite vers X et vers Y , on a P(|X Y | > )
P(|X Xn | > 2 ) + P(|Xn Y | > 2 ) n 0 et donc P(|X Y | > 0) = 0 et X = Y p.s.
Ceci implique, vu la prop. 6.1.2, que les limites de Xn en les differents sens definis
ci-dessus sont p.s. egales.
6.1.2. Exemples. Soit Xn une suite de v.a.r. independantes telles que P(Xn = an ) =
pn , P(Xn = 0) = 1 pn . On suppose 0 < pn < 1, pn n 0 et an 1.
a. On a, pour ]0, 1[, P(|Xn | > ) = P(Xn > ) = pn et Xn n 0 en probabilite.
P
P
P
b. On a
P(Xn > 0) = pn donc, si
pn < +, on a (prop. 4.1.2) que {Xn > 0}
na
p.s.
lieu
que
pour
un
nombre
fini
de
n donc Xn n 0 p.s. Reciproquement si
P
pn = +, on a (prop. 4.1.2) que {Xn = an } a p.s. lieu
Ppour une infinite de n donc
Xn ne converge pas p.s. vers 0. Donc Xn n 0 p.s. ssi
pn < +.
c. E|Xn | = E(Xn ) = an pn . Donc Xn n 0 dans L1 ssi an pn n 0.
d. E(Xn )2 = a2n pn . Donc Xn n 0 dans L2 ssi a2n pn n 0.
Si on choisit pn = n1 , an = 1, Xn converge vers 0 dans L1 mais pas p.s. Si on choisit
pn = n12 , an = n2 , Xn converge vers 0 p.s. mais pas dans L1 . Si on choisit pn = n12 ,
an = n, Xn converge vers 0 dans L1 mais pas dans L2 .
6.1.3. Crit`eres de convergence.
P
Proposition 6.1.3. Soit Xn une
suite
de
v.a.r.
Si
P(|Xn+1 Xn | > n ) < +
P
pour une suite n > 0 verifiant
n < +, la suite Xn converge p.s.
Preuve: Dapr`es le lemme de Borel-Cantelli (prop. 4.1.2), pour tout
/ N, N
negligeable, il existe n0 () tel que, pour tout n n0 (), |Xn+1 () Xn ()| n .
On a donc, pour n > m n0 (),
|Xn () Xm ()|
n1
X
k=m
Vu la convergence de
Xn () converge.
|Xk+1 () Xk ()|
n1
X
k .
k=m
71
Do`
u (prop. 6.1.3) Xnk converge p.s.
Il est tr`es utile davoir des crit`eres de type Cauchy.
Proposition 6.1.5. Soit Xn une suite de v.a.r.
(i) Xn converge en probabilite ssi, pour tout > 0, supk P(|Xn+k Xn | > ) n 0,
(ii) Xn converge dans Lp (1 p < +) ssi supk E(|Xn+k Xn |p ) n 0,
(iii) Xn converge p.s. ssi, pour tout > 0, P(supk |Xn+k Xn | > ) n 0.
Preuve: (i) Supposons que, pour tout > 0, supk P(|Xn+k Xn | > ) n 0. On
peut alors construire une suite croissante dentiers nr telle que P(|Xnr +1 Xnr | >
2r ) 2r et donc (prop. 6.1.3) Xn converge p.s. et a fortiori en probabilite vers une
v.a. X. Alors, etant donne > 0,
P(|Xn X| > ) P(|Xn Xnr | > /2) + P(|X Xnr | > /2) <
pour tout n nr si on choisit r assez grand et Xn X en probabilite. Vu que
P(|Xn+k Xn | > ) P(|Xn+k X| > /2) + P(|Xn X| > /2), la reciproque est
immediate.
(ii) Ceci nest rien dautre que la completude de Lp (voir 3.3.5).
(iii) Supposons que, pour tout > 0, P(supk |Xn+k Xn | > ) n 0. Soit Vn =
supi,jn |Xi Xj |, alors Vn V et Xn converge p.s. ssi V = 0 p.s. (crit`ere de Cauchy).
Mais P(Vn > ) P(supk1 |Xn+k Xn | > /2) n 0 ce qui implique que V = 0
p.s. Reciproquement si Xn converge p.s., supk |Xn+k Xn | n 0 p.s. et aussi en
probabilite.
6.2. Loi 0 -1
6.2.1. Soit X1 , . . . , Xn , . . . une suite de v.a. `a valeurs Rd . On pose:
Fn (X) = (X1 , . . . , Xn ), F (X) = (X1 , . . . , Xn , . . .) = (n1 Fn (X)),
F n (X) = (Xn , Xn+1 , . . . , Xn+k , . . .), F (X) = n1 F n (X).
Evidemment F (X) F (X). La tribu F (X) sappelle la tribu asymptotique ou
tribu de queue de la suite Xn .
Exemple. Soit X1 , . . . , Xn , . . . une suite de v.a. reelles. Les evenements
{
Xn converge}, {
1
|Xn | < +}, {lim sup (X1 + . . . + Xn ) < 1}
n
sont dans F (X). En effet il suffit de verifier que, pour tout p, ils sont dans F p , ce
qui est immediat.
6.2.2. En fait, si les Xn sont independantes, un evenement de F (X) est de probabilite 0 ou 1. Cest la loi 0 -1.
72
P(A B)
, B F (X).
P(A)
n
X
Yk +
k=1
n
X
E(Xk )
(6.1)
k=1
m
X
k=n+1
Xk )2 =
m
X
k=n+1
E(Xk2 ).
73
On en deduit que Sn est une suite de Cauchy de L2 et donc converge dans L2 ssi
P
E(Xn2 ) < +.
6.3.2. Loutil de base est linegalite suivante due `a Kolmogorov.
Proposition 6.3.2. Soit X1 , . . . , Xn , . . . une suite de v.a. reelles, independantes, de
carre integrable et centrees. Alors, pour tout > 0 et tout n,
n
1 X
P( max |Sk | ) 2
E(Xk2 ).
1kn
k=1
P(A) =
n
X
k=1
P(Bk )
n
X
E(1Bk Sk2 )
n
X
E(1Bk Sn2 )
E(Sn2 )
k=1
k=1
n
X
E(Xk2 ).
k=1
1kn
k
X
i=1
n
m+n
1 X
1 X
2
Xm+i | > ) 2
E(Xm+i ) = 2
E(Xk2 ).
i=1
k=m+1
On en deduit
P(sup |Sm+k Sm | > ) = lim P( max |Sm+k Sm | > )
k1
n+
1kn
1 X
E(Xk2 ) m 0.
2
k>m
74
xk =
k=1
n
X
bk (zk zk1 ) = bn zn
k=1
n
X
vk zk1 =
k=1
n
X
vk (zn zk ).
k=1
p
n
n
1 X
1 X
1 X
vk (zn zk1 )| + (
vk ) max |zn zk1 |.
xk | |
pkn
bn
bn
bn
k=1
k=1
k=p+1
P
Do`
u, puisque bn n + et b1n ( nk=p+1 vk ) 1, pour tout p,
n
1 X
xk | sup |zj zk |,
lim sup |
bn
n
j,kp
k=1
puisque
1
2
n b2 E(Xk )
k
75
P(|X| n) = E(
n1
n1 1{xn} .
n1
Lemme 6.4.3. On a
1{|X|n} ) = 1+
n1
X2
n1 E( n2 1{|X|<n} )
P(|X| n).
n1
2 + E(|X|).
Preuve: Vu que
k2
X
X
1
1
1
2
2
=
1
+
k
1
+
k
dx = 1 + k,
2
2
n
n
x2
k
n=k
n=k+1
X
n=1
E(
X
X
X
X2
X2 X
1
2
1
)
=
E(
1
)
=
E(1
X
)
{k1|X|<k}
{k1|X|<k}
n2 {|X|<n}
n2
n2
n=1
k=1
X
2
E(1{k1|X|<k} k
k=1
n=k
k=1
1
)
n2
n=k
E(1{k1|X|<k} (1 + k))
k=1
k=1
Sn
n .
Sn
n
Sn
n
n 0 p.s.
76
n1
X E(X
n2 )
n2
n1
E(
n1
X12
1
) 2 + E(|X1 |) < +.
n2 {|X1 |<n}
L1 .
k=1
k=1
Sn
1X
1X
|) E(|
Xk 1{|Xk |<M } |) + E(|
Xk 1{|Xk |M } |).
n
n
n
Dune part, vu la premi`ere partie et que 0 = E(X1 ) = E(X1 1{|X1 |<M } )+E(X1 1{|X1 |M } ),
n
1X
Xk 1{|Xk |<M } | n |E(X1 1{|X1 |<M } )| = |E(X1 1{|X1 |M } )|
n
k=1
k=1
k=1
X
1X
1
Xk 1{|Xk |M } |) = E(|
X1 1{|X1 |M } |) E(|X1 |1{|X1 |M } ).
n
n
. Do`
u
lim sup E(|
n
Sn
|) |E(X1 1{|X1 |M } )| + E(|X1 |1{|X1 |M } ) 2E(|X1 |1{|X1 |M } ).
n
Mais cette derni`ere quantite est arbitrairement petite puisque E(|X1 |1{|X1 |M } ) 0
lorsque M + (Lebesgue).
(ii) Supposons que Snn converge p.s. Donc (cor. 6.2.2) Snn n c p.s et Xnn = Snn
n1 Sn1
n P
n1 0 p.s. Ceci implique que P(lim sup{|Xn | n}) = 0 et donc (prop. 4.1.2)
que n P(|Xn | n) < +. On a alors (lem. 6.4.2)
E(|X1 |) 1 +
X
n
P(|X1 | n) = 1 +
P(|Xn | n) < + .
Remarque 1. Tradtionnellement le th. 6.4.1 sappelle la loi forte des grands nombres.
On reserve le nom de loi faible des grands nombres `a la convergence en probabilite
de Sn /n vers E(X1 ) qui est evidemment une consequence de la loi forte.
Remarque 2. Soit une probabilite sur un espace mesurable (E, E). Le tirage dune
suite de points de E selon peut se representer par une suite de v.a. independantes
77
de loi . Soit A E. Les v.a. 1A (X1 ), 1A (X2 ), . . . , 1A (Xn ), . . . sont independantes, de
meme loi, desperance (A). On a donc p.s.
n
1X
1D (U2j+1 , U2j+2 ) n (b1 a1 )(b2 a2 ) p.s
n
j=0
Plus Q
generalement, pour tout k et tous 0 a1 < b1 1, . . . , 0 ak < bk 1, posant
D = kj=1 [aj , bj ],
n
k
Y
1X
1D (Ukj+1 , . . . , Ukj+k ) n
(bj aj ) p.s
n
j=0
j=1
j=1
Lideal pour quune suite (un , n 1) puisse etre consideree comme le resultat
de tirages independants selon la loi uniforme sur [0, 1] serait que cette suite soit
k-uniforme pour tout k mais ceci, en pratique, est impossible et on se contente
dapproximations.
78
Donc, si on sait simuler des v.a. de densite f , on peut obtenir une valeur approchee
de I. Noter que In se met sous forme recursive:
1
((Xn+1 ) In ),
In+1 = In +
n+1
ce qui rend le calcul agreable. Examinons de plus pr`es deux cas.
R
1. On veut calculer D h(x) dx, D etant un domaine borne de Rd et h1D integrable.
Q
Q
Soient = dk=1 [ak , bk ] D, V = dk=1 (bk ak ) et (Xn , n 1) une une suite de
v.a. independantes de loi uniforme sur . On peut appliquer le resultat precedent `a
f = V1 1 , = h1D et on a
Z
Z
n
1
V X
h(Xk )1D (Xk ) n V
h(x)1D (x)1 (x) dx =
h(x) dx p.s.
n
V
D
k=1
R
2. On veut calculer (x)f (x) dx (f densite et L1 (f.)) et on sait simuler des
v.a. (Yn , n 1) independantes de densite g avec f a g. Alors on peut utiliser la
prop. 4.8.3 pour simuler des v.a. de densite f mais, en fait, on a directement:
Proposition 6.4.5. Soient f, g deux densites sur Rd telles que f a g, (Yn , n 1)
et (Un , n 1) deux suites de v.a. independantes de lois respectives g. et U (0, 1) et
independantes entre elles. Alors, pour toute L1 (f.),
Z
n
aX
(Yk )1{aUk g(Yk )<f (Yk )} n
(x)f (x) dx p.s.
n
Rd
k=1
Preuve: Les v.a. ((Yk )1{aUk g(Yk )<f (Yk )} , k 1) etant independantes, il suffit dappliquer
R
la loi des grands nombres vu que E((Y1 )1{aU1 g(Y1 )<f (Y1 )} ) = a1 f d pour 0
(lem. 4.8.4) puis, par difference, pour L1 (f.).
Pour etre complet, il faudrait considerer les vitesses de convergence. (On dit que
an converge vers a `a la vitesse n1 si |a an | = O( n1 )). Vu le th.7.3.1 quon verra au
chapitre suivant, cette vitesse est, en general, de lordre de 1n ce qui fait que, pour
des petites valeurs de d, cette methode est peu competitive par rapport aux methodes
classiques danalyse numerique mais que, pour des valeurs assez grandes de d, elle
devient interessante.
79
6.5. Compl
ement: crit`
ere des trois s
eries.
6.5.1. On examine la reciproque du th. 6.3.3.
Proposition 6.5.1. Soit X1 , . . . , Xn , . . . une suite de v.a.r. independantes.P
On supn
pose quil existe M > 0 tel
que,
pour
tout
n,
|X
|
M
p.s.
Alors,
si
S
=
n
n
k=1 Xk
P
P
converge p.s., les series
E(Xn ) et
Var(Xn ) sont convergentes.
Preuve: Elle repose sur le lemme suivant.
Lemme 6.5.2. Soit X une v.a.r. centree verifiant |X| M p.s. On pose 2 = E(X 2 )
et on note (t) sa fonction caracteristique. alors, si |t| M 1 ,
1
|(t)| exp( 2 t2 ).
3
Preuve: Puisque E(|X|3 ) < +, on a (3) (t) = (i)3 E[X 3 eitX ] et |(3) (t)| E(|X|3 )
2
M 2 . Vu que 0 (0) = 0 et 00 (0) = 2 , on a (t) = 1 2 t2 + r(t) avec |r(t)|
|t|3
6
|t|3
2
6 M .
Alors, si |t| M 1 , 2 t2 2 M 2 1 et
2
t2
2
1
2 2 |t|3
t +
M 2 1 t2 + 2 = 1 t2 exp( 2 t2 ).
2
6
2
6
3
3
n
Y
k=1
1 X 2
|Yk (t)| exp( t2
k ).
3
k=1
Supposons que k k2 = +. Alors, pour tout t tel que |t| (2M )1 , |n (t)|
1{0} (t). Mais, par hypoth`ese, Sn converge vers S p. s. et donc (Lebesgue)
P 2Sn (t)
S (t) do`
u , pour tout t, |n (t)| |S (t)| qui est continue.
On
a
donc
k k < +.
P
Comme n2P= Var(Xn ) = Var(Yn ) et quePE(Yn ) =P0, k k2 < + implique (th.
6.3.3) que
Yn converge
Xn et (Xn E(Xn )) convergent p.s.
P p.s. Mais alors
donc, par difference,
E(Xn ) converge.
P
80
P
P K
|Xn | > K na lieu quunPnombre fini de fois. Les series
Xn et
Xn sont donc
K
K
p.s. de meme nature
P et K Xn PconvergeK p.s. Puisque |Xn | K, on peut appliquer
la prop. 6.5.1 et
E(Xn ) et
Var(Xn ) convergent.
P K
(ii) Supposons que les trois series convergent.
Vu la prop. 6.5.1,
Xn converge
P
Pp.s.
et, P
comme ci-dessus, la convergence de
P(|X
|
>
K)
implique
que
les
s
e
ries
Xn
P n
K
et
Xn sont p.s. de meme nature. Donc n Xn converge p.s.
6.6. Compl
ement: grandes d
eviations.
6.6.1. Soit X1 , . . . , Xn , . . . une suite de v.a.r. independantes et de meme loi avec
E|X1 | < +. On pose m = E(X1 ). Si a > m, il resulte du th. 6.4.1 que, posant
Sn = X 1 + . . . + X n ,
Sn
P(
> a) n 0.
n
On voudrait preciser la vitesse de convergence. On sait que plus une v.a.r. possede
de moments finis, plus on peut esperer des estimatuions precises. On pose donc:
Z
X1
() = E(e
) = ex d(x), G() = log (), = {, () < +} (6.2)
et on suppose que 0 est un point int
erieur de . La fonction () est strictement positive et, vu que
a < b < c < d, n 0, M [b, c], |xn ex | M (eax + edx ),
(n)
est un intervalle, est indefiniment derivable sur
R et () =
0
dapr`es la prop. 3.3.7. En particulier (0) = 1, (0) = x d(x) = m.
xn ex d(x)
et lon a, pour ,
0 ()
G(0) = 0, G () =
=
()
0
(1 + (1 )2 ) = e
e
d(x) [ e d(x)] [ e2 x d(x)]1 ,
G(1 + (1 )2 ) log (1 ) + (1 ) log (2 x) = G(1 ) + (1 )G(2 x).
6.6.2. Majoration. On a alors, pour a > m et tout > 0,
P(
Sn
a) = P(eSn ena ) ena E(eSn ) = ena [()]n = exp(n(a G()))
n
do`
u
P(
Sn
a) exp(n sup(a G())).
n
>0
(6.3)
81
Ceci conduit `a sinteresser `a la fonction
I(x) = sup(x G()), x R.
(6.4)
Sn
1
log P(|
a| < ) I(a).
n
n
(i) On suppose quil existe 0 tel que I(a) = 0 a G(0 ). La fonction h etant
82
Do`
u
Sn
1
n
1
log P(|
a| < ) a0 + G(0 ) 0 + log P0 (|
a| < )
n
n
n
n
et, puisque a0 + G(0 ) = I(a) et que P0 (| nn a| < ) n 1 (loi des grands
nombres),
1
Sn
lim inf log P(|
a| < ) I(a) 0 .
n
n
n
Ce qui etablit la proposition dans ce cas.
vu que
Alors
k (xa) d(x) 0,
k (xa) d(x)
k
],a[ e
[a,+[ e
ek (xa) + sur ]a, +], que (]a, +[) = 0 et
Puisque
Sn
a| < ) P(X1 = . . . = Xn = a) = [({a})]n = enI(a)
n
et la minoration cherchee.
P(|
Supposons:
Z
pour tout R,
(6.6)
Alors = R, G() est partout finie et h() = a G() est une fonction concave
C sur R et on est necessaiement soit dans le cas (i), soit dans le cas (ii), ce qui
prouve la proposition sous cette hypoth`ese.
Une autre situation interessante est la suivante. Rappelons que le support S de
est le plus petit ferme F tel que (F c ) = 0. On pose = inf S , = sup S (les
valeurs infinies ne sont pas exclues). Considerons lhypoth`ese:
(6.7)
83
Si a ] , [, on est dans la cas (i). Supposons < + et a . On a
Z
Z
x
ex d(x) e < +
pour tout > 0,
e d(x) =
], ]
ex d(x) a.
], ]
], ]
On est dans le cas (ii). (Noter que, si a > , I(a) = + puisque ({a})) = 0). Enfin
on a le meme resultat pour a en considerant la suite (Xn ), ce qui montre la
proposition sous lhypoth`ese (6.7). Il reste `a examiner quelques situations speciales
que nous admettons.
6.6.4. Le theor`eme de Cramer.
Th
eor`
eme 6.6.4. SoitR X1 , . . . , Xn , . . . une suite de v.a.r. independantes et de meme
loi . On suppose que ex d(x) < + si || 0 , 0 > 0. On pose:
Z
Sn = X1 + . . . + Xn , G() = log ex d(x), I(x) = sup(x G()).
R
Alors on a:
pour tout ferme F de R, lim sup
1
Sn
log P(
F ) inf I(x),
xF
n
n
1
Sn
log P(
G) inf I(x).
xG
n
n
P(
84
Corollaire 6.6.5. Sous les hypoth`eses du th. 6.6.4, si I est continue au point a,
si a > m, lim
n
Sn
1
Sn
1
log P(
a) = I(a), si a < m, lim log P(
a) = I(a).
n n
n
n
n
1
n
1
Sn
1
Sn
log P(
a) lim inf log P(
> a) inf I(x) = I(a).
n
x>a
n
n
n
n
6.6.5. Exemples.
a. = m i.e. P(X1 = m) = 1. On a:
= R, () = em , G() = m,
I(x) = 0 si x = m, I(x) = + si x 6= m.
b. = p1 + (1 p)0 (0 < p < 1) i.e. P(X1 = 1) = p, P(X1 = 0) = 1 p. On a:
= R, () = pe + 1 p, G() = log(pe + 1 p),
1x
x
) si x [0, 1], I(x) = + si x
/ [0, 1].
I(x) = x log( ) + (1 x) log(
p
1p
c. = N1 (m, 2 ) i.e. d(x) =
1
2
2 2
2 2
), G() = m +
,
2
2
(x m)2
I(x) =
.
2 2
= R, () = exp(m +
=], [, () =
Noter que a pour support [0, +[ et que, pour tout a > 0, lequation G0 () = a
1
secrit
= a et a pour solution = a1 ] , [. La condition (6.7) est bien
verifiee dans ce cas.
Chapitre 7
Convergence en loi
7.1. Convergence
etroite
On note M1 lensemble des probabilites sur B(Rd ), Cb (resp. C0 , resp. Ck ) lensemble
des fonctions continues bornees (resp. tendant vers 0 `a linfini, resp. `a support compact) sur Rd . Soient n , M1 . On veut donner un sens `a n converge vers .
Il semble naturel de demander que, pour tout A B(Rd ), n (A) (A) mais ceci
est tr`es contraignant. Par exemple, sur R, si n = 1 et = 0 , on a n (]0, 1]) = 1
n
et (]0, 1]) = 0 et donc, en ce sens, n ne converge pas vers . Cest pourquoi on
introduit la notion de convergence etroite.
7.1.1. Definition.
D
efinition 7.1.1. RSoient n , R M1 . On dit que n converge etroitement vers si,
pour toute f Cb , f dn n f d.
Un crit`ere tr`es utile est le suivant. Rappelons que H C0 est total si e.v.[H] est
dense dans C0 pour la norme ||f || = supx |f (x)|.
Proposition
R
R 7.1.2. Soient n , M1 . Si, pour toute f H, H total dans C0 ,
f dn n f d, n converge etroitement vers .
R
R
Preuve: Montrons dabord que, pour toute
f
C
,
f
d
f d. Soit V =
0
n
n
R
R
e.v.[H]. On a V = C0 et, pour toute g V , g dn g d. Soient f C0 et g V ,
on a
Z
Z
Z
Z
Z
Z
Z
Z
| f dn f d| | f dn g dn | + | g dn g d| + | g d f d|
Z
Z
2||f g|| + | g dn g d|.
R
R
On a donc lim supn | R f dn Rf d| 2||f g||. Cette derni`ere quantite etant
arbitrairement petite, f dn f d.
86
Convergence en loi
2||f
||(1
g d). VuRquil existe gn Ck , 0
R
R
gn 1, tels
que
g
1
et
qualors
g
d
1
d
=
1, 1 g d est arbitrairement
n
n
R
R
petit et f dn n f d. Ceci montre que n converge etroitement vers .
Il y a deus exemples particuli`erement interessants densemble total dans C0 `a
savoir lespace Ck (cor. 3.5.6) et la famille (g (x a), > 0, a Rd ) (lem. 5.1.3).
7.1.2. Lexemple introductif montre que n peut converger etroitement vers sans
que n (A) converge vers (A). La question est de savoir pour quels ensembles on a
fp d (A). Do`
u, vu lhypoth`ese, (gp fp ) d p 0.
R
Soit > 0. Il existe donc f, g Cb telles que f 1A g et (g f ) d < . On
a alors
Z
Z
Z
Z
f dn g d n (A) (A) g dn f d
R
do`
u lim supn |n (A) (A)| (g f ) d < . Ceci montre que n (A) (A).
7.1.3. On a enfin le resultat tr`es important suivant:
Th
eor`
eme 7.1.4. Soient n , M1 . La suite n converge etroitement vers ssi,
pour tout t Rd ,
n (t) n
(t).
Preuve: La condition est evidemment necessaire puisque fx (t) = ei<t,x> Cb .
Reciproquement, dapr`es (5.5) et le theor`eme de Lebesgue,
Z
Z
g (x a) dn = (2)d/2 g1 (t)ei<a,t>
n (t) dt
Z
Z
n (2)d/2 g1 (t)ei<a,t>
(t) dt = g (x a) d.
Puisque H = (g (x a), > 0, a Rd ) est totale dans C0 , on conclut grace `a la
prop. 7.1.2.
87
88
Convergence en loi
do`
u lim supn |E(f (Xn )) E(f (X))| et E(f (Xn )) n E(f (X)).
Exemple. Soir Xn une suite de v.a.r. telle que P(Xn = 1) = pn et P(Xn = 0) = 1pn
avec 0 < pn < 1. Xn n 0 en probabilite ssi pn n 0, Xn n 1 en probabilite ssi
pn n 0 et sinon ne converge pas en probabilite tandis que, vu que E(f (Xn )) =
pn f (1) + (1 pn )f (0), Xn converge en loi ssi pn n p. Ceci montre quen general la
convergence en loi nimplique pas la convergence en probabilite. On a cependant:
Proposition 7.2.6. Si Xn converge en loi vers a Rd , alors Xn converge en probabilite vers a.
Preuve: Soit > 0. On choisit f Cb telle que f (a) = 0 et f (x) = 1 si |x a| .
Alors
P(|Xn a| > ) = E(1{|Xn a|>} ) E(f (Xn )) n f (a) = 0.
Le resultat suivant sera utile.
Proposition 7.2.7. Soient Xn et Yn des v.a. reelles. On suppose que Xn converge
en loi vers X et que Yn converge en loi vers a R, alors (Xn , Yn ) converge en loi
vers (X, a). En particulier Xn + Yn converge en loi vers X + a et Xn Yn converge en
loi vers aX.
Preuve: Posons, pour u, v R, n = E(ei(uXn +vYn ) )E(ei(uX+va) ). Il suffit (prop.7.2.2)
de montrer que n n 0. On a
|n | |E[eiuXn (eivYn eiva )] | + |E[eiva (eiuXn eiuX )] |
E(|eivYn eiva |) + |E(eiuXn eiuX )| = an + bn .
Dune part, posant f (y) = |eivy eiva )|, f Cb et donc an = E(f (Yn )) n f (a) =
0; dautre part, par hypoth`ese, bn n 0. La fin de la proposition resulte de la
prop.7.2.3.
7.2.3. Le cas des v.a. enti`eres.
Proposition 7.2.8. Soit Xn , X des v.a. `
a valeurs N. Alors Xn converge en loi vers
X ssi, pour tout k N, P(Xn = k) n P(X = k).
Preuve: (i) Supposons que Xn converge en loi vers X et soit f Ck telle que
f (k) = 1, f = 0 sur ]k 1, k + 1[c . On a
P(Xn = k) = E(f (Xn )) n E(f (X)) = P(X = k).
(ii) Supposons que, pour tout k N, P(Xn = k) n P(X = k). On a, pour f Ck
et donc nulle hors de ] m, +m[,
E(f (Xn )) =
m
X
f (k)P(Xn = k) n
k=m
m
X
k=m
Z
f (k)P(X = k) = E(f (X)) =
f dX .
89
7.2.4. Convergence en loi et convergence des esperances. Soit Xn une suite de v.a.
reelles integrables convergeant en loi vers X. A-t-on E(Xn ) n E(X) ? En general
non puisque la fonction f (x) = x est continue mais non bornee. Dans le sens positif,
on a:
Proposition 7.2.9. Soit Xn une suite de v.a. reelles convergeant en loi vers X. On
suppose quil existe > 0 tel que supn E(|Xn |1+ ) = M < +. Alors X L1 et
E(Xn ) n E(X).
Preuve: Soit a > 0. On pose fa (x) = |x| a, ga (x) = a (x a). Noter que
fa , ga Cb et que
|x|1+
|ga (x) x| |x|1{|x|>a}
.
a
Dune part
E(|X|1+ a) = E(fa (X)) = lim E(fa (Xn )) E(|Xn |1+ ) M
n
do`
u, pour a +,
E(|X|1+ )
|E(Xn ) E(X)| E(|Xn ga (Xn )|) + |E(ga (Xn )) E(ga (X))| + E(|ga (X) X|)
E(|Xn |1+ )
E(|X|1+ )
+
|E(g
(X
))
E(g
(X))|
+
a
n
a
a
a
do`
u lim supn |E(Xn ) E(X)|
grand.
2M
a
f 0 (t)(1 Fn (t)) dt n
f 0 (t)(1 F (t)) dt =
f d.
90
Convergence en loi
Corollaire 7.2.11. Soit Xn une suite de v.a.r. convergeant en loi vers X . Il existe
des v.a.r. (pas necessairement definies sur le meme espace de probabilite) Yn , 1
n +, telles que, pour 1 n +, loi de Yn = loi de Xn et Yn n Y presque
s
urement.
Preuve: Soient Fn et F les fonctions de repartition de Xn et X et C(F ) lensemble
des points de continuite de F . On pose F 1 (u) = inf(t, F (t) u). Soient A = {u
[0, 1], t1 6= t2 tels que F (t1 ) = F (t2 ) = u} et B = [0, 1] \ A. Noter que A est
denombrable. et que, pour tout u B, y < F 1 (u) F (y) < u et y > F 1 (u)
F (y) > u. On en deduit que, pour tout u B, Fn1 (u) n F 1 (u). En effet soient u
B et y C(F ) tels que y > F 1 (u), on a F (y) > u et aussi (th. 7.2.10), pour n assez
grand, Fn (y) > u et y Fn1 (u) ce qui implique, C(F ) etant dense, lim supn Fn1 (u)
F 1 (u). Considerant y C(F ) tel que y < F 1 (u), on a, par un argument symetrique
que lim inf n Fn1 (u) F 1 (u). Do`
u limn Fn1 (u) = F 1 (u) si u B. On consid`ere
alors lespace de probabilite ([0, 1], B([0, 1]), = mesure de Lebesgue) et soit U la v.a.
U (u) = u. On pose Yn = Fn1 (U ), Y = F 1 (U ). Dapr`es la prop. 4.3.2, Yn et Xn
ont meme loi et, pour tout u B, Yn (u) = Fn1 (u) n Y (u) = F 1 (u) et, comme
(B) = 1, Yn n Y p.s.
7.2.6. Theor`eme de Levy. Sil est souvent facile de montrer que Xn (t) n (t), il
est plus delicat de montrer que (t) est une fonction caracteristique. De plus ce nest
pas toujours vrai. Donnons un exemple. Soit Xn une suite de v.a.r. de loi uniforme
sur [n, +n]. On a Xn (0) = 1 et, pour t 6= 0,
Z n
sin(nt)
1
eitx dx =
.
Xn (t) =
2n n
nt
Donc Xn (t) n 1{0} (t) qui nest pas une fonction caract
eristique puisque pas conR
tinue en 0. En fait, pour f Ck , il est immediat que f dXn n 0 et Xn converge
en un sens affaiblie vers 0. La reponse `a ce probl`eme est donnee par le theor`eme de
Levy.
Th
eor`
eme 7.2.12. Soit Xn une suite de v.a. telle que, pour tout t Rd , Xn (t) n
(t). Si est continue en 0, il existe une probabilite sur Rd telle que
= et Xn
converge en loi vers .
Preuve: On a besoin du resultat danalyse suivant que nous admettons. On dit quune
Rsuite n M
R b converge faiblement sil existe Mb telle que, pour toute f C0 ,
f dn n f d. Alors
Th
eor`
eme 7.2.13. Soient n Mb telles que A = supn n (Rd ) < +, alors il
existe une sous-suite nk convergeant faiblement.
Ceci fait, on note n la loi de Xn . Puisque n (Rd ) = 1, il existe (th.7.2.13) une
sous-suite nk telle que nk converge faiblement vers Mb . On pose 0k = nk .
Dapr`es (5.5), on a, pour tout a Rd ,
Z
Z
0
d/2
g (x a) dk (x) = (2)
ei<a,u> g1 (u)
0k (u) du.
91
Passant `a la limite en k, on a (justifier),
Z
Z
g (x a) d(x) = (2)d/2 ei<a,u> g1 (u)(u) du.
On a donc vu (5.5), pour tout a Rd ,
Z
Z
i<a,u>
e
g1 (u)
(u) du = ei<a,u> g1 (u)(u) du.
Do`
u (th.5.1.2)
(u)g1 (u) = (u)g1 (u) p.p. et, g1 etant > 0,
(u) = (u) p.p.
Soit E = {
= }, on a (E c ) = 0. Il existe donc xn E tel que xn 0. On a, pour
tout n,
(xn ) = (xn ) et, les deux fonctions etant continues en 0, (Rd ) =
(0) =
(0) = limn
n (0) = 1. Donc M1 et (prop. 7.1.2) 0k converge etroitement vers .
On en deduit que =
et que n converge etroitement vers .
tk (0)
= 0,
2
tj tk (0)
= Kj,k . On a donc
1
(t) = 1 tT Kt + |t|2 (t) avec lim |(t)| = 0.
t0
2
On en deduit
t
t n
1 T
|t|2
t
1
t
Kt
+
( ))n n exp( tT Kt).
(t)
=
(
)
=
((
))
=
(1
S
n
Sn
2n
n
2
n
n
n
n
1 Sn
n
zn n
n)
n ez .
(1 +
n
zn n
n)
|zn | n
n )
|(1 +
1 + znn n
1 + znn
ez
en n
en
|z| | = |(
)
(
)
|
n
|
|z| |
|z|
|z
|
|z
|
n
n
e
1+ n
1+ n
en
en
|z|
zn
n
n )e
(1 +
(1 +
|z|
|zn |
n
n )e
z
|zn |
n
n )e |
|z|
|zn |
n
n )e
n 0.
92
Convergence en loi
Donc
(1+ znn )n
(1+
|zn | n
)
n
z
n ee|z| et, vu que (1 +
|zn | n
n )
n e|z| , (1 +
zn n
n)
n ez .
e 2 dt.
P(a <
< b) n
n
2 a
Preuve: Ceci resulte du th. 7.3.1 et de la prop. 7.2.4.
Exemple. Soient X1 , . . . , Xn , . . . une suite de v.a. reelles independantes et de meme
loi de Poisson P(1) et Sn = X1 + . . . + Xn . On sait (2.3.3) que Sn P(n) et (2.2.5)
que E(Sn ) = n, Var(Sn ) = n. Posons
Yn =
Sn n
.
n
Dapr`es le th. 7.3.1, Yn converge en loi vers Z N1 (0, 1). Soit h(x) = (x) 0, h
est continue donc (prop.7.2.3) Yn = h(Yn ) converge en loi vers Z = h(Z). Vu que
E((Yn )2 ) E(Yn2 ) = n1 Var(Sn ) = 1, on a (prop. 7.2.9) E(Yn ) n E(Z ). Mais
+
X
Xnk
kn
nk
en
= E(h(Yn )) =
h( )P(Sn = k) =
k!
n
n
k=0
k=0
n
n
en X nk+1 X nk
en nn+1
en nn n
= {
}=
=
k!
(k 1)!
n!
n
n n!
E(Yn )
k=0
k=1
et
1
E(Z ) =
2
n nn
do`
u e n!
Z +
Z +
2
x2
1
1
1
x2
x e
dx =
xe
dx =
d(e 2 ) =
2 0
2 0
2
x2
sup | P(
x)
e 2 dt | 3 .
n
n
x
2
93
P
Exemple. Soit Zn B(n, p). On a Zn = nk=1 Xk avec Xk v.a. independantes de loi
B(1, p). On a, posant q = 1 p, 2 (X1 ) = pq, = pq(p2 + q 2 ) pq et finalement
Z x
t2
1
Zn np
1
| P(
e 2 dt |
x)
.
npq
pqn
2
On voit que cette approximation est peu fiable pour p proche de 0 ou 1.
7.4. Compl
ement : d
emonstration du th
eor`
eme de BerryEsseen.
Il sagit de montrer le th. 7.3.4. En fait nous montrons un enonce un peu different
o`
u la conctante C nest pas precisee. Cette valeur de C nest pas connue, on sait
seulement que C 0, 8.
Th
eor`
eme. Il existe une constante universelle C telle que, pour toute suite Xn de
v.a.r. independantes et de meme loi avec E(|X1 |3 ) < +, on ait, posant m = E(X1 ),
2 = E(X1 m)2 , = E(|X1 m|3 ),
Z x
t2
Sn nm
1
sup | P(
x)
e 2 dt | C 3 .
n
n
x
2
7.4.1. Preuve: (Dapr`es Ho et Chen reprenant
Pnune methode de Stein).
Xi
m
On fixe n et on pose Yi = n , Un = 1 Yi = loi de Yi . On a E(Yi ) = 0,
(7.1)
(7.2)
(7.3)
On a donc
P(Un b) (b) = E(fb0 (Un ) Un fb (Un )).
(7.4)
94
Convergence en loi
(7.5)
On dira queR f C si f B(R) et, sil existe f 0 B(R) telle que, pour tous x < y,
y
f (y) f (x) = x f 0 (t) dt. Soit f C. Vu la symetrie, lindependance et Fubini,
E(Un f (Un )) =
n
X
i=1
n1
X
X
E(Yi f (
Yj + Yi )) = n E(Yn f (
Yi + Yn ))
i=1
j6=i
s0
s<0
Z
K(t) = n
[t,+[
s d(s), t < 0,
(7.6)
],t]
Z
E(Un f (Un )) = E( f 0 (Un1 + t)K(t) dt), f C.
(7.7)
(7.8)
|t|K(t) dt =
R
Preuve: Evidemment K(t) 0. Par Fubini sur R+ et R , |t|r K(t) dt =
R
R
Do`
u K(t) dt = nE(Y12 ) = 1 et |t|K(t) dt = n2 E(|Y1 |3 ) = 2 n . Enfin
n
r+1
2 n
et
|s|r+2 d(s).
Z
Z
n
n
1
K(t) dt
|t|K(t) dt
|t|K(t) dt = .
{|t|>/ n}
2
{|t|>/ n}
b+a
2
si a
x b+
et f (x) =
ba
2
si x a
si x b +
.
n
,
n
On a
95
|f (x)|
ba
2
xb+ n } .
On a alors, vu (7.7), le
{|t|/ n}
Z
Z
2E( 1{a <Un1 +t<b+ } K(t) dt ) = 2E( f 0 (Un1 + t)K(t) dt)
n
,
2 n
Z Z
sup |P(Un b) (b)|
b
Z Z
+
(b)(1 (x))
;
(x)
pour x b, fb (x) =
(x)(1 (b))
.
(x)
96
Convergence en loi
x(x)
(x) (1
x(x)
(x) )
do`
u 0 fb0 (x)
(b)(1(b))
(b)
1
4(b)
1
4(b0 )
1
4(0,8)
1.
7.5. Compl
ement: comportement asymptotique de la m
ediane
empirique.
La lecture de cette section suppose que lon a lu la section 4.9. Soit une probabilite
sur R. On note F sa fonction de repartition (def. 4.3.1). On sait que F est continue
ssi ({x}) = 0 pour tout x R.
7.5.1. Mediane. Tout reel tel que (] , ]) 21 et ([, +[)
mediane de . On a donc, X etant une v.a. de loi ,
P(X )
i.e. F ()
1
2
1
2
sappelle la
1
1
et P(X )
2
2
(i) Il existe un unique tel que F () = 21 . Ce nombre est alors lunique mediane.
En particulier, cest le cas si F est continue strictement croissante.
(ii) Il existe une infinite de tel que F () = 21 . Tous ces nombres sont des medianes
et ce sont les seuls.
(iii) Il existe (evidemment unique) tel que F ()
est lunique mediane.
1
2
et F () > 12 . Ce nombre
97
Th
eor`
eme 7.5.2. On suppose que a une densite p(x), quil existe
un unique tel
1
que F () = 2 , que p est continue en et que p() > 0. Alors Zn = 2n + 1(Mn )
converge en loi vers N1 (0, 4p21() ).
Preuve: Nous allons montrer que la densite gn (u) de Zn converge vers celle de
N1 (0, 4p21() ) uniformement sur tout compact, ce qui montrera le theor`eme vu la
prop 7.2.2 en choisissant H = Ck . Dapr`es (4.33), la densite de Mn est:
(2n + 1)!
(F (t))n (1 F (t))n p(t).
(n!)2
Un changement de variable montre que celle de Zn est:
gn (u) = n . {n (u) }n . p( +
u
u
)(1 F ( +
)).
2n + 1
2n + 1
q
2
Utilisant la formule de Stirling n! ( ne )n 2n, on voit que n n
. Fixons
n =
(2n + 1)! 1
,
(n!)2 2n + 1 4n
u
)
2n + 1
n (u) = 4F ( +
do`
u
n log n (u) = n(
1
4u2 2
p () + o( )) = 2u2 p2 () + o(1).
2n + 1
n
Finalement
2p() 2u2 p2 ()
gn (u) n
e
uniformement en |u| A.
2
Mais cette derni`ere expression est la densite de N1 (0, 2 ) pour 2 =
1
.
4p2 ()
7.5.3. Dans bien des cas, le th. 7.5.2 peut remplacer avantageusement le th. 7.3.1. Par
exemple soit X1 , . . . , X2n+1 un 2n + 1 echantillon de la loi de Cauchy de densite
p (x) =
1
.
(1 + (x )2 )
Cette loi na pas de moyenne mais a pour mediane. De plus p () = 1 . Dans ce cas
2
Mn n p.s. et 2n + 1(Mn ) tend en loi vers N1 (0, 4 ).
Plus generalement soit p(x) une fonction definie sur R, positive,R paire, continue au
voisinage de 0 et dintegrale 1. On suppose que a = p(0) > 0 et que x2 p(x) dx = 2 <
98
Convergence en loi
Chapitre 8
Notions de statistique
8.1. Echantillon. Mod`
ele statistique
8.1.1. Repartition empirique. Soit une probabilite sur Rd .
D
efinition 8.1.1. On appelle echantillon de taille n (ou n-echantillon) de la loi
une suite X1 , . . . , Xn de n v.a. independantes et de loi .
On appelle realisation du n-echantillon le resultat de n tirages independants selon
la loi . Cest une suite x1 , . . . , xn de Rd .
Par extension, on appelle echantillon de taille infinie de la loi une suite de
(Xn , n 1) de v.a. independantes et de loi .
D
efinition 8.1.2. Soit X = (X1 , . . . , Xn , . . .) un echantillon de taille infinie de la
loi . La probabilite (aleatoire)
n
X
n =
1X
Xk
n
(8.1)
k=1
Z
f
dX
n
1X
=
f (Xk ) n E(f (X1 )) =
n
Z
f d p.s.
k=1
R
R
Soit = {1 , . . . , p , . . .} un ensemble dense dans C0 . On a p.s. p dX
p d
n n
pour tout p et donc (prop. 7.1.2) p.s. X
converge
e
troitement
vers
.
n
100
Notions de statistique
FnX (t) = X
n (] , t ]) =
1X
1],t ] (Xk ).
n
(8.2)
k=1
Il resulte de (8.2) que nFnX (t) B(n, F (t)) et que, pour tout t, FnX (t) n F (t) p.s.
En fait, on a un resultat beaucoup plus fort appele theor`eme de Glivenko-Cantelli:
Th
eor`
eme 8.1.4. suptR |FnX (t) F (t)| n 0 p.s.
Preuve: On pose Fn = FnX .
(i) On suppose que est la loi uniforme sur [0, 1]. Dapr`es (8.2) et la loi des grands
nombres, il existe A A avec P(A) = 1 tel que, pour tout A, tout k 0 et
tout p > 0, Fn ( kp ) n F ( kp ). On a alors, pour A, pour k = 1, . . . , p et pour
k
t [ k1
p , p ],
Fn (
k1
k1 1
k1
k
k
k1
k
k 1
)
= Fn (
) Fn (t)t Fn ( )
= Fn ( ) +
p
p
p
p
p
p
p
p
p p
do`
u
k
k
1
sup |Fn (t) t| max |Fn ( ) | +
1kp
p
p
p
0t1
1
p.
k=1
k=1
1X
1X
1],t ] (Xk )F (t) =
1],F (t) ] (Uk )F (t) = Gn (F (t))F (t).
n
n
On a donc suptR |Fn (t) F (t)| = suptR |Gn (F (t)) F (t)| sup0t1 |Gn (t) t|
avec egalite si F est continue car alors F (R) ]0, 1[. Ceci montre que suptR |Fn (t)
F (t)| n 0 p.s. et que sa loi est independante de F si F est continue.
(iii) En fait on ne peut pas toujours ecrire que Xn = F 1 (Un ) mais il existe un espace
de probabilite (0 , A0 , P0 ) et, sur cet espace, des v.a. U10 , . . . , Un0 , . . . independantes et
de loi U (0, 1) telles que les v.a. Xn0 = F 1 (Un0 ) soient independantes et de meme loi
que Xn (prop. 4.3.2). On conclut alors grace `a:
Lemme 8.1.5. Soient, pour i = 1, 2, (Xni , n 1) des v.a.r. definies sur (i , Ai , Pi )
telles que, pour tout n, (X11 , . . . , Xn1 ) et (X12 , . . . , Xn2 ) aient meme loi et n B + (Rn ).
Alors, si n (X11 , . . . , Xn1 ) n 0 P1 p.s., n (X12 , . . . , Xn2 ) n 0 P2 p.s.
101
Preuve: Ceci resulte de ce que Zni = n (X1i , . . . , Xni ) n 0 Pi p.s ssi, pour tout
> 0,
sup Pi ( max |Zni | > ) n 0.
nkn+m
R
8.1.3. Moments empiriques.
Soit une
probabilite sur R telle que |x|p d < +,
R
R
p 2. On note m = x d(x), 2 = (x m)2 d(x). On pose, pour r N, r p,
Mnr
Z
=
dX
n (x)
1X r
Xk .
=
n
(8.3)
k=1
X n = Mn1 =
1X
Xk ,
n
(8.4)
k=1
n
2
1 X
Var(X
)
=
k
n2
n
k=1
(xk x) =
k=1
n
X
1
n
Pn
k=1 xk .
2
(xk a) n(x a) =
k=1
n
X
Alors
x2k n(x)2 .
k=1
P
Preuve: Il suffit de noter que (xk x) = 0 et decrire xk x = xk a + a x.
Soit s2n la variance de la repartition empirique X
n . On a, vu le lem.8.1.6,
s2n
k=1
k=1
k=1
1X 2
1X
1X
=
Xk (X n )2 =
(Xk X n )2 =
(Xk m)2 (X n m)2
n
n
n
2
et E(
s2n ) = 2 n 6= 2 . Cest pourquoi on pref`ere en general appele variance empirique
la quantite
n
1 X
2
sn =
(Xk X n )2
(8.5)
n1
k=1
qui verifie
E(s2n )
2.
s2n =
1 X 2
n
Xk
(X n )2 n E(X12 ) m2 = 2 p.s.
n1
n1
k=1
102
Notions de statistique
n
1 X
(xk m)2 ).
2 2
k=1
Plus generalement:
D
efinition 8.1.8. Soit ( , ) une famille de probabilites sur Rd . On appelle mod`ele statistique associe `
a un echantillon de taille infinie de le mod`ele
(X , A, (P ) ) o`
u
X = (Rd )N , x = (x1 , . . . , xn , . . .), Xn (x) = xn , A = (Xn , n 1)
et o`
u, pour chaque , P est une probabilite sur (X , A) telle que les v.a. X1 , . . . , Xn , . . .
soient independantes et de loi .
On admet lexistence dune telle probabilite P qui est unique vu le cor. 3.2.3
applique `a C = n (X1 , . . . , Xn ).
8.2. Estimation
Soient (X , A, (P ) ) un mod`ele statistique et f une application mesurable de
dans R. On veut estimer f () `a la vue de x X resultat dun tirage selon P ,
inconnu. Un estimateur de f () est donc une application mesurable T de X dans
R. Si on a tire x, on estime f () par T (x). Il reste `a preciser ce quest un bon
estimateur.
8.2.1. Risque quadratique.
103
D
efinition 8.2.1. Soit T un estimateur de f (). On appelle risque quadratique de T
la fonction
RT () = E [(T f ())2 ].
(8.6)
Soient S et T deux estimateurs de f (). On dit que T est au moins aussi bon que
S si, pour tout , RT () RS (). On dit T est meilleur que S sil est au moins
aussi bon et si, pour un , RT () < RS (). Enfin on dit que T est admissible
sil nexiste pas un meilleur estimateur. Il faut noter que comparer des estimateurs,
cest comparer des fonctions de et, quen general, il ny a aucune raison pour que
lun soit meilleur que lautre. Par exemple, soit a et T = f (a). Alors RT (a) = 0
et, en a, cet estimateur aura un risque plus faible que tous les autres alors que, pour
dautres valeurs de , son risque sera eleve. Pour avoir un estimateur optimal, on
est donc amene `a restreindre la classe des estimateurs consideres. Cest pourquoi on
introduit:
D
efinition 8.2.2. On dit que T est un estimateur sans biais de f () (en abrege
e.s.b.) si, pour tout , E (T ) = f ().
Cest une qualite quil est naturel dimposer `a un estimateur. Cependant cette
condition est assez contraignante ce qui est un avantage (on aura assez facilement
des estimateurs sans biais optimaux parmi les e.s.b.) et un inconvenient (on laisse
echapper de tr`es bons estimateurs).
Si T est un e.s.b. de f (), alors
RT () = E [(T f ())2 ] = E [(T E (T ))2 ] = Var (T ),
ce qui conduit `a la definition suivante.
D
efinition 8.2.3. Soit T un estimateur de f (). On dit que T est un estimateur
sans biais de variance minimum de f () (en abrege e.s.b.v.m.) si T est un e.s.b. de
f () et si, pour tout S e.s.b. de f (), on a, pour tout , Var (T ) Var (S).
8.2.2. Exemple. Soit X un 1-echantillon de B(n, ), 0 < < 1 inconnu. On veut
estimer f1 () = , f2 () = 2 , f3 () = 2 .
Notons dabord que, si 1 et 2 sont deux e.s.b. de f (), on a, posant = 1 2 ,
pour tout , E ((X)) = 0, soit:
0=
n
X
k=0
n
X
k=0
Cnk (
k
) (k).
1
Pn
Donc, pour tout u ]0, 1[, k=0 Cnk (k)uk = 0 et 0 i.e. 1 = 2 . Un e.s.b. est
donc unique et cest un e.s.b.v.m.
(i) On sait que E (X) = n do`
u
X
n
104
Notions de statistique
X(X1)
n(n1 )
= 2 . Donc
X(nX)
n(n1
est un e.s.b.
x1 +...+xn
, xk N.
x1 ! . . . xn !
P
Puisque E (X1 ) = , X = n1 nk=1 Xk est un e.s.b. de . Soit U = U (x1 , . . . , xn ),
xk N, telle que E (U ) 0. On a alors, pour tout > 0,
X
U (x1 , . . . , xn )
x1 ,...,xn
x1 +...+xn
= 0.
x1 ! . . . xn !
(8.7)
U (x1 , . . . , xn )(x1 + . . . + xn )
x1 ,...,xn
x1 +...+xn
= 0,
x1 ! . . . xn !
q (x1 , . . . , xn ) = (2 )
n
1 X
exp( 2
(xk m)2 ).
2
k=1
105
Posant
n
n
1X
1
1 X
2
x
=
,
x
,
s
=
(xk x)2 ,
k
0
2 2
n
n1
k=1
k=1
P
Pn
on a, puisque (lem.8.1.6) k=1 (xk m)2 = nk=1 (xk x)2 + n(x m)2 ,
(8.8)
(8.9)
U (x1 , . . . , xn )(1 + 2n(x m)2 ) exp((n 1)s20 n(x m)2 ) dx1 . . . dxn = 0,
do`
u E ((1 + 2n(X m)2 )U ) 0 et E ((X m)2 U ) 0.
Derivant (8.8) en , on a, pour tous tous m, ,
Z
U (x1 , . . . , xn )((n 1)s20 + n(x m)2 ) exp((n 1)s20 n(x m)2 ) dx1 . . . dxn = 0
1 Pn
2
i.e. E (U ((n 1)s2 + n(X m)2 )) 0 o`
u s2 = n1
k=1 (Xk X) . On a vu que
E ((X m)2 U ) 0, on a donc E (U s2 ) 0. On sait (8.1.2) que s2 est un e.s.b. de
2 , cest donc un e.s.b.v.m. (prop.8.2.4).
106
Notions de statistique
m
ni
1X
=
gi (Xk ) n mi () P p.s..
n
k=1
Donc, si on pose,
Tn = (m
n1 , . . . , m
nr ),
(8.10)
pour tout , Tn n f (), P p.s. i.e. Tn est une suite consistante destimateurs
de f (). Donc, si n est asez grand, on peut utiliser Tn comme estimateur de f ().
Si d = 1, on peut choisir g1 (u) = u, g2 (u) = u2 . . . , gr (u) = ur et lon a mi () =
E (X1r ) do`
u le nom de methode des moments.
Exemple 1. Soit X1 , . . . , Xn un n-echantillon de la loi sur R+ G(a, c), = (a, c)
inconnu. On a (voir 4.3.1.d):
m1 () = E (X1 ) =
a
a
, m2 () = E (X12 ), 2 () = Var (X1 ) = m2 () (m1 ())2 = 2 .
c
c
Donc
(m1 ())2
m1 ()
, c= 2
.
2
()
()
P
P
On a m
1 = n1 nk=1 Xk = X, m
2 = n1 nk=1 Xk2 et, posant
a=
2 = m
2 (m
1 )2 =
k=1
k=1
1X 2
1X
Xk (X)2 =
(Xk X)2 ,
n
n
(X)2
X
, c = 2 .
2
107
et on suppose i,1 6= i,2 pour tout i. On choisit
gi (u) = 1{ui }
et on a
mi () = P (X1 i ) = i,1 + (1 )i,2 .
Il y a de multiple facon dexprimer comme fonction des mi () puisque, pour chaque
m ()
i, = ii,1 i,2i,2 . On choisit
r
1 X mi () i,2
.
=
r
i,1 i,2
k=1
k=1
k=1
i i,2
1X m
1X
=
, m
i =
1{Xk i } .
r
i,1 i,2
n
8.2.7. Methode du maximum de vraisemblance. Considerons le mod`ele statistique
suivant. X = {x1 , x2 }, = {1 , 2 },
P1 (x1 ) =
1
99
99
1
, P1 (x2 ) =
, P2 (x1 ) =
, P2 (x2 ) =
.
100
100
100
100
(8.11)
(8.12)
Pour calculer un e.m.v., on est donc amene `a chercher, pour tout x X , pour
quelle(s) valeur(s), 7 L(x; ) ou, ce qui revient au meme, 7 log L(x; ) est
maximum. Si est un ouvert de Rd , si L(x; ) 0 lorsque tend vers le bord de
et si L est derivable en , ces valeurs sont `a chercher parmi les solutions de
log L(x; ) = 0, i = 1, . . . , d.
i
(8.13)
108
Notions de statistique
log L(x; ) =
m
n
1 X
(xk m)
2
k=1
n
1 X
(xk m)2 .
log
L(x;
)
=
+
2
2 2 2 4
k=1
Alors
log L(x; ) =
m
=
k=1
k=1
k=1
1X
1X
1X
2 =
xk = x,
(xk m)
2=
(xk x)2 .
n
n
n
109
f () I(x), I(x) etant un intervalle dependant du point tire x et de preciser cette
reponse en disant que f () I(x) avec une probabilite au moins egale `a 0, 9 ou
0, 95 . . . . . ..
8.3.1. Ceci conduit `a:
D
efinition 8.3.1. On appelle intervalle de confiance de niveau 1 pour f () une
famille dintervalles (I(x), x X ) telles que, pour tout ,
P (f () I(X)) 1 .
Evidemment une deuxi`eme notion intervient pour juger de la qualite dun intervalle de confiance, `a savoir sa longueur et, plus on voudra petit, plus lintervalle
sera long.
8.3.2. Fonction pivotale. On presente un procede relativement general pour construire
des intervalles de confiance. On appellera fonction pivotale monotone une application
mesurable g(x, u) de X R dans R telle que
(i) pour tout , la v.a. g(X, f ()) suit une loi independante de ,
(ii) pour tout x X , u 7 g(x, u) est strictement monotone.
On choisit alors a < b tels que (]a, b[) = 1 , on a donc, pour tout ,
P (g(X, f ()) ]a, b[) = (]a, b[) = 1 . Mais, vu la monotonie, {g(X, f ())
]a, b[} = {f () ]A(X), B(X)[} et I(x) =]A(x), B(x)[ est un intervalle de confiance
de niveau 1 pour f ().
Exemple. Soit X1 , . . . , Xn un n-echantillon de N1 (, 2 ), 2 etant connu et inconnu.
2
Alors X N1 (, n ) et
X
n
N1 (0, 1).
Donc g(x, ) = n x
est une fonction pivotale monotone.
Etant
donn
e
,
on choisit c = c() dans une table de loi normale telle que
R c t2 /2
1
e
dt = 1 et on a , pour tout R,
2 c
|X |
c
c
< c) = P ( ]X , X + [) = 1 .
P ( n
n
n
Evidemment, dans la plupart des cas, 2 nest pas connu. On peut envisager de
x
n
1
e 2 x 2 1 1R+ (x).
n
2 ( 2 )
n
2
(8.14)
110
Notions de statistique
D
efinition 8.3.3. Soient X et Y deux v.a.r. independantes avec X N1 (0, 1) et
Y 2n . On appelle loi de Student `
a n degres de liberte et on note tn la loi de
X
T =p
.
Y /n
Un calcule facile montre que la loi tn a pour densite:
h(t) =
( n+1
t2 n+1
2 )
(1
+
) 2
n
n + 1 ( n2 )
(8.15)
Th
eor`
eme 8.3.4. Soit X1 , . . . , Xn un n-echantillon de N1 (m, 2 ). Alors X et s2
2
2
definis par (8.4) et (8.5) sont independants, X N1 (m, n ) et (n 1) s 2 2n1 . En
particulier n Xm
tn1 .
s
Preuve: A. On suppose m = 0 et 2 = 1. Alors X = (X1 , . . . , Xn ) Nn (0, In ).
Soient A une matrice orthogonale n n de la forme
A=
...
...
...
...
...
...
...
...
1
n
1
n
...
...
...
...
...
...
...
...
...
1
n
n
X
(Xk X)2 =
k=1
n
X
Xk2 n(X)2 =
k=1
1 Yn
n
n
X
k=1
Yk2 Yn2 =
n1
X
Yk2 .
k=1
Pn1
k=1
Yk2
n
X
k=1
(Xk X)2 = 2
n
X
k=1
2
Do`
u n Xm
N1 (0, 1), (n 1) s 2 2n1 et sont independants. Appliquant la
111
(i) On choisit c = c() tel que P(|T | < c) = 1 o`
u T tn1 . Alors (th.8.3.4), pour
2
tout = (m, ),
X m
cs
cs
| < c) = P (m ] X , X + [) = 1 .
P ( n |
s
n
n
(ii) On choisit a < b tels que P(a < Y < b) = 1 o`
u Y 2n1 . Alors (th.8.3.4),
2
pour tout = (m, ),
P (a < (n 1)
(n 1)s2 (n 1)s2
s2
2
<
b)
=
P
(
]
,
[) = 1 .
2
b
a
Xn m
Xn m
n
1{sn >0} = n
. 1{sn >0} .
sn
sn
Dune part n X nm converge en loi vers N1 (0, 1) (th. 7.3.1). Dautre part sn n
p.s. (8.1.3) et donc sn 1{sn >0} n 1 p.s. On conclut par la prop. 7.2.7.
Soit (Xn , n 0) Run echantillon de taille infinie dune loi sur R de densite q
de moyenne m avec x2 d(x) < +. On a alors P(X1 = X2 ) = 0 et, a fortiori,
Rc
2
P (sn > 0) = 1. On choisit c = c() tel que (2)1/2 c et /2 dt = 1 . Donc, vu
les prop. 8.3.5 et 7.2.4,
|X n m|
csn
csn
P( n
< c) = P( m ]X n , X n + [ ) n 1 .
sn
n
n
On a construit un intervalle de confiance asymptotique de niveau 1 pour m.
8.4. Tests
8.4.1. Generalites. Soit (X , A, (P ) ) un mod`ele statistique. On suppose que =
H0 H1 avec H0 H1 = . Il sagit, `a la vue du point x tire selon P , inconnu, de
decider si H0 ou non. Cela sappelle tester lhypoth`ese H0 contre lhypoth`ese H1 .
Un test de H0 contre H1 est donc un sous-ensemble W de X , appele region critique
112
Notions de statistique
(8.16)
H0
113
Preuve: Soit D la region critique dun autre
R test tel que P0 (D) P0 (W ). On
remarque que (1W 1D )(h1 h0 ) 0 do`
u (1W 1D )(h1 h0 ) d 0 et
Z
Z
P1 (W )P1 (D) = (1W 1D )h1 d (1W 1D )h0 d = (P0 (W )P0 (D)) 0.
Le test de region critique W est plus puissant que le test de region critique D.
Pour utiliser le lem.8.4.5, etant donne , on determine par la condition
Z
h0 d = .
P0 ({h1 h0 }) =
{h1 h0 }
que n Xm
tn1 . Considerons
s
W ={
n|
X m0
| > c}.
s
i=1
i=1
j=1
j=1
1 X
1 X
1X
1X
Xi , s21 =
(Xi X)2 , Y =
Yj , s22 =
(Yj Y )2 .
n
n1
r
r1
Dautre part (n 1)
s2
s2
s21
2
2n1 , (r 1)
s22
2
+r
(n 1) 12 + (r 1) 22 2n+r2 .
Puisque (X, Y ) est independant de (s21 , s22 ), on peut appliquer la def. 8.3.3.
114
Notions de statistique
n
X
1{j} (Xk ),
(8.18)
k=1
1 j
n Nn
j=1
j=1
(8.19)
1 X
1
1
Tn = |
Uk |2 , Uk = ( (1{1} (Xk ) p1 ), . . . , (1{r} (Xk ) pr ) ).
p1
pr
n
k=1
115
Les vecteurs aleatoires U1 , . . . , Un , . . . sont independants de meme loi avec E(U1 ) = 0
et un calcul facile montre que
K(U1 ) = Ir aaT , aT = ( p1 . . . pr ).
P
Le th. 7.3.1 implique que 1n nk=1 Uk converge en loi vers Nr (0, Ir aaT ). Alors
(prop. 7.2.3) Tn = | 1n Un |2 converge en loi vers |Y |2 o`
u Y Nr (0, Ir aaT ). Vu que
|a| = 1, il existe une matrice A orthogonale r r telle que Aa = (0 . . . 01)T et posons
Z = AY . On a
Ir1 0
T
T
K(Z) = AK(Y )A = Ir (Aa)(Aa) =
0
0
et |Y |2 = |Z|2 2r1 .
(ii) Supposons 6= p. Dapr`es la loi des grands nombres,
6= 0 pour au moins un j et Tn n + p.s.
Nnj
n
pj n j pj qui est
116
Notions de statistique
Annexe A
AT (A matrice) 4.5.1
1A 3.1.5
Ac 1.1.2
B(n, p) 2.2.5
B 3.2.2
[B], bB, B + 3.1.5
B(R) 3.1.2
B(R) 3.1.2
B(R+ ) 3.1.2
B1 B2 3.5.1
F (X) 6.2.1
g (x) 5.1.2
gX 2.3.1
G(a, c) 4.3.1
G(a) 2.2.5
h. 3.4.3
J() 4.6.2
K(X) 4.5.3
C0 3.5.5
Cb 7.1
Ck 3.5.5
Ck 3.5.5
Cov(X, Y ) 4.4.3
E 4.2.3
E 8.1.4
e.s.b. 8.2.1
e.s.b.v.m. 8.2.1
eB + 3.1.5
FX 4.3.2
118
5.1.2
X 4.2.2
1 2 3.5.1
3.5.4
(X, Y ) 4.4.4
(C) 3.1.1
(fi , i I) 3.1.5
tn 8.4.3
X 5.2.1
U.P.P.S.B. 8.4.1
2n 8.4.3
v.a. 4.2.1
v.a.r. 4.2.1
(, A, P) 4.1.1
X, X n 8.1.3
{X } 4.2.2
(X , A, (P ) ) 8.1.4
A 7.1.2
(a) 4.3.1
|| ||p 6.1.1
a 3.2.1
3.4.3
Annexe B
120