Professional Documents
Culture Documents
n
qui sont la base
de la notion de liminf et limsup et sur laxiome de la borne suprieure. Cest pourquoi, il est sans doute important
de comprendre cette dmonstration qui est essentiellement la mme que dautres plus complexes que vous verrez
plus tard.
Chapitre 1
Formulation et analyse dun problme
doptimisation
1.1 Description dun problme doptimisation
Comme nous lavons vu en introduction, tous les problmes doptimisation que nous consi-
drerons peuvent tre exprims de la faon suivante :
min
xR
n
f(x) sous la contrainte : x X. (1.1)
o X est un sous-ensemble de R
n
. On pourra crire aussi
min
xX
f(x)
Les variables x = (x
1
, . . . , x
n
) sont appeles "variables doptimisation" ou variables de d-
cision. La fonction f : X R
n
R est appele fonction objectif et lensemble X ensemble des
contraintes. Le problme (1.1) est dit ralisable si X ,= .
Rsoudre le problme (1.1) revient chercher des points de minimum local (ou global, cest
encore mieux !) au sens de la dnition suivante :
Dnition 1.1 (Minimum local/Minimum global) Soit f : X R
n
R une fonction.
x R
n
est un point de minimum local de f sur X si
x X et r > 0 [ y X B(x, r), f(x) f(y). (1.2)
On dit alors que f(x) est un minimum local de f sur X.
x R
n
est un point de minimum global de f sur X ssi
x X et y X, f(x) f(y). (1.3)
On dit alors que f(x) est un minimum global de f sur X.
13
14 1.1. Description dun problme doptimisation
Maximum global
Minimum local
Maximum local
FIGURE 1.1 Exemples de minima et maxima locaux et globaux pour la fonction f : x
3e
x
2
+ e
(x3)
2
.
10 8 6 4 2 0 2 4 6 8 10
1.0
0.8
0.6
0.4
0.2
0.0
0.2
0.4
0.6
0.8
1.0
50 40 30 20 10 0 10 20 30 40 50
50
40
30
20
10
0
10
20
30
40
50
Pour la fonction f : x cos(x), il existe une
innit de minima et maxima globaux.
Pour la fonction f : x x cos(x), il existe
une innit de minima et maxima locaux mais
aucun minimum ou maximum global.
Les notions de maximum local et global sont dnies de faon tout fait similaire. En fait,
on peut facilement dmontrer que les problmes (avec ou sans contraintes) :
min
xX
f(x) et max
xX
f(x)
sont quivalents dans le sens o ils ont mme ensemble de solutions et :
min
xX
f(x) = max
xX
f(x) ou encore max
xX
f(x) = min
xX
f(x).
Ainsi la recherche dun maximum pouvant se ramener la recherche dun minimum, nous ne nous
intresserons qu la recherche du minimum.
Chapitre 1. Formulation et analyse dun problme doptimisation 15
Aller plus loin : On peut se demander sil existe dautres problmes doptimisation que nous naborderons pas.
Lhypothse simplicatrice la plus forte que nous ayons fait est de supposer que X soit un sous-ensemble de R
n
,
donc un sous-ensemble dun espace vectoriel ni. En fait beaucoup de problmes doptimisation se posent dans
des espaces de dimension inni. Par exemple le problme des godsiques dans S
2
(la sphre de dimension 2, par
exemple la terre) revient trouver le chemin le plus court du point A vers le point B, cest--dire de minimiser
la longueur des fonctions de [0, 1] dans S
2
qui valent A en 0 et B en 1. Lensemble sur lequel on minimise est
lensemble des fonctions de [0, 1] dans R
3
qui est un ensemble vectoriel de dimension 3 et les contraintes sont
le point de dpart, le point darrive et le fait que tous les chemins doivent tre inscrits sur la terre S
2
. Quand
les problmes son poss sur des espaces vectoriels de dimension innie, des problmatiques se posent que nous
naborderons pas ici.
Considrons nouveau le problme (1.1) mais dun point de vue ensembliste : rsoudre
min
xR
n
f(x) sous la contrainte : x X.
revient chercher le minimum de limage directe f(X) = f(x) : x X de X par f.
Daprs les rsultats du paragraphe 0.2, on sait quil existe un inmum ni ds que f(X)
est minor, et que cet inmum est un minimum (i.e. est atteint) si f(X) est ferm. Il sagit donc
maintenant dtudier les proprits respectives de f et X et den dduire des rsultats dexistence
de solution du problme (1.1).
1.2 Condition sufsante dexistence dun point minimum
Dans ce paragraphe, nous nous intressons aux proprits de la fonction objectif f et de len-
semble des contraintes X an den dduire des conditions sufsantes dexistence dun minimum
de lensemble f(X), i.e. dune solution du problme (1.1).
Il existe principalement deux thormes donnant des conditions sufsantes dexistence dun
point de minimum : le premier dans le cas o lensemble des contraintes est ferm born, le
second pour un ensemble de contraintes ferm mais non born.
1.2.1 Contre-exemples lexistence dun minimum
Avant de sintresser au thorme qui garantit lexistence dun minimum, il est bon de
connatre des exemples typiques o il ny a pas de minimum. Le problme min
X
f(x) na pas de
solution dans les cas suivants :
Fonction non continue : Si X = R et f(x) = x
2
+ 1 sur R
et f(0) = 3, linmum de f
est 1 mais f(0) = 3, il nexiste pas de points de x X tels que f(x) = 1.
Ensemble non ferm : Si X =]0, 1] et f(x) = x
2
+ 1. Linmum de f sur X vaut 1 mais
le point x = 0 nappartient pas X.
Minimum linni : Si X = R et f(x) = x
2
, alors linmum de f vaut et est
atteint en x = . Cependant il ny a pas de minimum.
16 1.2. Condition sufsante dexistence dun point minimum
1.2.2 Cas o lensemble X des contraintes est born
Nous nous intressons dabord au cas o X est born. Le premier rsultat est que limage
dun ferm born par une application continue est un ferm born : si f est continue et X ferm
born, alors f(X) est ferm born.
Thorme 1.1 (Thorme de Weierstrass) Soit X un ensemble ferm born non vide de
R
n
et f : X R
n
R une application continue sur X.
Alors f est borne et atteint ses bornes. Autrement dit, il existe x X point de minimum
global de f sur X i.e. :
y X, f(x) f(y).
De la mme faon, il existe un point de maximum global de f sur X.
Preuve. Soit (x
n
)
nN
une suite minimisante dans f(X), i.e. dlments de X telle que
lim
n+
f(x
n
) = inf f(X).
Comme X est ferm born, il existe une sous-suite extraite (x
(n)
)
nN
qui converge vers un
x X. Cette suite extraite vrie
x
(n)
x et f(x
(n)
) inf
yX
f(y).
Or f est continue, do par unicit de la limite, il suit
f(x) = inf
yX
f(y) avec x X,
et f ralise son minimum sur X.
1.2.3 Cas o lensemble X des contraintes est non born
Dans cette section nous nous intressons au cas o lensemble des contraintes est non born.
Cest le cas tout particulirement o il ny a pas de contraintes, cest--dire X = R
n
. Lide
gnrale est que le seul problme est quil existe un inmum mais quil nest pas atteint car
celui-ci se trouve linni. Une fonction qui illustre ce problme est la fonction f : x x
1
qui
admet 0 comme inmum sur R
+
pour x = +.
Nous introduisons la notion de coercivit dune fonction qui empche que linmumse trouve
linni.
Dnition 1.2 Une application f : X R
n
R est dite innie linni (ou coercive) sur X
ssi
A R, R > 0 [ x X, [|x| R = f(x) A] (1.4)
On note : lim
x +
x X
f(x) = +.
Chapitre 1. Formulation et analyse dun problme doptimisation 17
Exemple 1.2.1 1. f
1
(x) = |x|
2
est coercive.
2. f
2
(x) = x
2
1
x
2
2
nest pas coercive : en effet, la suite de terme gnral x
n
= (0, n), n N,
est telle que : lim
n+
|x
n
| = lim
n+
n = +mais : lim
n+
f
2
(x
n
) = lim
n+
n
2
= .
Exemple de fonction coercive (f
1
) Exemple de fonction non coercive (f
2
).
Comme la dnition 1.2 nest pas facile manier en pratique, on utilise souvent la proposition
suivante, qui est une hypothse un peu plus forte, pour montrer que la fonction est innie
linni.
Proposition 1.1 Soit f : X R
n
R une application et g : R R vriant
f(x) g(|x|) avec lim
t+
g(t) = +.
Alors, f est innie linni.
Preuve. Comme g tend vers +en +
A R, R > 0 [ t R t R = g(t) A.
Avec t = |x| et comme g(x) f(|x|), nous obtenons (1.4).
Thorme 1.2 Soient F un ferm non vide de R
n
et f : F R une application continue
innie linni sur F. Alors f admet un point de minimum global sur F, i.e. il existe x F
tel que
y F, f(y) f(x).
Preuve. Lide de la preuve est dutiliser le thorme de Weierstrass (Thorme 1.1) en mi-
nimisant f sur un ferm born K que nous construirons et en montrant que minimiser f sur
K revient minimiser f sur F. (i) Dnissons un K ferm born. Comme F ,= , on a :
18 1.2. Condition sufsante dexistence dun point minimum
inf(F) R . Soit A R, tel que A > inf
yF
f(y). Comme f est innie linni, il existe
R
1
> 0 tel que pour y R
n
|y| > R
1
= f(y) > A.
De plus F est non vide : il existe donc R
2
> 0 tel que
B(0, R
2
) F ,= .
Choisissons R = max(R
1
, R
2
)
|y| > R = f(y) > A et B(0, R) F ,= .
On introduit : K = B(0, R) F non vide, born (|y| R) et ferm (intersection de 2 ferms).
(ii) Minimisons f sur K. Comme f est continue et K est ferm born, f atteint son minimum
sur K, i.e. :
x K [ f(x) = inf
yK
f(y), (1.5)
(iii) Montrons que minimiser sur K revient minimiser sur F. Dune part, nous avons
inf
yF
f(y) = inf
_
inf
yK
f(y); inf
yF\K
f(y)
_
.
Dautre part, pour z F et z / K, on a :|z| R, soit :
f(z) > A > inf
yF
f(y)
Par consquent : inf
yF
f(y) < inf
yF\K
f(y). Il suit
inf
yF
f(y) = inf
yK
f(y)
et daprs (1.5) il existe x K F [ f(x) = inf
yF
f(y).
1.2.4 Cas des contraintes dgalit
Lhypothse X ferm est assez difcile montrer en pratique sauf dans le cas(frquent en
optimisation) o X est dni par des galits et des ingalits :
X = x R
n
: h(x) = 0, g(x) 0
o h : R
n
R
p
et g : R
n
R
q
. Lcriture h(x) = 0 reprsente en fait p contraintes dgalit :
h
i
(x) = 0, i = 1, . . . , p,
et de mme g(x) 0 reprsente q contraintes dingalit :
g
i
(x) 0, i = 1, . . . , q.
Dans le cas o les fonctions contraintes g et h sont continues, on a le rsultat suivant :
Chapitre 1. Formulation et analyse dun problme doptimisation 19
Proposition 1.2 Soient g : R
n
R
q
et h : R
n
R
p
deux fonctions continues.
X = x R
n
: h(x) = 0, g(x) 0 est un ensemble ferm de R
n
.
X = x R
n
: g(x) < 0 est un ouvert de R
n
.
Ainsi , on peut conclure directement que si f, g et h sont continues et soit
lensemble des contraintes X = x R
n
: h(x) = 0, g(x) 0 est born,
Ou f est innie linni,
alors le problme :
min
xR
n
f(x)
s.t. : g(x) 0, h(x) = 0.
admet au moins une solution globale. Autrement dit, f admet au moins un point de minimum
global sur X.
Aller plus loin : Si lensemble des contraintes X nest plus un sous-ensemble de R
n
mais un sous-ensemble dun
espace vectoriel mtrique complet (un Banach) de dimension innie alors le thorme de Weierstrass nest plus vrai.
Il faut dans ce cas une hypothse supplmentaire pour assurer lexistence dun minimum. Il faut en effet supposer
que X est compact ce qui assure que de toute suite on peut extraire une sous-suite qui converge et utiliser le mme
genre dargument que la dmonstration du thorme de Weierstrass.
Aller plus loin : La condition de continuit de f nest pas ncessaire, on peut la remplaer dans la preuve du
thorme de Weierstrass par la condition plus faible de "semi-continuit infrieure" qui dit essentiellement que
f(limx
n
) limf(x
n
), alors que la continuit impose lgalit.
Aller plus loin : En dimension innie, toutes les normes ne sont pas quivalentes, donc on peut choisir les normes
que lon veut. Tout le jeu en dimension innie est de trouver des normes (en fait on na besoin que dune topologie)
pour que X soit compact tout en ayant f semi-continue infrieure.
1.3 Convexit et optimisation
Les rsultats prcdents ne nous donnent aucune information quant lunicit ventuelle
dun point de minimum global, ni sur le lien entre possibles minima locaux et minimum global.
Nous introduirons donc la notion de convexit qui permet de garantir que les minimums locaux
sont en fait des minimums globaux. Attention la notion de convexit est sufsante pour garantir
que nous avons trouv un minimum global mais aucunement ncessaire.
Les problmes dont les donnes sont convexes, constituent une classe importante en optimi-
sation, car frquemment rencontrs dans les applications et la base de nombreuses mthodes
dveloppes pour des problmes plus gnraux.
Dnition 1.3 (Ensemble convexe) Soit X R
n
. Lensemble X est convexe ssi
(x, y) X
2
, ]0, 1[, x + (1 )y X,
cest--dire, si x et y sont deux lments de X alors le segment qui relie x y est inclus dans X.
20 1.3. Convexit et optimisation
Exemple 1.3.1 R
n
est convexe.
Les boules ouvertes et les boules fermes sont convexes
Dnition 1.4 (Fonction convexe/strictement convexe) Soit X R
n
convexe et f : X R.
f est convexe ssi
(x, y) X
2
, ]0, 1[, f(x + (1 )y) f(x) + (1 )f(y).
f est strictement convexe ssi
(x, y) X
2
, x ,= y, ]0, 1[, f(x + (1 )y) < f(x) + (1 )f(y).
On interprte gomtriquement le fait quune fonction soit convexe en disant quelle est situe
sous ses cordes.
La convexit est une notion globale, qui va donner des informations sur le caractre global
dun point de minimum.
Dnition 1.5 (Problme convexe) Soit X R
n
convexe et f : X R une fonction.
Le problme min
xX
f(x) est dit convexe si et seulement si la fonction objectif f est convexe et
si lensemble X des contraintes est convexe.
Si f est strictement convexe et lensemble X est convexe, alors le problme min
xX
f(x) est dit
strictement convexe.
1.3.1 Rsultats dexistence et dunicit en optimisation convexe
Thorme 1.3 (Condition sufsante doptimalit globale) Soient X R
n
un ensemble
convexe et f : X R une fonction. Soit x
). (1.6)
tel que x
). (1.7)
On introduit le point : y
r/2
= x
+
+ (1 )x
, avec : =
r
2|x
+
x
|
]0, 1[.
Chapitre 1. Formulation et analyse dun problme doptimisation 21
Daprs les hypothses (1.6) et (1.7), on a : x
+
/ B(x
|,
et : ]0, 1[. Par convexit de X, le point y
r/2
appartient donc au segment [x
+
, x
] lui-mme
contenu dans X. De plus :
f(y
r/2
) f(x
+
) + (1 )f(x
) par convexit de f
< f(x
) daprs (1.6).
Ceci contredit (1.6) car : |y
r/2
x
| =
r
2
. Le point y
r/2
appartient donc galement la boule
ouverte B(x
, r) i.e. : f(y
r/2
) f(x
).
ii. Raisonnons nouveau par labsurde. Soient x
1
et x
2
deux lments de X ralisant le
minimum de f. Par convexit de X,
x
1
+ x
2
2
X, et comme f est strictement convexe, il suit
f
_
x
1
+ x
2
2
_
<
1
2
f(x
1
) +
1
2
f(x
2
)
<
1
2
min
yX
f(y) +
1
2
min
yX
f(y) = min
yX
f(y),
Ce qui est impossible.
Exemple 1.3.2 Nous allons vrier que chaque hypothse du thorme est ncessaire.
Soit la fonction f : x x
1
, montrer quelle est convexe. Si X = [1, 2] [3, 4]. Montrer
que X nest pas convexe mais est ferm born. Montrer que 2 est un point de minimum
local mais nest pas un point de minimum global.
Soit la fonction f : x x cos(x) et X = [0, 8]. Montrer que X est convexe mais pas f et
montrer quil existe des points de minimum locaux qui ne sont pas des minimums globaux.
En conclusion, nous obtenons le rsultat suivant :
Corollaire 1.1 Soit X R
n
un ensemble ferm non vide, et convexe. Soit f : X R suppose
continue et strictement convexe . Si une des deux conditions suivantes est vrie :
soit X est born,
soit f est innie linni
Alors f admet un unique point de minimum global sur X.
1.3.2 Caractrisation diffrentielle de la convexit
Dans le cas o la fonction f est diffrentiable ( lordre 1 ou lordre 2) en tout point, on sait
caractriser la convexit dune fonction via son gradient ou sa hessienne. Ces caractrisations
sont la plupart du temps plus faciles manipuler que la dnition 1.4.
Thorme 1.4 Soit X R
n
convexe et f : X R diffrentiable. La fonction f est convexe
ssi :
(x, y) X
2
, f(y) f(x) +f(x), y x, (1.8)
ou de faon quivalente, ssi :
(x, y) X
2
, f(y) f(x), y x 0. (1.9)
22 1.3. Convexit et optimisation
Preuve. Soit (x, y) X
2
. Par convexit de f, on a donc pour tout t ]0, 1[ :
f((1 t)x + ty) (1 t)f(x) + tf(y) = f(x) + t(f(y) f(x)),
soit :
f(x + t(y x)) f(x)
t
f(y) f(x). En passant la limite pour t 0
+
, il suit (1.8).
Rciproquement, on applique (1.8) tx + (1 t)y et x, puis tx + (1 t)y et y, do :
f(x) f(tx + (1 t)y) + (1 t) f(tx + (1 t)y), y x
f(y) f(tx + (1 t)y) t f(tx + (1 t)y), y x
En combinant ces deux ingalits, on obtient : tf(x) + (1 t)f(y) f(tx + (1 t)y), et donc
la convexit de f.
En changeant les rles de x et y dans (1.8), puis en sommant les deux ingalits obtenues, on
dmontre sans problme que (1.8) implique (1.9). Pour montrer la rciproque, on introduit :
: t [0, 1] tf(x) + (1 t)f(y) f(tx + (1 t)y),
et on montre que est positive sur [0, 1]. Cette dmonstration est laisse en exercice (on pourra
tracer le tableau de variation de sur [0, 1]).
Si de plus, la fonction f est deux fois diffrentiable, on a alors une caractrisation dordre
deux de la convexit via la Hessienne. On rappelle (thorme de Schwarz) que si f : R
n
R
est de classe (
2
, alors sa matrice hessienne H[f](x) est symtrique.
Thorme 1.5 Soit f : R
n
R de classe (
2
. On note H[f](x) sa hessienne en x.
Si H[f](x) est semidnie positive pour tout x R
n
, alors f est convexe.
Si H[f](x) est dnie positive pour tout x R
n
, alors f est strictement convexe.
La preuve de ce rsultat est hors programme et faite en annexe.
Chapitre 2
Optimisation numrique sans contraintes
Nous nous intressons dans ce chapitre la conception de mthodes numriques pour la
recherche des points x R
n
qui ralisent le minimum dune fonction f : R
n
R :
(P) min
xR
n
f(x),
o f est suppose au moins diffrentiable. On parle doptimisation sans contrainte.
2.1 Conditions doptimalit
Nous commenons dans cette section tudier ce que lon appelle les conditions doptimalit
qui sont des caractrisations des points de minimum.
Thorme 2.1 (Conditions ncessaires doptimalit locale) Soit f : R
n
R une appli-
cation diffrentiable. Si x
R
n
ralise un minimum local (resp. maximum local) de f,
alors :
f(x
) = 0 (CN doptimalit du 1
er
ordre)
Si, de plus, f est deux fois diffrentiable dans un voisinage ouvert de x
, alors :
H[f](x
+ sh). admet
donc un minimum local en s = 0, do :
(0) = f(x
) = 0.
Supposons maintenant f deux fois diffrentiable. On crit le dveloppement de Taylor dordre
2 de la fonction . Comme f(x
) = 0, on obtient :
f(x
+ sh) f(x
) =
s
2
2
h
H[f](x
)h + o(s
2
).
23
24 2.1. Conditions doptimalit
soit :
s
2
2
h
H[f](x
)h+o(s
2
) 0 puisque x
H[f](x
)h 0.
La condition doptimalit du premier ordre montre que les points o le gradient sannule sont
des points importants. Ils sont appels points critiques et sont dnis comme suit :
Dnition 2.1 (Points critiques) Soit f : R
n
R une application diffrentiable. Tout point
x R
n
vriant :
f(x) = 0,
est appel point critique (ou point stationnaire) de f.
Mais attention ! Les conditions du thorme 2.1 ne sont que ncessaires : tout point o le
gradient est nul nest pas ncessairement un extremum. Les exemples suivants montrent les dif-
frents types de cas qui peuvent apparatre.
Exemple 2.1.1 La fonction x x
2
admet un point critique en x = 0 qui est aussi mini-
mum local.
La fonction x x
2
admet un point critique en x = 0 qui est aussi maximum local.
La fonction x x
3
admet un point critique en x = 0 qui nest ni minimum local ni
maximum local, cest ici un point dinexion.
La fonction x x
2
y
2
admet un point critique en (x, y) = (0, 0) qui nest ni minimum
local ni maximum local, cest ici un point-selle.
Cependant, la condition du premier ordre joue un rle central en optimisation numrique : elle
permet de slectionner un certain nombre de points candidats tre des extrema locaux, mme
sil faut vrier que les points critiques que lon a slectionn sont bien des minima locaux. Par
exemple dans lexemple suivant
Exemple 2.1.2 Trouver le(s) minima globaux de f : x ax
2
+ bx + c avec a, b, c R.
Si a > 0 alors la fonction est innie linni et admet un minimum global. Si a < 0 la fonction
vaut en et si a = 0 et b ,= 0 la fonction vaut en +ou selon le signe de b et
dans tous ces cas nadmet pas de minimum global. Si a = 0 et b = 0, la fonction est constante
et tout point est minimum global. Nous nous intressons donc au seul cas a > 0. Lquation des
points critiques est 2ax+b = 0, il existe un seul point critique x = b/(2a) et dans le cas a > 0
nous savons quil existe un minimum global qui est donc point critique donc cest b/(2a).
Nous avons vu qutre un point xe est une condition ncessaire pour tre un extremum, nous
voyons maintenant une condition sufsante.
Thorme 2.2 (Condition sufsante doptimalit locale) Soit O un ouvert de R
n
. Soit f :
R
n
R une application suppose de classe C
2
sur O. Si x O vrie :
f( x) = 0 et H[f]( x) symtrique, dnie positive (resp. dnie ngative)
Alors x est un point de minimum local (resp. maximum local) de f.
Chapitre 2. Optimisation numrique sans contraintes 25
Remarque 2.1 Dun point de vue gomtrique, la condition du second ordre : "H[f]( x) dnie
positive", revient dire que f est localement convexe en x
. En pratique, elle est difcile vrier systmatiquement car elle ncessite de calculer les
drives secondes et dtudier les valeurs propres de la matrice hessienne.
Exemple 2.1.3 Lexemple qui suit montre que la condition du Thorme 2.2 est sufsante mais
non ncessaire :
Montrer que 0 est un minimum global de f : x x
4
, que cest bien un point critique de f mais
que la Hessienne de f en ce point est semidnie positive mais nest pas dnie positive (elle est
nulle).
Si de plus la fonctionnelle optimiser est convexe ou strictement convexe, en appliquant le
Thorme 1.3 au convexe X = R
n
, on obtient :
Thorme 2.3 (Condition Sufsante doptimalit globale) Soit f : R
n
R une application
diffrentiable et x un point critique de f.
i. Si f est convexe, alors x est un point de minimum global de f.
ii. Si f est strictement convexe, alors x est lunique point de minimum global de f.
2.2 Gnralits sur les algorithmes de descente
Nous allons maintenant nous intresser aux algorithmes de calcul de minimum et plus par-
ticulirement aux algorithmes de descente. Partant dun point x
0
arbitrairement choisi, un algo-
rithme de descente va chercher gnrer une suite ditrs (x
k
)
kN
telle que :
k N, f(x
k+1
) f(x
k
).
Commenons par dnir plus prcisment la notion de descente.
2.2.1 Notion de direction de descente
Le gradient joue un rle essentiel en optimisation. Dans le cadre des mthodes doptimisation,
il sera galement important danalyser le comportement de la fonction objectif dans certaines
directions. Commenons pour cela par rappeler le concept de drive directionnelle :
Dnition 2.2 Soit f : R
n
R une application continue. Soit x R
n
et d R
n
.
La drive directionnelle de f en x dans la direction d est dnie par :
df(x; d) := lim
t0
+
f(x + td) f(x)
t
,
si cette limite existe.
Proposition 2.1 Si f est diffrentiable en un point x R
n
, alors pour tout d ,= 0, f admet une
drive dans la direction d en x et :
df(x; d) = Df(x)(d) = f(x)
d.
26 2.2. Gnralits sur les algorithmes de descente
On rappelle que la rciproque est fausse ! La drivabilit selon tout vecteur en x nimplique
pas ncessairement la diffrentiabilit de f en x.
La drive directionnelle donne des informations sur la pente de la fonction dans la direction
d, tout comme la drive donne des informations sur la pente des fonctions une variable. En
particulier,
si df(x; d) > 0 alors f est croissante dans la direction d.
si df(x; d) < 0 alors f est dcroissante dans la direction d.
Dans ce dernier cas, on dira que d est une direction de descente de f.
Dnition 2.3 (Direction de descente) Soient f : R
n
R et x R
n
. Le vecteur d R
n
est
une direction de descente pour f partir du point x si t f(x + td) est dcroissante en t = 0,
cest--dire sil existe > 0 tel que :
t ]0, ], f(x + td) < f(x). (2.1)
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0
2
4
6
8
10
12
14
16
18
20
d
1
= f(1, 1)
d
3
=
_
1
1
_
d
2
=
_
1
3
_
(
t
)
=
f
(
x
+
t
d
i
)
FIGURE 2.1 Allure de la fonction f : x
1
2
x
2
1
+ 2x
2
2
au point x = (1, 1)
dans plusieurs
directions.
Proposition 2.2 Soient f : R
n
R diffrentiable et x R
n
tel que : f(x) ,= 0. Soit
d R
n
un veteur
Si f(x)
d 0.
Chapitre 2. Optimisation numrique sans contraintes 27
Preuve de la proposition 2.2. Soit d telle f(x)
d > 0, il existe > 0 tel que si [t[ , alors [(t)[ < f(x)
d. Do :
t ]0, ], f(x + td) f(x) = t
_
f(x)
d + (t)
< 0.
Ce qui montre la premire partie de la proposition Soit maintenant d une direction de descente,
supposons que f(x)
f(x) d
f(x), (2.2)
Ainsi, la direction d
= f(x) alors
(d
f(x) = max
dR
n
(d
d < 0.
Le schma gnral dun algorithme de descente est le suivant :
ALGORITHME DE DESCENTE MODLE.
Donnes: f : R
n
R suppose au moins diffrentiable, x
0
point initial arbitrairement
choisi
Sortie: une approximation de la solution du problme : min
xR
n
f(x)
1. k := 0
2. Tant que test de convergence non satisfait,
(a) Trouver une direction de descente d
k
telle que : f(x
k
)
d
k
< 0.
(b) Recherche linaire : Choisir un pas s
k
> 0 faire dans la direction d
k
et tel que :
f(x
k
+ s
k
d
k
) < f(x
k
).
(c) Mise jour : x
k+1
= x
k
+ s
k
d
k
; k := k + 1 ;
3. Retourner x
k
.
Oracle/Boite noire. Pour obtenir le prochain itr, lalgorithme aura besoin dinformations sur
la fonction objectif f : la valeur numrique de f en un point donn x, et souvent galement du
gradient f(x). Ces informations sont fournies en boite noire, i.e. par un sous-programme
indpendant de lalgorithme doptimisation choisi : routine de calcul du gradient par diffrences
nies lorsque celui-ci nest pas calculable explicitement, ou simulateur renvoyant les valeurs
numriques f(x) et f(x) sans formule mathmatique explicite par exemple.
Test de convergence/Test darrt. Soit x
. Dans un monde idal (i.e. en supposant tous les calculs exacts et la capacit
de calcul illimite), soit lalgorithme sarrte aprs un nombre ni ditrations, soit il construit
(thoriquement) une suite innie x
1
, x
2
, . . . , x
k
, . . . de points de R
n
qui converge vers x
.
En pratique, un test darrt devra tre choisi pour garantir que lalgorithme sarrte toujours
aprs un nombre ni ditrations et que le dernier point calcul soit sufsamment proche de x
.
Soit > 0 la prcision demande. Plusieurs critres sont notre disposition : tout dabord (et
cest le plus naturel), un critre doptimalit bas sur les conditions ncessaires doptimalit du
premier ordre prsentes dans la section 2.1 : on teste si
|f(x
k
)| < , (2.3)
Chapitre 2. Optimisation numrique sans contraintes 29
auquel cas lalgorithme sarrte et fournit litr courant x
k
comme solution.
En pratique, le test doptimalit nest pas toujours satisfait et on devra faire appel dautres
critres (fonds sur lexprience du numrique) :
Stagnation de la solution : |x
k+1
x
k
| < |x
k
|.
Stagnation de la valeur courante : [f(x
k+1
) f(x
k
)[ < [f(x
k
)[.
Nombre ditrations dpassant un seuil x lavance : k < IterMax.
et gnralement une combinaison de ces critres :
Critre darrt = Test doptimalit satisfait
OU (Stagnation de la valeur courante & Stagnation de la solution)
OU Nombre maximum ditrations autorises dpass.
En pratique, on prfrera travailler avec les erreurs relatives plutt quavec les erreurs abso-
lues, trop dpendantes de lchelle.
2.2.3 Convergence et vitesse de convergence
tudier la convergence dun algorithme, cest tudier la convergence de la suite des itrs
gnrs par lalgorithme. Un algorithme de descente selon le modle prcdent, est dit convergent
si la suite de ses itrs (x
k
)
kN
converge vers un point limite x
, solution du problme :
min
xR
n
f(x).
De plus, la convergence est dite locale si elle na lieu que pour des points initiaux x
0
dans un
voisinage de x
) = 0). On introduit
alors la notion de convergence globale dun algorithme doptimisation :
Dnition 2.4 Soit un algorithme itratif qui gnre une suite (x
k
)
kN
dans R
n
an de rsoudre
le problme :
min
xR
n
f(x),
o f : R
n
R est une application de classe C
1
. Lalgorithme est dit globalement convergent si
quel que soit le point initial x
0
R
n
,
lim
k+
|f(x
k
)| = 0.
Cette proprit garantit que le critre darrt |f(x
k
)| ? sera satisfait partir dun certain
rang quelle que soit la prcision > 0 demande.
Remarque 2.2 Attention, la notion de convergence que lon a vu ne suppose pas que lalgo-
rithme converge vers un minimum, mme un minimum local. Prenons par exemple la fonction
30 2.2. Gnralits sur les algorithmes de descente
f : (x, y) x
2
y
2
+y
4
qui est innie linni. Son minimum global est obtenu pour les points
(x, y) = (0, 1/
|.
Dnition 2.5 Soit (x
k
)
kN
une suite ditrs gnres par un algorithme convergent donn.
On note x
la limite de la suite (x
k
)
kN
et on suppose : k N, x
k
,= x
(sinon lalgorithme
convergerait en un nombre ni ditrations). La convergence de lalgorithme est dite :
linaire si lerreur e
k
= |x
k
x
|
|x
k
x
|
= .
superlinaire si
lim
k+
|x
k+1
x
|
|x
k
x
|
= 0.
dordre p sil existe 0 tel que :
lim
k+
|x
k+1
x
|
|x
k
x
|
p
= .
En particulier, si p = 2, la convergence est dite quadratique (grosso modo partir dun
certain rang, le nombre de chiffres signicatifs exacts double chaque itration).
Bien entendu, on a intrt ce que la convergence dun algorithme soit la plus leve possible
an de converger vers la solution en un minimum ditrations pour une prcision donne.
Exemple 2.2.1 La fonction f : x x
3
6x + 1 admet un minimum local sur R en x
2.
Partant dune approximation grossire x
0
= 2 de x
2
, cet algorithme
converge linairement avec un taux = [2
2 1[.
Chapitre 2. Optimisation numrique sans contraintes 31
2
3
0.5
1
3
1
2
2
= [2
2
, la convergence est dite superlinaire et cest la meilleure convergence pos-
sible de lalgorithme en question.
Soit lalgorithme : x
k+1
=
1
2
(x
k
+
2
x
k
) dont la convergence est quadratique. On peut
montrer que 4 itrations sufsent pour calculer une valeur approche de x
avec 5 chiffres
signicatifs exacts ; en ralit, on a mme 11 chiffres signicatifs exacts ds la quatrime
itration.
2.3 Premiers algorithmes de descente
Un algorithme de descente est dtermin par les stratgies de choix des directions de descente
successives, puis par le pas qui sera effectu dans la direction choisie. Concentrons nous dans
cette partie sur le choix de la direction de descente : lide est de remplacer f par un modle local
plus simple, dont la minimisation nous donnera une direction de descente de f.
2.3.1 Algorithmes de gradient pas xe/pas optimal
Soit x
k
R
n
litr courant. tant donns la valeur f(x
k
) et le gradient f(x
k
) (notre
oracle), on remplace f au voisinage de x
k
par son dveloppement de Taylor au premier ordre :
f(x
k
+ d) f(x
k
) +f(x
k
)
d.
On voudrait que la drive directionnelle f(x
k
)
de la solution de : f(x) = 0
32 2.3. Premiers algorithmes de descente
1. k := 0 ;
2. Tant que critre darrt non satisfait,
(a) Direction de descente : d
k
= f(x
k
).
(b) Recherche linaire : trouver un pas s
k
tel que : f(x
k
+ s
k
d
k
) < f(x
k
).
(c) x
k+1
= x
k
s
k
f(x
k
) ; k := k + 1 ;
3. Retourner x
k
.
Il reste maintenant dnir une stratgie de recherche linaire pour le calcul du pas. Nous
tudions ici en premire approche une mthode pas optimal, puis une pas xe.
Mthode de plus profonde descente (Steepest descent)
Une ide naturelle consiste suivre la direction de plus forte descente et faire un pas qui
rende la fonction minimiser la plus petite possible dans cette direction. Cette mthode est
appele mthode de gradient pas optimal ou encore mthode de plus profonde descente.
Ltape 2(a) de lalgorithme de descente de gradient est alors remplace par :
RECHERCHE LINAIRE EXACTE.
2. (a) Calculer un pas optimal s
k
solution de : min
s>0
f(x
k
+ sd
k
).
La mthode de plus profonde descente est une sorte didalisation : dune part, nous ne savons
pas en pratique calculer de faon exacte un point minimum s
k
de lobjectif dans une direction
donne et le problme nest en gnral pas trivial. Dautre part, la rsolution du problme de
minimisation unidimensionnel de ltape 2 (a), mme de faon approche, cote cher en temps
de calcul. Pour ces raisons, on peut lui prfrer parfois lalgorithme de gradient pas constant
(ou pas xe).
Algorithme de gradient pas xe
Lide est trs simple : on impose une fois pour toutes la taille du pas effectu selon la direction
de descente calcule chaque itration. Les itrations 2 (b) et (c) de lalgorithme de descente de
gradient sont alors remplaces par :
x
k+1
= x
k
sf(x
k
).
La question est alors : comment choisir un pas qui garantisse la convergence de lalgorithme ?
Quelques observations numriques. On souhaite minimiser f : (x, y) R
2
1
2
x
2
+
7
2
y
2
,
en utilisant les algorithmes de descente de gradient pas xe et pas optimal.
Commenons par analyser le problme de minimisation : dune part, la fonction f est deux fois
diffrentiable sur R
2
et strictement convexe. Dautre part, le point (0, 0) vrie les conditions
sufsantes doptimalit du thorme 2.3. Donc (0, 0) est lunique point de minimum global de f.
Soit X
k
= (x
k
, y
k
) R
2
litr courant tel que : f(x
k
, y
k
) ,= 0. Calculons par la mthode
de plus profonde descente, litr suivant :
Chapitre 2. Optimisation numrique sans contraintes 33
FIGURE 2.2 Itrations des algos de gradient pas xe et optimal, gnres partir du point
(7, 1.5).
Direction de plus forte descente : d
k
= f(X
k
) =
_
x
k
7y
k
_
.
Calcul du pas optimal s
k
solution, si elle existe, du problme une dimension :
min
s>0
f(X
k
+ sd
k
) = min
s>0
1
2
x
2
k
(1 s)
2
+
7
2
y
2
k
(1 7s)
2
.
La solution se calcule de faon immdiate : s
k
= (x
2
k
+ 7
2
y
2
k
)/(x
2
k
+ 7
3
y
2
k
).
A chaque itration, la mthode gnre donc le point : x
k+1
= x
k
+
x
2
k
+ 7
2
y
2
k
x
2
k
+ 7
3
y
2
k
_
x
k
7y
k
_
.
Appliquons maintenant ces deux mthodes partir du point x
0
= (7, 1.5). Leurs comporte-
ments sont illustrs par la gure 2.2 et les itrations sont dcrites dans les tableaux 2.1 et 2.2
Cet exemple met en vidence la lenteur de la mthode de plus profonde descente, caractrise
par le comportement en zigzag des itrs. Essayons de comprendre do vient ce phnomne.
A litration k + 1, lalgorithme de plus profonde descente minimise : s R f(x
k
sf(x
k
)). Lobjectif f tant suppos diffrentiable, la fonction est drivable sur R de drive :
(s) = f(x
k
), f(x
k
sf(x
k
)).
Soit s
k
le pas optimal calcul ; ncessairement s
k
vrie :
(s
k
) = 0, soit :
f(x
k
), f(x
k
s
k
f(x
k
)) = 0.
Le point x
k+1
= x
k
s
k
f(x
k
) vrie donc : f(x
k
), f(x
k+1
) = 0.
Deux directions de descente successives calcules par lalgorithme de plus profonde des-
cente sont orthogonales ce que traduisent les zigzags des itrs, observs sur la gure 2.2.
34 2.3. Premiers algorithmes de descente
k f(x
k
, y
k
) |f(x
k
, y
k
)|
2
s
k
x
k
y
k
0 32.375 10.547512 7 1.5
1 16.925373 7.9786973 0.1940299 5.641791 0.5373134
2 8.8484403 6.5973298 0.3513514 3.6595401 0.7841872
3 4.6258889 3.5448339 0.1940299 2.9494801 0.2809029
4 2.4183752 3.4490276 0.3513514 1.9131763 0.4099663
5 1.2643059 1.8532089 0.1940299 1.541963 0.1468536
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40 1.751e10 2.9343653 10
5
0.3513514 1.63 10
5
0.35 10
5
41 9.155e 11 1.5725775 10
5
0.1940299 1.31 10
5
0.12 10
5
42 4.786e 11 1.536522 10
5
0.3513514 0.85 10
5
0.18 10
5
43 2.502e 11 0.8292768 10
5
0.1940299 0.69 10
5
0.07 10
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
76 1.268e 20 0.2523886 10
9
0.3513514 0.14 10
9
0.03 10
9
77 6.630e 21 0.1303840 10
9
0.1940299 0.11 10
9
0.01 10
9
78 3.466e 21 0.1303840 10
9
0.3513514 0.72 10
10
0.16 10
10
79 1.812e 21 0.6989278 10
10
0.1940299 0.58 10
10
0.05 10
10
TABLE 2.1 Itrations de la mthode de plus profonde descente. Le critre doptimalit est
satisfait en 43 itrations pour une prcision = 10
5
et en 79 itrations si = 10
10
.
pas 0.325 0.25 0.125 0.05 0.01
Nb ditrations DV 49 101 263 1340
TABLE 2.2 Nombres ditrations de lalgorithme de gradient pas xe pour approcher lunique
argument minimum de f 10
5
prs, en fonction du pas choisi - Point initial : x
0
= (7, 1.5).
Enn, les donnes du tableau 2.2 illustrent limportance du choix du pas dans lalgorithme
de pas xe : un pas bien choisi donne des rsultats comparables ceux obtenus par la plus
profonde descente, un pas plus petit attnue les zigzag des itrs mais augmente signicativement
le nombre ditrations et enn, un pas trop grand fait diverger la mthode.
2.3.2 Mthode de Newton locale
Pour construire les mthodes de gradient, nous avons remplac f par son approximation
linaire au voisinage de litr courant. Nous avons vu que ces mthodes ne sont pas trs perfor-
mantes, en partie parce quelles ne tiennent pas compte de la courbure (ou de la Hessienne) qui
est une information de second ordre.
Principe Supposons maintenant que f est de classe C
2
et remplaons f au voisinage de litr
courant x
k
par son dveloppement de Taylor de second ordre :
f(y) q(y) = f(x
k
) +f(x
k
), y x
k
+
1
2
H[f](x
k
)(y x
k
), y x
k
,
Chapitre 2. Optimisation numrique sans contraintes 35
o la valeur f(x
k
), le gradient f(x
k
) et la matrice hessienne H[f](x
k
) sont donns par notre
oracle (boite noire).
On choisit alors comme point x
k+1
le minimum de la quadratique q lorsquil existe et est
unique, ce qui nest le cas que si H[f](x
k
) est dnie positive. Or le minimum de q est ralis
par x
k+1
solution de : q(x
k+1
) = 0, soit :
f(x
k
) + H[f](x
k
)(x
k+1
x
k
) = 0,
ou encore, en supposant que H[f](x
k
) est dnie positive :
x
k+1
= x
k
H[f](x
k
)
1
f(x
k
). (2.4)
On reconnat dans la formule (2.4) les itrations de la mthode de Newton vue en cours
danalyse numrique, applique ici la rsolution de lquation : f(x) = 0. La mthode ne
doit cependant jamais tre applique en utilisant une inversion de la matrice Hessienne (qui peut
tre de trs grande taille et mal conditionne) mais plutt en utilisant :
x
k+1
= x
k
+ d
k
o d
k
est lunique solution du systme linaire :
H[f](x
k
)d
k
= f(x
k
).
d
k
est appele direction de Newton.
Cette mthode est bien dnie si chaque itration, la matrice hessienne H[f](x
k
) est dnie
positive : ceci est vrai en particulier au voisinage de la solution x
de la solution
1. k := 0 ;
2. Tant que |f(x
k
)| > ,
(a) Calculer d
k
solution du systme : H[f](x
k
)d
k
= f(x
k
) ;
(b) x
k+1
= x
k
+ d
k
;
(c) k := k + 1 ;
3. Retourner x
k
;
Remarque 2.3 1. La mthode de Newton est un algorithme de descente pas xe gal 1.
36 2.3. Premiers algorithmes de descente
2. Si la fonctionnelle f est quadratique, strictement convexe, alors lalgorithme converge en
une itration.
Exercice 2.3.1 Dmontrer les deux assertions de la remarque 2.3.
Convergence de la mthode de Newton locale
Lalgorithme hrite des proprits de lalgorithme de Newton vu en cours danalyse num-
rique pour la rsolution des quations non-linaires :
Proposition 2.3 Soit f de classe C
3
et x
de x
tel que si x
0
1
.
2. La convergence est au moins quadratique.
La mthode peut diverger si le point initial nest pas sufsamment proche dun point de mi-
nimum local, et elle nest pas dnie si les matrices H[f](x
k
) ne sont pas dnies positives.
Utilise dans le cadre de loptimisation, la mthode de Newton locale prsente un autre incon-
vnient : la solution identie la n de lalgorithme nest pas forcment un point de minimum
local, mais uniquement un point critique de f.
2.3.3 Mthode de Gauss-Newton
Si maintenant F dsigne une application de R
n
dans R
m
, avec par exemple m > n, le sys-
tme dquations F(x) = 0 na gnralement pas de solutions. Le problme de moindres carrs
associ F consiste rechercher x
tel que
r(x
) = min
_
r(x) =
1
2
m
i=1
F
i
(x)
2
=
1
2
|F(x)|
2
2
, x R
n
_
. (2.5)
De tels problmes se rencontrent frquemment dans le cadre de lidentication de paramtres.
Les variables x
i
sont les n paramtres dun modle physique non linaire. On effectue m > n
mesures, et on cherche les x
i
qui permettent dajuster au mieux ce modle aux mesures.
La solution de (2.5) est caractrise par r(x
i=1
F
i
(x) H
F
i
(x)
_
d = J
F
(x)
T
F(x), (2.6)
o J
F
(x) = F(x)
= [F
1
(x) . . . F
m
(x)]
i=1
F
i
(x) H
F
i
(x) est tel que lorsque le rsidu |F(x)| devient petit, cest--dire lorsque lon se
rapproche de la solution, il devient lui mme ngligeable.
La mthode de Gauss-Newton consiste remplacer (2.6) par :
J
F
(x)
J
F
(x)d = J
F
(x)
F(x). (2.7)
Une autre faon de voir les choses consiste remplacer dans lexpression de r, la fonction F
par une approximation linaire au voisinage du point courant x. Autrement dit, on sintresse au
problme approch :
min
y
r(y) =
1
2
|F(x) + J
F
(x)(y x)|
2
.
La solution de ce problme est caractrise par la relation : r(y) = 0 i.e. :
J
F
(x)
(F(x) + J
F
(x)(y x)) = 0 soit : J
F
(x)
J
F
(x)(y x) = J
F
(x)
F(x)
On retrouve ainsi la direction de Gauss-Newton trouve prcdemment.
ALGORITHME DE GAUSS-NEWTON.
Donnes: F fonction diffrentiable, x
0
point initial, > 0 prcision demande
Sortie: une approximation de la solution du problme de moindres carrs :
min
xR
n
r(x) =
1
2
F(x)
F(x).
1. k := 0 ;
2. Tant que ,
(a) Calcul dune direction de recherche : calculer d
k+1
solution de :
J
F
(x
k
)
T
J
F
(x
k
) d = J
F
(x
k
)
F(x
k
).
(b) x
k+1
= x
k
+ d
k+1
;
(c) k := k + 1 ;
3. Retourner s
k
.
Application aux moindres carrs linaires. Dans le cas o la fonction F est linaire, i.e. :
F(x) = Ax b, avec A M
n,p
(R),
on obtient : J
F
(x) = A, et lquation de Gauss-Newton (2.7) devient : A
Ad
k+1
= A
(Ax
k
b). Comme d
k+1
= x
k+1
x
k
, on obtient :
A
Ax
k+1
= A
b
38 2.3. Premiers algorithmes de descente
et ceci quel que soit x
k
. On reconnat ici le systme dquations normales du problme de
moindres carrs linaire :
min
xR
n
1
2
|Ax b|
2
2
, (2.8)
On rappelle que daprs le thorme 2.4 du cours danalyse numrique, x
Ax = A
b. De plus si A est
de rang plein, x
F(x).
Chapitre 3
Introduction loptimisation sous
contraintes
Ce chapitre est une courte introduction loptimisation sous contraintes. On sintresse la
rsolution de problmes doptimisation de la forme :
min
xX
f(x), (3.1)
o X est un sous-ensemble non vide de R
n
dni par des contraintes dgalit ou dingalits de
fonctions :
X = x R
n
: h(x) = 0, g(x) 0 (3.2)
o h : R
n
R
p
et g : R
n
R
q
sont continues. Ici les critures h(x) = 0 et g(x) 0
signient :
_
i = 1, . . . , p, h
i
(x) = 0
j = 1, . . . , q, g
j
(x) 0.
Lensemble X est appel ensemble ou domaine des contraintes. Tout point x R
n
vriant :
x X, est appel point admissible du problme (3.1).
Daprs les rsultats du chapitre 1, rappelons que si g et h sont continues alors X est un
ensemble ferm (mais non ncessairement born). Dans la suite nous travaillerons toujours avec
un problme sous "forme standard" cest--dire un problme crit sous la forme suivante :
(P) min
xR
n
f(x)
s.c. h
i
(x) = 0, i = 1, . . . , p
g
j
(x) 0, j = 1, . . . , q.
Par exemple, la forme standard du problme
max
(x,y)R
2
f(x, y) s.t. : x
2
+ y
2
1 et x + y = 5,
est :
min
(x,y)R
2
f(x, y) s.t. : 1 x
2
y
2
0 et x + y 5 = 0.
39
40 3.1. Conditions doptimalit
Proposition 3.1 Le problme (P), crit sous forme standard, est dit convexe si h est afne, g
convexe et si la fonction objectif f est convexe sur X.
Concernant les contraintes dingalits, nous aurons galement besoin de la notion de contrainte
active :
Dnition 3.1 (Contraintes actives/inactives) Une contrainte dingalit g
j
(x) 0, j 1, . . . , q,
est dite active (ou "sature") en x si :
g
j
( x) = 0,
et inactive en x si :
g
j
( x) < 0.
Ce qui rend la notion de contrainte active attrayante, cest le fait quau point de minimum lo-
cal x
X, les contraintes actives peuvent tre remplaces par des contraintes dgalit et les
contraintes inactives peuvent tre ignores. Si lintrt de cette simplication reste essentielle-
ment thorique (on ne connat pas x
(1) = 2 ,= 0.
3.1.1 Cas dune contrainte dingalit
Le cas le plus simple que nous saurons prouver (et le seul que nous ayons le temps daborder
en profondeur dans le cadre de notre cours) est celui dune seule contrainte dingalit, cest--
dire un problme du type
min
g(x)0
f(x),
o f et g sont des fonctions de R
n
dans R. La condition doptimalit du premier ordre est :
Chapitre 3. Introduction loptimisation sous contraintes 41
Thorme 3.1 Si f et g sont des fonctions diffrentiables de R
n
dans R et si x
est un minimum
local de f sur lensemble X = x[g(x) 0, si on suppose de plus que soit g(x
) ,= 0 soit g
est non-active en x
) + g(x
) = 0 et g(x
) = 0 (3.3)
De plus si f et g sont convexes alors lquation (3.3) est sufsante pour assurer que x
est un
minimum local (et mme global) de f sur lensemble X.
On remarque que lon a besoin dune hypothse qui est g(x
,
cette hypothse sappelle "qualication des contraintes".
Exemple 3.1.2 Dans lexemple ci-dessous, le point x
1
est minimum sans contrainte et le mini-
mum global sous contrainte est le point x
3
.
Preuve. La preuve se fait dans le mme ordre dide que dans le cas sans contraintes, cest--
dire que les directions admissibles ne peuvent pas tre directions de descente. On rappelle quune
42 3.1. Conditions doptimalit
direction d est "admissible en un point x" si il existe > 0 tel que pour tout dans [0, [, x +d
appartient X. De mme une direction est dite "de descente au point x" si il existe > 0 tel
que pour tout dans ]0, [, f(x +d) < f(x). Dire que x
. Premirement,
si la contrainte est non-active alors g(x
), d 0 pour
tout d R
n
et on peut conclure comme dans le cas sans contrainte que f(x
) = 0.
Si la contrainte est active en x
, alors g(x
), d < 0 sont directions admissibles (un DL de Taylor montre que dans ces direc-
tions, g devient strictement ngatif). Comme une direction admissible ne peut pas tre direction
de descente, on en conclut que
f(x
), d < 0
Un lemme fameux (Lemme de Farkas) permet de conclure que si g(x
) ,= 0, alors f(x
) doit
tre colinaire et de sens oppos g, ce qui se traduit par lexistence dun 0 tel que :
f(x
) + g(x
) = 0.
Le lemme de Farkas peut tre dmontr graphiquement assez simplement en dimension 2. Si
on suppose (quitte effectuer un changement de coordonnes) que g(x
), on
voit graphiquement que f(x
On peut se servir de ce Thorme pour chercher les minima locaux dune fonction
Exemple 3.1.3 Soit le problme :
Minimiser f(x) = x
2
, x R
n
, sous la contrainte : x 1.
Ici g(x) = 1 x, et g(x) = 1 ,= 0. On cherche les points x tel quil existe 0
f
( x) + (1) = 0
. .
(1)
et (1 x) = 0
. .
(2)
.
Lquation (2) donne soit x = 1 soit = 0. Dans le cas x = 1, lquation (1) donne = 2.
Dans le cas = 0, lquation (1) donne x = 0, qui nest pas un point admissible. Donc il existe
un seul minimum local qui est x = 1 pour = 2.
Chapitre 3. Introduction loptimisation sous contraintes 43
Il est bon davoir en mmoire un exemple o les contraintes ne sont pas qualies (cest--
dire g(x
(0) + g
(0) = 0 car g
est
un minimum local de f sur X et si les contraintes sont qualies, alors il existe
R
p
,
R
q
tels que
_
_
f(x
) +
p
i=1
i
h
i
(x
) +
q
j=1
j
g
j
(x
) = 0
h
i
(x
) = 0, i = 1, . . . , p
j
g
j
(x
) = 0, j = 1, . . . , q
j
0, j = 1, . . . , q.
(3.4)
Les points qui vrient ces conditions sont appels points KKT (Karush,Kuhn,Tucker)
Concernant les contraintes dingalit, ce thorme est effectivement une extension raison-
nable du thorme prcdent. On peut aussi comprendre les contraintes dgalit en scindant
chaque contrainte dgalit en deux contraintes dingalit : effectivement h(x) = 0 est qui-
valent dire que h(x) 0 et h(x) 0. Comme dans le cas dune contrainte dingalit, il y a
une hypothse supplmentaire ajouter, qui est la "qualication des contraintes". Il y a plusieurs
types de qualication diffrente, mais une des plus gnrales est :
Dnition 3.2 En un point x X, les contraintes sont dites qualies si et seulement si les
vecteurs (h(x)
i
)
i
sont linairement indpendants et si il existe une direction d orthogonale
tous les vecteurs h(x)
i
telle que g
j
(x)
1
x = 0
2
(x
2
+ y
2
1) = 0
et
_
1
0
2
0
et
_
x 0
x
2
+ y
2
1
Lunique solution est (x, y,
1
,
2
) = (0, 1, 2, 3/2)
Comparaison des points trouvs : On doit calculer la valeur de f pour tous les points
trouvs, ici on nen a quun, cest donc notre minimum global.
Il est important de connatre un exemple o les contraintes sont non qualies et o le mini-
mum global nest pas point de KKT :
Exemple 3.1.7 Trouver les solutions de
min y, s.c. (x 1)
2
+ y
2
1 et (x + 1)
2
+ y
2
1
Ici lensemble des contraintes est lintersection de deux disques de rayon 1 et de centre (1, 0)
et (0, 1), ce qui donne lunique point (0, 0). Le minimum de f vaut donc f(0, 0) = 0 mais
f = (0, 1) alors quen ce point g
1
= (2, 0) et g
2
= (2, 0), il est impossible dcrire f
comme combinaison linaire de g
1
et g
2
, donc le pojnt nest pas de KKT. Ceci est du au fait
que les contraintes ne sont pas qualies.
3.2 Lagrangien du problme
Le Lagrangien dun problme doptimisation sous contraintes dgalit et dingalit est un
objet dont nous ne pouvons quefeurer limportance dans ce cours.
Dnition 3.3 Soit R
p
et (R
+
)
q
. On dnit :
/(x, (, )) = f(x) +
p
i=1
i
h
i
(x) +
q
j=1
j
g
j
(x)
ou plus gnralement
/(x, (, )) = f(x) +, h(x)
R
p +, g(x)
R
q
le Lagrangien associ au problme (P).
Les paramtres (, ) sont appels multiplicateurs de Lagrange. A noter : le Lagrangien
fait intervenir autant de multiplicateurs que de contraintes, et les multiplicateurs
j
associs aux
contraintes dingalit "g
j
(x) 0" sont positifs ou nuls.
Lintrt du Lagrangien est de ramener le problme (3.1)-(3.2) de minimisation sous contrainte
de f sur X un problme sans contrainte :
46 3.2. Lagrangien du problme
Dnition-Proposition 3.1 Le point x
, p
) U V
est dit "point-selle" de / sur U V si et seulement si
/(x
, p) /(x
, p
) /(x, p
) (x, p) U V
Exemple 3.2.1 Un point-selle dune fonction deux variables / est donc un minimum en la
premire variable et un maximum en la deuxime variable. Larchtype de tous les points-selles
est le point (0, 0) de la fonction de R
2
dans R : /(u, v) = u
2
v
2
.
Thorme 3.3 Considrons le problme sous contraintes fonctionnelles (3.1)-(3.2) :
min
xR
n
f(x)
sous : h(x) = 0, g(x) 0
o f, g et h sont supposes diffrentiables. On note X le domaine des contraintes et / le La-
grangien associ f et aux contraintes X.
Si (x
, p
et p
= (
) :
f(x
) +
i
h
i
(x
) +
j
g
j
(x
) = 0 et j,
j
g
j
(x
) = 0 (3.5)
Dans ce cas p
, p
).
Chapitre 3. Introduction loptimisation sous contraintes 47
Avant de dmontrer ce thorme, il faut bien en comprendre les implications. Ce thorme
ne dit pas que tous les minima globaux de f sur X viennent de point-selle, (ou mme que les
points-selles du Lagrangien existent), il dit seulement que si on trouve un point-selle (x
, p
),
alors x
est un minimum global de f sur X. De plus, on ne sait pas si tous les minima globaux
obissent lquation (3.5) (car il faut rajouter lhypothse de qualication des contraintes).
En ce sens, ce thorme nest pas un thorme de caractrisation des minima, au sens o on
donne une condition sufsante mais non ncessaire. Il va de soit que ce thorme ne dit pas que
tout (x
, p
) qui vrie (3.5) est forcment point-selle (ce qui entranerait que x
est minimum
global).
Preuve. On note p = (, ). On rappelle que les conditions de points-selles sont
/(x
, p) /(x
, p
) /(x, p
) (x, p) R
n
P (3.6)
En rcrivant la premire ingalit de (3.6), on obtient
f(x
) +, h(x
) +, g(x
) /(x
, p
) R
n
, R
p
+
On en conclut que h(x
) = 0 et g(x
) f(x
) +
, g(x
)
et comme
, g(x
) = 0. En rcrivant la
deuxime ingalit de (3.6), on obtient, en se limitant des x dans X :
f(x
) = L(x
, p
) f(x) +
, g(x) x X
et comme
est positif et g(x) est ngatif pour tout x dans X, alors f(x) +
, g(x) f(x) et
ainsi
f(x
) f(x) x X.
Ainsi x
, p
) /(x, p
) x R
n
On voit que x
Le thorme prcdent assure que tout point-selle du Lagrangien est un minimum global
de la fonction initiale et que tout point-selle vrie lquation (3.5). De plus on sait que si les
contraintes sont qualies alors tout minimum local vrie (3.5). La question qui se pose est de
savoir quelles hypothse ajouter pour quun point qui vrie (3.5) soit un point-selle.
La rponse est donne en partie par le thorme de Kuhn-Tucker (aussi quelquefois appel
Karush,Kuhn,Tucker).
48 3.2. Lagrangien du problme
Thorme 3.4 (Kuhn-Tucker) Supposons X donn par des contraintes dingalit unique-
ment :
X = x R
n
: g(x) 0 ,
On note :
/(x, ) = f(x) +, g(x)
le Lagrangien associ f avec les contraintes X. On suppose toutes les fonctions f et g
j
convexes et diffrentiables. Si x
R
q
+
tel que (x
R
q
+
tel que (x
) vrie :
f(x
) +
q
j=1
j
g
j
(x
) = 0 et j = 1, . . . , q,
j
g
j
(x
) = 0 (3.5)
Preuve. Comme la deuxime assertion entrane la premire (Thorme 3.3) et que la premire
entrane la troisime (Proposition 3.2), il suft de montrer que la troisime assertion entrane la
premire pour conclure. Soit un x
tel que g,
= 0 et
f(x
) +
j
g
j
(x
) = 0
Comme les g
j
sont convexes et
) est convexe. Et
comme
L(x
) = f(x
) +
j
g
j
(x
) = 0,
alors x
) = L(x
) L(x) = /(x,
) x R
n
.
De plus, comme g(x
),
= 0 et g(x
, ) = f(x
) +
g(x
), f(x
) = /(x
, ) /(x
) /(x,
) x R
n
, P.
Ce qui prouve que (x
alors il
existe des multiplicateurs (
) R
p
R
q
+
tel que :
1.
x
/(x, (
)) = 0, soit :
f(x
) +
p
i=1
i
h
i
(x
) +
q
j=1
j
g
j
(x
) = 0.
2. j = 1, . . . , q,
j
g
j
(x
j
= 0 ou g
j
(x
) = 0.
Ces conditions sont appeles relations de complmentarit.
3. i = 1, . . . , p, h
i
(x
) = 0.
4. j = 1, . . . , p, g
j
(x
) 0.
5. j = 1, . . . , q,
j
0.
TERMINOLOGIE :
Le vecteur (
solution primale
de (P) et (x
x
/( x, (
, )) = 0
j
g
j
( x) = 0, j = 1, . . . , q
h
i
( x) = 0, i = 1, . . . , p
j
0, j = 1, . . . , q.
pour un certain multiplicateur (
, ) R
p
R
q
.
Les relations :
j
g
j
( x) = 0 sont appeles relations de complmentarit. Elles sont trivia-
lement satisfaites par toute contrainte j active en x et indiquent que pour toute contrainte
inactive, le multiplicateur
j
correspondant est nul. Cela signie que toute contrainte inac-
tive loptimum aurait pu tre relaxe.
On remarquera quil ny a pas de condition sur les multiplicateurs
i
associs aux contraintes
dgalit.
50 3.3. Algorithme du gradient projet
3.3 Algorithme du gradient projet
Le but de cette section est dlaborer un algorithme de rsolution du problme :
Minimiser f(x), x R
n
, sous la contrainte : x X, (3.7)
dans le cas o X est un sous-ensemble convexe ferm non vide de R
n
, non ncessairement dni
par des galits ou des ingalits. La condition ncessaire doptimalit locale est alors un peu
plus gnrale que ce qui a t vu au paragraphe prcdent :
Thorme 3.5 (Condition ncessaire doptimalit locale) Soit f : R
n
R une fonction dif-
frentiable et X un convexe ferm, non vide de R
n
. Soit x
R
n
un point de minimum local de
f sur lensemble admissible X, alors
f(x
), x x
0, x X (3.8)
Si de plus f est convexe alors la condition prcdente devient sufsante, cest--dire que tout
x
1
2
|xy|
2
2
, dont le gradient vaut f(y) = yx
et la Hessienne H[f](x) = Id. La fonctionnelle f est strictement convexe. Comme lensemble
des contraintes est ferm born et f est continue, le Thorme 1.1 nous assure lexistence dun
minimum global. Comme lensemble des contraintes est convexe et la fonction f est strictement
convexe, le Thorme 1.3 nous assure quil est unique. Comme f est strictement convexe et
que lensemble des contraintes est convexe, la condition (3.10) est une condition ncessaire et
sufsante pour dterminer lunique minimiseur de (3.9).
On remarque en particulier que si x X, alors ncessairement : p
X
(x) = x.
Chapitre 3. Introduction loptimisation sous contraintes 51
ALGORITHME DU GRADIENT PROJET.
Donnes: f, p
X
loprateur de projection sur X, x
0
un point initial et > 0 la prcision
demande
Sortie: une approximation x
de la solution
1. k := 0 ;
2. Tant que critre darrt non satisfait,
(a) y
k
= x
k
sf(x
k
) o s est le pas calcul par la mthode de gradient choisie ;
(b) Projection sur X : x
k+1
= p
X
(y
k
) ; k := k + 1 ;
3. Retourner x
k
.
Remarque 3.1 Il est important de remarquer que le calcul ltape 2(b) du projet sur X, peut
parfois tre aussi difcile que le problme initial. En effet y
k
est obtenu en rsolvant le problme :
min
yR
n
1
2
|x
k
sf(x
k
) y|
2
2
s.c. x X.
Il sagit donc de rsoudre un problme doptimisation sur un convexe, avec une fonction objectif
convexe. Lorsque le domaine X des contraintes est simple (contraintes de bornes en particulier),
cest faisable. Ds que les contraintes ne sont pas des contraintes de bornes, le calcul de la
projection devient beaucoup plus dlicat.
Vrions que la direction d
k
= x
k+1
x
k
, si elle est non nulle, est bien une direction de
descente de f en x
k
.
Lemme 3.1 Soit f : R
n
R suppose diffrentiable et X R
n
un convexe ferm, non vide.
Notons x
k
litr courant et :
d(s) = p
X
(x
k
sf(x
k
)) x
k
, s > 0
Si d(s) est non nulle, alors d(s) est une direction de descente pour tout s > 0.
Preuve. Soit s > 0 x. Supposons : d(s) = p
X
(x
k
sf(x
k
))x
k
,= 0. Il sagit de dmontrer
que d(s) est une direction de descente de f en x
k
, autrement dit que f(x
k
)
d(s) < 0.
Daprs la caractrisation (3.10) de la projection sur un convexe, on peut crire :
y X,
p
X
(x
k
sf(x
k
)) (x
k
sf(x
k
)) , y p
X
(x
k
sf(x
k
))
_
0,
Do, pour tout y X : d(s) + sf(x
k
), y x
k
d(s)
_
0. Puisque x
k
X, on choisit
y = x
k
, soit :
d(s) + sf(x
k
), d(s)
_
0, ou encore : f(x
k
), d(s)
1
s
d(s), d(s) 0.
Par hypothse, d(s) ,= 0 ce qui implique : f(x
k
), d(s) < 0.
52 3.3. Algorithme du gradient projet
Remarque 3.2 La direction d(s) possde les proprits suivantes :
1. Si d(s) = 0, alors : p
X
(x
k
sf(x
k
)) = x
k
. Cela signie que la direction choisie par
lalgorithme de gradient est orthogonale lensemble X des contraintes en x
k
. Le point x
k
est alors un point stationnaire car la condition ncessaire doptimalit (3.5) est satisfaite.
2. Supposons d(s) ,= 0. Alors x
k
et p
X
(x
k
sf(x
k
)) sont des points admissibles du pro-
blme (3.7). La convexit de X nous garantit alors : [0, 1], x
k
+ d(s) X.
Exemple 3.3.1 On veut rsoudre par une mthode de gradient projet le problme suivant :
min
(x,y)R
2
f(x, y) =
1
2
x
2
+
7
2
y
2
sous x + y = 1.
Le domaine des contraintes X = (x, y) R
2
/ x + y = 1 est un convexe ferm. Pour
lavoir rsolu au chapitre 2, on sait que le problme hors contrainte admet un minimum global
en (0, 0). Cependant (0, 0) ne satisfait pas la contrainte, ce nest donc pas un point admissible
du problme avec contrainte.
An de mettre en oeuvre lalgorithme de gradient projet, il faut choisir les mthodes de
calcul des pas s
k
et
k
aux tapes 2(a) et 2(c) de notre algorithme :
tape 2(a) : on choisit une mthode de gradient pour le calcul du pas s
k
.
tape 2(c) : en premire approche, on choisit un pas xe
k
= 1, ce qui implique : x
k+1
=
y
k
= p
X
(x
k
sf(x
k
)).
FIGURE 3.1 Itrations successives (avant et aprs projection) de lalgorithme du gradient pro-
jet - exemple 3.3.1 partir du point (4, 5.5)
Le comportement numrique de la mthode de gradient projet ainsi dnie, est illustr par
la gure 3.1 et le tableau 3.1 des itrations. On observe une convergence de la suite ditrs
gnrs partir du point x
0
= (4, 5.5) vers le point (0.875, 0.125).
Chapitre 3. Introduction loptimisation sous contraintes 53
k x
k
x
k
s
k
f(x
k
) |d
k
| = |y
k
x
k
|
0 [ 4 5.5] [ 3.4232925 0.0508095 ] 4.3472097
1 [ 1.1862415 2.1862415 ] [ 1.0159064 0.0112495 ] 1.6743058
2 [ 0.0023285 1.0023285 ] [ 0.0019958 9.462e 08 ] 0.7089885
3 [ 0.4990021 0.5009979 ] [ 0.4264826 0.0086691 ] 0.3091099
4 [ 0.7175758 0.2824242 ] [ 0.6037028 0.0313035 ] 0.1413186
5 [ 0.8175032 0.1824968 ] [ 0.6619890 0.0605186 ] 0.0618727
6 [ 0.8612538 0.1387462 ] [ 0.6636631 0.0840740 ] 0.0178399
7 [ 0.8738685 0.1261315 ] [ 0.6570769 0.0929058 ] 0.0015879
8 [ 0.8749913 0.1250087 ] [ 0.6562565 0.0937435 ] 0.0000123
9 [ 0.875 0.125 ] [ 0.65625 0.09375 ] 7.301e 10
TABLE 3.1 Itrations de la mthode du gradient projet : on note y
k
= p
X
(x
k
s
k
f(x
k
)). Le
critre darrt |d
k
| < est satisfait en 10 itrations pour une prcision = 10
5
.
Vrions analytiquement ce rsultat. On cherche un point (x, y) R
2
vriant la contrainte :
y = 1 + x et minimisant f, ce qui revient minimiser sans contrainte lapplication :
f : x f(x, 1 + x) = 4x
2
+ 7x +
7
2
.
Remarquons que
f est strictement convexe ; daprs le thorme 2.2 appliqu au point x
=
(
7
8
,
1
8
) = (0.875, 0.125),
f admet un point de minimum global en x
.
Annexe A
Complments
A.1 Rappels de calcul diffrentiel
Diffrentiabilit et gradient
Nous commenons par rappeler la notion de diffrentiabilit :
Dnition A.1 Soit J : R
n
R une fonctionnelle. J est diffrentiable au point x ssi il existe
L
x
une application linaire de R
n
dans R et une fonction deR
n
R
n
dans R telle que
J(x +h) = J(x) + L
x
(h) + |h| (h, x), h R
n
, (A.1)
avec
(h, x)
h0
0. (A.2)
Comme L
x
est une application linaire de R
n
dans R, il existe un vecteur appel gradient de f
au point x tel que
L
x
(h) = J(x), h, h R
n
(A.3)
Lorsquil existe, le gradient peut tre exprim laide des drives partielles
J(x) =
_
x
1
J(x)
x
2
J(x)
x
n
J(x)
_
_
. (A.4)
Aller plus loin : Nous avons choisi dintroduire la forme linaire L
x
(appele la diffrentielle au point x) dans
(A.1) au lieu de mettre la formule de Taylor :
J(x +h) = J(x) +J(x), h + |h| (h, x), h R
n
,
Il y a une raison foncamentale cela. En effet, si on change le produit scalaire de R
n
, alors on va changer la formule
(A.3) donc le gradient mais pas la diffrentielle. En effet, la formule (A.1) est indpendante du choix du produit
scalaire, cependant la formule (A.3) nest que lapplication du thorme suivant au produit scalaire usuel :
Si L est une forme linaire sur H et (, ) est un produit scalaire, il existe un seul et unique
vecteur u H tel que L(v) = (u, v) pour tout v H.
Ainsi, si on change le produit scalaire, on change la dnition du gradient.
55
56 A.1. Rappels de calcul diffrentiel
On donne un thorme qui permet de dire quune fonction est diffrentiable en calculant son
gradient.
Dnition-Proposition A.1 Soit J : R
n
R une fonctionnelle telle que chacune des compo-
santes (les drives partielles) de J existe et sont continues en un point x. Alors J est diffren-
tiable au point x et on dit que J est C
1
en ce point.
Drives dordre suprieur
Dnition A.2 On dit que J : R
n
R est deux fois diffrentiable au point x R
n
ssi J
est diffrentiable et chacune des composantes de J est diffrentiable. Dans ce cas on appelle
"Hessienne de J" la matrice :
H[J](x) = [
i
j
J(x)]
1i,jn
. (A.5)
De la mme manire quil est plus simple de montrer quune fonction est C
1
que de montrer
quune fonction est diffrentiable, il est plus souvent plus facile dtablir quune fonction est C
2
plutt que deux fois diffrentiable.
Dnition-Proposition A.2 Soit une fonctionnelle J : R
n
Rdont chacune des composantes
de H[J](x) est continue (les drives partielles secondes sont continues au point x), alors J est
deux fois diffrentiable et on dit que J est C
2
au point x.
Thorme A.1 (de Schwarz) Soit J : R
n
R une fonctionnelle de classe (
2
, alors, pour tout
x, la matrice H[J](x), est symtrique.
Formules de Taylor
On rappelle les notations de Landau :
g(h) = O(h
p
)
_
_
_
a > 0, M > 0, [h[ < a
g(h)
h
p
M :
g(h) tend vers 0 avec h aussi vite que h
p
.
g(h) = o(h
p
)
_
_
_
lim
h0
g(h)
h
p
= 0,
g(h) tend vers 0 avec h plus vite que h
p
(x)
. .
(1)
+
h
2
2
f
(x)
. .
(2)
+. . . +
h
n
n!
f
(n)
(x) + o(h
n
). (A.6)
On remarque que, dans cette quation, le terme linaire en h du dveloppement de Taylor (le
terme (1)) fait intervenir la drive de f alors que le terme quadratique (le terme (2)) fait inter-
venir la drive seconde.
Chapitre A. Complments 57
Proposition A.1 Soit J : R
n
R une fonctionnelle de classe (
2
, les formules de Taylor
scrivent :
J(x + h) = J(x) +J(x), h +
1
2
h, H[J](x) h + o(|h
2
|). (A.7)
Proposition A.2 Soit J : R
n
R
p
une fonctionnelle. On dit que J est de classe (
2
si et
seulement si chacune de ses composantes J
i
: R
n
R est de classe (
2
. Dans ce cas, les
formules de Taylor scrivent :
J(x + h) = J(x) + L
x
(h) + Q
x
(h, h) + o(|h
2
|). (A.8)
o L
x
est une application linaire de R
n
dans R
p
et Q
x
est une application bilinaire de R
n
R
n
dans R
p
. Le terme Q
x
(h, h) est donc un terme quadratique. On a les formules suivantes pour L
x
et Q
x
, en notant J
i
(x) la i
eme
composante de J(x)
(L
x
(h))
i
=
n
k=1
J
i
(x)
x
k
h
k
i = 0, . . . , p
(Q
x
(a, b))
i
=
k=1
n
l=1
2
J
i
(x)
x
k
x
l
a
k
b
l
i = 0, . . . , p (A.9)
La matrice n p qui reprsente lapplication L
x
est appele Jacobienne J au point x.
Tout ceci se montre en crivant lquation A.6 pour chaque composante de J.
A.2 Quelques dmonstrations
A.2.1 Hessienne et convexit : dmonstration du Thorme 1.5
Thorme 1.5. Soit f : R
n
R de classe (
2
. On note H[f](x) sa hessienne en x.
Si H[f](x) est semidnie positive pour tout x R
n
, alors f est convexe.
Si H[f](x) est dnie positive pour tout x R
n
, alors f est strictement convexe.
Pour montrer ce rsultat nous avons besoin du lemme technique suivant.
Lemme A.1 Soit (
2
([0, 1]).
Si
(2)
(x) > 0, alors () < (1 )(0) + (1) pour ]0, 1[.
Si
(2)
(x) 0, alors () (1 )(0) + (1).
Preuve. Comme
(2)
(x) > 0 (resp. ) pour 0 x 1,
(t)dt <
() (resp. ),
(1) () =
_
1
(t)dt > (1 )
() (resp. ).
58 A.2. Quelques dmonstrations
En groupant ces deux ingalits, nous tirons
() (0)
<
_
() <
_
(1) ()
1
(resp. );
cest--dire : () < (1 )(0) + (1) (resp. ).
Preuve du thorme 1.5. Supposons H[f](z) symtrique dnie positive. Soient x et y deux
lments distincts de R
n
. Introduisons la fonction : [0, 1] R de classe (
2
dnie par
() = f(x + (1 )y).
Utilisons le dveloppement lordre deux de pour calculer la drive seconde de
( + h) = f(( + h)x + (1 h)y) = f(x + (1 )y + h(x y)).
Avec t = x + (1 )y, nous avons
( + h) = f(t) + h[f(t)]
(x y) +
1
2
h
2
(x y)
H[f](t)(x y)
+ h
2
|x y|
2
(t, h(x y)),
et, par consquent
( + h) = () + h
_
[f(t)]
(x y)
_
+
h
2
2
_
(x y)
H[f](t)(x y)
_
+ h
2
(h)
Comme est de classe (
2
, la drive premire et la drive seconde de sont donc donnes par
() = [f(x + (1 )y)]
(x y),
(2)
() = (x y)
H[f]((x + (1 )y)
. .
R
nn
(x y).
Donc la fonction
(2)
() est strictement positive car H[f](x +(1 )y) est symtrique dnie
positive et x ,= y. Le lemme A.1 scrit :
f(x + (1 )y) < (1 )f(y) + f(x).
puisque : (0) = f(y), (1) = f(x) et () = f(x + (1 )y).
Ceci prouve que f est strictement convexe. Si pour tout x, H[f](x) est positive, une preuve
similaire nous permet de montrer que f est convexe.
Chapitre A. Complments 59
A.2.2 Mthode de Gauss-Newton pour la rsolution des problmes de moindres
carrs
Problme de moindres carrs
F : R
p
R
n
, n > p : F(x) =
_
_
F
1
(x
1
, . . . , x
p
)
. . . . . .
F
n
(x
1
, . . . , x
p
)
_
_
.
r(x) =
1
2
|F(x)|
2
=
1
2
F(x), F(x).
On cherche x
) = min
_
1
2
n
i=1
F
2
i
(x), x R
p
_
.
Utilisation de la mthode de Newton
Condition ncessaire doptimalit du premier ordre : r(x
) = 0.
Rsolution par la mthode de Newton : pour k 0,
x
(k+1)
= x
(k)
_
H
r
(x
(k)
)
_
1
r(x
(k)
). (A.10)
Calcul de r(x) : on peut le faire en identiant de la partie linaire dun dveloppement au
voisinage de x :
2 r(x + h) = F(x + h), F(x + h) ,
= F(x) + J
F
(x) h +O(|h|
2
), F(x) + J
F
(x) h +O(|h|
2
), ,
= F(x), F(x) +F(x), J
F
(x) h +J
F
(x) h, F(x) +O(|h|
2
).
Comme en dimension 1, on assimile les termes qui seront au moins O(|h|
2
) :
F(x), O(|h|
2
)
_
+ J
F
(x) h, J
F
(x) h + . . . = O(|h|
2
).
Pour A M
n,p
(R), x R
n
et y R
p
, on a x, Ay =
A
T
x, y
_
:
r(x + h) = r(x) +
J
F
(x)
T
F(x), h
_
+O(|h|
2
).
Par identication,
r(x) = J
F
(x)
T
F(x). (A.11)
Calcul de r(x) : on peut le faire en calculant les drives partielles :
Pour tout i, 1 i p,
x
i
r(x) =
x
i
_
1
2
n
j=1
F
2
j
(x)
_
=
n
j=1
(
x
i
F
j
(x)) F
j
(x).
60 A.2. Quelques dmonstrations
En prenant en compte toute les lignes,
_
_
x
1
r(x)
. . .
x
p
r(x)
_
_
=
_
_
x
1
F
1
(x) . . .
x
1
F
n
(x)
. . . . . .
x
p
F
1
(x) . . .
x
p
F
n
(x)
_
_
_
_
F
1
(x)
. . .
F
n
(x)
_
_
=
n
j=1
(F
j
) F
j
= J
T
F
F.
Calcul de H
r
(x) : on peut le faire par identication de la partie quadratique dun dvelop-
pement au voisinage de x :
r(x + h) =
1
2
_
F(x) + J
F
(x) h +
1
2
Q
r
(h) +O(|h|
3
), F(x) + J
F
(x) h +
1
2
Q
F
(h) +O(|h|
3
),
_
,
= r(x) +r(x), h +
1
2
J
F
(x) h, J
F
(x) h . . .
. . . +
1
4
F(x), Q
F
(h) +
1
4
Q
F
(h), F(x) +O(|h|
3
),
(A.12)
La partie quadratique de (A.12) sidentie selon
H
r
(x) h, h =
J
F
(x)
T
J
F
(x) h, h
_
+
1
2
F(x), Q
F
(h)
Suivant (A.9), F(x), Q
F
(h) =
_
n
i=1
F
i
(x) h
T
H
F
i
(x)
_
h, do
H
r
= J
T
F
J
F
+
n
i=1
F
i
H
F
i
. (A.13)
Calcul de H
r
(x) : on peut le faire en drivant r(x) :
r =
n
j=1
(F
j
) F
j
.
On utilise la rgle de drivation dun produit : (r)
=
n
j=1
_
H
F
j
F
j
+ (F
j
) J
F
j
_
.
J
F
j
= (F
j
)
T
, et
n
j=1
(F
j
) (F
j
)
T
=
_
F
1
. . . F
n
_
_
F
T
1
F
T
n
_
_
= J
T
F
J
F
.
Calcul de H
r
(x) : on peut laborieusement le faire en calculant les drives partielles se-
condes ; on ne le fait pas.