Bases, Outils Et Principes Pour L'analyse Variationnelle PDF

www.biblio-scientifique.
net
MATHMATIQUES
Et
APPLICATIONS
Directeurs de la collection :
J. Garnier et V. Perrier
70
For further volumes:

http://www.springer.com/series/2966
www.biblio-scientifique.net
MATHMATIQUES & APPLICATIONS

Comit de Lecture 20122015/Editorial Board 20122015
Remi ABGRALL
Inst. Math., Inst. Polytechnique de Bordeaux, FR
remi.abgrall@inria.fr
Marc HOFFMANN
LAMA, Univ. Paris-Est, Champs-sur-Marne, FR
marc.hoffmann@ensae.fr
Gregoire ALLAIRE
CMAP, Ecole Polytechnique, Palaiseau, FR
gregoire.allaire@polytechnique.fr
Claude LE BRIS
CERMICS, ENPC, Marne la Vallee, FR
lebris@cermics.enpc.fr
Michel BENAIM
Inst. Math., Univ. de Neuchatel, CH
michel.benaim@unine.ch
Sylvie MELEARD
sylvie.meleard@polytechnique.edu
Ma tine BERGOUNIOUX
MAPMO, Universite dOrleans, FR
maitine.bergounioux@univ-orleans.fr
Felix OTTO
Institute of Applied Math., Bonn, GE
otto@iam.uni-bonn.de
Thierry COLIN
Inst. Math., Universite Bordeaux 1, FR
colin@math.u-bordeaux1.fr
Valerie PERRIER
Lab. Jean-Kunztmann, ENSIMAG, Grenoble, FR
valerie.perrier@imag.fr
Marie-Christine COSTA
UMA, ENSTA, Paris, FR
marie-christine.costa@ensta.fr
Philippe ROBERT
INRIA Rocquencourt, Le Chesnay, FR
philippe.robert@inria.fr
Arnaud DEBUSSCHE
ENS Cachan, Bruz, FR
arnaud.debussche@bretagne.ens-cachan.fr
Pierre ROUCHON
Automatique et Syste`mes, Ecole Mines, Paris, FR
pierre.rouchon@ensmp.fr
Isabelle GALLAGHER
Inst. Math. Jussieu, Univ. Paris 7, FR
gallagher@math.jussieu.fr
Bruno SALVY
INRIA Rocquencourt, Le Chesnay, FR
bruno.salvy@inria.fr
Josselin GARNIER
Lab. Proba. et Mod. Aleatoires, Univ. Paris 7, FR
garnier@math.univ-paris-diderot.fr
Annick SARTENAER
Dept. Mathematiques, Univ. Namur, BE
annick.sartenaer@fundp.ac.be
Stephane GAUBERT
INRIA, Saclay - Ile-de-France, Orsay, FR
stephane.gaubert@inria.fr
Eric SONNENDRUCKER
IRMA, Strasbourg, FR
sonnen@math.u-strasbg.fr
Emmanuel GOBET
emmanuel.gobet@polytechnique.edu
Alain TROUVE
CMLA, ENS Cachan, FR
trouve@cmla.ens-cachan.fr
Raphaele HERBIN
CMI LATP, Universite dAix-Marseille, FR
raphaele.herbin@latp.univ-mrs.fr
Cedric VILLANI
IHP, Paris, FR
villani@math.univ-lyon1.fr
Enrique ZUAZUA
BCAM, Bilbao, ES
enrique.zuazua@uam.es
Directeurs de la collection :
J. GARNIER et V. PERRIER
Jean-Baptiste Hiriart-Urruty
Bases, outils et principes

pour lanalyse variationnelle
123
Jean-Baptiste Hiriart-Urruty
Institut de Mathmatiques de Toulouse
Universit Paul Sabatier
Toulouse
France
ISSN 1154-483X
ISBN 978-3-642-30734-8
DOI 10.1007/978-3-642-30735-5
ISBN 978-3-642-30735-5
(eBook)
Springer Heidelberg New York Dordrecht London

Library of Congress Control Number: 2012945471
Mathematics Subject Classification (2010): 49-01; 65K; 90C; 93-01
Springer-Verlag Berlin Heidelberg 2013
Tous droits de traduction, de reproduction et dadaptation rservs pour tous pays.
La loi du 11 mars 1957 interdit les copies ou les reproductions destines une utilisation collective.
Toute reprsentation, reproduction intgrale ou partielle faite par quelque procd que ce soit, sans le
consentement de lauteur ou de ses ayants cause, est illicite et constitue une contrefaon sanctionne par
les articles 425 et suivants du Code pnal.
Imprim sur papier non acide
Springer est membre du groupe Springer Science+BusinessMedia (www.springer.com)
Avant-propos
Ceci est un cours, pas un ouvrage de recherche o on serait tent de compiler

toutes les connaissances acquises sur le sujet...
Ceci est un cours, donc principalement destin des tudiants en formation,
lesquels ont un temps limit consacrer au sujet et ont suivre dautres cours
dispenss en parallle...
Ceci est un cours, donc restreint lessentiel (et ce qui rsiste au temps) dans le
domaine concern.
Cest au niveau Master 2 Recherche que se place ce cours, en premier semestre,
dune dure de 25-30 heures (hors travail sur les exercices proposs et travail
personnel). Comme lindique le titre, ce sont les bases, quelques principes et outils
pour lanalyse variationnelle qui sont proposs ltude. Par analyse variationnelle nous entendons toute situation o il y a quelque chose minimiser
sous des contraintes. Nous aurions pu utiliser le vocable gnrique doptimisation, ce qui revient peu prs au mme, et dailleurs il nous arrive dutiliser les
deux vocables accols : analyse variationnelle et optimisation.
Un cours de premier semestre comme celui-ci est suivi (en deuxime semestre)
par des cours plus spcialiss sur le contrle optimal ou le traitement mathmatique des images (domaine trs gourmand en connaissances sur les bases, outils et
principes pour lanalyse variationnelle).
Nous souhaitons un travail intressant et fructueux aux lecteurs-tudiants qui se
lanceront dans ltude de ce cours.
Toulouse, Avril 2010
J.-B. Hiriart-Urruty
Ouvrages rcents du mme auteur
J.-B HIRIART-URRUTY. Les mathmatiques du mieux faire. Vol. 1 : Premiers pas

en optimisation. Collection Opuscules, ditions ELLIPSES (dcembre 2007), 144
pages.
J.-B HIRIART-URRUTY. Les mathmatiques du mieux faire. Vol. 2 : La commande
optimale pour les dbutants. Collection Opuscules, ditions ELLIPSES (janvier
2008), 176 pages.
J.-B HIRIART-URRUTY. Optimisation et Analyse convexe (rsum de Cours, exercices et problmes corrigs). Collection Enseignement SUP Mathmatiques,
ditions EDP SCIENCES (mars 2009), 344 pages.
Rimpression dun ouvrage de 1998 (publi dans une autre maison dditions).
D. AZ, G. CONSTANS ET J.-B HIRIART-URRUTY. Calcul diffrentiel et quations
diffrentielles (exercices et problmes corrigs). Collection Enseignement SUP
Mathmatiques, ditions EDP SCIENCES (fvrier 2010), 224 pages.
Rimpression dun ouvrage de 2002 (publi dans une autre maison dditions).
D. AZ ET J.-B HIRIART-URRUTY. Analyse variationnelle et optimisation (lments de Cours, exercices et problmes corrigs). ditions CEPADUES (2010),
332 pages.
vii
Introduction
Rien de si pratique... quune bonne thorie.

Hermann Von Helmholtz (1821-1894).
Les thories ne sauraient avoir la prtention dtre indestructibles. Elles ne
sont que la charrue qui sert au laboureur pour tracer son sillon et quil lui sera
permis de remplacer par une plus parfaite au lendemain de la moisson. tre ce
laboureur dont leffort a pu faire germer une rcolte utile au progrs scientifique, je navais jamais envisag dambition plus haute.
Paul Sabatier (1854-1941), lors de son
discours loccasion de la remise
du Prix Nobel de chimie 1912.
La lumire ne doit point venir que de Paris, mais aussi de la province.
Paul (et non Patrick) Sabatier.
Rdigez votre cours dun bout lautre, comme pour limpression : vous
apprcierez la diffrence entre ce qui ne laisse de trace que dans les cahiers
dlves et ce quon destine au public.
Henri Bouasse (1866-1953), qui fut
professeur de physique la Facult des
Sciences de Toulouse de 1892 1937.
Les mathmaticiens qui rdigent mal sont de mauvais mathmaticiens
Ren Baire (1874-1932).
ix
Table des matires
- PROLGOMNES : LA SEMICONTINUIT INFRIEURE ;

LES TOPOLOGIES FAIBLES ;
- RSULTATS FONDAMENTAUX DEXISTENCE
EN OPTIMISATION. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
La question de lexistence de solutions . . . . . . . . . . . . . . . . .
2.1
La semicontinuit infrieure . . . . . . . . . . . . . . . . . . . .
2.2
Des exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
Un rsultat standard dexistence . . . . . . . . . . . . . . . . .
3
Le choix des topologies. Les topologies faibles sur un espace
vectoriel norm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Progression dans la gnralit des espaces de travail . . .
3.2
Topologie faible rE; E sur E . . . . . . . . . . . . . . . . .
3.3
Le topologie faible-, rE ; E (weak- en anglais) . . .
3.4
Lapport de la sparabilit . . . . . . . . . . . . . . . . . . . . .
3.5
Un thorme fondamental dexistence en prsence
de convexit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CONDITIONS NCESSAIRES DOPTIMALIT
APPROCHE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Condition ncessaire doptimalit approche ou principe
variationnel dEKELAND . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Le thorme principal : nonc, illustrations, variantes
1.2
La dmonstration du thorme principal . . . . . . . . . .
1.3
Complments . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Condition ncessaire doptimalit approche ou principe
variationnel de BORWEIN-PREISS . . . . . . . . . . . . . . . . . . . . . .
2.1
Le thorme principal : nonc, quelques illustrations .
.
.
.
.
.
.
1
1
1
2
5
8
.
.
.
.
.
10
10
12
13
16
.
.
16
24
..
25
.
.
.
.
.
.
.
.
26
26
30
34
..
..
37
37
xi
xii
Table des matires
2.2
Applications en thorie de lapproximation hilbertienne . . .
3
Prolongements possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
-AUTOUR DE LA PROJECTION SUR UN CONVEXE FERM;

-LA DCOMPOSITION DE MOREAU.. . . . . . . . . . . . . . . . . . . .
1
Le contexte linaire : la projection sur un sous-espace vectoriel
ferm (Rappels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Proprits basiques de pV . . . . . . . . . . . . . . . . . . . . . . .
1.2
Caractrisation de pV . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
La 00 technologie des moindres carrs00 . . . . . . . . . . . . . .
2
Le contexte gnral : la projection sur un convexe
ferm (Rappels). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Caractrisation et proprits essentielles . . . . . . . . . . . .
2.2
Le problme de ladmissibilit ou faisabilit convexe
(the 00 convex feasibility problem00 ). . . . . . . . . . . . . . . . .
3
La projection sur un cne convexe ferm. La dcomposition
de MOREAU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Le cne polaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Caractrisation de pK x ; proprits de pK ;
dcomposition de Moreau suivant K et K . . . . . . . . . . .
4
Approximation conique dun convexe. Application
aux conditions doptimalit. . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
Le cne tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
Application aux conditions doptimalit . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ANALYSE CONVEXE OPRATOIRE . . . . . . . . . . .
1
Fonctions convexes sur E . . . . . . . . . . . . . . . . . . .
1.1
Dfinitions et proprits. . . . . . . . . . . . . . .
1.2
Exemples . . . . . . . . . . . . . . . . . . . . . . . . .
2
Deux oprations prservant la convexit. . . . . . . . .
2.1
Passage au supremum . . . . . . . . . . . . . . . .
2.2
Inf-convolution . . . . . . . . . . . . . . . . . . . . .
3
La transformation de Legendre-Fenchel . . . . . . . . .
3.1
Dfinition et premires proprits . . . . . . . .
3.2
Quelques exemples pour se familiariser avec
concept . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3
Lingalit de Fenchel . . . . . . . . . . . . . . . .
3.4
La biconjugaison. . . . . . . . . . . . . . . . . . . .
3.5
Quelques rgles de calcul typiques . . . . . . .
4
Le sous-diffrentiel dune fonction . . . . . . . . . . . .
4.1
Dfinition et premiers exemples . . . . . . . . .
4.2
Proprits basiques du sous-diffrentiel . . . .
..
..
..
..
..
..
..
..
..
le
..
..
..
..
..
..
..
42
53
58
59
60
60
60
61
62
63
65
68
68
72
77
77
80
84
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
86
86
88
91
91
91
95
95
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
96
98
98
99
100
100
102
Table des matires
xiii
4.3
Quelques rgles de calcul typiques . . . . . . . . . . . . .
4.4
Sur le besoin dun agrandissement de of . . . . . . . . .
5
Un exemple dutilisation du sous-diffrentiel : les conditions
ncessaires et suffisantes doptimalit dans un problme
doptimisation convexe avec contraintes. . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...
...
105
108
...
...
108
116
......
......
117
118
......
118
.
.
.
.
.
.
.
.
119
125
129
140
...
141
...
142
...
144
...
150
...
...
153
156
...
...
158
158
...
...
161
166
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
169
QUELQUES SCHMAS DE DUALISATION DANS DES

PROBLMES DOPTIMISATION NON CONVEXES . . .
1
Modle 1 : la relaxation convexe. . . . . . . . . . . . . . . . .
1.1
Lopration de 00 convexification ferme00
dune fonction . . . . . . . . . . . . . . . . . . . . . . . .
1.2
La 00 relaxation convexe ferme00
dun problme doptimisation P . . . . . . . . . .
2
Modle 2 : convexe + quadratique. . . . . . . . . . . . . . . .
3
Modle 3 : diff-convexe . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
SOUS-DIFFRENTIELS GNRALISS DE FONCTIONS

NON DIFFRENTIABLES . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Sous-diffrentiation gnralise de fonctions
localement Lipschitz . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Drives directionnelles gnralises et
sous-diffrentiels gnraliss au sens de CLARKE:
Dfinitions et premires proprits . . . . . . . . . . . . .
1.2
Sous-diffrentiels gnraliss au sens de CLARKE:
Rgles de calcul basiques. . . . . . . . . . . . . . . . . . . .
1.3
Un exemple dutilisation des sous-diffrentiels
gnraliss : les conditions ncessaires
doptimalit dans un problme doptimisation
avec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
En route vers la gomtrie non lisse . . . . . . . . . . . .
2
Sous-diffrentiation gnralise de fonctions s.c.i. valeurs
dans R [ f1g . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Un panel de sous-diffrentiels gnraliss . . . . . . . .
2.2
Les rgles de va-et-vient entre Analyse et Gomtrie
non lisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rfrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
Chapitre 1
- PROLGOMNES : LA SEMICONTINUIT
INFRIEURE ; LES TOPOLOGIES FAIBLES ;
- RSULTATS FONDAMENTAUX
DEXISTENCE EN OPTIMISATION.
"Analysis is the technically most successful and best-elaborated

part of mathematics." J. Von Neumann (1903-1957)
1 Introduction
Considrons un problme doptimisation ou variationnel gnral formul
de la manire suivante :

Minimiser f (x),
(P )
x S.
o f : E R {+} et S E. Lobjet de ce chapitre introductif est
de rappeler les notions et rsultats ncessaires conduisant lexistence de
solutions dans (P ). On soccupera donc de ce quil faut supposer sur f (la
semicontinuit infrieure) et sur S (compacit). Il faudra notamment jouer
avec diverses topologies sur E, les topologies faibles notamment. On rappellera cette occasion le rle et lapport de la convexit, aussi bien sur S que
sur f .
Points dappui / Prrequis :
Analyse relle (Topologie ; Analyse fonctionnelle) ;
Convexit de base.
2 La question de lexistence de solutions

Soit (E, ) un espace topologique et f : E R{+} (=]; +]),
un contexte trs gnral donc.
J.-B. Hiriart-Urruty, Bases, outils et principes pour lanalyse variationnelle,
Mathmatiques et Applications 70, DOI: 10.1007/978-3-642-30735-5_1,
2
CHAPITRE 1.
PROLGOMNES. RSULTATS FONDAMENTAUX
2.1 La semicontinuit infrieure

Dfinition 1.1 (Rappel) On dit que f est semicontinue infrieurement (s.c.i.
en abrg) en x E lorsque
lim inf f (y) f (x),
yx
cest--dire :
0, V voisinage de x tel que f (y) f (x) pour tout x V.

(1.1)
Naturellement, la notion dpend de la topologie considre sur E (via
le voisinage V dans lexplicitation (1.1)).
Consquence :
Si (une suite) (xk ) a pour limite x (ou bien, xk x dans (E, )) alors
lim inf f (xk ) f (x)
k+
(1.2)
(notion plus "palpable" que celle exprime en (1.1)). Il y a quivalence avec la

proprit donne en dfinition gnrale lorsque la topologie est mtrisable
(et non... mprisable).
La semicontinuit est une notion introduite par le mathmaticien franais
Ren Baire1 , cest en quelque sorte la moiti de la continuit dont on a besoin
lorsquil sagit de minimiser. Lautre moiti est assure par la semicontinuit
suprieure (s.c.s.) : f est dite s.c.s en x lorsque f est s.c.i en x. Comme on
sy attend, dire que f est continue en x (en lequel f est finie) quivaut dire
que f est la fois s.c.i et s.c.s en x.
Dfinition 1.2 (Globalisation de la prcdente)
f est dite s.c.i sur E lorsque f est s.c.i en tout point x de E .
Attention, pige ! Il faut assurer la s.c.i de f en tout x E, y compris en
les x o f (x) = + (en les x se trouvant sur la frontire de lensemble des
points o f (y) est finie).
Exemple 1.3 Soit O un ouvert de E, f : O R continue sur E, que
lon tend tout E en posant f (x) = + si x
/ O . Il nest pas sr que
cette fonction (tendue) soit s.c.i sur E ! a dpend de ce qui se passe sur f
lorsquon sapproche du bord de O . Pourtant f est continue partout o elle
est finie !
1 Certains prtendent que Baire est dorigine basque comme lauteur... Il nen est rien, mais
cest loccasion dun jeu de mots : "Baire est basque...".
2. LA QUESTION DE LEXISTENCE DE SOLUTIONS
Exemple 1.4 (Un exemple qui marche (et fort utilis))

Soit S E ferm, f : S R continue sur S. On prolonge f tout E en
posant f (x) = + si x
/ S. Alors, oui, la nouvelle fonction (tendue) f
est s.c.i sur E.
La s.c.i globale sur E a le bon got de pouvoir tre caractrise gomtriquement. Notations :
pour r R, [ f r ] := {x E | f (x) r } (ensemble de sous-niveau
de f au niveau de r ; sublevel sets en anglais)
lpigraphe de f , i.e. ce qui est au-dessus du graphe de f , comme
lindique son tymologie
epi f := {(x, r ) E R | f (x) r } .
Attention ! epi f est (toujours) une partie de E R.
Proposition 1.5 (de caractrisation de la s.c.i de f sur E )
Il y a quivalence des trois assertions suivantes :
(i) f est s.c.i. sur E ;
(ii) Pour tout r R, [ f r ] est ferm (dans E ) ;
(iii) epi f est ferm (dans E R).
Pour dmontrer une s.c.i, on utilise aussi bien la proprit de dfinition

(analytique) que la caractrisation gomtrique, a dpend des situations...
Exemple avec les proprits qui suivent.
4
CHAPITRE 1.
Proposition 1.6
(i) f et g s.c.i en x E (resp. sur E) f + g s.c.i en x (resp. sur E).
(ii) ( f i )iI , I absolument quelconque, f i s.c.i sur E pour tout i I ; alors
f := sup f i est s.c.i sur E .
iI
On dmontre le premier point grce lingalit

lim inf ( f + g)(y) lim inf f (y) + lim inf g(y)
yx
yx
yx
(en faisant donc appel la dfinition analytique) ; on dmontre le deuxime

point en observant que

epi f =
epi f i
iI
(puis on conclut avec le fait quune intersection quelconque de ferms est un

ferm).
Et quand f nest pas s.c.i sur E, que fait-on ? Quelle est la fonction s.c.i
"cousine" la plus proche ? Eh bien, on opre sur lpigraphe de f en le
fermant ; il se trouve que epi f est encore un pigraphe (ce qui nest pas
forcment immdiat).
Dfinition 1.7 (enveloppe s.c.i dune fonction)
La plus grande minorante s.c.i de f : E R {+}, appele rgularise
ou enveloppe s.c.i de f , est la fonction (dfinie sans ambigut) f dont
lpigraphe est epi f . En dautres termes,
epi f = epi f ,
ou bien :

x E, f(x) = inf r R | (x, r ) epi f .
Attention ! Obtenir f nest pas une chose facile... a dpend de la topologie avec laquelle on travaille ; mme dans un contexte despace mtrique (E, d) (comme cela arrive parfois en optimisation de formes), la rgularise f peut avoir une expression trs diffrente de f . Prendre la rgularise
s.c.i dune fonction f est aussi une forme de relaxation (de f ), procd sur
lequel on reviendra plus loin.
2.2 Des exemples

Exemple 1.8 Commenons par un exemple "thorique", la fonction indicatrice dun ensemble S E. Soit donc S E ; on dfinit i S : E R{+}
de la manire suivante
i S (x) := 0 si x S, + sinon.
i S est appele la fonction indicatrice de S (au sens de lanalyse variationnelle) ; plusieurs notations existent dans la littrature pour i S : S , S , I S ,
etc. Attention ! Ne pas confondre cette notion avec celle dindicatrice (densemble) utilise en thorie de la mesure, intgration et probabilits ; celle-ci,
note 1 S , est dfinie comme suit :
1 S (x) := 1 si x S, 0 sinon.
Mais il y a une relation simple entre les deux : 1 S = ei S , cela expliquera
plus loin le lien, du moins lanalogie, entre la transformation de FourierLaplace (du monde de lintgration) et celle de Legendre- Fenchel (du
monde de lanalyse variationnelle).
Maintenant, comme
[i S r ] = S si r 0, si r < 0,
ou bien
epi i S est le "cylindre" S R,
il est immdiat de constater lquivalence suivante :

(i S est s.c.i sur E) S est ferme .
Un des intrts de lutilisation de i S est de pouvoir remplacer (du moins
thoriquement) un problme variationnel avec contraintes par un problme
variationnel sans contrainte. Ce qui suit est clair :

Minimiser f (x),
Minimiser f(x),
pour x S E
pour x E
o f := f + i S (cest--dire, f(x) = f (x) si x S, + sinon).
On a pnalis f ( lextrieur de S) de manire "brute", en faisant
payer + x sil nest pas dans S ("pour du brutal, cest du brutal" disait B. Blier dans Les Tontons flingueurs).
Avantage du procd : on travaille sur tout lespace (de travail) E ; cot : il
faut accepter de travailler avec les fonctions prenant la valeur + (et adapter
toutes les notions et proprits du monde variationnel ce contexte).
6
CHAPITRE 1.
Exemple 1.9 (Exemple de la longueur dune courbe)

Cest un exemple assez bluffant... des figures suffisent lillustrer.
Les courbes graphes de f 1 , f 2 , ..., f k , ... ont toutes la mme longueur,

savoir L( f k ) = 2 , tandis que la courbe graphe de la limite f (vers laquelle les f k convergent magnifiquement, i.e. uniformment) a pour longueur L( f ) = 2. Ceci est lillustration parfaite de lingalit
lim inf L( f k ) L( f ).
k+
La fonction "longueur dune courbe" (mme pour des courbes "gentilles")

ne saurait tre mieux que semicontinue infrieurement.
Exemple 1.10 (Exemple du rang dune matrice)
Ceci est un exemple fondamental, en raison de limportance de cette fonction
dans les so-called "rank constrained optimization problems". Rappelons que
rang : A Mm,n (R) rang(A)( {0, 1, ..., p} , p := min(m, n))
est une fonction passablement chahute...
La seule proprit topologique dimportance de cette fonction est sa semicontinuit infrieure : si Ak A dans Mm,n (R), alors :
lim inf rang(Ak ) rang A.
k+
En dautres termes, le rang de Ak ne peut que chuter lorsque Ak A.

Les ensembles de sous-niveau

A Mm,n (R) | rang A r (ou r , ce qui revient au meme)
sont des infmes chewing-gums de Mm,n (R), structurs en varits algbriques (hlas non bornes)... Tout ce quon en dit pour le moment est que
ce sont des ferms de Mm,n (R).
Exemple 1.11 (Exemple de la fonction variation totale)
Soit un ouvert born de R2 de frontire Lipschitz, dsignons par C K1 (, R2 )
lespace des fonctions (vectorielles) : R2 qui sont C 1 et support
compact contenu dans (cest le sens de la notation C K1 ). Grce ces fonc dans une boule toutefois de manire normaliser les choses, on
tions tests ,
dfinit J ( f ), pour f L 1 () valeurs relles, comme suit :

J ( f ) := sup

1
2

f (x) div (x) dx C K (, R ),

1 . (1.3)
J est ce quon appelle

"la variation totale de f sur ".
1
2
1

Rappelons que si =
, div (x)
=
(x) +
(x).
2
x1
x2
Comme est support compact contenu dans (donc nulle au bord de ),
une intgration par parties permet de reformuler lintgrale qui apparat dans
lexpression (1.3) de J ( f ), pour des fonctions f "assez rgulires" du moins :

1
2

f (x)
f (x) div (x)
dx =
(x) + f (x)
(x) dx (1.4)
x1
x2

f
f
=
(x)1 (x) +
(x)2 (x) dx
x1
x2

f (x), (x)

=
dx.

On dfinit lespace BV () des fonctions variation borne dans comme

tant celui des fonctions intgrables sur dont la variation totale sur est
finie :

(1.5)
BV () := f L 1 () J ( f ) < + .
BV () est un espace fonctionnel utilis en analyse et calcul variationnels,
notamment dans le traitement mathmatique des images.
Par exemple, la courbe
de R2 (
est juste un ensemble mesurable de R2 ,
pour la mesure de Lebesgue, bien sr) est de longueur finie si sa fonction
indicatrice 1
est dans BV () (auquel cas, la longueur de
est J (1
)).
BV () est trs "riche" en fonctions. Supposons par exemple que f
W 1,1 () (espace de Sobolev de fonctions de L 1 () dont la drive gnralise, au sens des distributions, D f est encore dans L 1 ()). Alors, f BV ()
et J ( f ) = D f L 1 .
Signalons trois proprits essentielles de lespace BV (), notamment
celle relative la semicontinuit de J .
f BV () f L 1 + J ( f ) est une norme sur (lespace vectoriel) BV (). On notera f BV () cette norme.
(BV (), BV () ) est un espace vectoriel norm complet, cest un
espace de Banach (mais pas rflexif).
Si ( f n )n est une suite borne de BV (), cest--dire quil existe K > 0
telle que f n BV () K pour tout n, alors il existe une sous-suite ( f n k )k
de ( f n )n et une fonction f BV
() telles
que f n k f quand k
+ dans L 1 () (cest--dire
f n k f
L 1 0 quand k +).
8
CHAPITRE 1.
Cette proprit de "compacit" est relier celle de semicontinuit

infrieure de la variation totale J qui va suivre.
Si ( f n ) est une suite de fonctions de BV () qui converge vers une f
fortement dans L 1 (), alors, f BV () et
lim inf J ( f n ) J ( f ).
n+
2.3 Un rsultat standard dexistence

Notre problme variationnel gnrique est

Minimiser f (x),
(P )
x S,
o S est une partie (non vide) de E et f : E R {+} une fonctionobjectif gnrale. On suppose et cest la moindre des choses que f est
finie en au moins un point de S.
Le thorme suivant dexistence de solutions dans (P ) a pour gense le
thorme de K. Weierstrass.
Thorme 1.12 (dexistence) On suppose :
f : E R {+} est s.c.i. sur E ;
S E est compact.
Alors f est borne infrieurement sur S (i.e., f := inf f > ) (cest un
S
premier rsultat) et il existe x S tel que f (x) = inf f (= f) (cest un

S
deuxime rsultat).
Ceci est nonc avec une topologie sur E sous-jacente ; il y a une opposition entre les deux exigences, celle relative la fonction-objectif f et celle
relative lensemble-contrainte S... chacune tirant de son ct.
Dilemme du choix de la topologie :
assez "fine" ou forte ( ouverts, ferms) pour que f soit s.c.i.
assez "conomique" ou faible ( ouverts) pour que S soit compact.
Explicitons quelque peu ces deux exigences qui tirent chacune de leur
ct...
Soit 1 et 2 deux topologies sur E.
Si 1 est plus forte que 2 (i.e., tout ouvert de 2 est aussi un ouvert de 1 ;
"il y a plus douverts pour 1 que pour 2 "), alors
(X E ferme pour 2 ) (X ferme pour 1 ).

Comme la s.c.i. de f sur E sexprime par le caractre ferm des ensembles de sous-niveau X = [ f r ] , r R, plus il y a douverts (et
donc de ferms) dans la topologie choisie (ou encore, plus les bases de
voisinages de points de E sont "fines"), plus on a de chances de satisfaire
lexigence de s.c.i. (de f ).
Si 1 est plus forte que 2 ,
(S E compact pour 1 ) (S compact pour 2 )
(penser la dfinition de compacit via les recouvrements finis quon
extrait de recouvrements douverts de S ; plus il y a douverts pour la topologie, i.e., plus la topologie est forte, plus on a de difficults satisfaire
lexigence de compacit (de S)).
Schmatiquement, supposons que E soit muni de deux topologies, lune
"forte", lautre "faible" ; consquences : il est plus facile pour f dtre s.c.i.
pour la topologie forte, il est plus facile pour S dtre compact pour la topologie faible...
( f s.c.i. faible) ( f s.c.i. fort)
(S compact fort) (S compact faible).
Moralit : on na rien sans rien...
Espoirs : que dans certaines situations (de fonctions f , densembles S), la
fonction-objectif f , assez facilement s.c.i. fort, soit aussi s.c.i. faible et/ou que
lensemble-contrainte S, assez facilement compact faible, soit aussi compact
fort.
Mise en garde : Mme si le thorme dexistence voqu est central, il ne
faut pas simaginer que tous les thormes dexistence en calcul variationnel
ou optimisation sont models sur celui-l... Il y a des situations o la structure
des problmes fait quon a accs des thormes dexistence spcifiques. En
voici un exemple.
Optimisation donnes linaires (Programmation Linaire)
E = Rn , f (x) = c, x (not aussi c T x) (fonction linaire donc) ; S dcrit
par les ingalits
a1 , x b1 , ..., am , x bm
(S est donc un polydre convexe ferm de Rn ).
Thorme 1.13 (dexistence)
Si f est borne infrieurement sur S (i.e., f := inf c, x > ), alors le

x S
problme de la minimisation de f sur S a des solutions.
10
CHAPITRE 1.
Fig. 1.1 S est polydral

(non born), f prsente des
"courbures" ; bien que f
soit borne infrieurement
sur S, la borne infrieure
de f sur S (= 0) nest pas
atteinte.
f (x ) = e x
S = [0 , +
Fig. 1.2 f est linaire,

S (non born) prsente des
"courbures" ; bien que f
soit borne infrieurement
sur S, la borne infrieure de
f sur S (= 0) nest pas
atteinte.
Pourtant S (ferm) na pas t suppos born (S na donc pas t suppos

compact)... Cest le caractre particulier des donnes ( f est linaire, S est
polydral) qui a fait marcher les choses.
3 Le choix des topologies. Les topologies faibles sur un espace

vectoriel norm.
3.1 Progression dans la gnralit des espaces de travail
Les problmes doptimisation et de calcul variationnel conduisent considrer des espaces de travail E de plus en plus gnraux :
Espaces de dimension finie. Rn et surtout Mm,n (R). Ce dernier
est structur en espace euclidien grce au produit scalaire dfini par la
formule A, B := tr(A T B). Il est dimportance en Statistique, Automatique (Automatic control), optimisation matricielle (dont optimisation SDP sur laquelle nous reviendrons plus loin). Mais il ny a quune
seule topologie despace vectoriel norm sur E lorsque E est de dimension finie.
3. LE CHOIX DES TOPOLOGIES
11
Espaces de Hilbert. Ce sont les premiers espaces de travail de dimension infinie, les plus importants sans doute... Ah si on savait tout faire
dans les espaces de Hilbert ! Lorsquun espace de Hilbert (H, , )
est
donn, cest naturellement la norme hilbertienne associe : :=
, quon utilisera. Mais il y a une autre topologie, ladite topologie
faible, quon peut mettre sur H . Cest un cas particulier de ce qui va tre
prsent plus loin ; toutefois il faut dores et dj bien matriser les tenants et les aboutissants de "une suite (u k ) converge faiblement vers u",
et connatre les obstacles empchant une suite faiblement convergente
de converger fortement (i.e., au sens de la topologie dfinie via la norme
hilbertienne). faire : Exercices 4 et 5 ; lire : [H].
Espaces de Banach. Un espace vectoriel norm (E, ) est dit de
Banach lorsquil est complet. On dsigne par E (ou E ) le dual topologique2 de E, cest--dire lensemble des formes linaires continues x
sur E :
x E , x : E R
x x (x),
action de x sur x, que lon note aussi x , x (, est ledit "crochet de
dualit", ne pas confondre avec un produit scalaire). E est structur
en espace vectoriel norm grce la norme duale (de ) dfinie
comme suit :
x E , x := sup |x , x|
x E
x1
(1.6)
(cest vraiment un sup, pas un max).

On peut injecter canoniquement E sur le bidual topologique E :=
(E ) de E :

E R
j
x E x x , x E .
Grce lapplication linaire (isomtrique mme) j, on peut identifier E
un sous-espace de E . Attention ! le "trou" entre E et E peut tre
norme ; penser E = L 1 , o E = (L ) est un gros fourre-tout o
se perdent les fonctions de L 1 ...
Quand j (E) = E , on dit que E est rflexif ; dans ce cas on identifie
implicitement E et E (toujours via j). Paralllement (1.6), notons
que
2 Comme tout ce qui nous concerne est de nature topologique, on ne considrera pas le dual
algbrique de E, la notation E ne doit donc pas prter confusion.
12
CHAPITRE 1.
x E, x = max
|x , x|
x E
x 1
(cest veritablement un max ici).
(1.7)
Supposons dsormais que (E, ) est un espace de Banach.
3.2 Topologie faible (E, E ) sur E

Il y a dj une topologie sur E, celle dfinie avec la norme (appele
topologie forte), ce qui a permis la dfinition et construction de E . ct
de cette topologie, on dfinit une nouvelle topologie sur E, ladite topologie
faible (E, E ), comme suit : cest la topologie (sur E) la moins fine (i.e.,
la plus "conomique", ayant le minimum douverts) rendant continues toutes
les formes linaires
E x : E R
x x , x.
Par dfinition ou construction,
La topologie faible (E, E ) a moins douverts (et de ferms) que la
topologie forte ;
Les ouverts (resp. les ferms) pour la topologie (E, E ) sont aussi
ouverts (resp. ferms) pour la topologie forte.
Il sera donc plus difficile pour une fonction f : E R {+} dtre s.c.i.
pour la topologie (E, E ) que pour la topologie forte.
Le dual topologique de (E, (E, E )) est E .
Quelques difficults (lorsque E nest pas de dimension finie) :
La sphre-unit de E nest jamais ferme pour (E, E ) ;
La boule ouverte {x E | x < 1} nest jamais ouverte pour (E, E ) ;
La topologie (E, E ) nest pas mtrisable.
Comme on a souvent affaire des suites construites dans E, il est bon de savoir
quels liens unissent la convergence forte de (xk ) vers x et la convergence faible
(au sens de (E, E )) de (xk ) vers x. Pour allger lcriture, on notera
"xk x" pour "xk x pour la topologie (E, E )".
Proposition 1.14 (de comparaison de convergences)
Soit (x k )k une suite dlments de E . Alors :
(i) [Dfinition quasiment]

(xk x) x , xk x , x pour tout x E .
13
(ii) [Qui peut le plus peut le moins]
(xk x) (xk x) .
(iii) [Une suite faiblement convergente est fortement borne ; la fonction
est (squentiellement) faiblement s.c.i.]
(xk x) ((xk )k est borne e et lim inf xk x).

k+
(iv) [Couplage "convergence forte dans E convergence faible dans E "]

xk x (dans E)
(xk , xk x , x(dans R)).
xk x (dans E )

i.e.,
xk x
0
Apport de la convexit
Une proprit aussi simple que la convexit, une proprit vectorielle pourtant, va faire que "ferms forts ou ferms faibles, cest la mme chose !".
Thorme 1.15 Supposons C E convexe. Alors :
(C ferme fort) (C ferme pour (E, E ))
[la rciproque tant toujours vraie, que C soit convexe ou pas].
Consquence : Si f : E R {+} est convexe s.c.i. (pour la topologie

forte), alors f est s.c.i. pour la topologie (E, E ). Il suffit pour le voir
de penser la caractrisation de la s.c.i. de f via les ensembles de sousniveau [ f r ] (cf. Proposition 1.5) lesquels sont convexes lorsque f est
convexe et au thorme qui vient dtre nonc. En particulier, une telle
fonction f est squentiellement faiblement s.c.i. :

(xk x) lim inf f (xk ) f (x) .
k+
Le cas de la fonction norme, f = a t vu au (iii) de la Proposition (1.14)

plus haut.
3.3 Le topologie faible-, (E , E) (weak- en anglais)

Ce qui a t fait, avec E , pour affaiblir la topologie initiale sur E (et crer
ainsi la topologie (E, E ), cf. 3.2), on peut le faire, avec E = (E ) ,
14
CHAPITRE 1.
pour affaiblir la topologie forte sur E : on cre ainsi, sur E , la topologie

faible (E , E ). Mais il y a mieux faire : on va crer sur E une topologie
encore plus conomique (ou moins fine) que (E , E ) ; elle aura donc
moins douverts (et de ferms) ; il sera donc encore plus facile dtre compact
pour cette topologie !
La topologie faible-, dsigne aussi par le sigle (E , E), est la topologie
la moins fine (i.e., la plus "conomique", ayant le minimum douverts) rendant
continues toutes les formes linaires
E x : E R
x x , x.
Par construction, le dual topologique de (E , (E , E)) est (identifiable ) E.
Notation (concernant une suite (xk ) E ) :
"xk x " pour "xk x pour la topologie (E , E)".

(a fait beaucoup detoiles...)
Proposition 1.16 (de comparaison de convergences)
Soit (x k )k une suite dlments de E . Alors :
(i) [Dfinition quasiment]
xk x (xk , x x , x pour tout x E).
(ii) [La topologie faible- est spare]
Si x k converge faiblement-, alors sa limite faible- est unique (Ouf !).

(iii) [Une suite faiblement- convergente est fortement borne]

xk x
xk
k est borne e .
(iv) [Semicontinuit]
xk x lim inf
xk

x
.
k+
(v) [Couplage "convergence faible- dans E convergence forte dans E "]

xk x (dans E )
(xk , xk x , x).
xk x (dans E)
(i.e., xk x 0)
15
Rappelons que pour appliquer le thorme dexistence de solutions, nous

sommes la recherche de compacts (cf. 1.2.3). Dans E , contexte de travail
de ce sous-paragraphe, les choses se sont claircies avec lentre en jeu de
la topologie faible-. Tout dabord, une limitation, (lorsque lespace est de
dimension infinie) : la boule unit de E , B = {x E | x 1} nest
jamais compacte. . . En contrepartie :
Thorme 1.17 (Compacit (Banach-Alaoglu-Bourbaki))
La boule unit de E , dfinie comme suit :

B = x E |
x
1
est compacte pour la topologie faible -.
Question : qui tait Alaoglu3 ?

Sur le versant E (et non E ), la boule unit B = {x E | x 1} est
compacte pour (E, E ) ds lors que E est rflexif.
Pour terminer avec E , insistons sur les deux points-rsums que voici :
Il y a deux topologies essentielles sur E : la topologie forte (dont
le marqueur est ) et la topologie faible-
(E, )
()
(E , )
(E , (E , E))
Ec
()
Il y a deux types de convexes ferms dans E : les convexes ferms

pour la topologie forte et les convexes ferms pour la topologie
faible-.
Ceci est dimportance car, en analyse et calcul variationnels (en diffrentiation gnralise notamment), ce sont des ensembles (convexes) de E que
nous considrons.
3 L. Alaoglu (1914-1981) est un mathmaticien dorigine grecque. Ses travaux de thse (Weak
topologies of normed linear spaces, 1938) sont lorigine du thorme invoqu ici. Quant
Bourbaki, je dois tre un des seuls mathmaticiens avoir jou au football contre lquipe de
(et sur le stade de) Bourbaki, Pau prs de luniversit. Pour tre complet, il faudrait parler
de Banach...
16
CHAPITRE 1.
3.4 Lapport de la sparabilit

E, disons un espace vectoriel norm, est dit sparable sil existe une partie
dnombrable E partout dense dans E (i.e., = E). Que vient faire
la sparabilit dans cette galre (des topologies faibles) ? En gros, vite dit :
la sparabilit apporte la mtrisabilit des topologies faibles ; "Si E est un
espace de Banach sparable, alors la boule unit B de E est mtrisable
pour la topologie (E , E) (i.e., il existe une distance d dfinie sur B telle
que la topologie dfinie via d concide avec la topologie (E , E) sur B )".
L est larchtype despace fonctionnel non sparable.
Sparabilit de E vs. sparabilit de E :
Soit E un espace
Banach. Alors :

de
E separable E separable .
(L 1 est sparable, L ne lest pas ; limplication rciproque est donc
fausse).

E reflexif et separable E reflexif et separable .

Retenons deux techniques dextraction de sous-suites, fort utiles dans les
dmonstrations :
Dans E espace de Banach rflexif (espace de Hilbert par exemple), de
toute suite borne (xk ) de E, on peut extraire une sous-suite qui converge
pour (E, E ).
Si E est un espace de Banach sparable, de toute suite fortement borne
de E , on peut extraire une sous-suite qui converge faiblement- (i.e.,
pour la topologie (E , E)).
3.5 Un thorme fondamental dexistence en prsence de convexit

Les espaces de Banach rflexifs (les espaces de Hilbert notamment) et les
fonctions convexes s.c.i. jouent des rles pivots dans ltude de problmes
variationnels. Le thorme dexistence qui suit est le pendant convexe du
thorme dexistence prsent au 2.3.
Thorme 1.18 (dexistence, en prsence de convexit)
Soit E un espace de Banach rflexif (de Hilbert par exemple) ; soit C E
convexe ferm non vide, soit f : E R {+} convexe s.c.i. sur E . On
suppose :
soit C est borne , soit lim
f (x) = +.
(1.8)
x+
x C
17
Alors, f est borne infrieurement sur C et il existe x C tel que
f (x) = inf f (x).

x C
Lhypothse (1.8) de "forage linfini" (lorsque C nest pas born) est

appele la 0-coercivit de f sur C. Ce qui cote cher dans ce thorme sont
les hypothses de convexit.
Illustrons le thorme au-dessus avec un exemple classique (dmontr
autrement, habituellement) : lexistence de la projection sur un convexe ferm
dun espace de Hilbert.
Soit (H, , ) un espace de Hilbert, soit C H un convexe ferm non vide.
Pour u H donn, il existe x C tel que
u x = inf u x .
x C
(1.9)
Pour cela, on minimise f u : x H f u (x) := u x sur C.

Comme f u est convexe continue sur H , 0-coercive sur C , que C est convexe
ferm non vide dans H (qui est rflexif), lexistence de x dans (1.9) est
assure. Lunicit dun tel x, not usuellement x = pC (u), est une autre
affaire : elle rsulte dune proprit particulire de la norme . On reviendra
abondamment sur ces questions de projections sur des convexes ferms au
Chapitre 3.
Exercices
Exercice 1 (Ingalits sur les normes)
Soit (X, ), un espace vectoriel norm. Soit x et y non nuls dans X .
1) Ingalit de Massera- Schffer (1958)
Montrer
x
y
x y
max (x , y) x y .
(1.10)
Vrifier que si
x
k
y
x y
max (x , y) x y pour tous x, y = 0 dans X,
alors 2 k (cest--dire quon ne peut pas faire mieux que 2 dans une
ingalit comme (1.10)).
18
CHAPITRE 1.
x
vrifie une condition de
x
Lipschitz sur := {x X | x 1} avec une constante de Lipschitz
gale 2.
Avec lexemple de X = R2 et = , montrer quon ne peut pas
faire mieux que 2 comme constante de Lipschitz.
2) Ingalit de Dunkl- Williams (1964)
On suppose ici que (X, , ) est prhilbertien, la norme
sur X tant
celle dduite du produit scalaire , , cest--dire x = x, x.
Montrer
x
2
y
(1.11)
x y
x + y x y
Vrifier que la fonction x = 0
avec galit si et seulement si : x = y ou
x
y
=
.
x
y
3) Ingalit de Milagranda (2006)

Montrer
x + y x + y [2 (x, y)] min (x , y) ,
(1.12)
x + y x + y [2 (x, y)] max (x , y) , (1.13)
x
y
.
o (x, y) :=
+
x y
Commentaire : (1.12) et (1.13) sont les meilleurs raffinements de lingalit

triangulaire qui soient connus ce jour.
Exercice 2 (Norme drive dun produit scalaire)
Donner au moins une faon de caractriser une norme drive dun produit
scalaire.
Hint : Lgalit dite du paralllogramme, ou caractrisation de P. Jordan
et J. von Neumann (1935).
Exercice 3 Soit a < b, A et B deux rels quelconques, et :

X := f C 2 (R) | f (a) = A et f (b) = B ,
b
2

f (t) + f 2 (t) dt.
I : f X I ( f ) :=
a
Par de simples calculs " la main", montrer que I est borne infrieurement
sur X et quil existe un et un seul lment f X tel que I ( f) = inf I ( f ).
Hint : Utiliser la fonction f, unique solution de
f f = 0, f (a) = A, f (b) = B.
fX
EXERCICES
19
Exercice 4 (Convergence faible vs. convergence forte dune suite dans un

espace de Hilbert. Aspect variationnel du thorme de reprsentation de
Riesz)
Soit (H, , ) un espace de Hilbert ; on dsigne par la norme associe au
produit scalaire , . On dit quune suite (u n ) de H
converge fortement vers u dans H lorsque u n u 0
converge faiblement vers u dans H lorsque u n , v u, v, pour tout v
dans H . On crit alors u n u.
Proprits.
1. Si u n u et u n u , alors u = u (si la limite faible de (u n ) existe,
elle est unique).
2. La convergence forte implique la convergence faible.
3. (u n u) (u n u et u n u).
4. Toute suite faiblement convergente est (fortement) borne.
5. Si u n u et vn v, alors u n , vn u, v.
6. Toute suite borne contient une sous-suite faiblement convergente.
7. Si A est linaire continue de H1 dans H2 , H1 et H2 espaces de Hilbert,
et si u n u dans H1 , alors Au n Au dans H2 .
8. Si u n u, il existe une sous-suite (u kn ) de (u n ) telle que
u k1 + u k2 + ... + u kn
u quand n +.
n
9. Si (u n ) est borne dans H et si u n , w u, w pour tout w dans une
partie dense de H , alors u n u.
10. Si u n u, alors u lim inf u n .
n+
11. Soit C convexe ferm born de H et soit f : H R convexe continue.

Alors f est borne infrieurement sur C et cette borne infrieure est
atteinte : il existe u C tel que
f (u) = inf f (u).
u C
12. Aspect variationnel du thorme de reprsentation de Riesz.

Soit l une forme linaire continue sur H et soit : H R dfinie par
(h) :=
h2
l(h).
2
Alors il existe un et un seul minimiseur de , not u H , vrifiant de

plus :
h H, l(h) = u, h.
20
CHAPITRE 1.
Dmontrer les proprits 1, 2, 3, 5, 7, 9, 10, 12. Pour dmontrer une

proprit N , on pourra utiliser les proprits 1, 2,..., N 1.
Exercice 5 (Obstacles empchant une suite faiblement convergente de
converger (fortement) : oscillations, concentration, vanescence)
En prenant lexemple de L 2 (I ), I intervalle de R, structur en espace de
Hilbert grce au produit scalaire

f (x)g(x) dx,
f, g :=
I
nous allons considrer trois situations typiques o (u n ) L 2 (I ) converge

faiblement vers 0 mais ne converge pas fortement vers 0.
Oscillations. Soit I = ]0, [, u n L 2 (I ) dfinie par :

2
sin(nx).
u n (x) =

Concentration. Soit I = ,
, u n L 2 (I ) dfinie comme suit :
2 2

1
1
x
,
n si
u n (x) =
2n
2n
0 sinon.
Evanescence. Soit I = R, u n L 2 (I ) dfinie ci-dessous :

1
1
x n+ ,
n si
u n (x) =
2n
2n
0 sinon.
Dans les trois cas, montrer que u n 0 dans L 2 (I ) mais que u n 0
dans L 2 (I ).
Exercice 6 (Lingalit dOpial)
Soit H un espace de Hilbert : , y dsigne le produit scalaire et la norme
associe. On suppose que la suite (u n ) de H converge faiblement vers u H .
Montrer que pour tout v H , distinct de u, on a
lim inf u n v > lim inf u n u .
n+
n+
Exercice 7 (Le problme des points les plus loigns, dans un Banach)
Soit K un compact non vide dans lespace de Banach (E, ).
Pour tout x E, on pose
EXERCICES
21

Q K (x) :=

y K x y = sup x y

y K
(Q K (x) est la partie de K constitue des points les plus loigns de x dans K ).
Montrer que si Q K (x) est rduit un seul lment pour tout x E, alors K
lui-mme est un singleton.
Indication : On pourra appliquer un thorme de point fixe lapplication q K issue de Q K (x) = {q K (x)}.
Exercice 8 (Le problme variationnel du brachystochrone ; transformation en un problme de minimisation convexe)
Le problme classique de la courbe brachystochrone (ou du brachystochrone)
consiste chercher la courbe dans un plan vertical sur laquelle un point matriel soumis la seule action de la pesanteur passe en un temps minimum
dun point un autre de ce plan. Aprs normalisation ce problme prend la
forme :
a
l(x(t), x(t))
dt
(P ) min
x 0
o l :]0, +[R R est dfinie par :
l(x, u) =
1 + u2
,
et est lensemble des fonctions x() C ([0, a], R) C 1 (]0, a[, R) telles
que :
x(0) = 0, x(a) = 1, et x(t) > 0 sur ]0, a[.
a
l(x(t), x(t))
dt.
On dfinit de plus J (x) :=
0
La condition classique ncessaire doptimalit dEuler- Lagrange scrirait dans notre cas

l
d l
(x0 (t), x0 (t)) =

(x0 (t), x0 (t)) sur [0, a] ,
dt u
x
(1.14)
(x0 (0), x0 (a)) = (0, 1) .

On remarque quelle ne sapplique pas dans le cas du brachystochrone
cause de la singularit de la fonction l(x, u) en x = 0. Dans cet exercice,
nous allons tablir que la solution x0 de (1.14) est solution du problme
du brachystochrone. On fait le changement de fonction inconnue z = 2x.

On a
22
CHAPITRE 1.
l(x, x)
= l(
z2
, z z ) =
2

2 z 2 + z 2 .
Le problme du brachystochrone est alors quivalent

a
z ) dt
(P ) min
l(z,
0
z
v) = z 2 + v 2 et
= { 2x | x } est lensemble des fonco l(z,
tions z C ([0, a] , R) C 1 (]0, a[ , R) telles que :
z(0) = 0, z(a) = 2, z(t) > 0 sur ]0, a[ et J(z) < +,

a
z ) dt.
l(z,
avec J (z) =
0

Il est alors clair que y est solution de (P ) si et seulement si z = 2y
est solution de (P ).
a) Montrez que
la fonction
l est convexe. (On pourra observer que l vri1
fie l(z, v) = (z , v) ).
b) Soit x0 () la solution de

l
d l
(t),
x
(t))
=
(x
(x0 (t), x0 (t)) sur [0, a] ,
0
0
dt u
x
(x0 (0), x0 (a)) = (0, 1) .

Montrez que z 0 () = 2x0 () est solution de
l
l
d
(z 0 (t), z 0 (t)) =
(z 0 (t), z 0 (t)) sur [0, a] ,
dt v
z
(1.15)

(z 0 (0), z 0 (a)) = 0, 2 .

l
l

1
c) Montrez que (z, v) z

l(z, v) et que (z, v) 1. En
z
v

dduire, en intgrant lingalit
z ) l(z
0 , z 0 ) l (z 0 , z 0 ) (z z 0 ) + l (z 0 , z 0 ) (z z 0 )
l(z,
z
v
et en utilisant (1.15), que z 0 () ralise le minimum de (P ).
EXERCICES
23
Exercice 9 (La mthode directe en Calcul des variations)

Le problme du Calcul des variations considr est celui de la minimisation
de
1
1
f (t, x(t)) dt +
g(t, x (t)) dt,
I (x) :=
0
sous les hypothses suivantes :

(i) f (t, u) et g(t, v) sont des fonctions continues (des deux variables) et
bornes infrieurement.
(ii) g(t, ) est convexe pour tout t, et minore par une fonction quadratique
de v (i.e., il existe > 0 et tels que g(t, v) v2 + ).
Lensemble sur lequel on minimise I est

X = x() H 1 (0, 1) | x(0) = a et x(1) = b ,
o a et b sont donns.
Montrer quil existe x() X minimisant I sur X .
Exercice 10 (Produit scalaire vs. produit usuel de matrices symtriques)
Soit A et B deux matrices symtriques. On suppose que A est soit semidfinie
positive, soit semidfinie ngative. Montrer lquivalence
(tr(AB) = 0) (A.B = 0) .
Hint : Use the following trick
2
tr(AB) = tr(A1/2 A1/2 B 1/2 B 1/2 ) = =
A1/2 B 1/2
.
Exercice 11 (Caractrisation de la positivit dune fonction quadratique
sur Rn )
Soit A Sn (R), b Rn , c R, et
q : x Rn q(x) := Ax, x + 2b, x + c
la fonction quadratique sur Rn associe ces donnes.
Montrer lquivalence suivante :

T

c
b
n
est semidefinie positive .
(q(x) 0 pour tout x R ) A :=
b A
Hint : Passer par la forme quadratique q sur Rn+1 dfinie comme suit :
t) := Ax, x + 2b, xt + ct 2

(x, t) Rn R q(x,
(forme homognise de la fonction quadratique q).
24
CHAPITRE 1.
Exercice 12 (Quand un thorme de sparation se fait piger)

1 0
1 0
1 2
1 2
,
,
,
, polydre
Soit A := co
2 1
2 1
0 1
01
convexe compact de M2 (R). On se pose la question suivante :

M M2 (R)
?
(M A ).
(Q )
2
M x A x pour tout x R

t r
| t [1, +1] , (r, s) [2, +2]2 .
1. Vrifier que A =
s t
2. Montrer laide
dun
exemple que la rponse (Q ) est non. (Indication :
10
Prendre M =
).
01
3. Quel commentaire vous inspire le rsultat de cet exercice ( propos de la
sparation de M et du convexe compact A ) ?
Rfrences
[A] D. Az. lments danalyse convexe et variationnelle. ditions Ellipses,
Paris, 1997.
[B] H. Brzis. Analyse fonctionnelle. ditions Dunod, 2005.
[D] B. Dacorogna. Direct methods in the calculus of variations. (2nd edition),
Springer Verlag, 2008.
[H] G. Helmberg. "Curiosities concerning weak topology in Hilbert space".
Amer. Math. Monthly 113 (2006), p. 447452.
[ABM] H. Attouch, G. Buttazzo et G. Michaille. Variational analysis in
Sobolev and BV spaces. MPS-SIAM Series on Optimization, 2005.
[B], rdit plusieurs fois, illustre lart du raccourci et de la synthse dans la
prsentation et la dmonstration des rsultats.
[A] est une rfrence approprie pour ce chapitre ; nous nous y rfrerons
galement plus loin, loccasion du chapitre sur "lanalyse convexe opratoire".
[A] et [B] sont de niveau M1, ce qui nempche pas quon peut sy pencher
en M2.
[ABM] et [D] sont dun niveau plus lev (carrment M2), et abordent chacun
des aspects plus particuliers de lanalyse variationnelle. Ce sont des livres de
rfrence, trop volumineux pour un seul enseignement (de M2).
Chapitre 2
CONDITIONS NCESSAIRES
DOPTIMALIT APPROCHE
"Good modern science implies good variational problems."

M. S. Berger (1983)
"Nous devons nous contenter damliorer indfiniment nos
approximations." K. Popper (1984)
Une condition ncessaire doptimalit standard affirme que si f : E

R {+} est minimise en x et que f est diffrentiable en x (de diffrentielle D f (x)), alors D f (x) = 0. La situation que lon va examiner dans ce
chapitre est celle o il ny a pas (ncessairement) de minimiseurs de f sur E
mais seulement des minimiseurs approchs, disons prs,
f (u) inf f + .
E
Que peut-on dire en de tels u ? Une premire tentation mauvaise est de

penser que D f (u) y est "petit", disons D f (u) ... Il nen est rien,
mais nous verrons que nous pouvons dire des choses en u, des conditions
ncessaires doptimalit approche.
Bases du calcul diffrentiel (dans les espaces de Banach)
Rudiments danalyse dans les espaces de Banach, de Hilbert.

25
26
CHAPITRE 2.
CONDITIONS DOPTIMALIT APPROCHE
1 Condition ncessaire doptimalit approche ou principe

variationnel dEKELAND
1.1 Le thorme principal : nonc, illustrations, variantes
Contexte :
(E, ) est un espace de Banach
f : E R {+}, non identiquement gale +, borne infrieurement
sur E
f est semicontinue infrieurement sur E.
Quelques commentaires sur ces hypothses :
On laura not, le contexte est trs gnral... on est loin de lhypothse de
diffrentiabilit sur f par exemple.
On aurait pu prendre (E, d) espace mtrique complet (et, de fait, certaines
applications de ce quon va exposer se font dans un tel contexte), mais on
a choisi (E, ) Banach car cela allge lcriture et nous replace dans un
contexte dj tudi au Chapitre 1.
f a t suppose borne infrieurement, f := inf f > , cest le
E
minimum pour pouvoir parler de u, solution (ou minimiseur de f ) prs

(pour > 0) :

inf f
E
f (u) inf f + .
E
(2.1)
Notons que, contrairement la minimisation exacte, lexistence de minimiseurs prs (pour > 0) ne pose aucun problme : il y a toujours des minimiseurs prs ! Cela rsulte de la dfinition mme de inf A lorsque A R.
Lunicit des minimiseurs prs nest pas un problme non plus, il y a,
gnralement, une multitude de minimiseurs prs.
Une situation trs particulire o a nest pas le cas est comme suit :
1. PRINCIPE VARIATIONNEL DEKELAND
27
Un exemple introduction de mise en garde :
Ici f est drivable sur R. Mme si u est un minimiseur prs de f , avec

trs petit, disons = 106 , la drive de f en u peut tre trs grande,
disons | f (u)| = 1012 !
Thorme 2.1 (I. Ekeland, 1974)
Pour > 0 une tolrance donne, soit u un minimiseur prs de f
sur E , cest--dire vrifiant f (u) f + .
Alors, pour tout > 0, il existe v E tel que :
(i) f (v) f (u) ;
(ii) v u ;
(iii) x E, x = v, f (v) < f (x) + v x.
Commentaires
Il sagit bien dun thorme dexistence : "il existe v tel que...". Le v
exhib dpend des choix prcdents, on aurait pu noter v,u, .
(i) implique que le v exhib fait aussi bien que u puisque
f (v) f (u) f + ,
v est aussi un minimiseur prs de f sur E.
(ii) exprime que lon contrle la distance de v (exhib) u (donn au
dpart), et cette distance, cest nous qui la contrlons puisque > 0 est
un choix libre de dpart !
Mais il faut compenser quelque part... plus est petit, plus grande est la
perturbation x x v qui apparat dans la formulation (iii).
(iii) exprime un rsultat de minimisation (globale). En effet, soit
: E R {+}
x (x) := f (x) +
v x .
28
CHAPITRE 2.
(la forme perturbe de f ).

Comme (v) = f (v), ce que dit (iii) nest ni plus ni moins que
x E, x = v, (v) < (x),
cest--dire que v est un minimiseur global (strict) de sur E.
On notera que le u (de dpart) a compltement disparu dans cette
formulation...
Un premier raccourci (dutilisation du thorme) consiste prendre = 1,
de sorte quon peut noncer : Sous les hypothses du thorme,
> 0, v tel que
f (v ) < f (x) + x v pour tout x E, x = v .
(2.2)
Cest un rsultat (raccourci) auquel nous ferons appel de temps en temps.

Une deuxime variante
entre et : on choisit
consiste faireun compromis

dlibrment = , ce qui fait que = aussi. Cela donne donc :
Corollaire 2.2
> 0 tant donn, soit u un minimiseur prs de f sur E . Il existe
alors v E tel que :
(i) f (v ) f (u) (et donc f + ) ;
(ii) v u ;
(iii) x E, x = v , f (v ) < f (x) + v x.
Avant de faire la dmonstration (complte) du thorme dEkeland, exposons

deux illustrations.
` illustration : Problme de minimisation avec contraintes.
1ere
Considrons

Minimiser f (x),
(P )
x S,
o f : E R est continue, S un ferm non vide de E (lequel est toujours

un Banach), et f est borne infrieurement sur S (inf f > ).
S
> 0 fix, on dit que u S est une solution prs de (P ), ou bien est
un minimiseur prs de f sur S, lorsque f (u) inf f + . La condition
S
ncessaire doptimalit approche, adapte au prsent contexte, donne ceci :

Soit u un minimiseur de f sur S. Alors, pour tout > 0, il existe v S tel
que :
29
(i) f (v) f (u) ;

(ii) v u ;
(iii) x S, x = v, f (v) < f (x) +
x v.
La dmonstration en est simple. Considrons f : E R {+} dfinie

par f := f + i S (do f(x) = f (x) si x S, + sinon). Il est clair que
minimiser f sur S (exactement ou prs) quivaut minimiser f sur E
(exactement ou prs), car inf f = inf f.
S
La fonction f, somme de la fonction continue f et de la fonction s.c.i. i S

(noublions pas que S a t suppos ferm), est s.c.i. sur E. Daprs le thorme principal, il existe v E tel que :
(i) f(v) f(u) = f (u), donc f(v) < +, et v S, f(v) = f (v) ;
(ii) v u (rien ne change ici) ;
(iii) f (v) = f(v) < f(x) + x v pour tout x E, x = v,
soit encore
f (v) < f (x) +
x v pour tout x S, x = v.
2e me illustration : Quand la diffrentiabilit entre en jeu.

Commenons par un exercice sous forme de challenge...
Soit f : Rn R une fonction diffrentiable et borne infrieurement sur Rn .
Alors, pour tout > 0, il existe x tel que f (x ) .
Comment dmontreriez-vous ce rsultat ? Pas facile, hein ?
Faisons donc entrer en jeu la diffrentiabilit dans la condition ncessaire
doptimalit approche dEkeland. Pour un apart de rvision sur les diffrentes notions de diffrentiabilit utiles, se reporter lAnnexe.
Corollaire 2.3 Soit f : E R continue et Gteaux-diffrentiable sur E ;
on suppose de plus que f est borne infrieurement sur E .
Pour un > 0 donn, soit u un minimiseur prs de f sur E . Alors il
existe v E tel que :
(i) f (v ) f (u) ;
(iii) DG f (v ) .
(ii) v u
En raccourci cela donne : > 0, v tel que DG f (v )

permet de rsoudre lexercice propos au-dessus.
Dmonstration du corollaire :
Seul le point (iii) est dmontrer. Nous savons que
; ce qui
30
CHAPITRE 2.
x E, (v ) (x),
(2.3)
o (x) := f (x)+ v x. Ce quexprime (2.3) est que v est un minimiseur (global, dailleurs) de sur E. Mais on ne peut affirmer que D(v ) = 0
car nest pas diffrentiable en v . Rappelons-nous (et revoyons sous forme
dexercice si ncessaire) quune norme sur E (quelle quelle soit) nest
jamais diffrentiable en 0. Exploitons nanmoins (2.3) avec divers choix
de x. Soit d = 0 dans E et > 0 ; avec les choix successifs de x = v + d
et de x = v d, on obtient partir de (2.3) :
f (v + d) f (v ) d ,
f (v d) f (v ) d ,
soit encore
f (v + d) f (v )
d ,
f (v d) f (v )
d .
()
Comme f est Gteaux-diffrentiable en v , un passage la limite, 0,

dans les deux ingalits au-dessus conduit :
DG f (v ), d d ,
DG f (v ), d d ,
do
|DG f (v ), d|
d .
Par consquent,
DG f (v ) := sup |DG f (v ), d|
. CQFD
d E
d1
Si on revient lexemple de mise en garde du dbut du paragraphe

(cf. page 27) : "en u minimiseur = 106 prs de f , la drive nest
pas petite... mais il y a un v pas trop loin de u, |v u| 103 , lui-mme
minimiseur 106 prs de f , en lequel la drive est petite, | f (v)| 103
prcisment...". Avouez que a ne se devine pas !
1.2 La dmonstration du thorme principal

Le rsultat central qui va servir est le suivant ; on a tous fait cet exercice quand
on tait petit...
31
Lemme 2.4 Soit (Sk ) une suite dcroissante (au sens de linclusion) de
ferms de E (espace de Banach, donc complet ). On suppose que
diam(Sk ) := sup x y 0 quand k +.
x,y Sk
Alors,
+

Sk nest pas vide et est rduit un seul point (cest ce quon appelle
k=0
un singleton).
On va construire de manire rcursive une suite de points xk de E et une suite

de ferms (non vides) Sk de E :
x0
S0
x1
S1
... xk
Sk
xk+1
(xk )
. . . (Sk )
Initialisation du processus :
x0 := u, le minimiseur prs de f sur E figurant comme donne premire
du thorme.

S0 := x E | f (x) + x x0 f (u) .
S0 est un ensemble de sous-niveau de la fonction x f (x) + x x0 ,
laquelle est s.c.i. (somme dune fonction s.c.i. et dune fonction continue),
donc S0 est ferm. De plus, S0 nest pas vide puisque x0 S0 .
Ayant xk , comment on dfinit Sk
Ayant xk , on dfinit Sk comme suit :

Sk := x E | f (x) + x xk f (xk ) .
Pour les mmes raisons que celles voques plus haut, pour k = 0, Sk est un
ferm de E et il contient xk .
Ayant Sk , comment on dfinit xk+1
Soit m k := inf f . Comme
Sk
< inf f m k f (xk ) (< +),

E
il est loisible de choisir xk+1 Sk tel que

f (xk+1 )
1
[ f (xk ) + m k ] .
2
32
CHAPITRE 2.
(il nest pas exclu que xk+1 puisse tre pris gal xk si f (xk ) = m k ).
Puis on dfinit Sk+1 comme plus haut, et ainsi de suite.
Analysons les proprits des suites (de points) (xk ) et de ferms (Sk ) que
lon vient de dfinir. Les choses ne sont pas difficiles, mais il faut y aller
progressivement.
(P1 ) (Sk ) est dcroissante : k, Sk+1 Sk .
Soit en effet x Sk+1 . Cela signifie, par dfinition mme de Sk+1 ,
f (x) +
x xk+1 f (xk+1 ).
(2.4)
De par lingalit triangulaire, on en dduit :

f (x) +
x xk f (x) + x xk+1 + xk+1 xk
f (xk+1 ) + xk+1 xk (grace a (2.4)),
f (xk ) (puisque xk+1 Sk par construction) .
Do, finalement,
f (x) +
x xk f (xk ),
qui traduit bien le fait que x Sk .

(P2 ) (m k ) est croissante.
Comme Sk+1 Sk ,
m k+1 := inf f inf f =: m k .
Sk+1
Sk
(P3 ) Dcroissance gomtrique de ( f (xk ) m k )k :

f (xk+1 ) m k+1
1
[ f (xk ) m k ] .
2
En effet,
1
[ f (xk ) + m k ] (par construction de xk+1 ) ,
2

m k m k+1 demontre au point(P2 ) ;
f (xk+1 )
cela implique
(2.5)
f (xk+1 ) m k+1
33
1
1
[ f (xk ) + m k ] m k = [ f (xk ) m k ] .
2
2
(P4 ) Le diamtre de Sk , k := diam(Sk ), tend vers 0 quand k +.

Par dfinition, k = sup a b.
a,bSk
Soit a Sk . Par dfinition mme de Sk ,

f (a) +
En consquence,
a xk f (xk ).
a xk f (xk ),
a xk [ f (xk ) m k ] .
mk +
En ritrant lingalit (2.5), il sensuit :

a xk
1
[ f (x0 ) m 0 ] .
2k
Si b est un autre lment (quelconque) de Sk ,

a b a xk + xk b
In fine,
k
1
[ f (x0 ) m 0 ] .
2k1
1
[ f (x0 ) m 0 ] ,
2k1
et k 0 quand k +.
Avec toutes ces proprits nonces de (Sk ), on fait appel au lemme
+

rappel en dbut de dmonstration :
Sk = {v}. Montrons que ce v fait
k=0
notre affaire, cest--dire que les proprits (i), (ii) et (iii) annonces du thorme sont bel et bien vrifies.
Proprit (i). Puisque v S0 (forcment...),
f (v) +
v u f (u) de par la definition meme de S0 ,
do f (v) f (u).
(2.6)
34
CHAPITRE 2.
Proprit (ii). De (2.6) il vient :

f +
v u f (u) f +

rappelons que f = inf f
E
do v u .
Proprit (iii). Cest le point le plus dlicat... On va dmontrer (iii) sous la
forme contrapose suivante

(2.7)
x E, f (x) + x v f (v) (x = v) .
On est daccord que cela revient au mme ?
Partons donc de x E vrifiant f (x) + x v f (v).
Pour tout k, x v x xk xk v (toujours cette fichue ingalit

triangulaire) ; donc
f (x) + x xk xk v f (v),
soit encore
f (x) + x xk f (v) + xk v
f (xk ) puisque v Sk .
En somme :
f (x) +
x xk f (xk ) pour tout k,
ce qui revient dire :

x Sk pour tout k,
soit x
+

Sk = {v}, donc x = v.
k=0
On a donc dmontr (2.7), cest--dire que mis part x = v,
f (x) + x v > f (v).
1.3 Complments
Le thorme dEkeland est un outil dAnalyse applique trs puissant, aussi
puissant sans doute que "la technologie des approximations successives pour
35
les points fixes dapplications contractantes" (voir plus loin pour un lien entre
les deux). Deux points que nous soulignons toutefois :
Limportance du caractre complet de E... Il a mme t dmontr que,
peu ou prou, le thorme dEkeland sapplique si et seulement si E est
complet.
Avec = k1 , on exhibe vk tel que f (vk ) f + k1 . On est donc tent
jai vu a plusieurs fois chez les tudiants de passer la limite sur k,
en extrayant une sous-suite convergente (vkn ) de (vk )... sauf que (vk ) na
pas forcment de sous-suite convergente. Si tel tait le cas, si vkn v
quand n +,
lim inf f (vkn ) f (v) car f est s.c.i.,
n+
lim sup f (vkn ) f ,

n+
soit f (v) = f ... On est loin de telles situations, cest plus volontiers
que "vk schappe linfini" (for whatever that means...).
Le contexte classique de la mthode des approximations successives pour
les points fixes des applications contractantes est le suivant :
(E, d) est un espace mtrique complet ; est une contraction sur E, cest-dire il existe 0 < k < 1 tel que :
x, y E, d [(x), (y)] k d(x, y).
(2.8)
Alors a un point fixe et un seul (un seul point x E pour lequel (x) = x).
Lunicit du point fixe ne pose pas problme, cest son existence qui en pose.
Voyons comment le thorme dEkeland permet dy accder facilement.
Dfinissons f : E R par f (x) := d [x, (x)]. Bien sr, f est continue et
borne infrieurement sur E (inf f 0 puisque f 0). Choisissons > 0
E
de telle sorte que < 1 k (possible puisque 1 k > 0). Grce au raccourci
nonc en page 28 (cf. Corollaire 2.2), il existe v E tel que
f (v) f (x) + d(x, v) pour tout x E.
(2.9)
Nous proposons x := (v) ; dmontrons que cet x fait notre affaire, cest-dire que (x) = x.
Premier point : exploitation de la proprit de contraction (2.8) avec x et v,
soit

(2.10)
d x, (x) = d [(v), (x)] k d(x, v).
36
CHAPITRE 2.
Deuxime point : exploitation de lingalit (2.9) avec x et v, soit

f (v) := d[v, (v)]

=x
f (x) + d(x, v).

(2.11)
=d[x,(x)]
En combinant (2.10) et (2.11), cela donne :

d(v, x) (k + ) d(x, v),
ce qui est impossible tenir avec d(v, x) > 0 puisque k + < 1.
Donc d(v, x) = 0, cest--dire ((x) =) v = x.
Dans cette manire de faire lgante au demeurant on a perdu une chose :
la mthode ou technique des approximations successives, celle qui faisait
quon approchait le point fixe x de par la suite dfinie par : xk+1 := (xk ).
Lorsque E est de dimension finie, ce qui, reconnaissons-le, nest pas le
contexte habituel des problmes variationnels, il est possible de dmontrer des variantes du thorme dEkeland avec des perturbations modeles
sur p , p 1, et donc ventuellement diffrentiables (comme cest le cas
pour la norme euclidienne et p = 2).
Ceci nous rapproche de ce qui va tre dmontr au 2.
Thorme 2.5 Soit f : Rn R {+} semicontinue infrieurement et
borne infrieurement sur Rn . Soit > 0 et p 1.
La tolrance > 0 tant donne, soit u un minimiseur prs de f sur Rn ,
i.e. vrifiant f (u) f + .
Alors il existe v Rn tel que :
(i) f (v) f (u) [et mme f (v) + v u p f (u)] ;
(ii) v u ;
(iii) x Rn , f (v) + p v u p f (x) + p x u p .
Dmonstration : Considrons la fonction := Rn R {+} dfinie par

(x) := f (x) +
x u p .
p
f est s.c.i. et borne infrieurement sur Rn ; x u p + quand x

+. Ces deux raisons font que f est s.c.i. et 0-coercive sur Rn ( f (x) +
quand x +).
Par consquent et cest l que la dimension finie de E = Rn joue un rle
il existe v Rn minimisant sur Rn . Vrifions que ce v fait notre affaire.
37
Point (i). (v) (u), soit f (v) + p v u p f (u).
Point (ii). On a
f +
v u p f (v) + p v u p f (u) f + ,
p
do
v u p ,
p
et donc v u .
Point (iii). (v) (x) pour tout x Rn se traduit par :
f (v) +
v u p f (x) + p x u p pour tout x Rn ,

p
cest--dire lingalit de (iii) annonce.
Remarque 2.6 Dans le cas particulier o p = 1, lingalit (iii) du thorme

ci-dessus dit :
x Rn , f (v) + v u f (x) + x u .
Il sensuit :
x Rn , f (v) f (x) +

x u v u f (x) + x v ,
ce qui est (lessentiel de) lingalit (iii) du thorme dEkeland.
2 Condition ncessaire doptimalit approche ou principe

variationnel de BORWEIN-PREISS
2.1 Le thorme principal : nonc, quelques illustrations
Dans ce paragraphe, lide est de prsenter une condition ncessaire
doptimalit approche ou principe variationnel avec des perturbations "lisses"
de f , de la forme p par exemple. Le rsultat ne sera pas dclin dans toute
se gnralit, mais dans un contexte simplifi : lespace sous-jacent sera un
Hilbert et la perturbation de type 2 .
38
CHAPITRE 2.
Contexte :

(H, , ) est un espace de Hilbert ( = , est la norme associe
, ).
f : H R{+}, non identiquement gale +, borne infrieurement
sur H .
f est semicontinue infrieurement sur H .

Un des avantages de la norme hilbertienne = , est quelle est trs
manipulable pour les calculs (rappelons que x + y2 = x2 + y2 +
2 x, y) et que la fonction x x2 est C sur H .
Thorme 2.7 (J. Borwein et D. Preiss, 1987)
La tolrance > 0 tant donne, soit u tel que f (u) < f + . Alors,
pour tout > 0, il existe v et w dans H tels que :
(i) f (v) < f + ;
(ii) v u < et w v < ;
(iii) v minimise la fonction x g(x) := f (x) + 2 x w2 sur H .
Commentaires
Cest encore un thorme dexistence : "il existe v et w...", mais cette
fois-ci ce sont deux points qui sont exhibs.
(i) indique que le v exhib fait aussi bien que u.
(ii) contrle les distances de v et w par rapport au u de dpart : v u <
mais aussi w u < 2 .
La fonction perturbant f dans (iii) est C cette fois. Voyons ce que signifie (iii) gomtriquement. Introduisons pour cela p(x) = 2 x w2 ;
le graphe de p est parabolique, tourn vers le bas (car p est quadratique
concave), son sommet est atteint en x = w.
Rcrivons (iii) de manire diffrente mais quivalente :
x H, g(x) g(v)
f (x) + 2 x w2 f (v) + 2 v w2 ,
soit encore :
x H, f (x) f (v) p(x) p(v).
(2.12)
2.
PRINCIPE VARIATIONNEL DE BORWEIN-PREISS
39
Ainsi, le graphe de f est au-dessus du graphe parabolique de p, et les

deux se touchent au point (v, f (v)).
(iii) peut dailleurs tre raffin en prcisant que v est point de minimisation
unique de la fonction perturbe g sur H , bref le point de contact (v, f (v)) =
(v, p(v)) entre les deux graphes est le seul.
En gnral, v = w, il ny a aucune raison pour quils concident.
La pente de p au point v (de contact) est p(v) = 22 (v w). Avec les
estimations donnes en (ii), p(v) < 2
.
Le vecteur p(v) jouerait un rle de "sous-gradient" ou de "gradient par
dessous" de f en x... videmment, si f se trouvait tre diffrentiable en v
(in whatever sense), f (v) = p(v).
Prcisons le rle du point v par rapport f , avec des substituts de conditions
ncessaires doptimalit, du 1er comme du 2nd ordre.
Corollaire 2.8 Le vecteur s := p(v) vrifie :
(C1) [sorte de condition de minimalit du 1er ordre]
lim inf
xv
f (x) f (v) s, x v

0;
x v
(C2) [sorte de condition de minimalit du 2nd ordre]
lim inf
xv
f (x) f (v) s, x v
2.
2
x v
40
CHAPITRE 2.
Dmonstration : Comme
f (x) f (v) s, x v
f (x) f (v) s, x v
= x v
;
x v
x v2
il est facile de voir que (C1) est une consquence de (C2).
(C2) est une condition de "minoration de courbure" de f en v par 2 ,
laquelle est la courbure en tout point de la fonction quadratique p.
Soit (x) := f (x) p(x), mesure lcart entre les deux fonctions f
et p. On a dj observ (cf. (2.12)) que (x) (v) pour tout x H . En
consquence,
(x) (v)
0.
(2.13)
lim inf
xv
x v2
Sachant que p(x) = p(v)+s, x v 2 x v2 (cest le dveloppement
de Taylor lordre 2 de p en x, exact puisque p est quadratique), on a :
(x) = f (x) p(x) = f (x) p(v) s, x v +
(v) = p(v) f (v),
do
(x) (v) = f (x) f (v) s, x v +
x v2 ,
2
x v2 .
2
Le rsultat (C2) annonc resulte alors de (2.13).
On se souvient des conditions ncessaires doptimalit suivantes :

Si f : H R est minimise (mme localement) en x et que f est deux fois
diffrentiable en x, alors f (x) = 0 et D 2 f (x) est "positive", i.e. pour tout
d H , D 2 f (x)(d, d) 0.
En particulier,
lim inf
xx
f (x) f (x) f (x), x x

0.
x x2
(2.14)
Mais que se passe-t-il quand il ny a pas de minimiseur exact comme x ?

On a alors une sorte de conditions doptimalit du 1er et 2nd ordre asymptotiques, avec des points qui "schappent linfini" ; elles sont bien sr obtenues partir de principes variationnels concernant des minimiseurs approchs
de f .
Proposition 2.9 Outre les hypothses sur f au dbut du paragraphe
(p. 38), supposons que f soit Gteaux-diffrentiable sur H . Soit (x k ) une
suite minimisante pour f , cest--dire telle f (x k ) f quand k +.
2.
41
Il existe alors une suite (vk ) de points de H vrifiant les trois proprits suivantes :
(i) f (vk ) f quand k + [(vk ) est aussi une suite minimisante
pour f ] ;
(ii) vk x k 0 quand k + [lcart entre vk et x k se resserre au fur
et mesure que k augmente].
(iii) G f (vk ) 0 quand k + [condition ncessaire doptimalit du
1er ordre asymptotique].

f (x) f (vk ) G f (vk ), x vk
(iv) lim inf lim inf
0
(2.14 )
xvk
k+
x vk 2
[condition ncessaire doptimalit du 2nd ordre asymptotique ; une sorte
de version "asymptotise" de (2.14)]
Dmonstration : Pour k entier 1, soit k := f (xk ) f + k1 . Par construction, k > 0, et par hypothse k 0. videmment et cela a t fait
pour :
f (xk ) < f + k .
Appliquons le thorme de Borwein- Preiss avec u = xk , = k et k =
(k )1/3 par exemple. Il existe alors vk et wk tels que :
f (vk ) < f + k , do f (vk ) f quand k + ;
vk xk < k = (k )1/3 , do vk xk 0 quand k + ;
2k
sk = G f (vk ) <
= 2(k )2/3 , do G f (vk ) 0 quand k
k
+.
Par ailleurs, appliquant la condition (C2) du corollaire 2.8 de la page 39,
gardant lesprit que sk = p(vk ) = G f (vk ),
lim inf
xvk
f (x) f (vk ) G f (vk ), x vk

k
2 = (k )1/3 .
2
k
x vk
Lingalit (2.14 ) sensuit.
La dmonstration du Thorme de Borwein- Preiss nest pas facile, en

tout cas pas aussi directe que celle dEkeland. Voici ce quon peut en dire :
Si H est de dimension finie (H espace euclidien), il est possible den faire
une dmonstration dans lesprit de celle du Thorme 2.5 de la page 36.
Dans un contexte despace de Hilbert, outre la dmonstration dorigine
dans [BP], il y a celle de Clarke, Ledyaev, Stern et Wolenski dans leur livre
( [CLSW], Chap. 1, 4 et 5), mais il faut avoir trait dautres choses avant
42
CHAPITRE 2.
(linf-convolution avec des fonctions quadratiques)... cest souvent comme

cela en mathmatiques.
Dans un contexte encore plus gnral, E est un espace de Banach, le thorme
de Borwein- Preiss a fait des petits, il y a de nombreux articles qui ont t
crits sur le sujet, [FHV] en est un exemple choisi. Le Chapitre 8 de [Sc] est
entirement consacr ces principes variationnels.
2.2 Applications en thorie de lapproximation hilbertienne

Le problme-modle en approximation hilbertienne est le suivant :
tant donn x H (espace de Hilbert), S une partie ferme non vide de H ,
rsoudre le problme de minimisation suivant

(Px )
Minimiser x c (ou, ce qui revient au meme,

c S.
1
2
x c2 )
Comme est la norme hilbertienne, on a bien fait de "lisser" la fonctionobjectif en prenant f (x) := 21 x c2 . La fonction f se trouve tre C et
convexe sur H (quadratique convexe, de fait).
Il y a deux objets mathmatiques importants associs la rsolution de (Px ),
savoir :
la fonction-distance d S (ou ses associs)
dS : H R
x d S (x) := inf x c .
c S
la "multiapplication" solutions de (Px ), ou multiapplication-projection

sur S
PS : H H
x PS (x) := {c S | x c = d S (x)} .
Au fond, PS est une application de H dans P (S)... et, bien entendu, PS (x)
peut tre vide. Quand PS (x) est rduit un seul lment, un singleton donc,
nous crirons PS (x) = p S (x) (grand P vs. petit p).
2.2.1 La fonction-distance et ses associs
Premires proprits de la fonction-distance d S
d S est (toujours) 1-Lipschitz sur H , cest--dire :
2.
u, v H, |d S (u) d S (v)| u v .
43
(2.15)
Dmonstration : la faire sous forme dexercice.

Cest une proprit globale assez tonnante car S peut tre extrmement
compliqu comme ensemble...
/S:
Dfinition "duale" de d S (x), x

d S (x) = sup r 0 | B(x, r ) S =
(2.16)
o B(x, r ) dsigne la boule ferme de centre x et de rayon r . Un petit

dessin aide la comprhension gomtrique de (2.16).
d S est convexe si et seulement si S est convexe (il en est de mme de d S2 ).
Dmonstration : la faire sous forme dexercice.
La fonction S : H R dfinie par
S (x) :=

1
x2 d S2 (x)
2
(2.17)
est toujours convexe.

En voil une proprit tonnante !... car, ne loublions pas, S est un ferm
quelconque ! La dmonstration en est facile : il suffit dexprimer S comme
le supremum dune famille de fonctions (clairement) convexes.
Une consquence est que
x
1
1 2
d S (x) = x2 S (x)
2
2
(2.18)
est (toujours) la diffrence de deux fonctions convexes, dont une ( 21 2 )

est mme convexe C .
La classe DC(H ) de fonctions "diffrences-de-convexes" sur H est importante dans les problmes variationnels non convexes ; on y reviendra abondamment au Chapitre 5.
Retenons de ce paragraphe quil y a trois fonctions importantes associes au problme (Px ) :
la fonction-distance d S ;
sa version "adoucie" 21 d S2 (car, lever au carr adoucit les murs...) ;
la fonction convexe S .
La fonction distance d S ne fait pas la diffrence entre la frontire Fr S de S
et son intrieur S :
44
CHAPITRE 2.
{x H | d S (x) 0} = {x H | d S (x) = 0} = S = (Fr S) S.

Il y a une fonction qui fait a, cest une cousine de d S , la fonction-distance
signe S , dfinie comme suit :

/ S,
d S (x) si x
S (x) :=
[S c est le complementaire de Sdans H ]
c
d S (x) si x S.
On a suppos implicitement que S, outre le fait de ne pas tre vide, nest
pas tout lespace H . Sous une forme dcriture plus ramasse,
S = dS dSc .
Voici quelques proprits de la fonction S , quon pourra dmontrer sous
forme dexercices :
{x H | S (x) > 0} = S c ,
{x H | S (x) = 0} = Fr S,
(un petit dessin peut aider la comprhension
{x H | S (x) < 0} = S,
de ces proprits)
S c = S (il ny a pas dambigut dans la dfinition puisque d S c = d S c )

S est 1-Lipschitz sur H
S est convexe si et seulement si S est convexe.
Quid de la diffrentiabilit de d S , de d S2 ?
la question ne se pose pas : d S est nulle dans un voisinage de x,
Si x S,
donc d S est (Frchet-) diffrentiable en x et d S (x) = 0.
Si x Fr S, la question se pose : d S peut tre diffrentiable en x (essayez
avec un petit dessin dans le plan !), mme sil est plus probable que d S
ne soit pas diffrentiable en x. En tout cas, si d S est diffrentiable en x
Fr S, alors d S (x) = 0 ncessairement (ayez un rflexe variationnel ! la
fonction d S est minimise en x, et d S a t suppose diffrentiable en x).
Un autre point dintrt : la fonction d S2 est toujours diffrentiable en x
Fr S (cest toujours leffet adoucissant du passage au carr) avec, bien
sr, d S2 (x) = 0.
En effet, si x Fr S, d S (x) = 0, de sorte que
|d S (x + h) + d S (x)| = |d S (x + h) d S (x)| h ,
|d S (x + h) d S (x)| h ,
grce la proprit de d S dtre 1-Lipschitz sur H . Ainsi
|d S2 (x + h) d S2 (x)| h2 ,
2.
45
ce qui assure ce qui t annonc.

Si x
/ S, la fonction d S (ou 21 d S2 ) peut tre diffrentiable en x comme
elle peut ne pas ltre. En tout cas, si d S est diffrentiable en x,

1 2
d S (x) = d S (x) d S (x).
(2.19)
2

En clair :

x
/ S | d S est differentiable en x = x
/ S | d S2 est differentiable en x ,
(d S differentiable sur S c ) (d S2 differentiable sur H )
ce qui a e te signale au point precedent]
[grce
2.2.2 La multiapplication-projection sur S

Caractrisation des lments de PS (x)
Thorme 2.10 (caractrisation de "x est un projet de x sur S")
Soit x
/ S . Les assertions suivantes sont quivalentes :
(i) x PS (x) (i.e., x S et x x = d S (x)) ;
(ii) x S et
c S, x x, c x
(iii) x S et
1
c x2 ;
2
t ]0, 1] , x PS [x + t (x x)] .
(2.20)
(2.21)
Il est assez tonnant quon obtienne une caractrisation des solutions de

notre problme (Px )... Avec (2.20) on a une condition ncessaire et suffisante doptimalit globale dans un problme qui nest pas convexe ! La
dmonstration du thorme est facile, cest du pur calcul hilbertien sur la
norme (ou plutt son carr).
46
CHAPITRE 2.
On voit sur cette figure que x x, c x peut tre positif, une chose quon
na pas lorsque S est convexe.
Dmonstration du thorme : On allgera lcriture en ne rptant pas
"pour tout c S" dans les assertions.
(i) signifie :
x S et x x x c pour tout c S
x S et x x2 x c2
x S et x x2 x x2 + x c2 + 2 x x, x c
[utilisant le fait que x c2 = x x + x c2 ]
x S et 2 x x, c x c x2 ,
(2.22)
qui nest autre que (ii).
Par ailleurs, (2.22) est quivalent :
1
c x2 pour tout t ]0, 1]
t
x S et 2 [x + t (x x)] x, c x c x2 pour tout t ]0, 1] .
x S et 2 x x, c x
Grce ce qui a t dmontr plus haut, ceci est prcisment la caractrisation du fait que x PS [x + t (x x)].

Remarques :
videmment, PS (x) = {x} lorsque x S.
Si x
/ S et que x PS (x), ds lors que t ]0, 1], x se trouve tre lunique
projet sur S de xt := x +t (x x). Cela se "voit" sur la figure de cette meme
page, et se dmontre facilement. Posons := d S (x). La boule B(x, ) ne
la
peut rencontrer S qu sa frontire (y S et x y < contredit

dfinition de = d S (x)). Donc B(x, ) S = Sphre(x, ) S. Par
suite, B(xt , xt x) ne rencontre S quen x, cest--dire
PS (xt ) = {x} .
2.
47
La caractrisation (2.20) est une sorte dinquation variationnelle qui rappelle celle caractrisant le projet x de x sur S lorsque S est convexe,
savoir :
x S et x x, c x 0 pour tout c S.
(2.23)
Une question qui vient lesprit naturellement ici est : Comment se fait-il
que le terme quadratique droite de lingalit (2.20) ait disparu quand S
est convexe ? Voici la rponse. Partons de lingalit dans (2.20). Pour un
choix de c S (convexe), considrons c := x + (c x) avec ]0, 1[.
Puisque S est convexe, c est encore dans S ; il vrifie donc lingalit
de (2.20) :
x x, [x (c x)] x
soit
x x, c x
1
[x + (c x)] x2 ,
2
c x2 .
2
Un passage la limite, 0, conduit lingalit espre (2.23).

Proprits de la multiapplication PS
Elles sont rassembles dans la proposition suivante.
Proposition 2.11
(i) PS (x) est une partie ferme borne de S .
(ii) Si x
/ S , PS (x) Fr S .
(iii) Le graphe de PS , savoir {(x, y) | y PS (x)} est ferm dans H H .
(iv) La multiapplication PS est localement borne, cest--dire : si B H est
born,
PS (B) := {y PS (x) | x B} est borne .
(v) PS est une multiapplication monotone (croissante), cest--dire vrifiant :
x, x H
y PS (x), y PS (x )

y y , x x 0 .
(2.24)
Dmonstration : Les points (i) (iv) sont faciles dmontrer partir de

la dfinition de PS (x) ou de la caractrisation de x PS (x) (cf. sousparagraphe prcdent). Contentons-nous de vrifier (v).
partir de la caractrisation de y PS (x), y PS (x), on a :
48
CHAPITRE 2.
2

x y, y y 21 y y (choix particulier de c = y ),

2
x y , y y 21 y y (choix particulier de c = y).
Par suite, en additionnant les deux ingalits au-dessus :

2
x x + y y, y y y y ,
soit
x x , y y 0.
2.2.3 Diffrentiabilit de d S vs. unicit de la projection sur S

/ S et le fait
Il y a un lien tonnant entre la diffrentiabilit de d S en x
que x admette une projection sur S au plus.
Proposition 2.12 Soit x
/ S.
(i) Si d S est diffrentiable en x (au sens de Gteaux suffit), alors le problme
dapproximation (Px ) a au plus une solution. Si x = p S (x), alors :
d S (x) =
xx
.
x x
(2.25)
(ii) Rciproque lorsque H est de dimension finie. Si PS (x) est rduit un

seul lment, alors d S est diffrentiable en x (au sens de Frchet mme).
Dmonstration.
(i) Soit x PS (x) (if any !). Considrons t ]0, 1] et formons le quotient
diffrentiel
d S [x + t (x x)] d S (x)
.
qt :=
t
La proprit de 1-Lipschitz sur H de d S fait que :
d S [x + t (x x)] = d S [x + t (x x)] d S (x) (1 t) x x .
Puisque d S (x) = x x,
qt x x .
Comme d S a t suppose Gteaux-diffrentiable en x, un passage la
limite (t 0) dans lingalit au-dessus conduit
2.
d S (x), x x x x .
49
(2.26)
Par la proprit de 1-Lipschitz sur H de d S , on sait que d S (x)

1 ncessairement (on est daccord ?). Il rsulte donc de lingalit de
Cauchy-Schwarz et de (2.26) :
d S (x),
xx
= 1.
x x
Ceci impose que d S (x) = 1. On est donc dans le cas dgalit de

lingalit de Cauchy-Schwarz, ce qui donne
d S (x) =
xx
xx
=
.
x x
d S (x)
Le vecteur (unitaire) d S (x) ne peut pointer dans deux directions diffrentes, il ny a donc quun x dans PS (x) (lorsquil y en a).
(ii) La dmonstration de la rciproque est laisse sous forme dexercice.
Remarques.
La Proposition 2.12 ne dit pas quil y a une solution au problme (Px )...
Le test dexistence est le suivant (en prsence de diffrentiabilit de d S en x,
bien sr) :
/ S, (Px )
Si x := x d S (x)d S (x) S, (Px ) a pour solution x ; si x
na pas de solution.
La diffrentiabilit des fonctions cousines 21 d S2 et S est, bien sr, lie
/ S et que PS (x) = {x}, il en est
celle de d S . Si d S est diffrentiable en x
de mme de 21 d S2 et S avec
1

2 (x) = x x,
d
2 S
S (x) = x.
La fonction S apparat donc comme une "fonction primitive de la projection sur S" (for whatever it means).
2.2.4 Existence et unicit gnrique en approximation hilbertienne

Quand (Px ) a-t-il une solution ? Quand (Px ) a-t-il une et une seule solution ? Nous montrons ici que cest "presque toujours" le cas. videmment,
les questions poses concernent les points x
/ S.
50
CHAPITRE 2.
Fig. 2.1 Champ de gradients de d S , pointant toujours vers S.

: points de non-diffrentiabilit de d S
Fig. 2.2 Champ de gradients de la fonctiondistance signe S
Thorme 2.13 On a :
(i) {x H | PS (x) = } est dense dans H
(ii) {x H , PS (x) est un singleton} est dense dans H .
Dmonstration.
(i) Soit z
/ S et > 0 ; il sagit de trouver z tel que : z z et PS (z ) =
.
Fixons > 0 tel que [d S (z) + 3] < ... choix bizarre, mais nous verrons
pourquoi il a t fait.
Prenons c0 S tel que

c0 z2 < d S2 (z) +
(2.27)
et
c0 z < d S (z) + 1.
(cest tout fait possible, il suffit de penser la dfinition de d S (z)).
Nous allons appliquer le thorme de Borwein- Preiss la function
f : H R {+} que voici :
2.
51
x H, f (x) := x z2 + i S (x).

La fonction f est s.c.i. sur H (somme dune fonction continue et dune
fonction s.c.i.), minore sur H par 0. En fait, inf f = d S2 (z).
H
Par construction (cf. (2.27)), c0 est un minimiseur prs de f sur H .

Daprs le thorme de Borwein-Preiss, appliqu avec le choix de = 1,
il existe v et w H tels que :
() v c0 < 1, w v < 1
() v S et est un minimiseur de x f (x) + x w2 sur H .
Explicitons ce que dit () :
v z2 + v w2 c z2 + c w2 pour tout c S,
ce qui est la mme chose que

v z2 c z2 c w2 v w2 pour tout c S.
(2.28)
Or
v z2 c z2 = v z2 c v + v z2
= c v2 + 2 v z, c v,
c w2 v w2 = c v + v w2 v w2
= c v2 + 2 c v, v w.
Ainsi, (2.28) devient :

2 v z, c v + c v2 2 v w, c v + c v2 ,
do
2 z v + (w v), c v (1 + ) c v2 ;

1
z v + (w v)
, c v c v2 .
1+
2
En dfinissant z := v +
que
(2.29)
z v + (w v)
, on sassure (daprs (2.29))
1+
z v, c v
1
c v2 ,
2
et ce pour tout c S. Or ceci est prcisment la caractrisation du fait

que v, dont on sait dj quil est dans S, est un lment de PS (z ) (cf.
52
CHAPITRE 2.
lingalit de caractrisation (2.20)).

Ensuite,

z v + (w v)

z z = v +

1+

1

=
1 1 + (v z) + 1 + (w v)
v z + w v

v c0 + c0 z + w v

1 + (d S (z) + 1) + 1 (cf. (2.27) et ())

3 + d S (z) .
En somme, on a trouv z tel que : z z et v PS (z ).
/ S, on sait que pour z t = z + t (z
(ii) partir du moment o PS (z) = , z
z), t ]0, 1], z PS (z), PS (z t ) = {z} (cf. la 1re remarque dans la page
46). On peut donc prendre z t aussi proche de z que voulu. Le rsultat de

densit annonc sensuit.
Quand on projette x
/ S sur S, quels points de Fr S touche-t-on ? En fait,
"presque tous" : "presque tout point de Fr S est le projet de quelquun".
En termes mathmatiques, cela donne le thorme suivant.
Thorme 2.14 On a :
PS (S c ) := {x PS (x), x
/ S} est une partie dense de Fr S.
Dmonstration. Soit x f Fr S et > 0. Le rsultat du thorme
prc

dent nous permet daffirmer quil existe x
/ S tel que : x f x 2
et PS (x) = . Ainsi, tout point x de PS (x) est dans {x PS (x), x
/ S}
bien sr, et

x x f x x + x x f 2 x x f .
Le rsultat de densit annonc est ainsi dmontr.
Retenons la porte gnrale des deux thormes de densit dmontrs dans

ce 2.2.4 : H est un espace de Hilbert et S est un ferm quelconque de H !
3. PROLONGEMENTS POSSIBLES
53
3 Prolongements possibles
Les principes variationnels par perturbations de la fonction originelle
minimiser ne sarrtent pas ceux exposs aux 1 et 2. Un exemple
additionnel est le principe variationnel de C. Stegall (1978) ; son nonc
tant simple, donnons-le.
Soit S H ferm born (non vide), soit f : H R {+}, finie en
au moins un point de S, semicontinue infrieurement sur H , et borne
infrieurement sur S. Alors, pour un ensemble dense de points a de H , le
problme de la minimisation de (la fonction perturbe) x f (x) a, x
sur S a une et une seule solution.
Nous ne faisons que signaler lexistence dun autre principe variationnel
(du mme acabit) dans des espaces de Banach (dun certain type), cest
celui de Deville, Godefroy et Zizler [DGZ]. Traiter de tous ces principes
variationnels occuperait presque tout le Cours... Ce nest pas notre objectif :
les principes variationnels de ce chapitre sont des outils dont chacun pourra
se servir dans le contexte dapplication qui est le sien.
Annexe
On rappelle dans cette annexe les trois types de diffrentiabilit utilises en

analyse et calcul variationnel, dans le contexte des fonctions numriques
seulement.
Soit donc (E, ) espace de Banach et f : E R {+} finie dans un
voisinage de x.
F-diffrentiabilit. Cest la diffrentielle usuelle, telle qutudie en L3.
On dit que f est diffrentiable au sens de M. Frchet (F-diffrentiable en
abrg) en x sil existe l E telle que
f (x + u) f (x) l , u
0 quand u = 0 0
u

ou encore : f (x + u) = f (x) + l , u + o(u)
l , not D F f (x) ou simplement D f (x), est un lment de E .
Si lespace source de f est un espace de Hilbert (H, , ), la forme linaire
continue D F f (x) est reprsente par un lment de H , not F f (x)
54
CHAPITRE 2.
(ou f (x) simplement) et appel gradient de f en x :

d H, D F f (x) d = F f (x), d.
G-diffrentiabilit. On dit que f est diffrentiable au sens de R. Gteaux
(G-diffrentiable en abrg) en x lorsque
d E,
f (x + d) f (x)
a une limite lorsque 0,
et que cette limite (qui dpend de d) est une forme linaire continue de d :
d E,
f (x + d) f (x)
DG f (x), d.
H-diffrentiabilit. Il y a une diffrentiabilit intermdiaire, au sens de

J. Hadamard. Une manire de la prsenter est comme ceci.
Soit B la famille des compacts de E. On dit que f est diffrentiable au sens
de J. Hadamard (H-diffrentiable en abrg) en x lorsquil existe l E ,
not D H f (x), telle que
lim
f (x + d) f (x)
= D H f (x), d uniformement pour d S,
et ce pour tout S B .
(2.30)
Cette manire dexprimer les choses permet une comparaison directe avec
la F-diffrentiabilit et la G-diffrentiabilit.
La F-diffrentiabilit de f en x scrit, de manire quivalente, comme
dans la dfinition (2.30), en prenant pour B la collection des ferms borns de E.
La G-diffrentiabilit de f en x scrit, de manire quivalente, comme
en (2.30), en prenant pour B la collection des ensembles finis de points
de E.
La comparaison entre les trois types de diffrentiabilit est maintenant
claire :
(F-differentiabilite) (H-differentiabilite) (G-differentiabilite).
La H-diffrentiabilit (et donc la F-diffrentiabilit) de f en x implique la
continuit de f en x ; ce nest pas le cas pour la G-diffrentiabilit. La semicontinuit infrieure nest pas acquise non plus avec la G-diffrentiabilit ;
ANNEXE
55
ce qui fait quon a des noncs de thormes avec des hypothses comme
"soit f s.c.i. et G-diffrentiable sur E", laquelle est assure avec "soit f
F-diffrentiable sur E".
Si E est de dimension finie
(H-differentiabilite) (F-differentiabilite).
Si f vrifie une condition de Lipschitz dans un voisinage de x, alors
(G-differentiabilite en x) (H-differentiabilite en x).
En pratique, dans un contexte de problmes variationnels :
la F-diffrentiabilit est une requte exigente, souvent inaccessible... et
pourtant beaucoup de rsultats du Calcul diffrentiel reposent sur cette
hypothse.
la G-diffrentiabilit est plus accessible, et souvent on commence par
l, mme pour accder la F-diffrentiabilit. Malheureusement, la Gdiffrentiabilit ne permet pas les rgles de calcul la chane ("chain
rules").
La dimension infinie pose des obstacles inattendus ; ainsi, mme si f : O
E R est Lipschitz et convexe dans un voisinage ouvert convexe O de x,
il peut y avoir un "gros trou" entre les diffrentiabilits G-H et F de f en x.
Fonctions continment diffrentiables (de classe C 1 ). L, il ny a pas de
distinguo faire (ouf !). Si O est un ouvert de E, avoir f X-diffrentiable
sur O et D X f : O E continue sur O revient au mme avec X =
G, H ou F.
Exercices
Exercice 1 Soit f : Rn R diffrentiable, telle que f (x)/ x +
quand x + (cest la 1-coercivit de f sur Rn ). Montrer qualors

f (x) | x Rn = Rn .
Hint : Pour v Rn , considrer gv (x) := f (x) v, x.
Exercice 2 Soit f : E R continue et Gteaux-diffrentiable sur E
(espace de Banach). On suppose quil existe r > 0 et c tels que :
56
CHAPITRE 2.
x E, f (x) r x c.
Montrer que DG f (E) := {DG f (x) | x E} est dense dans r B (B est la
boule unit de X pour la norme ).
Hint : tant donn x r B , considrer la fonction perturbe
g : x E g(x) := f (x) x , x.
Appliquer g le Corollaire 2.3 de la page 29.
Exercice 3 Soit f : E R de classe C 1 sur E (espace de Banach). On dit
que f vrifie la condition (de compacit) de Palais-Smale lorsque :

(xn ) E, ( f (xn ))n est bornee
il existe une sous-suite de (xn )
.
D f (xn ) 0 dans X
qui converge (pour la topologie forte)
Supposons donc que f vrifie la condition de Palais-Smale et quelle est
borne infrieurement sur E.
Montrer quil existe x E minimisant f sur E.
Hint : Appliquer le thorme dEkeland f , avec =
1
(n N ).
n
Exercice 4 (Minimisation approche sur un sous-espace)

Soit f : H R semicontinue infrieurement et G-diffrentiable sur H (par
exemple, f F-diffrentiable sur H couvre ces deux hypothses). Soit V un
sous-espace vectoriel ferm de H .
1) Montrer que si x V minimise f sur V , alors
f (x) V .
2) Supposons f borne infrieuremnt sur V . Montrer que pour tout > 0,
il existe x V vrifiant :

f (x ) inf f + ;
V
| f (x ), d| pour tout d V tel que d 1.

Montrer que cette dernire condition quivaut :
f (x ) V + B(0, ).
EXERCICES
57
Exercice 5 (Un thorme de point fixe inhabituel)

Soit (X, ) un espace de Banach, : X R une fonction semicontinue
infrieurement et borne infrieurement sur X . On considre f : X X
vrifiant
x f (x) (x) [ f (x)] pour tout x X,
et on se propose de dmontrer que f a un point fixe.
1) Montrer quil existe x X tel que
(x) (y) +
1
y x pour tout y X.
2
En dduire que x = f (x).

2) Quelle diffrence essentielle voyez-vous entre ce rsultat et les diffrents thormes de points fixes que vous avez rencontrs au cours de vos
tudes ?
Exercice 6 (Un rsultat inhabituel dexistence dun minimiseur)

Soit (X, ) un espace de Banach. Soit f : X R {+} une fonction
semicontinue infrieurement et borne infrieurement sur X , non identiquement gale +. On fait lhypothse suivante : il existe > 0 tel que pour
tout x vrifiant f (x) > inf f , on peut trouver x = x tel que
X
f (x)
+ x x
f (x).
1) Montrer quil existe x X tel que f (x) = inf f .
X
2) Soit S lensemble des minimiseurs de f sur X . Montrer

d S (x)

1
f (x) inf f pour tout x X.
X
Exercice 7 (La rgle de Fermat asymptotique)

Soit H un espace de Hilbert : , dsigne le produit scalaire et la norme
associe. Si f : H R est minimise en x et quelle y est Gteauxdiffrentiable, alors f (x) = 0 (cest la rgle de Fermat). Cest la version
"asymptotique" de cette rgle que nous proposons dtablir dans cet exercice.
Considrons : H R semicontinue infrieurement, Gteaux-diffrentiable
sur H (par exemple, la Frchet-diffrentiabilit de f sur H assure ces deux
58
CHAPITRE 2.
conditions), et borne infrieurement sur H . Montrer quil existe alors une

suite (xk ) telle que :
f (xk ) inf f et f (xk ) 0
H
quand
k +.
Rfrences
[E1] I. Ekeland. "On the variational principle". J. Math. Anal. Appl. 47
(1974), p. 324353.
[E2] I. Ekeland. "Nonconvex minimization problems". Bull. Amer. Math.
Soc. 1 (1979), p. 443474.
[F] D.G. De Figueiredo. Lectures on the Ekeland Variational Principle with
Applications and Detours. Tata Institute of Fundamental Research, Bombay, 1989.
[BP] J.M. Borwein and D. Preiss. "A smooth variational principle with applications to subdifferentiability and to differentiability of convex functions". Trans. Amer. Math. Soc. 303 (1987), p. 517527.
[L] P.D. Loewen. Optimal Control Via Nonsmooth Analysis. CRM Proceedings & Lecture notes, American Mathematical Society, 1993.
[CLSW] F.H. Clarke, Yu.S. Ledyaev, R.J. Stern and P.R. Wolenski. Nonsmooth Analysis and Control Theory. Graduate texts in mathematics,
[FHV] M. Fabian, P. Hjek and J. Vanderwerff. "On smooth variational principles in Banach spaces". J. Math. Anal. Appl. 197 (1996), p. 153173.
[St] C. Stegall. "Optimization of functions on certain subsets of Banach
spaces". Math. Ann. 236 (1978), p. 171176.
[DGZ] R. Deville, G. Godefroy and V.E. Zizler. "A smooth variational principle with applications to Hamilton-Jacobi equations in infinite dimensions". J. Funct. Anal. 111 (1993), p. 192212.
[Sc] W. Schirotzek. Nonsmooth Analysis. Universitext, Springer Verlag,
2007.
[BZ] J.M. Borwein and Q.J. Zhu. Techniques of Variational Analysis. CMB
books in mathematics, Springer Verlag, 2005.
Nous signalons les articles dorigine... il vaut mieux souvent revenir aux
sources. Larticle-revue [E2] reste, trente aprs sa publication, une trs
bonne rfrence pour lnonc et quelques-unes des premires applications
du principe variationnel dEkeland. Notre 2, sur le principe variationnel
de Borwein-Preiss est tir de ([L], Chap. 3).
Chapitre 3
-AUTOUR DE LA PROJECTION SUR UN

CONVEXE FERM ;
-LA DCOMPOSITION DE MOREAU.
"Les espaces hilbertiens ou espaces de Hilbert sont loutil

fondamental des applications de lAnalyse la Physique et aux
Sciences de lingnieur." L. Schwartz (1915-2002)
"Lanalyse convexe est loccasion dappliquer les ides de la
Mcanique aux Mathmatiques." J.- J. Moreau (1923- )
La projection sur un convexe ferm dun espace de Hilbert est une opration
bien tudie par le pass, au niveau du M1 notamment. Nous y revenons
cependant pour, dune part, y apporter des complments (aussi bien thoriques que dapplications) et, dautre part, tudier le cas particulier important
des cnes convexes ferms. La dcomposition de Moreau qui en rsultera
est un outil important utile dans des domaines aussi divers que la Statistique,
lOptimisation matricielle ou la Mcanique.
Techniques de calcul dans les espaces de Hilbert
Proprits de base des convexes ferms dun espace de Hilbert.
Le contexte gnral dtude dans ce chapitreest le suivant :
(H, , ) est un espace de Hilbert ; = , est la norme (dite hilbertienne) drive de , .
C tant un convexe ferm (non vide) de H , PC (x) = { pC (x)} pour tout x
H (suivant les notations du Chapitre 2) ; lapplication pC : H H est
loprateur (ou lapplication) de projection sur C.

59
60
CHAPITRE 3.
PROJECTION SUR UN CONVEXE FERM
1 Le contexte linaire : la projection sur un sous-espace vectoriel

ferm (Rappels)
Nous partons dassez loin, partir de choses vues en L3, o le convexe ferm
sur lequel on projette est un sous-espace vectoriel ferm V de H .
On supposera V non rduit {0}, afin dviter les trivialits.
1.1 Proprits basiques de pV

Nous rappelons brivement ici les proprits de pV dans ce "contexte ou
monde linaire".
Thorme 3.1
(i) Loprateur ou application de projection pV : H V H est linaire
pV (x)
continue, avec ||| pV ||| = 1 (rappel : ||| pV ||| = sup x
).
x =0
(ii) Im pV = V , Ker pV =
(iii) V (=:
V ,
H=V
(V ) ) nest autre que
V .
V.
(iv) Lapplication de projection pV nest autre que id H pV , i.e.
x H, pV (x) = x pV (x).
(v) Dcomposition de tout x H suivant V et V :
x = pV (x) + pV (x), pV (x) et pV (x) sont orthogonaux ;

2
x2 = pV (x)2 + pV (x) .

(3.1)
(vi) pV est auto-adjoint, cest--dire :
x, y H, pV (x), y = x, pV (y).
1.2 Caractrisation de pV
Nous avons :
(x = pV (x))
x V et
x x V

.
Le cas o C est un sous-espace affine ferm de H , disons

C = x0 + V, avec x0 C et V sous-espace "direction" de C,
(3.2)
1. PROJECTION SUR UN SOUS-ESPACE VECTORIEL FERM
61
est peine un peu plus gnral ; la caractrisation est du mme tonneau

que (3.2) :

x C et
x x,
c x
=0
.
(x = pC (x))
pour tout c C
x x V
Les trois figures ci-dessous permettent de garder en tte ces rsultats.
Le calcul effectif de pV (x) pour un x donn nest pas toujours chose facile ;
retenons de ce qui prcde que dterminer pV (x) et dterminer pV (x)
sont deux problmes quivalents : quand on a lune on a lautre ( pV (x) =
x pV (x), pV (x) = x pV (x)).
1.3 La "technologie des moindres carrs"

Soit H1 et H2 deux espaces de Hilbert, A L (H1 , H2 ) telle que Im A soit
ferme (dans H2 ), soit y H2 . Alors, le problme (P ), dit "des moindres
carrs", qui consiste minimiser
x H1 Ax y H2
(3.3)
sur H1 admet des solutions ; elles sont caractrises comme tant les solutions
de lquation
(3.4)
(A A) x = A y,
appele "quation normale du problme des moindres carrs (P )". En particulier, si A A ( L (H1 )) est inversible, alors (P ) a pour unique solution
x = (A A)1 A y.
A
H2 H1
A A : H1 H1
(A A)1
H1
Schemas-resumes
x A x V = Im A
A x est la projection
orthogonale de y sur Im A
62
CHAPITRE 3.
Notons que minimiser x Ax y H2 sur H1 quivaut minimiser

x Ax y2H2 , do lexpression "les moindres carrs". Une approche
"variationnelle" du problme consisterait utiliser les ressources du Calcul
diffrentiel et la convexit de la fonction minimiser, savoir
f : x H1 f (x) := Ax y2H2 .
De fait, f (x) = (A A) x A y, et x H1 minimise f sur H1 si et
seulement si f (x)
= 0, ce qui conduit (3.4).
Si y Im A, mettons A x = y, il est clair que x est solution du problme des
moindres carrs associ A et y (dans ce cas-l, la valeur minimale dans (P )
est 0, bien sr).
Lensemble des solutions de lquation Ax = y est alors le sous-espace affine

ferm x + Ker A. Parmi ces solutions, il y en a une et une seule "plus courte"
que toutes les autres, cest--dire de norme minimale. Cette solution, note x,
est construite de la manire suivante :
(z
H2 verifiant (A A ) z = y) (x = A z)
des z H2 differents verifiant (A A ) z = y conduisent
au meme x .
Dans le monde de lOptimisation, la "technologie des moindres carrs"

occupe une place de choix, tant les exemples dapplication sont frquents
et divers.
2 Le contexte gnral : la projection sur un convexe ferm

(Rappels)
Nous nous plaons ici lautre bout du spectre (comparativement au 1) :
le convexe ferm C sur lequel on projette est quelconque.
2. PROJECTION SUR UN CONVEXE FERM
63
2.1 Caractrisation et proprits essentielles

Par dfinition, x = pC (x) est lunique solution du problme de minimisation

Minimiser x c , ou bien 21 x c2
(Px )
c C.
En convenant de considrer f : c H f (x) := 21 x c2 , laquelle
est C et convexe sur H , (Px ) est donc un problme de minimisation
convexe. Mais a nest pas pour autant que localiser ou approcher x = pC (x)
est une chose facile.
Proprits principales de pC
(i) Caractrisation variationnelle de x = pC (x) :

x C et
(x = pC (x))
x x,
c x
0 pour tout c C
(3.5)
(ii) Pour tout x, x dans H ,

2
pC (x) pC (x ), x x pC (x) pC (x ) ,
(3.6)
dont deux proprits sous-produits sont :
pC (x) pC (x ),x x 0 ["monotonie (croissante)"]

pC (x) pC (x ) x x [propriete de 1-Lipschitz sur H ].
La meilleure faon de se souvenir de (3.5) est davoir lesprit la figure 3.1 :
langle entre les vecteurs x x et c x est toujours obtus.
Il existe une autre caractrisation de x = pC (x), qui ressemble (3.5) :

x C et
(3.7)
(x = pC (x))
x c, x c 0 pour tout x C.
La dmonstration est laisse sous forme dexercice.
Attention ! pC nest pas diffrentiable... Toutefois, on verra plus loin que pC
admet des drives directionnelles en x dans toutes directions d H , du
moins lorsque x C.
64
CHAPITRE 3.
Fig. 3.1 Illustration des caractrisations du projet sur un convexe ferm
Exemple visuel : C = [0, 1] R
Liens avec la diffrentiabilit de dC , de dC2 , de C

Ce qui va suivre prcise et amliore nettement les rsultats noncs la
section 2.2.1 du Chapitre 2 (page 42).
Proposition 3.2
(i) La fonction-distance dC est diffrentiable sur louvert C c , avec :
x C c , dC (x) =
x pC (x)
.
x pC (x)
(3.8)
(ii) La fonction dC2 est partout diffrentiable sur H , avec :
x H, dC2 (x) = 2 [x pC (x)] .

(iii) La fonction C (= 21 2 dC2 ) est partout diffrentiable sur H , avec :
x H, C (x) = pC (x).
(3.9)
(3.9) est trs explicite, nous la reformulons de la manire suivante : x

pC (x) est un champ de gradients sur H , et (toutes) les fonctions primitives
de pC sont C + K , o K est une constante relle.
Dmonstration : Contentons-nous de celle de (ii) ; elle est facile et a la proprit dtre "self-contained" (cest du simple calcul hilbertien). Pour x H ,
posons x (h) := dC2 (x + h) dC2 (x). Dune part, on a :
65
dC2 (x) x pC (x + h)2 car pC (x + h) C,

do
x (h) dC2 (x + h) x pC (x + h)2
= pC (x + h) (x + h)2 x pC (x + h)2
x (h) 2x pC (x + h), h + h2 .
(3.10)
Dautre part, en intervertissant le rle de x et de x + h, on obtient :

x (h) x + h pC (x)2 x pC (x)2 ,
x (h) 2 x pC (x), h + h2 .
(3.11)
Comme pC (x + h) pC (x) h (car pC est 1-Lipschitz sur H ), il

vient de (3.10) et (3.11) :
x (h) = 2 x pC (x), h + o(h).
Lassertion (ii) de la Proposition 3.2 est ainsi dmontre.
2.2 Le problme de ladmissibilit ou faisabilit convexe (the

"convex feasibility problem")
De nombreux et importants exemples dapplication (traitement du signal,
imagerie) font apparatre C sous la forme suivante :
C=
Ci ,
i=1
avec :
i, Ci "plutt simple" (lorsquil sagira de projeter sur Ci , par exemple) ;
N est grand.
Deux questions essentielles se posent :
Trouver un point de C, en utilisant les oprations de projection sur les Ci .
Dterminer pC (x), en utilisant les projections sur les Ci .
Le prototype de rsultat rpondant ces questions est la mthode des projections alternes de J. Von Neumann.
Thorme 3.3 (J. VON NEUMANN)
Soit V1 et V2 deux sous-espaces vectoriels ferms de H . tant donn x H ,
66
CHAPITRE 3.
on construit partir de x une suite (x k ) en projetant alternativement sur V1

et sur V2 :
x0 = x ;
k 1, x2k1 = pV1 (x2k2 ), x2k = pV2 (x2k1 ).
(3.12)
La suite (x k ) ainsi dfinie converge (fortement) vers x = pV1 V2 (x).
Esquisse de la dmonstration. La dmonstration nest pas simple car, ne

loublions pas, on est dans un contexte de dimension infinie... Voici un cheminement possible :
Point 1. La suite (xk ) des normes est dcroissante.
Point 2. La suite (x2k ) est une suite de Cauchy de V2 .
Point 3. (Toute) La suite (xk ) converge vers un lment x de V1 V2 .

Point 4. Le point x obtenu est bien la projection de x sur V1 V2 .
On est tent dtendre lalgorithme des projections alternes de Von Neumann
au cas de deux convexes ferms (qui sintersectent), et de penser que la suite
ainsi construite converge vers la projection de x (point initial) sur C1 C2 . Il
nen est rien, dj avec deux demi-espaces ferms C1 et C2 . Dans lexemple
de la figure ci-dessous :
xk = x2 C1 C2 pour tout k 2
x2 nest pas la projection de x sur C1 C2 .
Nanmoins, il y a un rsultat de convergence de (xk ) vers un point de C1 C2 .
Thorme 3.4 (Algorithme de J. VON NEUMANN tendu)

Soit C1 et C2 deux convexes ferms non vides de H . On considre comme
en (3.12) la suite (x k ) gnre par les projections alternes sur C1 et C2 .
Alors :
(i) Si C1 C2 = , la suite (x k ) converge faiblement vers un point de C1 C2 .
(ii) Si int (C1 C2 ) = , la suite (x k ) converge fortement vers un point
de C1 C2 .
Curieusement, (i) nest pas due une limitation dexpertise pour les
dmonstrations... H. S. Hundai a construit un contre-exemple en 2004,
67
de type suivant : C1 est un hyperplan ferm, C2 est un cne convexe

ferm, C1 C2 = {0} ; la suite (xk ) gnre par projections alternes converge
faiblement vers 0 mais ne converge pas fortement vers 0 !
Commentaires.
Dans les applications ad hoc (signal, imagerie), mme si int (C1 C2 ) =
, on peut quand mme avoir convergence forte de (xk ) vers un point
de C1 C2 .
Avoir un rsultat de convergence faible ninterdit pas la "numrisation" du
problme (via des discrtisations, bien sr). Aprs tout, xk x signifie
que, quel que soit "lobservateur" y H, y, xk y, x.
Le passage de 2 N convexes ferms Ci nest pas vident ; toutefois il y a
une astuce qui permet de se ramener au cas de deux convexes seulement.
Posons en effet :
C =C
ferm deH N ;
1 C2 . . . C N , convexe
N
= x = (x1 , . . . , x N ) H | x1 = x2 = . . . = x N , la "diagonale"
de H N .
Alors, de manire vidente,
(x
Ci ) ( (x, x, . . . , x) C ) .
(3.13)
i=1
Mais est toujours dintrieur vide... too bad.

Prolongement. Lobjectif tant de projeter x sur
Ci en utilisant les projec-
i=1
tions pCi et dautres oprations simples, des corrections intermdiaires sont

ncessaires dans le design des (xk ). Ceci a t fait par Boyle et Dykstra,
dans un contexte de dimension finie. Schmatiquement, cela donne ceci :
[projection sur Ck ]
x0 = x ; xk+1 = pCk (xk )
+
["correction" non precisee ici]
xk+1 xk+1
+
xk+2 = pCk+1 (xk+1 ),
etc.
Alors la suite (xk ) converge vers la projection de x sur
Ci .
i=1
Cet algorithme est utilis quelque peu en Optimisation et beaucoup en

Statistique.
68
CHAPITRE 3.
Le 2.2 a t largement inspir par les ouvrages [BZ] et [D], auxquels on

renvoie pour plus de dveloppements.
3 La projection sur un cne convexe ferm. La dcomposition de

MOREAU
Cest en quelque sorte la situation intermdiaire entre celle rappele au 1
et celle traite au 2. Mais, du fait que C sera pris un cne convexe ferm,
not plus loin K , on va aller beaucoup plus loin que dans 2 et se rapprocher
de ce quon obtenait dans le contexte du 1.
3.1 Le cne polaire

Soit donc pour toute la suite un cne convexe ferm K de H 1 .
La notion qui va suivre est essentielle : elle va jouer pour les cnes convexes
ferms le rle que jouait lorthogonalit pour les sous-espaces vectoriels
ferms.
Dfinition 3.5 On appelle cne polaire (ou cne polaire ngatif, ou cne
dual) lensemble suivant :
K := {y H | y, x 0 pour tout x K } .
(3.14)
Dautres notations sont galement utilises pour le cne polaire de K : K ,

K , etc.
Il est facile de voir, partir de la dfinition mme, que K est toujours
un cne convexe ferm. On aurait pu dfinir, via (3.14), A pour nimporte
quel A H ; le rsultat et t inchang puisque :
A = (cone A) ,
o cone A dsigne le plus petit cne convexe ferm contenant A (not
parfois cc A).
Le lecteur-tudiant a peut-tre dj rencontr la notion de polarit suivante :
si B H , lensemble polaire de B est constitu des y H vrifiant y, x 1 pour tout x B. Lorsque B est un cne, cette dfinition
1 sous-entendu "de pointe (ou sommet) lorigine" ; bref K vrifie les deux proprits "K est
un convexe ferm", (x K , 0) (x K ).
3. PROJ. SUR UN CNE CONV. FERM. DC. DE MOREAU
69
quivaut celle donne en (3.14).

On convient dappeler Analyse unilatrale ltude de problmes (doptimisation entre autres) o interviennent des cnes convexes ferms, comme interviennent les sous-espaces vectoriels (ou affines) ferms en Analyse linaire.
Exemples en dimension finie.
Lorthant positif ou cne de Pareto de Rn :
K := {x = (x1 , . . . , xn ) | xi 0 pour tout i = 1, . . . , n}
( note aussi Rn+ ).
Alors,
K = K = {y = (y1 , . . . , yn ) | yi 0 pour tout i = 1, . . . , n} .
Le cne des vecteurs composantes autocorrles de Rn+1 :

Cn+1 := (x0 , . . . , xn ) Rn+1 | y = (y0 , y1 , . . . , yn ) Rn+1
nk

tel que xk =
yi yi+k pour tout k = 0, 1, . . . , n .
i=0
Cn est un cne convexe ferm de Rn+1 , ce qui est loin dtre vident
dmontrer directement... Heureusement, il y a une formulation quivalente
de Cn+1 :

Cn+1 := (x0 , . . . , xn ) Rn+1 | [0, ] ,
x0 + 2

xk cos(k) 0 .
k=1
Ainsi,
Cn+1
1
cos()
= cone {v() | [0, ]} , où v() =

: ..
.
cos(k)
Voir [F] pour davantage sur ce cne.
70
CHAPITRE 3.
Cnes dordre en Statistique :

Des exemples en sont :
K 1 := {x Rn | x1 x2 . . . xn } ,
K 2 := x Rn | x1
Alors :
x1 +x2
2
...
K 1 :=
y Rn | k = 1, . . . , n 1,
x1 +...+xn
.
n
yi 0 et
i=1
K 2 :=
y Rn | y1
...
y1 +...+yn
n

yi = 0 ,
i=1

y1 +y2
2
et

yi = 0 .
i=1
Cne des matrices symtriques semidfinies positives (ou cne SDP) :

Dans Sn (R) structur en espace euclidien grce au produit scalaire dfini
par M, N := tr(M N ), le cne

K := Sn+ (R) = A Sn (R) | A est semidefinie positive
a pour cne polaire

K = Sn (R) = B Sn (R) | B est semidefinie negative . (3.15)
Un problme-modle en Optimisation dite SDP consiste minimiser une

fonction convexe (quadratique mme) sur un ensemble-contrainte de la
forme Sn+ (R) V , o V est un sous-espace affine. Voir [HUM] pour
davantage sur ce cne.
Cne des matrices symtriques copositives :

K := A Sn (R) | Ax, x 0 pour tout x Rn+ .

Ce cne, trs utilis en Recherche oprationnelle et Optimisation combinatoire, contient le cne (prcdent) des matrices semidfinies positives
ainsi que le cne des matrices symtriques dont tous les coefficients sont
positifs. Pour ce cne K ,

K = A Mn (R) | B Mn,m (R) a` coefficients 0, A = B B T .
Les matrices de K sont appeles compltement positives.
Voir [HUS] pour un article-revue sur ce cne.
71
Exemples en dimension infinie

Espaces L 2K
Soit (X, , ) un espace mesur avec (X ) < +, soit K un cne
convexe ferm de Rd , et soit L 2 (X, , ; Rd) lespace usuel des
f 2 d < +,
(classes de) fonctions f : X Rd telles que

structur en espace de Hilbert
f, g := f (t), g(t) d. On pose
grce
au
produit
scalaire
K = L 2K =

f L 2 (X, , ; Rd ) | f (t) K -p.p. .
Alors, K est un cne convexe ferm et

K = L 2K = g L 2 (X, , ; Rd ) | g(t) K -p.p. .
(3.16)
Cne des gradients de fonctions convexes

Soit un ouvert convexe born de Rn et

n

K := g L 2 ( ) | g = u pour une fonction convexe u .

n
K est un cne convexe ferm de L 2 ( ) . Par dfinition,

n
K = h L 2 ( ) | h, g 0 pour tout g K ,

n
o , est le produit scalaire "naturel" sur L 2 ( ) :
(g1 , . . . , gn ), (h 1 , . . . , h n ) =
n

i=1
Il se trouve que le cne polaire K

(Y. Brenier, 1991) ; le voici. Soit
f i (x) gi (x) dx.

peut tre explicit
S := {s : mesurable telle que la mesure image s de dx

par s soit encore dx}

(s est dfinie par :
(x) ds =
[s(x)] dx pour toute fonction

continue borne sur ).

n
Dans S il y a id bien sr. Y. Brenier dmontre dabord que h L 2 ( )
est dans K si et seulement si
72
CHAPITRE 3.
h, s id 0 pour tout s S.

Il en rsulte comme nous le verrons plus loin
K = cone(S id ).
(3.17)
Ce sous-paragraphe a t tir de [CLR].
3.2 Caractrisation de p K (x) ; proprits de p K ; dcomposition de

Moreau suivant K et K
Thorme 3.6 (de caractrisation) On a :

x K , x x K
.
x = p K (x)
et x x,
x
=0
(3.18)
Cette caractrisation (3.18) est trs "visuelle" (ou gomtrique), trs facile
retenir.
La condition de "verrouillage" x x,
x
= 0 est un peu inattendue ici, il
ny a pas dingalit vrifier comme dans linquation variationnelle (3.5)
(de la caractrisation de pC (x), C convexe ferm).
Dmonstration. Rappelons la caractrisation gnrale de x = pC (x) :

y x
0 pour tout y C .
x = pC (x) x C et x x,
Dsignons par x la projection de x sur K . videmment x K . Mais
comme K est un cne, x K pour tout 0. Il vient alors de la caractrisation au-dessus : x x,
x x
0, soit ( 1)x x,
x
0.
Comme 0 est arbitraire, cela ne peut se faire quavec x x,

x
= 0.
Du coup, la caractrisation induit : x x,
y 0 pour tout y K , cest-dire x x K .
73
Rciproquement, soit x vrifiant la proprit indique (assertion de droite

dans (3.18)). Considrons la fonction f : H R qui y H associe f (y) := x y2 . On a :
2 + x y2 + 2 x x,
x y
f (y) = x x + x y2 = x x
f (x)
+ 2 x x,
x y.
Mais x x,
x
= 0 et x x,
y 0 si y K . Par consquent :
f (y) f (x)
pour tout y K ,
ce qui exprime bien que x est le point de K distance minimale de x : x =
p K (x).

Comme consquences immdiates de la caractrisation (3.18), on a :

p K (x) = 0 x K ;
(3.19)
p K (x) = p K (x) pour tout 0 et x H ;
p K (x) = pK (x) pour tout x H.
Plus intressante est la proprit suivante. Soit K = (K ) .
Proposition 3.7 On a :
K := (K ) = K .
(3.20)
Dmonstration. Lintrt de la dmonstration que nous proposons est quelle

ne fait appel aucun thorme de sparation (ou forme gomtrique du thorme de Hahn-Banach), lequel il est vrai est cach dans la caractrisation
de p K (x).
Soit x K . Pour tout y K , on a x, y 0, donc x K .
Soit x K et x := p K (x). Daprs la caractrisation (3.18) de x,

x x K et x,
x x
= 0.
0. Par consquent
Puisque x K , on a x, x x
x x
2 = x x,
x x
= x x,
x x x,
x
0,
ce qui implique x = x.
Donc x K .
Consquence de (3.20) : Si L est un cne convexe de H , L = L ; plus

gnralement, si A H , A = coneA (le plus petit cne convexe ferm
contenant A).
Nous sommes dsormais prts pour le point culminant de ce 3.
74
CHAPITRE 3.
Thorme 3.8 (de dcomposition (J.-J. MOREAU, 1965))

Il y a quivalence des deux assertions suivantes (concernant x H ) :
(i) x = x 1 + x 2 avec x 1 K , x 2 K , x 1 , x 2 = 0 ;
(ii) x 1 = p K (x) et x 2 = p K (x).
Comme souvent dans les quivalences, il y a une implication qui est plus
importante que lautre, ici cest [(i) (ii)]. En effet, si on a (i), on a rsolu
les deux problmes de projection de x, sur K et sur K . Comment dans le cas
dun sous-espace vectoriel ferm (contexte du 1), quand on a la projection
sur lun (K , resp. K ), on a la projection sur lautre (K , resp. K ) ; du point
de vue pratique, cela peut faire une grande diffrence !
Dmonstration. [(i) (ii)] : On a x1 K , x x1 K et x1 , x x1 = 0,
cest donc que x1 = p K (x) (grce la caractrisation (3.18)). De mme, x2
K , x x2 K = (K ) et x2 , x x2 = 0 ; cest donc que x2 = p K (x).
[(ii) (i)] : Puisque x1 K est la projection de x sur K , x x1 K
et x x1 , x1 = 0 (toujours daprs la caractrisation (3.18) de p K (x)) ;

cest bien le rsultat escompt (x2 := x x1 ).
La dcomposition de Moreau gnralise la dcomposition classique (fondamentale) tablie lorsque K est un sous-espace vectoriel ferm V de H :
x = pV (x) + pV (x), pV (x), pV (x) = 0.
Il y a nanmoins quelques diffrences essentielles :
p K nest pas un application linaire (voir (3.19) pour les proprits quon
peut esprer).
En projetant x sur K et sur K , on ntait pas sr dobtenir des lments
orthogonaux (alors que pour un sous-espace vectoriel V , tout lment de V
est orthogonal tout lment de V ).
La dcomposition de x H en x = x1 + x2 , o x1 K et x2 K , nest
pas unique.
Proposition 3.9 ("optimalit" de la dcomposition de Moreau)
x = x1 + x2 avec x1 K et x2 K . Alors :
Soit H
x1 p K (x) et x2 p K (x) .

Dmonstration. On a
p K (x) = x p K (x) = min x y .
y K
(3.21)
75
Avec une dcomposition x = x1 + x2 o x1 K et x2 K , il vient de la

formulation au-dessus :
p K (x) x x2 = x1 .
On opre de manire similaire pour arriver p K (x) x2 .
Reprenons quelques exemples du 3.1.

Projection sur lorthant positif K = Rn+ de Rn
On a p K (x) = (x1+ , . . . , xn+ ), p K (x) = (x1 , x2 , . . . , xn ). La dcomposition de Moreau de x est trs simple : x = x + + (x ), o (x + )i = xi+
et (x )i = xi pour tout i = 1, . . . , n.
Projection sur le cne K = Sn+ (R) de Sn (R)
Soit A Sn (R). Prenons U orthogonale telle que
U T AU = U 1 AU = diag(1 , . . . , n )
[les i sont les valeurs propres de A].
Alors, en posant
+
T
T
A1 = U diag (+
1 , . . . , n )U , A2 = U diag(1 , . . . , n )U ,
on a : A1 ! 0, A2 " 0 et A1 , A2 = 0. Donc, A = A1 + A2 est la

dcomposition de Moreau de A suivant K = Sn+ (R) et K = Sn+ (R).
Autre manire de dire les choses :
A1 est la matrice ! 0 la plus proche de A.
A2 est la matrice " 0 la plus proche de A.
(au sens de la norme matricielle associe , )
76
CHAPITRE 3.
Projection sur le cne L 2K

La dcomposition "point par point"
f (t) = p K [ f (t)] + p K [ f (t)] , -p.p. en t T,
fournit la dcomposition de Moreau de f L 2 suivant K = L 2K et K
L 2K :
pK ( f ) : t T [ pK ( f )] (t) = p K [ f (t)] -p.p.
pK ( f ) : t T [ pK ( f )] (t) = p K [ f (t)] -p.p.
n

Dcomposition de fonctions de L 2 ( )

n
Soit f L 2 ( ) . En exprimant la dcomposition de Moreau de f suin

vant K = g L 2 ( ) | g = u pour une fonction convexe u et K =
cone (S id ), on obtient ceci :
Il existe une fonction u H 1 ( ) (unique une constante additive prs),
une unique fonction h cone (S id ) telles que
f = u + h, u, h = 0.
(3.22)
Ainsi, u est le (champ de) gradient de fonction convexe

le plus
n proche

de f (au sens de la norme hilbertienne "naturelle" sur L 2 ( ) ).
Ceci nest pas sans rappeler la dcomposition
n de Helmholtz, o, sous

des hypothses appropries sur f L 2 ( ) , il existe des champs u et v
tels que
f = u + rot v.
Mais il sagit l, dans un contexte linaire, dune dcomposition orthogonale classique dAnalyse bilatrale dirions-nous (cf. 1).
Terminons par des rgles de calcul sur les cnes polaires, simples tablir
partir de la dfinition mme de K et du fait que L = (L ) = L lorsque L
est simplement un cne convexe. Si K 1 , K 2 , . . . , K m sont des cnes convexes
ferms de H , on a :
m

m
m
m

Ki
=
Ki ;
Ki
=
K i ;
i=1
i=1
i=1

Ki

=
m

i=1
i=1

K i .
i=1
4. APPROXIMATION CONIQUE. DUN CONVEXE
77
4 Approximation conique dun convexe. Application aux

conditions doptimalit
4.1 Le cne tangent
Lorsque f : H R est (F-)diffrentiable en x H , son approximation
linaire au voisinage de ce point est donne par
f (x + h) f (x) + f (x), h.
(3.23)
Lorsquil sagit dapprocher un convexe ferm C au voisinage dun de ses

points x, on propose un cne convexe ferm T (C, x) de sorte que
C x + T (C, x).
(3.24)
La figure ci-dessous montre ce que "doit" tre T (C, x) en toute logique.
Lobjet mathmatique T (C, x) qui fait laffaire, appel cne tangent C

en x, est dfinissable de plusieurs manires quivalentes ; les voici.
Dfinition 3.10 Soit d H . Cette direction est dite tangente C en x C
lorsquune des assertions quivalentes ci-dessous est vrifie :
(i) On a :
d R+ (C x).
(3.25)
(ii) (rn ) > 0, (x n ) C qui converge vers x , tels que
rn (xn x) d quand n +.
(3.26)
(iii) (tn ) > 0 qui tend vers 0, (dn ) qui tend vers d , tels que
x + tn dn C pour tout n.
(3.27)
78
CHAPITRE 3.
(iv) On a :

dC (x, d) = lim
t 0+
dC (x + t d)
= 0.
t
(3.28)
Lensemble des directions tangentes C en x est appel cne tangent C

en x , et not T (C, x) (ou bien TC (x)).
La formulation (3.25) de (i) est sans doute la plus parlante : d est dans le cne
convexe ferm engendr par C x, d cone(C x).
Lavantage des formulations (3.26) et (3.27) est quelles sappliquent mme
lorsque C nest pas convexe.
Cest bien dune drive directionnelle quil sagit en (3.28) puisque dC (x) =
0.
Lquivalence entre les quatre formulations est aise dmontrer ; cela est
laiss sous forme dexercice.
Puisquil y a un cne convexe ferm T (C, x) en jeu, apparat naturellement et
invitablement son cne polaire [T (C, x)] =: N (C, x). Ce cne N (C, x),
appel cne normal C en x peut tre dfini, par exemple, de la manire
suivante :
Dfinition 3.11 Une direction H est dite normale C en x C lorsque :
, c x 0 pour tout c C.
videmment, si x int C, T (C, x) = H et N (C, x) = {0}.
(3.29)
79
Il est important de garder lesprit quen chaque point x de C (de Fr C

plus prcisment), il y a deux cnes convexes ferms mutuellement
polaires qui entrent en jeu, et donc une dcomposition de Moreau !
En xk C, une direction dk se dcompose en deux directions orthogonales : une direction tangentielle dkT et une direction normale dkN . Ceci est
particulirement utilis en Mcanique de contact (problmes de friction
(= science de la tribologie)).
Remarques
Avec la caractrisation variationnelle du projet de x sur C (cf. (3.5)), il
est facile de rpondre la question suivante :
tant donn x C, qui se projette sur x ? Rponse : tous les points x
de x + N (C, x).
In short,
= x + N (C, x).
x C, ( pC )1 (x)
(3.30)
Lorsque C est "reprsent" dune manire ou dune autre, sous forme dingalits par exemple, des rgles opratoires permettent dexprimer T (C, x)
et N (C, x) laide des donnes de reprsentation. En voici un exemple.
Supposons C reprsent de la faon suivante :

C = x H | g1 (x) 0, . . . , g p (x) 0 ,
o les gi : H R sont des fonctions convexes continment diffrentiables. On ajoute lhypothse, dite de Slater, que voici :
< 0 pour tout i = 1, . . . , p.
x C tel que gi (x)
= 0} (ensemble des indices
Prenons x C. Notation : I (x)
= {i | gi (x)
Alors on a :
des contraintes gi "actives" ou "satures" en x).

T (C, x)
= d H | gi (x),
d 0 pour tout i I (x)
,

i gi (x)
| i 0 pour tout i I (x)
.
N (C, x)
=
i I (x)
80
CHAPITRE 3.
4.2 Application aux conditions doptimalit

Considrons le problme de minimisation suivant

Minimiser f (x)
(P )
x C,
o f : H R est convexe diffrentiable, et C H un convexe ferm. Avec
ce que nous avons vu, les conditions ncessaires et suffisantes doptimalit
prennent plusieurs formes quivalentes, et faciles dmontrer.
Thorme 3.12 (conditions doptimalit)
Soit x C . Il y a quivalence entre les assertions suivantes :
(i) x minimise f sur C .
(ii) f ( x),
x x
0 pour tout x C .
(iii) f ( x)
[T (C, x)]
= N (C, x)
(ou bien 0 f (x)
+ N (C, x)
).
(iv) x = pC [ x t f ( x)]
pour tout t > 0.
(v) pT (C,x)
= 0.
( f ( x))
(vi) f ( x),
pT (C,x)
0.
( f ( x))
Un format un peu plus gnral que ce qui est exprim en (ii) est le suivant :
Soit A : H H un oprateur (pas forcment un gradient) ; trouver
alors x C tel que A(x),
x x
0 pour tout x C. Ce problme
est rpertori sous lappellation dinquation variationnelle.
Terminons par une expression de la drive directionnelle de loprateur de
projection pC .
81
Proposition 3.13 Soit x C . Alors, pC a en x une drive directionnelle

dans toute direction d H , et cette drive directionnelle est la projection
de d sur T (C, x)
. En clair,
lim
t 0+
pC (x + t d) x

= pC (x,
d) = pT (C,x)
(d).
t
(3.31)
Cette proprit, trs expressive gomtriquement (faire un dessin !), est trs
utilise en Mcanique du contact (cf. page 79). Elle nest pas trs facile
dmontrer... Le tenter quand mme ; sinon voir ([AHU], Exercice 94).
Une bizarrerie signaler : si x C, mme si on est en dimension finie, il
nest pas assur que pC ait une drive directionnelle en x !
Exercices
Exercice 1 (Variations sur les projections sur deux sous-espaces vectoriels ferms)
Soit H un espace de Hilbert et P une application linaire continue de H dans
lui-mme.
1) Montrer que P est idempotent et auto-adjoint (i.e. P 2 = P et P T = P)
si, et seulement si, P = pV pour un certain sous-espace vectoriel ferm
de H (on dira que "P est une projection orthogonale").
2) Soit prsent deux sous-espaces vectoriels ferms M et N de H . laide
du rsultat de la premire question, montrer :
a) (PM PN est une projection orthogonale ) (PM et PN commutent ).
Dans ce cas, PM PN = PMN .
b) (PM + PN est une projection orthogonale ) (PM PN = 0 ).
Dans ce cas, PM + PN = PM+N .
c) Si PM et PN commutent, alors PM + PN PM PN est une projection
orthogonale.
d) Si PM et PN commutent, alors PM + PN 2 PM PN est une
projection orthogonale.
Exercice 2 (Calcul dun cne polaire dans H 1 (]0, 1[))
On munit X = H 1 (]0, 1[) du produit scalaire
1
f, g = f (0) g(0) +
f (x) g(x) dx
0
82
CHAPITRE 3.
pour lequel X est un espace de Hilbert, dont la norme associe est quivalente la norme usuelle de H 1 (]0, 1[). On considre le cne convexe K des
fonctions de H 1 (]0, 1[) qui sont positives, et on se propose de calculer son
cne polaire K . Soit g K et 0 x1 x2 1.
1) Utilisant la fonction
si x x1
1
xx1
f (x) = 1 x2 x1 si x1 x x2 ,
0
si x2 x 1
montrer que g(0) g (x) p.p.
x x1
f (x) =
x
+ x2
si x x1
2
si x1 x x1 +x
2
,
x1 +x2
si 2 x x2
si x2 x 1
montrer que g est dcroissante.

x x1
f (x) =
x
+ x2
si x x1
2
si x1 x x1 +x
2
,
x1 +x2
si 2 x x2
si x2 x 1
montrer que g est convexe. En dduire que

K g H 1 (]0, 1[) | g convexe et g(0) g (x) 0 p.p. .
4) On considre g H 1 (]0, 1[) convexe telle que g(0) g (x) 0 p.p.
On prolonge g en une fonction de L 1loc (R) par 0 sur ]1, +[ et par g(0)
sur ], 0[, on considre pour h > 0 la rgularise par convolution (g )h
et on pose :

x
gh (x) = g(0) +
(g )h (t) dt.
Montrer que g(0) (g )h (x) p.p. sur ]0, 1[, que gh est convexe. Calculer f, gh pour f K . En dduire que

K = g H 1 (]0, 1[) | g convexe et g(0) g (x) 0 p.p. .
EXERCICES
83
Exercice 3 (Interprtation des conditions ncessaires doptimalit

laide de la dcomposition de Moreau)
On considre le problme doptimisation suivant

Minimiser f (x)
(P )
,
sous les contraintes gi (x) 0 pour i = 1, . . . , m
o les fonctions f, gi : Rn R sont supposes toutes diffrentiables. On
dsigne par S lensemble-contrainte de (P ).
Les conditions ncessaires de minimalit du premier ordre, dites de KarushKuhn- Tucker, affirment ceci : sous une hypothse de "qualification des
contraintes" (non prcise), si x S est un minimiseur local de f sur S,
alors il existe des rels 1 , 2 , . . . , m tels que :
(a) f (x)
+
i gi (x)
=0;
i=1
(b) (1 , 2 , . . . , m )
Rm
+
et
i gi (x)
= 0.
i=1
Lobjet de lexercice est dinterprter "la condition de complmentarit" (b)

laide de la dcomposition de Moreau.
Pour (g1 (x),
. . . , gm (x))
Rm et (1 , 2 , . . . , m ) Rm , montrer lquivalence des trois assertions suivantes :
m
(1) (g1 (x),
. . . , gm (x))
Rm
, (1 , 2 , . . . , m ) R+ et
i gi (x)
=0;
i=1

. . . , gm (x))
+ (1 , 2 , . . . , m ) = (g1 (x),
. . . , gm (x))
;
(2) (g1 (x),
+

. . . , gm (x))
+ (1 , 2 , . . . , m ) = (1 , 2 , . . . , m ).
(3) (g1 (x),
Ici, [u]+ (resp. [u] ) dsigne le vecteur partie positive (resp. le vecteur partie
ngative) de u Rm (attention aux signes !).
Exercice 4 (Autour des cnes convexes ferms et de leurs polaires)
Soit (H, , ) un espace de Hilbert o , dsigne le produit scalaire. Soit K
un cne convexe ferm de H , on note K son cne polaire.
Pour x K , on note N (K , x) le cne normal K en x.
1) Soit x K . Montrer
$
%
(y N (K , x)) y K et y, x = 0 .
(3.32)
84
CHAPITRE 3.
2) Dduire de ce qui prcde, concernant y K :

%
$
x N (K , x) (x K et x, y = 0) .
(3.33)
3) Soit x K et y K vrifiant x, y = 0. Montrer laide de (3.32)

et (3.33) que x = p K (x + y) et y = p K (x + y).
Rfrences
[BZ] J.M. Borwein and Q.J. Zhu. Techniques of Variational Analysis. CMS
[D] F. Deutsch. Best Approximation in Inner Product Spaces. CMS books in
mathematics, Springer Verlag, 2001.
[HUM] J.-B. Hiriart-Urruty and J. Malick. "A fresh variational look at the
positive semidefinite matrices world". paratre dans J. of Optimization
Theory and Applications.
[HUS] J.-B. Hiriart-Urruty and A. Seeger. "A variational approach to copositive matrices". SIAM Review 52, 4 (2010), p. 593629.
[F] M. Fuentes. Analyse et optimisation de problmes sous contraintes dautocorrlation. Ph. D Thesis, Paul Sabatier university, Toulouse, 2007.
[CLR] G. Carlier and T. Lachand-Robert. "Representation of the polar cone
of convex functions and applications". J. of Convex Analysis 15 3 (2008),
p. 535546.
[AHU] D. Az et J.-B. Hiriart-Urruty. Analyse variationnelle et optimisation.
Cpadus ditions, Toulouse, 2010.
Chapitre 4
ANALYSE CONVEXE OPRATOIRE
"When Minkowskis theory of convexity appeared, some

mathematicians said that he discovered a nice mathematical
joy which, unfortunately, is quite useless. About a century
passed, and now the theory of convex sets is a very important
applied branch of mathematics." V. Boltyanski, in
Geometric methods and optimization problems (1999)
Dans ce chapitre, nous prsentons lAnalyse convexe sous sa forme opratoire, cest--dire limite aux dfinitions, techniques et outils essentiels,
destins servir dans des contextes qui, eux, nont rien de convexe. ct de
son rle formateur, lAnalyse convexe a aussi celui dexplication de phnomnes intervenant dans des problmes variationnels. Ajoutons quune certaine lgance mathmatique sen dgage, ce qui nest pas pour dplaire aux
tudiants-lecteurs.
Le domaine est bien couvert par de nombreux excellents livres ([A], [ET],
[Z], ...) ; nous ne fournirons donc que quelques dmonstrations, celles qui
illustrent des tours de main spcifiques au sujet.
Notre travail ici a t bien prpar par les gnralits du Chapitre 1 et tout le
Chapitre 3.

Dfinitions et rsultats du Chapitre 1.
Cheminements suivis au Chapitre 3 (dans un contexte hilbertien).

85
86
CHAPITRE 4. ANALYSE CONVEXE OPRATOIRE
Contexte gnral
(E, ) est un espace de Banach, E son dual topologique. Les lments
de E sont nots x , mais aussi p ou s ( p car ils peuvent correspondre
des prix ou des pentes dans certains contextes dapplications, s pour
slope (= pente) en anglais). Rappelons (cf. Chapitre 1) que : dsigne
la norme (sur E ) duale de ; le dual topologique de E muni de la topologie (E , E) est E.
Pour y aller progressivement, un modle garder en tte est celui dun espace
de Hilbert (H, , ).
Lorsque nous considrons une fonction f : E R {+}, elle ne sera
pas identiquement gale + et il existera une fonction affine continue la
minorant, cest--dire : pour un certain s0 E et un certain r0 R,
f (x) s0 , x r0 pour tout x E.
(4.1)
Hors de ce contexte, point de salut !

Compltons les dfinitions du Chapitre 1 avec :
le domaine de f ,
dom f := {x E | f (x) < +}
(4.2)
lpigraphe strict de f ,
epis f := {(x, r ) E R | f (x) < r }
(4.3)
(alors que, rappelons-le, lpigraphe de f est

epi f := {(x, r ) E R | f (x) r }).
1 Fonctions convexes sur E

1.1 Dfinitions et proprits
Une fonction f : E R {+} est dite convexe (sur E) si lingalit
suivante (dite de convexit) est vrifie pour tout x, x de E et tout
]0, 1[

(4.4)
f x + (1 ) x f (x) + (1 ) f (x ).
Si lingalit au-dessus est stricte lorsque x = x (dans dom f ), on parle
de stricte convexit de f .
1. FONCTIONS CONVEXES SUR E
87
Il est vident que lingalit (4.4) na tre vrifie que pour les x et x
en lesquels f prend des valeurs finies ; bref, la dfinition de la convexit
de f revient la dfinition plus familire de la convexit de f sur le
convexe dom f de E ( f y est valeurs finies).
En fait, tout se passe bien, pour une fonction convexe, sur lintrieur de
son domaine ; les difficults, style "effets de bord", apparaissent aux points
frontires, un peu comme pour la semicontinuit infrieure (cf. page 2 au
Chapitre 1).
En chaussant nos lunettes gomtriques, voici comme se voit la convexit :
( f est convexe) (epi f est une partie convexe (de E R))
(4.5)

(4.6)
( f est convexe) epis f est une partie convexe .
La caractrisation (4.5) sert par exemple dmontrer rapidement que le
supremum dune famille quelconque de fonctions convexes est convexe :

f i : E R {+} convexe
f := sup f i est convexe .
pour tout i I
i I
(4.7)

Il suffit pour cela de se rappeler que epi f =
epi f i et que linterseci I
tion de convexes est convexe. Nous avons utilis le mme procd pour la
semicontinuit infrieure (cf. page 4 du Chapitre 1). Par suite :

f := sup f i
f i : E R {+} convexe
i I
. (4.8)
et s.c.i. pour tout i I

convexe et s.c.i.
Si f : E R {+} est convexe et si > 0, alors f est convexe.
Si f et g : E R {+} sont convexes, alors f + g est convexe.
Si f : E R {+} est convexe, alors tous les ensembles de sousniveau [ f r ] (:= {x E | f (x) r }), r R, sont convexes. Mais ceci
ne caractrise
pas les fonctions convexes (penser la fonction x R
f (x) = |x|). Les fonctions f pour lesquelles tous les ensembles de la
forme [ f r ], r R, sont convexes sont appeles quasi-convexes ; elles
sont chres aux conomistes (leurs fameuses "fonctions dutilits").
Le passage linfimum (dune famille de fonctions convexes) mrite un
commentaire. Si f et g sont convexes, h := inf( f, g) nest pas convexe en
gnral. Toutefois, on a le rsultat suivant :
Si f : E F R {+} est une fonction convexe (de (x, y) !), alors
la fonction
h : x E h(x) := inf f (x, y) (supposee > pour tout x)
y E
88
est une fonction convexe. Cest la convexit en le couple (x, y) de f qui a

permis de prserver la convexit par passage linfimum. Cette fonction h
est parfois appele fonction marginale.
La seule proprit de convexit de f induit sur elle des proprits topologiques fortes. Par exemple : Si la fonction convexe f : E R {+} est
continue en un point de lintrieur de son domaine, alors elle est continue
(et mme localement Lipschitz) en tout point de lintrieur de son domaine.
Autre exemple, li la diffrentiabilit cette fois : Si la fonction convexe f :
Rn R admet des drives partielles en tout point, alors f est diffrentiable (et mme continment diffrentiable) sur Rn .
Notation. Pour la classe des fonctions f : E R {+} qui sont
la fois convexes, s.c.i., de domaines non vides (on dit aussi propres), on
utilisera parfois la notation 0 (E).
1.2 Exemples
Fonctions indicatrices. Rappelons que la fonction indicatrice i S de S E
est dfinie par : i S (x) = 0 si x S, + sinon. De manire immdiate :
(i S est convexe) (S est convexe) .
(4.9)
Fonctions-distances et fonctions-distances signes. ( 2.2.1 du

Chapitre 2). Soit S E ferm, soit d S (resp. S ) la fonction-distance
(resp. la fonction-distance signe) associe. Alors
(d S est convexe) (S est convexe) .
( S est convexe) (S est convexe) .
(4.10)
(4.11)
Fonctions quadratiques. Soit (H, , ) un espace de Hilbert, soit A :

H H une application linaire continue auto-adjointe (cest--dire vrifiant A = A), soit b H et, enfin, soit c R. La fonction, dite
quadratique, associe ces donnes est :
f :H R
x f (x) :=
1
A x, x + b, x + c.
2
(4.12)
Alors :
( f est convexe sur H ) (A u, u 0 pour tout u H ) .
Lorsque H = Rn est muni du produit scalaire usuel et repr par la base
canonique, on parle de semidfinie positivit pour la matrice symtrique
reprsentant A.
1. FONCTIONS CONVEXES SUR E
89
Fonctions-barrires en Optimisation SDP (cf. page 70 du Chapitre 3).

Soit E = Sn (R) et f : E R {+} dfinie comme suit :

ln(det M)si M est definie positive,
f (M) :=
(4.13)
+ sinon.
Le domaine de cette fonction est lensemble (souvent not Sn++ (R)) des
matrices dfinies positives ; cest un cne convexe ouvert de E. Il se trouve
que f est strictement convexe et de classe C sur Sn++ (R) ; cest un exercice intressant faire ou refaire, avec les rsultats de calcul diffrentiel
qui vont avec :
f (M) = M 1 , i.e. D f (M)(H ) = tr(M 1 H ) pour tout H E,
D 2 f (M)(H, K ) = tr(M 1 H M 1 K ) pour tout H, K dans E.
La fonction f est ici la petite cousine matricielle de la fonction de la variable
relle familire x > 0 ln(x). Elle est appele fonction-barrire car,
dans les problmes doptimisation o lune des contraintes sur la variable
matrice M est davoir M semidfinie positive, lajout de f (M), > 0,
la fonction-objectif minimiser permet de contrler ou mme dimposer
cette contrainte. En effet : f (M) "explose" quand M 0 sapproche de
la frontire de Sn++ (R), elle joue le rle de barrire pour empcher M
den sortir.
Fonctions dappui.
Soit S une partie non vide de E (cest uniquement ce cas qui sera considr
dans ce chapitre). On dfinit
S : E R {+}
x S (x) := sup x , x.
x S
(4.14)
S est appele fonction dappui de S ; elle est videmment convexe et

positivement homogne ( S ( x) = S (x) pour tout > 0). Il sagit en
fait dune notion associe aux convexes ferms car une fonction dappui
ne sait pas faire la diffrence entre un ensemble et son enveloppe convexe
ferme.
Fonctions valeurs propres.
Pour M Sn (R), dsignons par 1 (M) 2 (M) . . . k (M)
. . . n (M) ses n valeurs propres ranges dans un ordre dcroissant ; k (M) est ainsi la k-ime plus grande valeur propre de M. Dfinissons
pour k = 1, . . . , n
(4.15)
f k := 1 + 2 + . . . + k .
90
Alors f k : Sn (R) R est une fonction convexe, une fonction dappui

mme (mais on ne dit pas "de quoi" ici). En fait, les f k sont de plus en plus
"rgulires" (mme si elles restent non diffrentiables) au fur et mesure
que k augmente. Ainsi, 1 (= la fonction plus grande valeur propre) est la
plus "chahute", alors quon finit avec f n : M f n (M) = trM qui est
une fonction linaire.
Un problme-modle de minimisation.
Soit f : E R {+} une fonction convexe, soit g : F R {+}
une fonction convexe (F est ici un autre espace de Banach), soit A
L (E, F). Un problme-modle de minimisation convexe scrit comme
suit :

Minimiser h(x) := f (x) + g(A x),
(P )
x E.
Les contraintes dans ce problme doptimisation napparaissent pas
explicitement mais elles sont caches (ou intgres) dans le fait que f
et g peuvent prendre la valeur +.
Il est clair que h est une fonction convexe sur E ; elle est propre (i.e.,
non identiquement gale +) sil existe un point x dom f tel
que A x dom g.
En traitement (mathmatique) des images, on peut avoir la situation suivante :
E et F espaces de Hilbert, z F donn (le signal reu, bruit) ; puis
(x(t)) d
f de la forme I : x I (x) :=
T
(fonction dite dentropie, associe la fonction convexe s.c.i. : R

R {+}, exemples : (u) = ln(u), u ln(u), |u|, . . .), dfinie sur un
sous-espace vectoriel L p (T, ) de E ;
g particularisee g : y
A L (E, F).
r
y z2 ;
2
Le format du problme variationnel est donc

r
Minimiser I (x) + A x z2 ,
(Pz )
2
x E.
(4.16)
2.
DEUX OPRATIONS PRSERVANT LA CONVEXIT
91
2 Deux oprations prservant la convexit

ct des oprations usuelles de lAnalyse connues pour prserver la convexit de fonctions, il y en a deux essentielles sur lesquelles on va sappesantir
quelque peu.
2.1 Passage au supremum

La premire est le passage au sup, dj voqu : Si les f i sont convexes
(resp. convexes s.c.i.) pour tout i I (ensemble quelconque dindices i),
il en est de mme de f := sup f i . Cest une construction trs gnrale, y
i I
compris dans le royaume de la convexit. Elle na pas t vue en Calcul

diffrentiel, tout bonnement parce quelle dtruit la diffrentiabilit ! Il y a
maints domaines dapplications o on est dj content de savoir minimiser f := max( f 1 , . . . , f k ), avec des f i toutes convexes et diffrentiables.
2.2 Inf-convolution
La deuxime est cousine en
Analyse convexe de la convolution (intgrale)

f (x u) g(u) dx. Ici, partir de f : E
en Analyse, ( f g)(x) =
Rn
R {+} et g : E R {+}, on dfinit linf-convole de f et g la

fonction, note f g, dfinie comme suit :
x E ( f
g)(x)
:= inf [ f (u) + g(x u)]

=
u E
inf
x1 , x2 E
x1 +x2 =x
[ f (x1 ) + g(x2 )] .
(4.17)
Lopration dinf-convolution est note de faons diverses dans la littrature : , par exemple. On dit que linf-convolution de f et g est exacte
en x E lorsque la borne infrieure est atteinte dans la dfinition (4.17). Il
existe alors x1 et x2 dans E, de somme x, tels que ( f g)(x) = f (x1 )+g(x2 ).
Voici quelques proprits qui dcoulent immdiatement de la dfinition :
dom( f
epis ( f
g)
g)
= dom f + dom g (par exemple i A i B = i A+B ) ;

= epis f + epis g (relation entre e pigraphes stricts).
92
Cela induit :
( f et g convexes) ( f g convexe) .
f g = g f (commutativite).
(4.18)
( f g) h = f (g h) (associativite).
f i 0 = f (i 0 , la fonction indicatrice de {0} , est e lement neutre).
La proprit epis ( f g) = epis f + epis g fait que linf-convolution est
parfois appele addition pigraphique.
Examinons deux situations o lopration dinf-convolution apparat, de
manire cache parfois.
En conomie. Soit x Rn reprsentant un total de biens produire. La
production est rpartir entre k units de production, chacune ayant un cot
de production associ f i :
xi biens produits par lunite de production i coute f i (xi ).
Lobjectif est le suivant : produire x, en rpartissant la production dans les
units de production, de sorte que le cot total de production f 1 (x1 ) + . . . +
f k (xk ) soit minimis. Le cot de production optimal ( atteindre) est
inf
x1 +...+xk = x
[ f 1 (x1 ) + . . . + f k (xk )] = ( f 1 f 2 . . .
f k )(x).
En Physique. On se souvient des relations liant voltage (tension) v, intensit

i et puissance p lorsquon a affaire une rsistance r :
Dans un contexte plus gnral, nous avons le schma suivant :
I est un vecteur-intensit, R Sn (R) une rsistance gnralise, R 0

(et mme R 0 en labsence de coupe-circuits). La tension V est R I ,

i1
v1
..
..
. = R . ,
vk
ik
et la puissance dissipe p est
2.
93
p = R I, I .
Quand on met deux rsistances gnralises R1 et R2 en srie, la puissance
totale dissipe est p1 + p2 = R1 I, I + R2 I, I = (R1 + R2 )I, I . Cela
correspond laddition des formes quadratiques p1 et p2 , et donc laddition
matricielle de R1 et R2 .
Supposons prsent quon mette les rsistances gnralises R1 et R2 en
parallle ; quelle serait alors la rsistance gnralise quivalente ?
Un principe (variationnel) de Maxwell indique que la rpartition de I en I1

et I2 (dans les deux branches en parallle) se fait de manire minimiser la
puissance totale dissipe R1 I1 , I1 +R2 I2 , I2 . Ainsi la puissance minimale
dissipe est
(4.19)
p = inf [R1 I1 , I1 + R2 I2 , I2 ] .
I1 +I2
On voit apparatre linf-convolution des deux formes quadratiques associes

aux puissances. Le problme doptimisation (4.19) est facile rsoudre
lorsque R1 0 et R2 0 ; cest mme un excellent exercice que nous
recommandons au lecteur-tudiant de traiter. Quoi quil en soit, le rsultat
est le suivant
(4.20)
p = R I, I avec R = (R11 + R21 )1 ,
ce qui nous rappelle la formule sur les rsistances mises en parallle, apprise
quand on tait petit : r1 = r11 + r12 .
Il est intressant de noter que linf-convolution est exacte dans (4.19) : il
existe I1 et I2 (que lon peut dailleurs expliciter) telles que
I = I1 + I2 et p = R1 I1 , I1 + R2 I2 , I2 .
La chose observer est "la relation loptimum"
R I = R1 I1 = R2 I2 ,
(4.21)
qui sinterprte comme lgalit des tensions lorsque lon suit soit la branche 1
(avec R1 ), la branche 2 (avec R2 ), soit le dispositif quivalent (avec R). Une
94
explication dans un contexte plus gnral sera donne plus loin ( 4.3, Infconvolution).
Effets rgularisants de linf-convolution
Comme la convolution (intgrale) usuelle en Analyse, linf-convolution a des
effets rgularisants. Nous en donnons quelques ides.
Soit H un espace de Hilbert, soit f 0 (H ), cest--dire convexe s.c.i. sur H
et finie en un point au moins. Nous indiquons ici deux types de rgularisation
de f , lune avec le noyau r2 2 (r > 0), lautre avec le noyau r (r > 0).
Rgularisation par convolution avec le noyau r2 2 ([M])
La fonction r2 2 a la particularit dtre convexe et de classe C sur H .
Le rsultat de linf-convolution de f avec r2 2 ,
r
2 ,
(4.22)
2
est trs agrable : fr jouit de proprits tout fait intressantes (elle est
par exemple convexe et de classe C 1 sur H ; fr (x) f (x) en tout x H
quand r +). Nous en avons fait un problme (nonc en fin de
chapitre) que nous conseillons au lecteur-tudiant de faire (aprs avoir
tudi ce chapitre).
Le fonction fr sappelle la rgularise (ou approxime) de Moreau-Yosida
de f. Elle apparat, parfois sous forme cache, dans les techniques de rgularisation dans des problmes variationnels (notamment dans le traitement
mathmatique des images), [CP] en fournit des exemples.
Pour x H , lunique lment xr minimisant u f (u) + r2 x u2
dans la dfinition mme de fr (x) se note prox f,r (x). Cette application,
dfinie sur H , appele application proximale, tire son nom du fait que,
lorsque f = i C , prox f,r nest autre que lapplication de projection sur C
(et dailleurs, i C r2 2 = r2 dC2 ). Cette construction est aussi la base
des "mthodes de type proximal" utilises dans lalgorithmique pour la
minimisation de fonctions convexes.
Rgularisation avec le noyau r ([HU1])
Avec ce noyau r , ce sont dautres qualits quon rcupre sur
fr := f
fr := f
r
.
(4.23)
Ici, fr est convexe et Lipschitz (avec constante r ) sur E, du moins pour r

assez grand. la diffrence de la fonction de (4.22), la fonction de (4.23)
"colle" f , du moins en les points x o D f (x) r . Elle "enveloppe" f
au fur et mesure que r +.
On retient de ces techniques de rgularisation par inf-convolution la mme
ide que celle qui prvalait dans la rgularisation par convolution intgrale :
2.
95
quand on ne sait pas faire avec une fonction gnrale f 0 (E), on commence par faire avec une version rgularise fr de f , et on croise les doigts
pour que tout se passe bien en passant la limite (r +).
Lopration inverse de la convolution consiste en la dconvolution dune fonction convexe par une autre ; une prsentation succincte en est faite en [HU4].
3 La transformation de Legendre-Fenchel
Aprs la transforme de Fourier et la transforme de Laplace que le lecteurtudiant a rencontres lors de sa formation, voici une nouvelle transforme
de fonction, portant le nom de W. Fenchel et A.-M. Legendre (lintervention
de ce deuxime nom sera explique un peu plus loin).
Comme cela a dj t dit en dbut de ce chapitre, ds que nous parlerons
dune fonction f : E R {+}, il sagira dune fonction non identiquement gale + et minore par une fonction affine continue :
f (x) s0 , x r0 pour tout x E,
(4.24)
pour un certain s0 E et un certain r0 R.

Pour les lments de E , parmi les notations x , p, s, nous choisissons ici s
(s pour slope).
3.1 Dfinition et premires proprits

Dfinition 4.1 La transforme de Legendre-Fenchel de f est la fonction f
dfinie sur E de la manire suivante :
s E , f (s) := sup [s, x f (x)] .
(4.25)
xE
Autres appellations pour f : conjugue de f , polaire de f .
Une premire interprtation conomique de f (s) : Supposons quun bien x

soit vendu au prix s et quil ait cot f (x) produire ; la meilleure marge en
vendant au prix s, parmi toutes les quantits x de biens pouvant tre produites,
est sup [s, x f (x)].
xE
Autre lecture de la Dfinition 4.1 :

f (s) = inf [ f (x) s, x] .
xE
(4.26)
96
Ainsi, f (s) est, au signe prs, le rsultat de la minimisation de f perturbe

par une forme linaire continue s, .
Avec les hypothses sur f faites ds le dbut, f nest pas identiquement
gale + (en effet, f (s0 ) < + pour la pente s0 de (4.24), et ne prend
jamais la valeur +). De plus, par dfinition-construction, f est toujours
une fonction convexe s.c.i. (pour la topologie (E , E)). Il suffit pour voir cela
dcrire f comme le supremum dune famille de fonctions affines continues
(sur E ) :
(4.27)
f = sup [, x f (x)] .
xE
On se rappelle quavec la transforme de Fourier F f de f , on a F f (0) =

Rn f (x) dx. Avec la transforme de Legendre-Fenchel, on a quelque chose
de similaire :
(4.28)
f (0) = inf f (x).
xE
3.2 Quelques exemples pour se familiariser avec le concept

f : R R dfinie par f (x) =
1
p
|x| p , o p > 1.
Alors, en dsignant par q le "rel conjugu de p", i.e. tel que

f (s) =
1
p
1
q
= 1,
1 q
|s| pour tout s R.
q
f : R R dfinie par f (x) = ln x si x > 0, + si x 0. Alors :

f (s) = ln(s) 1 si s < 0, + ailleurs.
f : R R dfinie par f (x) = e x . Alors :
f (s) = s ln s s si s > 0, 0 si s = 0, + si s < 0.
f : Rn R dfinie par f (x) = 21 Ax, x, o A est suppose dfinie
positive. Alors, f a la mme allure que f :
f (s) =
1 1
A s, s.
2
Soit f la fonction indicatrice de la boule-unit ferme de E, f = i B(0,1) .

Alors, f (s) = sup s, x = s .
x1
3. LA TRANSFORMATION DE LEGENDRE-FENCHEL
97
Soit K un convexe ferm dun espace de Hilbert (H, , ), soit K son
cne polaire (cf. 3.1 du Chapitre 3). Considrons f = i K . Alors :
f = iK.
Avec deux des exemples au-dessus, on voit apparatre un "jeu de
bascule" :
A A1 et K K . De l penser que ( f ) = f , il y a un pas... que
nous ne pouvons franchir pour linstant.
Ce que vient faire Legendre dans cette affaire
Supposons f : H R diffrentiable sur lespace de Hilbert H . La
dfinition mme de f (s) conduit maximiser x s, x f (x) sur H ,
donc considrer la condition dopimalit f (x) = s. Mettons-nous
dans une situation o cette quation a une et une seule solution, et ce pour
tout s H . La notation x = ( f )1 (s) a alors un sens. La transforme
de Legendre L f de f se trouve tre dfinie par
(L f )(s) = s, ( f )1 (s) f (( f )1 (s)).
(4.29)
Dans le cas o f est en outre convexe, rsoudre lquation f (x) = s

revient rsoudre le problme de la maximisation de x s, x f (x)
sur H .
Donc, (L f )(s) exprime dans (4.29) nest autre que f (s).
Il est ais dillustrer (4.29) en considrant f : x Rn f (x) =
1
2 Ax, x, avec A dfinie positive.
La transformation de Legendre-Fenchel f f apparat donc comme
une gnralisation de la transformation de Legendre f L f telle que
dfinie en (4.29).
Soit E = L p ( , A, ) avec 1 < p < +, de sorte que E =
L q ( , A, ), o 1p + q1 = 1. Lorsque J est dfinie sur E par
1
u(x) p d(x),
J (u) =
p
il se trouve que J sexprime sur E par
1
v(x)q d(x).
J (v) =
q
Plus gnralement, sous des hypothses comme " f (x, ) est convexe s.c.i.
pour tout x", plus des hypothses lgres(mais techniques) sur f , la "fonctionnelle intgrale" u L p J (u) = f (x, u(x))
d(x) a pour transforme de Legendre-Fenchel la fonction v L p f (x, v(x)) d(x)
[la transformation passe travers lintgrale en quelque sorte].
98
3.3 Lingalit de Fenchel

Lingalit suivante vient immdiatement de la dfinition-construction
de f (cf. Dfinition 4.1) :
Pour tout x E et s E , s, x f (x) + f (s).
(4.30)
Bien qulmentaire, cette ingalit est source de bien dingalits intressantes de lAnalyse. titre de premier exemple, avec f : x Rn f (x) =
1
2 Ax, x (A dfinie positive), elle conduit :
Pour tout x, y dans Rn , s, x

1
Ax, x + A1 s, s .
2
Exercice (intressant et facile)

Soit (H, , ) un espace de Hilbert. Montrer que la fonction f = 21 2 est
la seule solution de lquation f = f .
Il suffit pour cela de combiner lingalit de Fenchel avec celle qui reste
la plus importante en Analyse hilbertienne : lingalit de Cauchy-Schwarz.
Le rsultat annonc nest pas sans rappeler que, pour ce qui concerne la
transforme de Fourier F f de fonctions f de la variable relle, la seule
2
solution de lquation F f = f est la fonction x f (x) = ex .
3.4 La biconjugaison
Ayant dfini f sur E , il est tentant de dfinir ( f ) (note f ) sur E .
Nous ne considrerons que la restriction de f E, en gardant la mme
notation. On peut penser quon va retomber sur nos pieds, cest--dire
avoir f = f , ce qui est sans espoir en gnral puisquune transforme
de Legendre-Fenchel est... toujours convexe. Le rsultat qui suit, donn ici
sans dmonstration, est fondamental dans ce contexte de biconjugaison.
Thorme 4.2 Soit f : E R {+} non identiquement gale + et
minore par une fonction affine continue. Alors :
(i) f f .
(ii) Si f est de plus convexe, alors f (x) = f (x) si et seulement si f est
s.c.i. en x . En particulier :

f = f ( f est convexe et s.c.i. sur E) .
3. LA TRANSFORMATION DE LEGENDRE-FENCHEL
99
(iii) En rgle gnrale, f est la plus grande fonction convexe s.c.i. minorant f , celle dont lpigraphe est co (epi f ) (laquelle fonction est
note co f ). En clair :
f = co f.
Si H est un espace de Hilbert, la transformation () est une involution

sur 0 (H ) :
()
0 (H ).
0 (H )
()
Cette involution se manifeste dans les deux exemples de "jeu de bascule"

cits au 3.2.
Nous ntudierons pas davantage ici cette opration de "convexification ferme" dune fonction car elle fera lobjet dune attention particulire au 1
du Chapitre 5.
3.5 Quelques rgles de calcul typiques

Les fonctions ingrdients de base, qui on appliquera une opration dAnalyse (et donc une rgle de calcul sur les transformes de Legendre-Fenchel
correspondantes) seront supposes convexes et s.c.i. et non identiquement
gale +, mme si a nest pas toujours ncessaire pour la validit de la
rgle de calcul.
(R1 )
(4.31)
( f g) = f + g .
(R2 )
( f + g) = f g
(4.32)
... pas tout fait. Pour que (4.32) soit assure, il faut une condition liant
f et g. Il y a une multitude dexemples de telles conditions, toutes les unes
plus fines (et lgantes) que les autres. Nous nous contentons ici dune
seule : il existe un point en lequel f et g sont finies et f est continue.
Ainsi, quand tout se passe bien, les oprations "+" et " " sont duales lune
de lautre.
(R3 )

inf f i
iI
= sup f i .
iI
(4.33)
100
(R4 ) La transformation () ne sait pas discerner tout ce qui est entre f

et co f ; cest--dire :

(4.34)
(co f g f ) g = f .
(R5 )

sup f i

= co inf f i
iI
iI
Pour terminer ce paragraphe, signalons un rsultat trs rcent qui indique

que la transformation de Legendre-Fenchel est, peu de choses prs, la seule
involution de 0 (Rn ) qui inverse lordre entre fonctions.
Thorme 4.3 ([AM])
Soit T : 0 (Rn ) 0 (Rn ) une transformation
vrifiant :
(i) T T = T
et
(ii)
( f g) (T f T g) .
Alors, T est essentiellement la transformation de Legendre-Fenchel, cest-dire : il existe A L (Rn ) inversible, s0 Rn et r0 R tels que
(T f )(x) = f (A x + s0 ) + s0 , x + r0 pour tout x Rn .
4 Le sous-diffrentiel dune fonction

4.1 Dfinition et premiers exemples
Dfinition 4.4 Soit f : E R {+} et x un point en lequel f est finie
(cest--dire x dom f ). On dit que s E est un sous-gradient de f en x
lorsque
f (y) f (x) + s, y x pour tout y E.
(4.35)
Lensemble des sous-gradients de f en x est appel le sous-diffrentiel de

f en x et est not f (x).
La Dfinition 4.4 exprime que la fonction affine continue

y s, y + f (x) s, x,
de pente s, minore f sur E et concide avec elle en x. Autre manire de dire
les choses : s est un sous-gradient de f en x si, et seulement si, x est un
minimiseur de la fonction perturbe y f (y) s, y sur E.
4. LE SOUS-DIFFRENTIEL DUNE FONCTION
101
Les appellations sous-gradient ou sous-diffrentiel doivent faire penser que

ces concepts ont quelque chose voir avec les objets du Calcul diffrentiel
mais quils interviennent "par dessous les fonctions".
Si x
/ dom f , on convient de poser f (x) = . Ainsi, nous avons dfini une
multiapplication
f : E E .
Le graphisme peut surprendre ici car cest celui des drives partielles de
fonctions de plusieurs variables. Mais il est entr dans les habitudes et les
confusions sont facilement vites.
A priori, le sous-diffrentiel est dfini pour nimporte quelle fonction, mais
nous verrons quil fonctionne bien essentiellement dans le cas les fonctions
convexes. Des gnralisations du concept seront abordes au Chapitre 6.
Donnons quelques exemples.
Soit f : X R f (x) = |x|. Alors,
f (x) = {1} si x < 0 , {+1} si x > 0 et [1, +1] si x = 0.
En parallle de cette fonction, considrons g = i [1,+1] (la fonction indicatrice de [1, +1]). Alors,
g(x) = {0} si 1 < x < +1 , R si x = 1 , R+ si x = +1.
Les graphes de ces deux multiapplications sous-diffrentiels, f et g,
tracs ci-dessous, sont garder lesprit car ils sont dans une relation
particulire.
Puisque f est autorise prendre la valeur +, profitons-en. Soit S une
partie non vide de E, soit x S. Alors, de par la Dfinition 4.4,
Fig. 4.1
102
s (i S )(x) s, y x 0 pour tout y S.
(4.36)
Lensemble (i S )(x) est appel cne normal S en x, il est dsormais not N (S, x) (ou N S (x)). La signification gomtrique de lingalit prsente dans (4.36) est claire : s fait un "angle obtus" avec tout
vecteur y x sappuyant sur y S. Quelques petits dessins dans le plan
s.v.p. !
Soit (H, , ) un espace de Hilbert, soit S une partie ferme non vide de H .
Considrons nouveau la fameuse fonction S aborde au Chapitre 2 (cf.
page 43) :

1
x2 d S2 (x) .
S : x H S =
2
La fonction S est toujours convexe et un exercice pas difficile et
intressant consiste dmontrer linclusion gnrale suivante :
co PS (x) S (x) pour tout x H.
(4.37)
Dans le cas plus spcifique o S est convexe, il a t observ (Proposition 3.2 du Chapitre 3) que S est diffrentiable sur H , avec
S (x) = { S (x)} = { p S (x)} pour tout x H.
(4.38)
4.2 Proprits basiques du sous-diffrentiel

Lien gomtrique avec lpigraphe de f . On a :

s f (x) (s, 1) E R est normal a` epi f

en (x, f (x)) E R, i.e. (s, 1) Nepi f (x, f (x)) .
Lien avec la transformation de Legendre-Fenchel ( 3). On a :

s f (x) f (s) + f (x) = s, x

f (s) + f (x) s, x .
(4.39)
En clair, il y a galit dans lingalit de Fenchel (cf. (4.30)) exactement

lorsque s f (x).
Pourvu quil y ait concidence des valeurs en x, la sous-diffrentiation ne
sait pas discerner tout ce qui est entre f et co f :

co f g f et f (x) = g(x) f (x) = g(x) .
(4.40)
103
Si f (x) = , alors co f et f concident en x.
(4.41)
Si s f (x), alors x f (s).
(4.42)
Supposons que lespace sous-jacent soit un espace de Hilbert (H, , ).

Alors, 0 = s f (x) est toujours une "direction de monte", cest--dire :
f (x + t s) f (x) + t s2 > f (x) pour tout t > 0.
(4.43)
Mais s nest pas toujours une "direction de descente" ; cela fait une
(grande) diffrence avec le cas des fonctions diffrentiables.
Donnons prsent des proprits plus qualitatives, dont les dmonstrations
sont moins immdiates que celles des proprits nonces au-dessus.
On a :
f (x) est une partie convexe (E , E)-fermee (de E ).
(4.44)
Si f : E R {+} est convexe s.c.i. et finie en un point ( f 0 (E)

en bref), alors on a le "jeu de bascule" suivant :

(4.45)
s f (x) x f (s) .
Gomtriquement, cela signifie que les graphes des multiapplications f
et f sont "inverses" lun de lautre :
(x, s) graphe de f (s, x) graphe de f .
Cest le moment de revoir lexemple qui a conduit la Figure 4.1 : la
fonction g ny est autre que f .
Si f est Gteaux-diffrentiable en x, alors de deux choses lune : soit f (x)
est vide, soit f (x) = {DG f (x)} (dans ce dernier cas, co f concide
avec f en x, y est Gteaux-diffrentiable et DG (co f )(x) = DG f (x)).
Si f est convexe et x dom f , la limite suivante existe pour tout d E,
f (x + t d) f (x)
f (x, d) = lim
( R {, +})
+
t
t0

f (x + t d) f (x)
,
(4.46)
= inf
t>0
t
avec
s f (x) s, d f (x, d) pour tout d E.
(4.47)
104
Cette limite f (x, d) sappelle la drive directionnelle de f en x dans la

direction d.
Si f est convexe et continue en x ( dom f ), alors f (x) est une partie
convexe (E , E)-compacte non vide (de E ). De plus, f (x, ) est la
fonction dappui de f (x) (cf. page 89) :
f (x, d) = sup s, d pour tout d E.
s f (x)
(4.48)
La multiapplication f : E E est monotone (croissante), cest--dire

vrifie1 :

s1 f (x1 ) et s2 f (x2 ) s1 s2 , x1 x2 0 . (4.49)
Cela rsulte immdiatement de lingalit (4.35) crite avec x = x1
et y = x2 , puis avec x = x2 et y = x1 . En fait, on a mieux, ce que
nous explicitons succinctement pour f 0 (Rn ).
Soit x1 , . . . , xk k points, s1 , . . . , sk k sous-gradients de f , avec si
f (xi ) pour tout i = 1, . . . , k. Alors, lingalit qui suit vient facilement
de (4.49) :
k

si , xi+1 xi 0,
(4.50)
i=1
en convenant que xk+1 = x1 (on reboucle sur le point de dpart, en un

"cycle" x1 , , xk ). On dit que la multiapplication f est cycliquement
monotone.
Fig. 4.2
La multiapplication dont le graphe est reprsent la Figure 4.2 est

cycliquement monotone. Mais on peut la "complter", i.e., "remplir les
sauts", pour en faire le graphe dun sous-diffrentiel.
1 Lorsque lingalit est dans lautre sens, s s , x x 0, on parle de multiapplication
1
2 1
2
monotone dcroissante ou, plutt, dissipative.
105
La multiapplication f se trouve tre maximale, au sens suivant : son

graphe ne peut tre strictement contenu dans le graphe dune autre multiapplication monotone. Plus intressante est la rciproque, et donc la
caractrisation que voici, due R.T. Rockafellar (cf. [R]) : une multiapplication G : Rn Rn est le graphe du sous-diffrentiel dune
fonction f 0 (Rn ) si, et seulement si, elle est cycliquement monotone
et maximale.
Lorsque f 0 (Rn ), le graphe de f : Rn Rn est vritablement
"une pelure doignon". Ce que nous allons prciser sapplique notamment aux gradients f : Rn Rn de fonctions convexes diffrentiables.
Non seulement f (x) est rduit un singleton pour presque tout x (en
tous les x o f est diffrentiable), mais f jouit dune "diffrentiabilit"
presque partout.
Nous disons que f est diffrentiable en x0 si f est diffrentiable en x0
et sil existe une A Mn (R) telle que
f (x) f (x0 ) A(x x0 ) = o (x x0 ),
(4.51)
cest--dire :
> 0, > 0 tel que
x verifiant x x0 , s f (x), on ait
s f (x0 ) A(x x0 ) x x0 .
Dailleurs, A se trouve tre alors symtrique semidfinie positive. Le
rsultat suivant, d F. Mignot (1976), prcise ce que nous annoncions :
La multiapplication f est differentiable
presque partout.
(4.52)
Dun point de vue gomtrique, le graphe de f peut tre vu, au voisinage

de chacun de ses points, comme le graphe dune fonction lipschitzienne.
4.3 Quelques rgles de calcul typiques

Comme pour les rgles de calcul basiques concernant les transformes de
Legendre-Fenchel (cf. 3.5), nous supposons que les fonctions ingrdients de
base sont convexes s.c.i. et non identiquement gales +, mme si a nest
pas toujours impratif pour la validit de la rgle de calcul.
Addition
(S1 )
( f + g)(x) = f (x) + g(x)
(4.53)
106
... pas tout fait. Pour assurer (4.53), il faut une condition liant f et g. Nous
donnons ici un exemple de telle condition : il existe un point x en lequel f
et g sont finies et f est continue.
Attention (pige dans lequel pourrait tomber un lecteur-tudiant) ! Ce nest
pas en ce point x que la rgle de calcul (4.53) est (seulement) valable mais
bien en tout point x (o f et g sont toutes les deux finies, car ailleurs la
formule (4.53) est sans intrt).
Ainsi, si f 0 (E) est finie et continue en un point du convexe ferm C
de E,
( f + i C )(x) = f (x) + (i C )(x)
(4.54)
= f (x) + N (C, x) en tout point x C dom f.
Post-composition par une application linaire continue
Considrons la situation suivante :
Alors :
(S2 )
( f A)(x) = A ( f (Ax))
(4.55)
... pas tout fait. Pour assurer (4.55), il faut une condition liant f et A. Il y en
a une multitude, en voici une : il existe un point y Im A en lequel f est finie
et continue. Moyennant quoi la formule (4.55) est valide pour tout x E.
La formule (4.55) tait attendue car cest celle connue dans le calcul diffrentiel usuel. En voici deux autres, plus spcifiques au contexte dans lequel
nous voluons dans ce chapitre.
Inf-convolution
Soit x E. On suppose que linf-convolution de f et g est exacte en x,
cest--dire quil existe x1 et x2 dans E, de somme x, tels que ( f g)(x) =
f (x1 ) + g(x2 ). Alors,
(S3 )
( f
g)(x)
= f (x1 ) g(x2 ).
(4.56)
Faisons-en la dmonstration, car elle est typique de ce quon peut faire en

pareille situation.
Daprs la caractrisation (4.39),
s ( f
g)(x)
(f
g) (s)
+(f
g)(x)
s, x = 0.
(4.57)
Or, ( f g) (s) = f (s) + g (s) (voir (R1 ) dans 3.5) et ( f g)(x) =

f (x1 ) + g(x2 ). En dcouplant s, x en s, x1 + s, x2 , la relation dans le
membre de droite de (4.57) scrit

f (s) + f (x1 ) s, x1 + g (s) + g(x2 ) s, x2 = 0.
107
(4.58)
Chacune des deux expressions entre crochets est 0 (cest lingalit (4.30)
de Fenchel) ; donc lgalit de (4.58) ne peut se produire que si, et seulement
si, on a simultanment
f (s) + f (x1 ) s, x1 = 0
et g (s) + g(x2 ) s, x2 = 0.
Et, faisant appel nouveau la caractrisation (4.39), ce qui est au-dessus
dit exactement que s f (x1 ) et s g(x2 ).
Revenons rapidement sur le deuxime exemple de la page 93 (rsistances gnralises mises en parallle). La "relation loptimum" (4.21) nest autre que
p (I ) = p ( I1 ) = p ( I2 ),
illustration de la rgle (S3 ).
Une autre consquence de la rgle (S3 ) est que si g est (convexe et) diffrentiable, cest--dire si g(x2 ) = {Dg(x2 )}, alors la convole de f (convexe)
avec g se trouve tre (convexe et) diffrentiable. Cest justement cet effet
rgularisant par convolution avec la fonction (convexe) diffrentiable r2 2
quon utilise dans lapproximation-rgularisation de Moreau-Yosida (voir
Problme en fin de chapitre).
Passage au supremum
Pouvoir exprimer (sup f i )(x) en fonction de f i (x) est un problme difficile,
iI
auquel ont contribu beaucoup dauteurs. Les difficults viennent du fait

que I peut tre un ensemble infini dindices, que les f i peuvent prendre la
valeur +, et quil faut contrler la dpendance de f i (x) comme fonction
de i. Nous nonons ici un seul rsultat, dans un contexte simplifi certes,
mais illustrant bien la construction du sous-diffrentiel dans le passage au sup
dune famille de fonctions convexes.
Soit f 1 , . . . , f k : E R des fonctions convexes continues sur E, soit f :=
max( f 1 , . . . , f k ). Alors,
(S4 )
f (x) = co { f i (x) | i I (x)},
(4.59)
o I (x) = {i | f i (x) = f (x)}. Bref, on collecte et on convexifie lensemble

des sous-diffrentiels f i (x), "l o a se touche en x" (lorsque f i (x) =
f (x)).
Les rgles de calcul sur la somme et sur le sup dune famille de fonctions
(convexes) sont assurment les plus importantes.
108
4.4 Sur le besoin dun agrandissement de f

La Dfinition 4.4 de f (x) apparat parfois trop contraignante, aussi bien dans
des considrations thoriques qualgorithmiques. On est amen proposer
un agrandissement de f "par viscosit".
Dfinition 4.5 Soit f 0 (E), x un point en lequel f est finie, et > 0.
On dit que s est un -sous-gradient de f en x lorsque
f (y) f (x) + s, y x pour tout y E.
(4.60)
Lensemble des -sous-gradients de f en x est appel l -sous-diffrentiel

de f en x et est not f (x).
Avoir juste modifi la dfinition de f (x) par une perturbation par > 0 a
eu un effet "robustifiant" ; f (x) est par exemple une notion plus globale
que f (x) (il suffit de connatre f 0 (E) dans un voisinage de x pour
accder f (x), alors que ce nest pas le cas pour f (x)).
Une illustration est propose en exercice (des conditions doptimalit globale
dans un problme doptimisation non convexe).
Dans un contexte algorithmique, ce quoi on a accs aprs calculs (via une
bote noire) en xk est lvaluation de f en xk et un sous-gradient ou k -sousgradient de f en xk . Aprs, il faut faire avec...
Ces aspects sont traits, entre autres, dans le Vol. 2 de [HUL].
5 Un exemple dutilisation du sous-diffrentiel : les conditions

ncessaires et suffisantes doptimalit dans un problme
doptimisation convexe avec contraintes
Considrons le problme de minimisation convexe avec contraintes suivant :

Minimiser f (x)
(P )
x C,
o f 0 (E) et C est une partie convexe ferme de E. La seule hypothse
que nous allons faire est : il existe x C en lequel f est finie et continue. Cela
permet dutiliser la rgle de calcul dcrite en (4.54) et dobtenir facilement
le thorme que voici.
5. UN EXEMPLE DUTILISATION DU SOUS-DIFFRENTIEL :
109
Thorme 4.6 Les assertions suivantes, relatives x C , sont quivalentes :

(i) x est un minimiseur (global) de f sur C .
(ii) x est un minimiseur local de f sur C .
(iii) L oppos du sous-diffrentiel et le cne normal sintersectent en x :
f (x)
N (C, x)
= .
(4.61)
La situation et t bien diffrente si on stait intress au problme de la

maximisation de la fonction f : E R (suppose convexe continue sur E)
sur le convexe ferm C. L, une condition ncessaire doptimalit locale,
parallle celle de (4.61), est
f (x)
N (C, x),
(4.62)
mais on est loin, et bien loin, dune caractrisation de x maximiseur (global)

de f sur C !
Le problme doptimisation (P ) sera repris, dans un contexte non convexe
cette fois, au 1.3 du Chapitre 6.
Retenons de ce chapitre les deux objets essentiels que sont f et f .
Exercices
Exercice 1 (Fonctions de valeurs propres)

x 0
1) Soit M(x) =
, x R. On pose
0 x
f (x) := la plus grande valeur propre de M(x).
(4.63)
Calculer f (x) et analyser sa non-diffrentiabilit (en x) la lumire des

valeurs propres de M(x).

2) Soit x Rd M(x) = ai j (x) Sn (R), o les ai j sont toutes des
fonctions affines de x. On dfinit f (x) comme en (4.63).
a) Montrer que f est convexe.
b) Comment calculer le sous-diffrentiel de f en x ?
110
Exercice 2 Soit (H, , ) un espace de Hilbert, soit S une partie ferme non
vide de H , soit S : H R la fonction convexe continue sur H dfinie
par S (x) = 21 x2 d S2 (x) .
Calculer la transforme de Legendre-Fenchel S de S .
Exercice 3 Soit H = Sn (R) structur en espace euclidien grce au produit
scalaire
U, V ! := tr(U V ). Soit K le cne convexe ferm des matrices
de Sn (R) qui sont semidfinies positives.
a) Rappeler ce quest le cne polaire K de K .
b) Soit A une matrice semidfinie positive (A K ). Montrer
N K (A) = {M semidefinie negative | M A = 0}
= {M semidefinie negative | Im A Ker M}.
(4.64)
Autrement dit (dans (4.64)) : la condition tr(AM) = 0 quivaut la

nullit du produit matriciel AM.
Hint. Un petit dessin dans le plan ou dans lespace peut aider soutenir
lintuition et guider les dmonstrations.
Exercice 4 (Conditions doptimalit globale) ([HU3])

Soit f : E R {+} de la forme suivante :
f = g h, avec g 0 (E) et h : E R convexe continue sur E.
On considre le problme de la minimisation globale de f sur E.
1) Montrer que x est un minimiseur global de f sur E si, et seulement si,
g(x)
pour tout > 0.
h(x)
(4.65)
2) On considre le problme de la maximisation de la fonction convexe

continue h : E R sur un convexe ferm C de E.
a) Reformuler le problme ci-dessus comme celui de la minimisation
sur E dune fonction f = g h, avec g 0 (E) quil sagit de
dterminer.
b) En dduire que x C est un maximiseur global de h sur C si, et
seulement si,
h(x)
N (C, x)
pour tout > 0,
(4.66)
EXERCICES
111
o
:= { d E | d, y x
pour tout y C }
N (C, x)
(Attention ! N (C, x)
nest plus un cne ; cest un "agrandissement
par viscosit" du cne normal N (C, x)).
Exercice 5 (Utilisation du principe variationnel dEkeland)

Soit (E, ) un espace de Banach et f 0 (E). On dsigne par f (x)
l-sous-diffrentiel de f en x (cf. 4.4).
1) a) Exprimer f (x) laide de la transforme de Legendre-Fenchel f
de f .
b) Sachant que f (x) = f (x) = inf ( f (s) s, x), montrer
sX
que l-sous-diffrentiel est non vide ds que > 0.

2) Soient fixs x0 dom f , > 0 et s0 f (x0 ). Montrer quil existe x
dom f , s f (x ) (du coup non vide) tels que :
(i) x x0 ;
(ii) s s0 .
Mthodologie prconise :
Appliquer le principe variationnel dEkeland la fonction g(x) :=
f (x) s0 , x avec des seuils appropris (justifier lapplicabilit de ce
principe dans le contexte prsent).
Appliquer ensuite la rgle de calcul du sous-diffrentiel de la somme
de fonctions convexes une somme ad hoc (justifier lapplicabilit de
cette rgle).
3) Dduire de ce qui prcde le rsultat dapproximation-densit suivant :
Pour tout x dom f , il existe une suite (xn ) de dom f telle que
f (xn ) = pour tout n,
xn x quand n +.
(4.67)
On aura ainsi dmontr que {x X | f (x) = } est dense dans dom f .

4) Application un thorme dexistence.
On suppose que f est borne
On prend (pour simplifier) X = Rn .
n
infrieurement sur R et que R( f ) =
f (x) est un ferm (de Rn ).
xRn
Montrer quil existe alors des points x minimisant f sur Rn .

Hint. Appliquer f le rsultat de densit prcdemment dmontr,
aprs avoir observ que R( f ) = {s Rn | f (s) = }.
112
Exercice 6 (Problme : Approximation de Moreau-Yosida)

Soit (H, , ) un espace de Hilbert et f : E R {+} une fonction
convexe, s.c.i., finie en au moins un point. Pour tout r > 0, on considre la
fonction fr dfinie sur H par :

r
2
x
x H, fr (x) := inf f (u) +
u .
(4.68)
uH
2
1) a) Vrifier que la fonction u H f (u) + r2 x u2 est s.c.i. sur H
et tend vers + quand u +.
En dduire que linfimum est atteint dans la dfintion (4.68) de fr (x).
Montrer que cet infimum est atteint en un point unique de H , point
que lon notera xr dans toute la suite.
b) crire fr sous la forme dun inf-convolution de deux fonctions.
Vrifier que cette inf-convolution est exacte (en tout x H ).
En dduire que fr est diffrentiable au sens de Gteaux en tout x H
et que :
fr (x) = r (x xr ),
r (x xr ) f (xr ).
(4.69)
(4.70)
c) En crivant les conditions doptimalit pour le problme de minimisation dfinissant fr (x) dans (4.68), montrer que
1
f est une multiapplication surjective de H dans H ;
r

1
1
x H, I + f
(x) = xr
(4.71)
r
I+
(I dsigne ici lapplication identit de H dans H ).

2) Exemples. Dterminer fr (x) et xr pour tout x H dans les trois cas
suivants :
(a) f est une forme affine continue sur H , i.e.,
u H f (u) = x , u + (où x H et R).
(b) f est lindicatrice i C dun convexe ferm non vide C de H .
(c) f : u H f (u) = 21 Au, u, o A : H H est un oprateur
linaire continu auto-adjoint (A = A).
(3) Montrer que xr peut tre caractris par lune ou lautre des conditions
suivantes :
EXERCICES
113
f (u) f (xr ) + r xr x, u xr 0 pour tout u H ; (4.72)

f (u) f (xr ) + r u x, u xr 0 pour tout u H.
Quexpriment ces conditions dans le cas (b) de la question prcdente ?
(4) a) Montrer que lapplication x xr est monotone (croissante) et lipschitzienne de constante 1.
b) Montrer que lapplication x fr (x) = r (x xr ) est lipschitzienne de constante r1 .
c) En utilisant lingalit
fr (x) fr (y) fr (y), x y = r y yr , x y,
montrer
0 fr (y) fr (x) r x xr , y x r x y2 .
(4.73)
En dduire que r (x xr ) est en fait le gradient de Frchet de fr en x.

5) a) On suppose que f est borne infrieurement sur H . Indiquer pourquoi
il en est de mme de fr .
b) Quelle est la conjugue de la fonction u H r2 u2 ?
En dduire lexpression de la conjugue fr de fr .
Comparer alors inf f (x) et inf fr (x).
xH
xH
6) a) Montrer que pour tout x H

f (xr ) fr (x) f (x).
(4.74)
b) tablir lquivalence des assertions suivantes :

(i) x minimise f sur H ;
(ii) x minimise fr sur H ;
(iii) x = xr ;
(iv) f (x) = f (xr ) ;
(v) f (x) = fr (x).
7) Lobjet de cette question est ltude du comportement de f (xr ) et xr
quand r +.
a) Soit x dom f . Montrer que xr x (convergence forte) quand r
+.
En dduire que {x H | f (x) = } est dense dans dom f .
En dduire aussi que fr (x) f (x) quand r +.
114
b) On suppose que f (x) = +, cest--dire que x

/ dom f . Montrer
que fr (x) + quand r +.
[ Indication. On raisonnera par labsurde en montrant que lhypothse sup fr (x) < + conduit une contradiction. ]
r >0
8) Un algorithme de minimisation de f
On suppose que [ f r ] est faiblement compact pour tout r R.
a) Montrer que f est borne infrieurement sur H et quil existe x H
tel que f (x)
= inf f (x).

xH

On pose S := x H f (x) = inf f (x) .
xH
b) Indiquer rapidement pourquoi, en plus de ne pas tre vide, S est

convexe, ferm et born.
c) On construit une suite (xn ) de H de la manire suivante :
x0 H ;
n 1, xn+1 = (I + f )1 (xn ),
cest--dire xn+1 est lunique point minimisant u H f (u) +
1
2
2 x n u sur H .
Montrer que la suite ( f (xn ))n est dcroissante.
Montrer que la suite (xn ) est borne et que lim xn+1 xn = 0.
n+
En dduire que f (xn ) inf f (x) quand n +.

xH
Exercice 7 (Thorme de dcomposition de Moreau)

Soit (H, , ) un espace de Hilbert.
1) Thorme de dcomposition (version directe)
Soit 0 (H ). Montrer que
1
1
1
2 + 2 = 2 .
2
2
2
(4.75)
Quexprime ce rsultat lorsque est lindicatrice dun cne convexe

ferm K ?
2) Thorme de dcomposition (version rciproque) (Plus difficile, [HU2])
Soit g et h deux fonctions convexes sur H telles que
g+h =
1
2 .
2
(4.76)
EXERCICES
115
Montrer quil existe 0 (H ), unique la conjugaison prs (cest-dire, si ce nest pas , cest ), telle que
g =
1
1
2 et h = 2 .
2
2
(4.77)
Indications.
Pour (4.75), on utilisera les conditions doptimalit caractrisant la solution du problme doptimisation dfinissant ( 21 2 )(x), puis celui
dfinissant ( 21 2 )(x).
Pour (4.77), on considrera , la "dconvole de g par 21 2 ",

i.e., (x) := sup g(x + u) 21 u2 .
uH
Exercice 8 (Un schma de dualisation en optimisation convexe)

Soit E un espace de Banach, f et g sont deux fonctions de 0 (E). On suppose
quil existe un point en lequel f et g sont finies et f est continue.
On considre le problme de minimisation convexe suivant :

Minimiser [ f (x) + g(x)]
(P )
x E.
On dsigne par la valeur optimale dans (P ) (on suppose finie).
1) Vrifier quavec les hypothses faites,

( f + g) (0) = f g (0).
2) En dduire que

= f g (0).
(4.78)
(4.79)
3) On considre le problme de maximisation concave suivant :

Maximiser f (s) g (s)
(D)
s E .
On dsigne par la valeur optimale dans (D).
Dduire de ce qui prcde :
= .
(4.80)
116
Rfrences
[A] D. Az. lments danalyse convexe. ditions Ellipses, Paris, 1997.
[ET] I. Ekeland and R. Temam. Convex analysis and variational problems.
Reprinted by SIAM Publications, Classics in, Applied Mathematics,
28, 1999.
[HU1] J.-B. Hiriart-Urruty. "Lipschitz r-continuity of the approximate subdifferential of a convex function". Math. Scan. 47 (1980), p. 123134.
[HUL] J.-B. Hiriart-Urruty and C. Lemarchal. Convex analysis and minimization algorithms. Grundlehren der mathematischen Wissenschaften,
Vol. 305 and 306, Springer Verlag, Berlin Heidelberg, 1993. Second
printing in 1996.
[HU2] J.-B. Hiriart-Urruty and Ph. Plazanet. "Moreaus decomposition revisited". Annales de lInstitut Henri Poincar : Analyse non linaire,
supplment au Vol. 6 (1989), p. 325338.
[HU3] J.-B. Hiriart-Urruty. "From convex optimization to nonconvex optimization. Part I : Necessary and sufficient conditions for global optimality". Nonsmooth optimization and related topics, Ettore Majorana
International Science Series, 43 (1989), Plenum Press, p. 219239.
[HU4] J.-B. Hiriart-Urruty. "The deconvolution operation in convex analysis : an introduction". Cybernetics and systems analysis, 4 (1994), p.
97104.
[R] R.T. Rockafellar. Convex Analysis. Princeton University Press, 1970.
[Z] C. Zalinescu. Convex Analysis in General Vector Spaces. World Scientific, Singapore, 2002.
[M] J.-J. Moreau. "Proximit et dualit dans un espace hilbertien". Bull. Soc.
Math. France, 93 (1965), p. 273299.
[CP] P. L. Combettes and J.-C. Pesquet. "Proximal thresholding algorithm
for minimization over orthonormal bases". SIAM J. Optimization Vol.
18, 4 (2007), p. 13511376.
[AM] S. Artstein-Avidan and V. Milman. "The concept of duality in convex
analysis, and the characterization of the Legendre transform". Annals
of Mathematics, 169 (2009), p. 661674.
Chapitre 5
QUELQUES SCHMAS DE DUALISATION

DANS DES PROBLMES DOPTIMISATION
NON CONVEXES
"Dire que la plupart des fonctions sont non-convexes est

semblable dire que la plupart des animaux de la jungle sont
des non-lphants." S. Ulam (1909-1984)
"In the occupation with mathematical problems, a more
important role than generalization is played I believe by
specialization." K. Popper (1984)
Quand on a traiter dun problme doptimisation non convexe, mais qui

a un peu de structure, il est possible de le "dualiser" dune manire approprie. Pour ce faire, on fait appel des rsultats et techniques qui, eux,
sont du monde de loptimisation convexe. Dans ce chapitre, nous prsentons
quelques schmas de dualisation de problmes non convexes mais structurs.
Il sagit de constructions qui ont fait leurs preuves, et bien tablies prsent.
Techniques de lAnalyse convexe (Chapitre 4), notamment les rgles de
calcul sur la transforme de Legendre- Fenchel et le sous-diffrentiel.
Ide gnrale
tant donn un problme doptimisation (P ), on lui associe, par des
mthodes de construction dfinir, un autre problme doptimisation (D ),
qui sera appel "dual" ou "adjoint" (ou encore autre appellation), possdant
les caractristiques suivantes :
(D ) est a priori plus facile traiter que le problme originel (P ).
La rsolution de (D ) (i.e. sa valeur optimale, ses solutions) aident la
rsolution de (P ) (thoriquement comme numriquement).
(Si possible) Il y a des rgles de correspondance prcises entre les
solutions (ou autres lments dintrt comme les points critiques) de (P )
et de (D ).
117
118
CHAPITRE 5
DUALISATION, CAS NON CONVEXES
Si lon sen tient un problme (P ) gnral, la construction dun problme

dual (D ) peut rpondre partiellement ces questions, mais si lon veut que
les schmas de dualisation "fonctionnent" vraiment, il faut que (P ) ait au
dpart une certaine structure et que la dualisation soit adapte cette structure.
Nous verrons cela dans au moins deux situations : le modle "diffrence de
fonctions convexes" et le modle "convexe + quadratique". Mais avant cela,
nous commenons par la forme la plus brutale pour sattaquer (P ) : sa
convexification pure et simple.
1 Modle 1 : la relaxation convexe

Le contexte de travail ici est le suivant :
E est un espace de Banach ; f : E R {+} est propre (cest--dire
non identiquement gale +), et borne infrieurement par une fonction
affine continue.
Lespace dual E est muni dune topologie telle que le couplage (E, E ) est
bien en place pour faire oprer la transformation de Legendre-Fenchel. En
particulier, la biconjugue f (= ( f ) ) oprera sur E (et non sur E ).
1.1 Lopration de "convexification ferme" dune fonction

Lopration qui consiste passer de f ce qui sappelle son enveloppe
convexe ferme co f : E R {+} est bien complique mais en mme
temps fascinante. Il y a au moins deux moyens de construire co f :
La "construction interne" : considrer toutes les combinaisons convexes
dlments de epi f , de sorte que co (epi f ) est construit, et ensuite fermer co (epi f ) ; lensemble co (epi f ) se trouve tre lpigraphe dune fonction, cest prcisment celle que nous dnommons co f .
La "construction externe" : considrer toutes les fonctions affines continues a f qui minorent f et prendre leur supremum ; alors co f = sup a f .
Le fait que nous obtenions exactement la mme fonction, via la construction
interne ou par le biais de la construction externe, est un des rsultats-cls de
lAnalyse convexe.
En termes de transformation de Legendre-Fenchel f f , avec les hypothses faites dans notre contexte de travail, nous avons f = co f . Cest
donc indiffremment que les notations co f et f seront utilises, mme si,
1. MODLE 1 : LA RELAXATION CONVEXE
119
ici, nous nous en tiendrons essentiellement co f .

Attention (dans la construction interne) : co f nest pas forcment un pigraphe... cest sa fermeture qui en est toujours un.
Fig. 5.1
Le troisime exemple dans la Figure 5.1 montre quon peut avoir (co f ) (x) <
f (x) pour tout x E. Historiquement, on peut penser que J.W. Gibbs (18391903) fut le premier "convexifieur de fonctions" (des nergies en Thermodynamique dans son cas) ; Gibbs tait physicien, chimiste, mathmaticien... un
"phnomne" quoi.
Lopration de convexification ferme (ou convexification s.c.i.) f co f
est un opration globale, dans le sens quelle requiert a priori la connaissance de f sur tout E. En particulier, le comportement de f " linfini", i.e.
de f (x) quand x +, est de la premire importance ; ceci est une des
sources de difficults dans la connaissance de co f .
1.2 La "relaxation convexe ferme" dun problme

doptimisation (P)
Le problme doptimisation gnral de dpart est :

Minimser f (x)
(P )
x E.
La version dite relaxe de (P ) est ici1 :

Minimser (co f ) (x)
(P )
x E.
Qua-t-on gagn, qua-t-on perdu en passant de (P ) (P ) ? ... mis part
le fait que (P ) est un problme de minimisation convexe. Commenons par
1 "Relaxation" signifie beaucoup de choses (diffrentes) en mathmatiques... il va sans dire
ici que cest de la convexification ferme (ou s.c.i.) de la fonction-objectif de (P) quil sagit.
120
CHAPITRE 5
les valeurs optimales et les minimiseurs.

Les valeurs optimales. Nous avons :

inf f = inf (co f ) e galite dans R {+} .
E
(5.1)
Cela est simplement d au fait que inf f = f (0) et que (co f ) = f .

E
Les solutions (ou minimiseurs globaux). En notant argmin g lensemble

des x E minimisant g sur E (il est possible que ce soit un ensemble vide),
on dmontre facilement que
co (argmin f ) argmin (co f ) .
(5.2)
Ceci est en fait un rsultat assez faible... surtout si argmin f = . Nous

reviendrons sur ce point un peu plus bas, par lintermdiaire des -solutions
de (P ).
En jouant avec la relation f = (co f ) et la rgle de va-et-vient suivante
pour g convexe s.c.i. : x g (x ) si et seulement si x g(x), nous
obtenons :

et x f (0) , (5.3)
x minimise f sur E f (x)
= (co f ) (x)
une assertion pas toujours trs informative. Il y a toutefois une situation o
complte par une autre prola rgle de concidence f (x)
= (co f ) (x),
prit, peut servir distinguer les minimiseurs globaux de f sur E des points
critiques ou stationnaires de f . Nous prsentons cette manire de faire dans
un contexte un peu simplifi, celui o E est un espace de Hilbert. Nous dsignons par f (x) le gradient de f en x lorsque f est Gteaux-diffrentiable
en x.
Thorme 5.1 Soit f : H R{+} dfinie sur un espace de Hilbert H .
On suppose que f est diffrentiable en x . Alors :

x est un minimiseur global de f sur H

f (x)
= 0 et
. (5.4)
f (x)
= (co f ) (x)
Dmonstration. Elle est aise partir de (5.3) et de lobservation suivante :

si f est Gteaux-diffrentiable en x,
alors soit f (x)
est vide soit f (x)
=
{ f (x)}.
En un point critique x de f , on est prcisment dans ce dernier
cas, f (x)
= {0}, do x f (0).
Toutefois, pour le cas o ces subtilits ne sont pas connues du lecteur-tudiant,
121
nous proposons une dmonstration directe de lquivalence (5.4).
= (co f ) (x)
[] Si x est un minimiseur global de f sur H , alors f (x)
(il suffit de revoir (5.1) pour cela) et cest videmment un point critique
de f : f (x)
= 0.
=0
[] Soit x un point de Gteaux-diffrentiabilit de f en lequel f (x)
= f (x).
Nous utiliserons les arguments suivants : co f f
et (co f ) (x)
= 0 est une
sur H ; co f est une fonction convexe s.c.i. sur H ; g(x)
condition (ncessaire et) suffisante de minimalit globale pour une fonction
convexe g (Gteaux-diffrentiable en x).
Allons-y :
f (x + td) f (x)
f (x),
dquand t 0+
d H,
t

de par la Gateaux-differentiabilite de f en x ;
(co f ) (x + td) (co f ) (x)

(co f ) (x,
d) quand t 0+
d H,
t

de par lexistence de la derivee directionnelle de co f en x ;
f (x + t d) f (x)
(co f ) (x + td) (co f ) (x)
d H,
t
t

= f (x)
.
puisque co f f sur H et (co f ) (x)
En consquence,
d H, (co f ) (x,
d) f (x),
d.
(5.5)
) est convexe et positivement homogne ; elle est

La fonction (co f ) (x,
majore par la forme linaire continue f (x),
, et concide avec elle
) =
en d = 0. La seule possibilit pour quil en soit ainsi est que (co f ) (x,
f (x),
(on est daccord ?), cest--dire que co f est Gteaux-diffrentiable
en x et :
= f (x)
= 0.
(co f )(x)
Ainsi, x est un minimiseur de co f sur H . Par suite,
(co f )(x) f (x), où (co f )(x)
= f (x).
x H, (co f )(x)
On a bien dmontr que x est un minimiseur global de f sur H .
122
CHAPITRE 5
Observations
La condition exprimant que x est un minimiseur global de f comprend
deux parties : la condition (attendue) de point critique de f ( f (x)
= 0)
=
qui est locale (ou infinitsimale) et une condition globalisante (co f )(x)
f (x).
Il est remarquable que la conjonction de ces deux conditions filtre
vraiment tous les minimiseurs locaux (ou points critiques) de f pour nen
garder que les minimiseurs globaux.
Le rsultat du Thorme 5.1 peut tre utilis sous la forme "ngative"
suivante : Si x est un point critique de f (i.e. si f (x)
= 0) et si lon
< f (x),
alors x ne saurait tre un minimiseur
constate que (co f )(x)
global de f sur H (cf. la Figure 5.2 par exemple).
Le Thorme 5.1 appartient bien au royaume de lOptimisation diffrentiable. En effet, si on substitue la condition "x est un mimiseur local
de f " (lorsque f nest pas diffrentiable en x)
la condition " f (x)
=
0", lquivalence (5.4) nest plus vraie. Cela signifie aussi que toute
o g f est votre sous-diffrentiel
gnralisation de la forme "0 g f (x)",
gnralis favori (cf. Chapitre 6), la place de " f (x)
= 0" ne marchera
pas non plus. Assez surprenant...
Passons en revue dautres aspects de co f utiles pour la rsolution du problme relax (P ).
Proprit de continuit. Mme si f est la restriction dune fonction C
sur un convexe compact C de Rn (et vaut + lextrieur de C), la
fonction convexe co f est certes continue sur int C mais peut prsenter
des discontinuits en des points frontires de C.
Fig. 5.2
Proprit de diffrentiabilit. Si f : R R est diffrentiable sur R, alors

il en est de mme de co f (mme sil y a dcollement
partout, (co f )(x) < f (x) pour tout x R). Mais ceci est spcifique
aux fonctions de la variable relle. Il existe en effet des fonctions f :
123
R2 R qui sont C sur R2 mais pour lesquelles co f nest pas partout

diffrentiable sur R2 . Une condition suffisante pour quil en soit ainsi est,
par exemple, que dom f ne soit pas dintrieur vide (voir [BHU] si lon
veut en savoir plus dans cette direction).
Proprit de comportement linfini. La proprit suivante est tire de [B] :
lim inf
x+
f (x) (co f )(x)

= 0.
x
(5.6)
Attention ! En dpit de (5.6) qui tend faire penser que "co f finit par se
comporter comme f linfini", lcart entre f (x) et (co f )(x) peut
devenir
de plus en plus grand. Par exemple, si f : x R f (x) = |x|, co f
se trouve tre identiquement gale 0.
Vers le calcul numrique effectif de co f . Une bonne partie de ces techniques de calcul consiste considrer f sur une partie borne de Rn
(sur une grille de points mme) et calculer co f en la pensant comme f ,
et donc utiliser les mthodes numriques spcifiques du calcul de f
partir de f . Pour tout cela, nous renvoyons au rcent article-revue de
Lucet [L].
Nous terminons cette section en voquant comment la relation (5.2) entre
les solutions de (P ) et celles de (P ) pourrait tre amliore. Un premier
rsultat dans ce sens, facile dmontrer, est le suivant :
Soit f : Rn R {+}, s.c.i. et borne infrieurement sur Rn . On
suppose que co f est 0-coercive sur Rn (i.e., co f (x) + quand x
+). Alors :
argmin (co f ) = co (argmin f ).
(5.7)
La proprit de 0-coercivit requise est bien
sur co f et non sur f (penser
nouveau la fonction x f (x) = |x|). Les limitations du rsultat
au-dessus sont les deux hypothses restrictives : dune part la 0-coercivit
de co f et, dautre part et surtout, la dimension finie de lespace de travail Rn .
Dans un contexte de dimension infinie, lequel est incontournable en Analyse
et calcul variationnels, une autre piste consiste considrer les solutions
approches, disons > 0 prs, du problme (P ) :

argmin f := x E | f (x) inf f + .
E
Un exemple de rsultat permettant dobtenir les solutions de (P ) partir des

solutions approches de (P ), tir de [HULV], est comme suit :
Soit f : E R {+}, o E est un espace de Banach rflexif et f une
fonction satisfaisant la proprit suivante :
124
CHAPITRE 5
Il existe > 0 et r R tels que
f (x) x r pour toutx E.

Alors :
argmin (co f ) =
co ( argmin f ).
(5.8)
> 0
Les difficults apparaissant dans la convexification ferme (ou relaxation)

dune fonction-objectif dans un contexte de dimension infinie sont illustres
dans lexemple suivant, un grand classique du domaine.
En Calcul variationnel, sous des hypothses de travail sur lesquelles nous ne
nous appesantissons pas, la forme relaxe (cest--dire convexifie ferme)
dune fonction comme u E f (u) := [a,b] l(t, u(t), u (t)) dt se trouve

tre [a,b] (co l)(t, u(t), u (t)) dt, o la convexification sous le signe intgrale
se fait par rapport la variable de vitesse, cest--dire quon convexifie la
fonction partielle l(t, u, ). Pour tre plus prcis, prenons pour E lespace de
Sobolev H 1 (0, 1) structur en espace de Hilbert grce au produit scalaire

u(t)v(t) + u (t)v (t) dt.

(u|v) :=
[0,1]
On considre alors la fonction

u E f (u) :=

[0,1]

|(u (t))2 1| + u(t)2 dt.
(5.9)
(u)
Cette fonction f est continue et 1-coercive sur E (i.e., fu
+ quand
u +). Sa version relaxe co f se trouve tre :

+
(u (t))2 1 + u(t)2 dt.
u E (co f )(u) =
[0,1]
En considrant des fonctions u n "en dents de scie"
on voit quen lexpression (5.9) de f (u n ), on limine le terme (u n (t))2 1,

tandis que le terme u n (t)2 peut tre rendu aussi petit que voulu. En clair,
= 0.
inf f = 0. Mais pour autant il ne peut y avoir de u E tel que f (u)
E
Quant la version relaxe co f de f , elle na quun seul minimiseur, u 0.
2. MODLE 2 : CONVEXE + QUADRATIQUE
125
2 Modle 2 : convexe + quadratique

Le problme doptimisation non convexe considr ici est de la forme
suivante :

Minimiser f (x) := g(x) + 21 Ax, x
(P )
x H,
o g : H R {+} est une fonction convexe s.c.i. propre sur lespacce
de Hilbert H , A : H H est un oprateur linaire continu autoadjoint
(i.e., A = A). Un modle plus gnral voudrait que A ne soit dfini que
sur un sous-espace vectoriel D(A), de graphe ferm, ou que lespace de
travail soit un espace de Banach rflexif. Nous nentrerons pas dans ces
considrations, nous contentant dexposer les ides et rsultats de base. La
manire de "dualiser" le problme structur (P ) qui va tre dcrite est due
aux travaux pionniers de Clarke, Ekeland, Lasry (cf. Rfrences).
Comme la forme quadratique continue q : x H q(x) := 21 Ax, x
nest pas suppose positive, elle nest pas convexe ; toute la non-convexit de
la fonction-objectif f de (P ) se trouve concentre sur q.
Que devrait-tre la dfinition dun point critique (ou stationnaire) de f ?
Mme si on na aucune ide de ce que pourrait tre un "sous-diffrentiel
gnralis" de f = g + q, sachant quon dispose de loutil "sous-diffrentiel
de la fonction convexe g" et du gradient q(x) = Ax, il est naturel de penser
la dfinition suivante.
Dfinition 5.2 On dit que x H est un point critique (ou stationnaire) de f
si 0 g( x)
+ A x , cest--dire si
A x g(x).
(5.10)
Outre la justification prsente plus haut, le rsultat facile ci-dessous conforte

dans lide que la Dfinition 5.2 est cohrente.
Proposition 5.3
(i) Si x est un minimiseur local de f , alors il est point critique de f .
(ii) Si x est un maximiseur local de f , alors g est Gteaux-diffrentiable en x
et 0 = f ( x)
= g(x)
+ A x (x est alors un point critique au sens usuel,
pour les fonctions diffrentiables).
Dmonstration. (i) Considrons d H et t > 0. Puisque x est un minimiseur

local de f = g + q,
g(x + t d) +
1
1
A(x + t d), x + t d g(x)
A x,
x
0
2
2
126
CHAPITRE 5
pour t > 0 assez petit.

Par suite,
1
g(x + t d) g(x)
+ t A x,
d + A x,
d 0
t
2
(5.11)
pour t > 0 assez petit. En passant la limite t 0 au-dessus, on obtient :

A x,
d g (x,
d).
Cette ingalit tant vraie pour tout d H , on a bien que A x g(x).
(ii) Dans le cas o x est un maximiseur local de f = g + q, lingalit (5.11)
est inverse, ce qui conduit

d) A x,
d.
g (x,
) est majore sur H par la
La fonction convexe positivement homogne g (x,
forme linaire continue A x,
et concide avec elle en 0. La consquence
) = A x,
. Ainsi, g est Gteaux(raisonnement dj vu) en est que g (x,

diffrentiable en x et g(x)
= A x.
Lorsque x est un point critique de f , la valeur f (x)

est appele valeur critique
de f .
En labsence de convexit de f = g + q, de 0-coercivit de f , lobjectif de
lexistence dun minimiseur (et donc dun point critique) de f peut savrer
hors datteinte. Do lide quont eue les auteurs cits plus haut de proposer
un problme "dual" ou "adjoint" ad hoc. Le voici :

Maximiser f(y) := 21 Ay, y g (Ay)
(P )
y H.
(P ) est son tour un problme non convexe, avec toujours lintervention de
la forme quadratique q, mais aussi de la transforme de Legendre-Fenchel
de g. Ainsi, des proprits (utiles la minimisation) qui napparaissent pas
dans g pourront-elles tre ventuellement prsentes dans g .
De manire aussi naturelle que pour la Dfinition 5.2, y H sera dit point
critique de f lorsque
(5.12)
A y (g A)( y ).
Ici, g A signifie la fonction compose y g (Ay).
Le pendant de la Proposition 5.3 pour f est :
2. MODLE 2 : CONVEXE + QUADRATIQUE
127
Proposition 5.4
(i) Si y est un maximiseur local de f, alors il est point critique de f.
(ii) Si y est un minimiseur local de f, alors g A est Gteaux-diffrentiable
en y et 0 = f( y ) = (g A)( y ) + A y .
On sait que, de manire gnrale, A g (Ay) (g A)(y) (car A =
A, ne loublions pas) et quil faut une certaine condition, dite de qualification,
pour que lgalit ait lieu. Parmi la multitude des conditions de qualification
existantes, nous retenons la plus basique :
g est finie et continue en un point de Im A(= Im (A)).
(C )
Nous supposons quil en est ainsi dans toute la suite du paragraphe.

Bien que les problmes (P ) et (P ) soient "orients", (P ) vers la minimisation, (P ) vers la maximisation, cest en fait leur "extrmisation" ou
"criticisation" qui compte. En effet, lintrt dans la construction de (P )
tient aux relations existant entre les points (et valeurs) critiques de f et f.
Thorme 5.5
(i) Tout point critique x de f est aussi point critique de f.
(ii) Si y est un point critique de f, alors il existe z Ker A tel que x := y + z

soit point critique de f .
Dmonstration. (i) Soit x H un point critique de f , cest--dire vrifiant A x g(x).

Par la rgle de bascule qui permet de passer de g
Mais, comme cela a dj t rappel, on

g , il sensuit : x g (A x).
Par consquent,
a toujours A g (Ax) (g A)(x).
A x (g A)(x),
ce qui (cf. (5.12) assure bien que x est un point critique de f.

Noter que dans cette partie nous navons pas eu besoin dune condition de
qualification telle que (C ).
(ii) Soit y H un point critique de f, cest--dire vrifiant : A y
(g A)( y ). Comme nous avons suppos ce quil fallait pour que
(g A)( y ) = A g (A y ), on a donc A y A g (A y ), cest- En posant z := x y ,
dire quil existe x g (A y ) tel que A y = A x.
on a :
Az = A x A y = 0, soit z Ker A;
A x = A y g(x).
On a bien dmontr que x est un point critique de f .
(5.13)
128
CHAPITRE 5
Corollaire 5.6
Lensemble des valeurs critiques de f et lensemble des valeurs critiques
de f sont les mmes.
Dmonstration. Soit une valeur critique de f , cest--dire = f (x)

pour
un certain point critique x de f . Alors
A x g(x),
= f (x).
Or, A x g(x)
se traduit par
= x,
A x.
g(x)
+ g (A x)
Par suite,
= f (x)
= g(x)
+
1
1
A x,
x
= A x,
x
g (A x)
= f(x).
2
2
Comme x est aussi point critique de f (Thorme 5.5, (i)), ce qui est au-dessus
montre bien que est valeur critique de f.
Rciproquement, soit une valeur critique de f, cest--dire = f( y )
pour un certain point critique y de f. Dans la dmonstration du (ii) du Thorme 5.5, on a exhib un point critique x de f de la forme x = y + z ,
avec z Ker A. On se propose de montrer que = f (x).
Il a t observ (cf. (5.13) que A x = A y g(x).

Cela se traduit par
A y ,
g(x)
+ g (A y ) = x,
= x,
A x.
g(x)
+ g (A x)
(5.14)
Donc
1
x
[par definition de f ]
f (x)
= g(x)
+ A x,
2
1
= g(x)
+ A y , y [car x y = z Ker A et A = A ]
2
1
= A y , y g (A y ) [d après (5.14)]
2
= f( y ) [par definition de f]
= .

Remarque : Mme sil y a concidence des ensembles de valeurs critiques
de f et f, rien ne nous assure (comme dans dautres schmas de dualisation)
que inf(P ) = sup(P ).
3. MODLE 3 : DIFF-CONVEXE
129
3 Modle 3 : diff-convexe
Le problme doptimisation considr ici est structur comme suit :

Minimiser f (x) := g(x) h(x)
(P )
x E,
o g et h sont des fonctions convexes s.c.i. propres sur un espace de Banach
E. Dans les exemples, h (la deuxime fonction) est partout finie et continue sur E. Si a nest pas le cas, comme nous minimisons dans (P ), nous
donnons la priorit +, cest--dire que nous adoptons la rgle de calcul
(+) (+) = + pour le cas o cela se produirait. Un modle un peu
plus gnral serait

Minimiser f (x) := g(x) h(Ax)
x E,
o A : E F est linaire continu et h est une fonction convexe s.c.i. propre
sur lespace de Banach F. Le lecteur-tudiant naura pas de peine adapter
ce contexte les rsultats que nous nous contenterons de prsenter pour le
modle pos (cest--dire avec A = id E ).
Lappellation "modle ou optimisation diff-convexe (ou d.c.)" est claire : la
fonction-objectif dans (P ) est une diffrence de fonctions convexes. Avant
daller plus loin, voyons sur quelques proprits et exemples la richesse de
DC(E) := ensemble des fonctions qui s e crivent comme des diff e rences
de fonctions convexes sur E.
Exemple : C 2 (Rn ) DC(Rn ). Toute fonction C 2 sur Rn est diffrence de
fonctions convexes sur Rn , et mme mieux : si f C 2 (Rn ), il existe g C 2
et convexe sur Rn , h C et convexe sur Rn , telles que f = g h. Cest
notamment le cas de toute fonction polynomiale f sur Rn . Mais on na pas
dit que trouver une dcomposition d.c. de f C 2 (Rn ) tait facile !
Le cas o E est de dimension infinie est un peu plus compliqu : il
faut ajouter une hypothse sur le comportement de D 2 f pour sassurer
que C 2 (E) DC(E).
Exemple (repris du Chapitre 2, 2.2) : Soit S une partie ferme non vide
dun espace de Hilbert H . Alors, la fonction d S2 (carr de la fonction distance
S) est toujours d.c. sur H ; on en a mme une dcomposition d.c. explicite.
Exemple : E = Sn (R) et k : A Sn (R) k (A) := la k-me plus
grande valeur propre de A. Alors k DC(E), positivement homogne, et
on a accs une dcomposition d.c. de k en fonctions convexes positivement
130
CHAPITRE 5
homognes.
Si on sen tient au cne convexe ouvert Sn++ (R) := {A Sn (R) | A 0},
la fonction "conditionnement" c de A
c(A) :=
1 (A)
n (A)
est d.c. sur Sn++ (R).

Proprit : DC(E) est stable par les proprits usuelles de lAnalyse telles
que : addition, soustraction, multiplication, maximum dun nombre fini de
fonctions, etc. Dans ces cas, disposer de dcompositions d.c. des fonctions
composantes dans lopration conduit une dcomposition d.c., une du
moins, de la fonction rsultante.
Exemple (important) : Maximisation convexe sur un convexe
Considrons le problme doptimisation suivant :

Maximiser h(x)
(P )
x C,
o h : E R est une fonction convexe continue sur E et C est un
convexe ferm de E. Ce modle de problmes doptimisation "terriblement"
non convexes est difficile traiter. Penser pour sen convaincre au cas
o f (x) = Ax, x est une fonction quadratique convexe sur Rn et C =
[1, +1]n .
On peut reformuler (P ) au-dessus en un format d.c.. En effet, (P ) est quivalent

Minimiser f (x) := i C (x) h(x)
x E.
Le problme (P ) est non convexe mais il a de la structure : la convexit est
prsente deux fois (via g et h), mme si une fois elle est dans le mauvais sens
( rebours si on veut). La manire dassocier un problme "dual" ou "adjoint"
(P ) va tenir compte de cette structure ; elle sera construite non pas partir
de f mais bien partir de f dcompose en f = g h (avec g et h convexes).
Plusieurs mathmaticiens ont contribu la dualisation des problmes d.c.,
mais le grand bonhomme dans cette affaire est J. Toland. Voici sa dfinition :

Minimiser f (x ) := h (x ) g (x )

(P )
x E .
Cest nouveau un problme d.c., et (P ) = (P ). Comme cela a dj
t dit, f nest pas associe f mais bien f = g h. Ceci peut tre
131
considr comme une faiblesse (multiplicit de dcompositions d.c. de f ),

mais savre tre un atout : tous les rsultats prsents plus bas sont valables
pour toutes les dcompositions d.c. de f . Imaginons par exemple que E
soit un espace de Hilbert et quon tienne avoir une dcomposition de la
fonction d.c. f = g h avec des fonctions g et h qui soient strictement (et
mme fortement) convexes. partir dune dcomposition donne on obtient
le rsultat voulu en posant :
f = g h = (g + 2 ) (h + 2 ).
Thorme 5.7 (Minimisation dans (P ) vs. minimisation dans (P ))
(i) On a toujours lgalit suivante
inf(P ) = inf(P ).
(5.15)
(ii) Si x est un minimiseur de f = g h sur E , alors tout sous-gradient x

de h en x est un minimiseur de f = h g sur E .
De plus, f ( x)
= f (x ).
Dmonstration. (i) Point 1 : inf(P ) inf(P ).

Supposons le contraire et arrivons une contradiction. Supposons donc quil
existe r R tel que inf(P ) > r > inf(P ). Ainsi
g(x) h(x) > r pour tout x E.
Soit x E . On a alors :
g (x ) = sup [x , x g(x)]
x E
sup [x , x h(x) r ]

x E
sup [x , x h(x)] r = h (x ) r.

x E
En consquence,
r h (x ) g (x ).
Ceci tant montr pour tout x E , il sensuit r inf(P ), ce qui est

contradictoire avec lassertion de dpart.
Point 2 : inf(P ) inf(P ).
Supposons le contraire. Il existe alors r R tel que inf(P ) < r < inf(P ).
Par suite,
132
CHAPITRE 5
h (x ) g (x ) > r pour tout x E .

Or, g = g et h = h (puisque g et h ont t supposes convexes s.c.i.
sur E). Par consquent, pour tout x E,
h(x) = h (x) = sup [x, x h (x )]
x E
sup [x, x g (x ) r ]
x E
sup [x, x g (x )] r = g (x) r = g(x) r.

x E
Do r g(x) h(x) pour tout x E, et donc r inf(P ). Ceci entre en

contradiction avec lhypothse de dpart.
Nous avons bien dmontr lassertion (i) : inf(P ) = inf(P ).
(ii) Soit x un minimiseur (global) de f = g h sur E. On a :
f (x) f (x)
pour tout x E,
soit encore
g(x) g(x)
h(x) h(x)
pour tout x E.
La dfinition mme du sous-diffrentiel dune fonction fait que
h(x)
g(x).
On a alors :
Soit prsent x h(x).
x,
x = 0,
h (x ) + h(x)
et comme x est aussi dans g(x),
x,
x = 0.
g (x ) + g(x)
Par consquent,
f (x)
= g(x)
h(x)
= h (x ) g (x ).
Or, f (x)
= inf(P ) = inf(P ) (premire partie du Thorme 5.7). Donc
f (x ) = h (x ) g (x ) = inf(P ),
ce qui exprime bien que x est un minimiseur de f sur E .
133
Remarques
Contrairement ce qui se passe dans la dualisation de problmes de mi =
nimisation convexe, lexistence de x E et de x E tels que f (x)
f (x ) nimplique pas que x est une solution de (P ) et x une solution
de (P ).
Dans la dualisation f = g h f = h g , il ny a pas de raison
de privilgier la minimisation par rapport la maximisation ; des rsultats
similaires ceux du Thorme 5.7 sobtiennent mutatis mutandis pour le
problme de la maximisation de f = g h sur E.
(P ) et (P ) sont des problmes de minimisation non convexes ; donc des
minimiseurs locaux diffrents des minimiseurs globaux peuvent apparatre.
La condition ncessaire de minimalit du 1er ordre ci-aprs, dj observe
pour des minimiseurs globaux, est valable pour les minimiseurs locaux.
Proposition 5.8
Soit x un minimiseur local de f = g h sur E . Alors :
h(x)
g(x).
(5.16)
r ), on a :
Dmonstration. Pour x dans une boule B(x,
f (x) = g(x) h(x) f (x)
= g(x)
h(x),
soit encore
g(x) g(x)
h(x) h(x).
De la relation de base h(x) h(x)

x , x x
et de
Soit x h(x).
lingalit au-dessus on dduit
g(x) g(x)
x , x xpour
tout x B(x,
r ).
Grce la convexit de g qui "globalise" les ingalits, la relation au-dessus

stend tout E : x est bien dans g(x).
La condition (5.16) est "oriente" vers la minimisation, et la condition
ncessaire vrifie par un maximiseur local x serait g(x)
h(x).
Pour
symtriser quelque peu les choses, Toland a eu lide dintroduire la notion
de point critique (ou stationnaire) suivante.
Dfinition 5.9
Un point x E est appel point T-critique (ou T-stationnaire) de f = g h
lorsque g( x)
h(x)
= .
134
CHAPITRE 5
Lorsque x est un point T-critique, la valeur f (x)

= g(x)
h(x)
est appele
valeur T-critique de f .
videmment, cette notion de T-criticit de f dpend de la dcomposition
d.c. f = g h de f .
Comme consquence de la Proposition 5.8, nous avons :
Si x est un minimiseur local de f = g h et si h(x)
= , alors x est un
point T-critique de f .
Si x est un maximiseur local de f = g h et si g(x)
= , alors x est un
point T-critique de f .
Nous allons tablir des liens entre les points T-critiques de f = g h et ceux
de f = h g . De manire dfinir un cheminement (et des notations)
parallle(s) ceux du 2, nous supposons pour simplifier que E est un espace
de Hilbert (not H ).
Thorme 5.10
(i) Si x est un point T-critique de f = g h , alors y g( x)
h(x)
est

un point T-critique de f = h g .
(ii) Si y est un point T-critique de f = h g , alors x g ( y ) h ( y )
est un point T-critique de f = g h .
Dmonstration. Soit x un point T-critique de f = g h et c = f (x)

la valeur
T-critique correspondante. Pour y g(x)
h(x),
on a :
g ( y ) + g(x)
= x,
y ,
= x,
y ,
h ( y ) + h(x)
(5.17)
do, en faisant une diffrence,

c = g(x)
h(x)
= h ( y ) g ( y ).
(5.18)
Les relations (5.17) indiquent que x g ( y ) h ( y ), cest--dire que y

est un point T-critique de f = h g . La relation (5.18) montre de surcrot
que les valeurs T-critiques correspondantes (de f et de f ) sont les mmes.

La dmonstration de (ii) se fait de la mme manire.
En cho au Corollaire 5.6 du 2, nous avons :
Corollaire 5.11
Lensemble des valeurs T-critiques de f concide avec lensemble des valeurs
T-critiques de f .
Remarque gnrale : Nous terminons ce paragraphe par une remarque
135
gnrale concernant les hypothses sur les fonctions g et h de la dcomposition f = g h de la fonction-objectif f dans (P ). Il savre que pour
obtenir les rsultats dcrits dans ce paragraphe, la convexit de g (la premire
fonction) nest pas essentielle : on peut remplacer g par g = co g. Ceci est
comprhensible si on regarde par exemple le problme de la maximisation
de g sur C, reformul en problme d.c. comme la minimisation de i C h
sur E (cf. page 130) : maximiser h sur C et maximiser h sur co C reviennent
au mme.
Lhypothse de convexit de h (la deuxime fonction) est, elle, incontournable.
Exercices
Exercice 1 (Enveloppe convexe de la varit
de Stieffel)
n
T
Soit Tm := M Mm,n (R) | M M = Im . Cet ensemble est appel varit
de Stieffel.
Pour m = n, Tnn est lensemble des matrices orthogonales n n.
Montrer que

co Tmn = M Mm,n (R) | M sp 1 ,
cest--dire la boule unit ferme de Mm,n (R) pour la norme spectrale sp .
Rappel : M sp = 1 (M), la plus grande valeur singulire de M.
Exercice 2 (Enveloppe convexe de lensemble des matrices de rang
infrieur k)
Pour M Mm,n (R) et p := min(m, n), on dsigne par 1 (M) 2 (M)
. . . p (M) les valeurs singulires de M ranges dans un ordre dcroissant.
Deux normes matricielles sont utilises ici et dans lExercice 4. :
M sp = 1 (M)
( sp est appelee norme spectrale)
p

M =
i (M) ( est appelee parfois norme nucleaire).
i=1
Pour k {1, 2, . . . , p } et r > 0, on pose :

Skr := M Mm,n (R) | rang M k et M sp r .
Montrer que
136
CHAPITRE 5

co Skr = M Mm,n (R) | M k r et M sp r .
Hint : Utiliser une dcomposition en valeurs singulires de M.
Exercice 3 (Relaxation convexe de la fonction de comptage)

Soit c : x = (x1 , . . . , xn ) Rn c(x) := nombre de i tels que xi = 0.
1) Lister toutes les proprits de c que vous connaissez.
2) Pour r > 0, on pose :

cr (x) :=
c(x) si x r,
+ sinon.
Montrer que la relaxation convexe co cr de cr sexprime comme suit :

1
x1 si x r,
(co cr ) (x) := r
+ sinon.
Exercice 4 (Relaxation convexe de la fonction rang)

Pour r > 0, on dfinit rangr : Mm,n (R) R de la manire suivante :

rang de M si M sp r,
rangr (M) :=
+ sinon.
Montrer que la relaxation convexe co (rangr ) de la fonction rangr svalue
comme suit :
1
M si M sp r,
co (rangr ) (M) = r
+ sinon.
Hint : On peut utiliser le rsultat dmontr en Exercice 2.
Exercice 5 (Dualisation de la notion de copositivit dune matrice)

A Sn (R) est dite copositive lorsque Ax, x 0 pour tout x Rn+ .
On considre le problme doptimisation suivant :

Minimiser 21 Ax, x
(P )
x Rn+ .
EXERCICES
137
1) Reformuler (P ) comme un problme du Modle 2 : convexe + quadratique et crire son problme dual (P ).
2) On suppose que A est inversible. Vrifier que :
inf(P ) = 0 e quivaut a` la copositivite de A,
sup(P ) = 0 e quivaut a` la copositivite de A1 .
Exercice 6 (Dualisation d.c. de la notion de copositivit dune matrice)

Pour A Sn (R), on considre le problme doptimisation suivant :

Minimiser 21 Ax, x
(P )
x Rn+ .
Soit r > max {max (A), 0}.
1) Montrer que (P ) est quivalent un problme d.c. (cf. Modle 3),
avec f = g h, o :
g(x) :=
1
r
x2 + i Rn+ (x), h(x) := (r In A) x, x.
2
2
2) Interprter tous les rsultats du 3 (cas du Modle diff-convexe) dans ce

contexte.
Exercice 7 (Formule donnant la conjugue de la diffrence de deux
fonctions)
Soit H un espace de Hilbert et f : H R {+} structure de la manire
suivante :
f = g h, où g : H R {+} et h : H R.
1) Soit y H . Montrer :
f (y)
sup
u dom h
g (y + u) h (u) .
(5.19)
On suppose de plus que h est continue sur H . Montrer alors que lingalit (5.19) devient une galit.
Que disent les rsultats prcdents dans le cas particulier o y = 0 ?
2) Maximisation dune fonction convexe sur un ensemble
On considre le problme de la maximisation dune fonction convexe
continue h : H R sur un ensemble non vide S de H ; on pose :=
sup h(x).
xS
138
CHAPITRE 5
Montrer que peut scrire comme linfimum dune fonction f

sur H , o f est du type indiqu au dbut de lexercice.
tablir :

(5.20)
= inf h (u) S (y) ,
u dom h
o S dsigne la fonction dappui de S.

3) Formulation variationnelle de la plus grande valeur propre de A 0
Soit A une matrice (symtrique) dfinie positive de taille n ; on dsigne
par M la plus grande valeur propre de A.
Se souvenant de la formulation M = max Ax, x, montrer en utilix1
sant la mthodologie dveloppe dans la question 2 que

1 1
M
= inf n
A u, u u .
u R
2
2
(5.21)
En modifiant la formulation variationnelle de M de dpart, montrer

M
1
2
u Au, u .
= inf n
(5.22)
u R
2
2
Exercice 8 (Distance entre une fonction et sa rgularise de MOREAUYOSIDA)
Soit H un espace de Hilbert et f : H R{+} convexe s.c.i.. Pour r > 0,
on dsigne par fr sa rgularise de Moreau-Yosida, cest--dire :
r
fr := f 2 .
2
Montrer :

r
r
inf f (x) ( f 2 ) (x) = inf u2 .
x H
u
dom
f
2
2
Hint : Utiliser la technique de dualisation d.c..
Exercice 9 (Formulations variationnelles diverses de la plus grande valeur propre de A 0)
Soit A 0. On dsigne par 1 2 . . . n les valeurs propres de A
ranges dans un ordre dcroissant. Pour k valeur propre de A, on dsigne
par Sk lensemble des vecteurs propres unitaires associs k .
EXERCICES
139
1) Premire formulation variationnelle

On dfinit
S A : x Rn S A (x) := x2 2

Ax, x.
(5.23)
a) Montrer que inf n S A (x) = 1 (dj vu la question 3 de lExerx R
cice 7) et que linfimum est atteint en tout point 1 e1 , o e1 S1 .

b) Montrer que lensemble des points critiques non nuls de S A est :

k ek | ek Sk , k = 1, . . . , n
et que si k = 1 ,
k ek est un point-selle de S A .
2) Deuxime formulation variationnelle

On dfinit
PA : x Rn PA (x) := x4 2 Ax, x.
(5.24)
a) Montrer que inf n PA (x) = 1 2 et que linfimum est atteint en tout

x R
point 1 e1 , o e1 S1 .
b) Montrer que lensemble des points critiques non nuls de PA est :

k ek | ek Sk , k = 1, . . . , n
et que si k = 1 ,
k ek est un point-selle de S A .
3) Troisime formulation variationnelle

On dfinit
L A : 0 = x Rn L A (x) := x2 ln(Ax, x).
a) Montrer que
inf
0 = x Rn
L A (x) = 1 ln 1 et que linfimum est atteint
en tout point x de S1 .
b) Montrer que lensemble des points critiques de L A est
que tous les

1<k n
(5.25)

1k n
Sk sont des points-selles de L A .
Sk et
140
CHAPITRE 5
Rfrences
[BHU] J. Benoist and J.-B. Hiriart-Urruty. "What is the subdifferential of
the closed convex hull of a function ?". SIAM J. Math. Anal. Vol. 27, 6
(1996), p. 16611679.
[B] B. Brighi. "Sur lenveloppe convexe dune fonction de la variable
relle". Revue de Mathmatiques Spciales 8 (1994), p. 547550.
[L] Y. Lucet. "What shape is your conjugate ? A survey of computational
convex analysis and its applications". SIAM J. on Optimization Vol. 20,
1 (2009), p. 216250.
[HULV] J.-B. Hiriart-Urruty, M. Lopez and M. Volle. "The -strategy in
variational analysis : illustration with the closed convex convexification
of a function". Revista Matemtica, Iberoamericana 27(2), 2011, pp.
449471.
[ET] I. Ekeland and T. Turnbull. Infinite-Dimensional Optimization and
Convexity. Chicago Lectures in Mathematics Series, 1983.
[T1] J.F. Toland. "Duality in nonconvex optimization". J. Math. Anal. Appl.
66 (1978), p. 399415.
[T2] J.F. Toland. "A duality principle for non-convex optimisation and the
calculus of variations". Arch. Rational Mech. Anal. 71 (1979), p. 4161.
[AT] H. Attouch and M. Thra. "A general duality principle for the sum of
two operators". J. of Convex Anal. Vol. 3, 1 (1996), p. 124.
[EL] I. Ekeland and J.-M. Lasry. "Problmes variationnels non convexes en
dualit". Note aux CRAS Paris 290 (1980), P. 493496.
[E] I. Ekeland. Convexity Methods in Hamiltonian Mechanics. Springer
Verlag, 1990.
[S] I. Singer. "A Fenchel-Rockafellar type duality theorem for maximization". Bull. Australian Math. Soc. 20 (1979), p. 193198.
[HU] J.-B. Hiriart-Urruty. "A general formula on the conjugate of the difference of functions". Canad. Math. Bull. Vol. 29, 4 (1986), p. 482485.
Chapitre 6
SOUS-DIFFRENTIELS GNRALISS DE
FONCTIONS NON DIFFRENTIABLES
"Il faut parfois compliquer un problme pour en simplifier la

solution." P. Erds (1913-1996)
"You are never sure whether or not a problem is good unless
you actually solve it." M. Gromov (Abel Prize, 2009)
Les problmes variationnels ou doptimisation font intervenir, de manire

naturelle, des fonctions qui ne sont pas diffrentiables. Certes ces fonctions
sont diffrentiables en la plupart des points, mais ne le sont pas aux "points
intressants". Les objectifs dun calcul diffrentiel gnralis sont, au moins :
"que a fonctionne" (eu gard aux oprations usuelles de lAnalyse) ; "que
a sutilise" (Algorithmique, problmes applicatifs).
En dmarrant ce chapitre, il y a dj deux contextes dans lesquels on sait
voluer et quil sagit denglober et de gnraliser : celui des fonctions diffrentiables et celui des fonctions convexes. Ainsi, tout nouvel objet mathmatique visant "diffrentier des fonctions non diffrentiables" devra se rduire
la diffrentielle usuelle dans le cas des fonctions diffrentiables (ou du
moins continment diffrentiables) et celui de sous-diffrentiel dans le cas
de fonctions convexes.

141
142
CHAPITRE 6. SOUS-DIFFRENTIELS GNRALISS
Dans cette cohrence ascendante cherchant toucher une classe de fonctions

aussi vaste que possible, nous sommes conduits faire des choix parmi tous
les sous-diffrentiels gnraliss proposs par les mathmaticiens lors des
trente-cinq dernires annes. Ces choix dpendent de ce quon veut faire :
Sil sagit de traiter les problmes variationnels ou doptimisation dans
leur formulation abstraite, driver des conditions ncessaires doptimalit
par exemple, il y a alors plusieurs sous-diffrentiels gnraliss possibles.
Nous prsenterons en deuxime partie de chapitre un chantillon de ces
candidats, objets dAnalyse parfois trs fins et subtils.
Sil sagit dalgorithmique pour traiter des problmes non diffrentiables,
il ny a pas besoin de gnralit maximale mais bien de disposer dun
outil avec des rgles de calcul robustes. Dans ce but, nous consacrerons la
premire partie de ce chapitre au gradient gnralis ou sous-diffrentiel
gnralis au sens de F. Clarke.
Il y a sur le sujet de nombreux ouvrages, complets et bien faits ; nous en
indiquons quelques-uns la fin du chapitre.
Rgles du calcul diffrentiel usuel. Annexe du Chapitre 2.
Techniques de lAnalyse convexe (Chapitre 4), plus spcifiquement les
rgles de calcul sous-diffrentiel.
1 Sous-diffrentiation gnralise de fonctions localement

Lipschitz
Soit (E, ) un espace de Banach, O un ouvert de E (prendre O = E
pour fixer les ides) et f : O E R une fonction localement Lipschitz
(ou localement lipschitzienne) sur O . Rappelons (ou indiquons) que f est
localement lipschitzienne sur O lorsque :
Pour tout x de O , il existe un voisinage V O de x (mettons que
V = B(x, r )) et une constante L 0 tels que :
| f (u) f (v)| L u v pour tout u et v dans B(x, r ).
(6.1)
La classe des fonctions localement Lipschitz sur O est remarquablement

stable pour toutes les oprations usuelles de lAnalyse. Par exemple :
1. FONCTIONS LOCALEMENT LIPSCHITZ
143

f + g localement
f et g localement Lipschitz sur O ;
;
et reels
Lipschitz sur O

f et g localement Lipschitz sur O f g localement Lipschitz sur O ;

f localement Lipschitz sur O ;
1f localement Lipschitz sur O ;
f (x) = 0 pour tout x O

f 1 , . . . , f k localement
max( f 1 , . . . , f k ) et min( f 1 , . . . , f k )
.
Lipschitz sur O
localement Lipschitz sur O
Cette dernire implication a son importance car lopration ( f 1 , . . . , f k )

max( f 1 , . . . , f k ) dtruit la diffrentiabilit. Une illustration, frquente en
thorie de lApproximation, est :

f localement Lipschitz sur O | f | localement Lipschitz sur O .
Parmi les classes de fonctions dj rencontres et qui sont localement
Lipschitz, notons :

O convexe et f : convexe
f est localement Lipschitz sur O ;
(ou concave) continue sur O

f continument differentiable
f est localement Lipschitz sur O .
sur O
Il existe nanmoins des fonctions diffrentiables sur O qui ne sont pas
localement Lipschitz sur O ; nous en donnerons un exemple plus loin. Mais
cette subtilit nest pas rdhibitoire. Dans le cas o E est de dimension finie,
disons E = Rn , signalons le beau rsultat que voici.
Thorme 6.1 (H. RADEMACHER, 1919)
Une fonction f : O Rn R localement Lipschitz sur O est diffrentiable
presque partout sur O (cest--dire en tous les points de O , lexception de
ceux dun ensemble de mesure de Lebesgue nulle).
Rappelons quici les diffrentiabilits au sens de Gteaux, Hadamard ou

Frchet sont quivalentes (cf. Annexe du Chapitre 2). De plus, le caractre
localement Lipschitz de f fait que f (x ), l o il existe dans un voisinage
de x, est "contrl" par la constante de Lipschitz, il "nexplose pas". En termes
plus mathmatiques, pour tout x O , il existe r > 0 et L 0 tels que

f (x ) | x B(x, r ) et f est differentiable en x B(0, L).
Ceci est d au fait que, pour x voisin de x,
144

f (x + t d) f (x )
L d .

t
(6.2)
Une premire tentation, et donc tentative, dans ce contexte o E = Rn , est

de "ramasser toutes les limites de gradients" : pour x O , on dfinit ainsi

f (x) := v Rn | (xk ) x, f diff. en xk , f (xk ) v . (6.3)
Il est facile de voir que f (x) est un compact non vide de Rn , pas nces
sairement convexe pour autant. titre dexemples :

Si f : x R
f (x) = |x |, f (0) = {1, +1} ;
Si f : O Rn
f (x) est continment diffrentiable sur O , f (x) =
{ f (x)} pour tout x O .

Nous nallons pas plus loin dans cette dmarche ; nous y reviendrons plus
loin.
Quand on pense diffrentiabilit de f en x, on pense invitablement des
quotients diffrentiels
f (x + t d) f (x)
, o d E et t > 0.
t
(6.4)
Quen faire lorsque f nest pas diffrentiable en x ? On a beau essayer des

limites suprieures ou infrieures quand t 0+ partir de (6.4), on rcupre larrive une sorte de drive directionnelle gnralise f (1) (x, d)
dont la seule proprit tangible est quelle est positivement homogne en la
direction d : f (1) (x, d) = f (1) (x, d) pour tout > 0.
Une approche diffrente, dcisive quant lutilit du concept qui va suivre,
consiste considrer le quotient diffrentiel de (6.4) pas en x seul mais dans
un voisinage de x. Elle est due F. Clarke (1973) et a marqu le renouveau de ce quon appelle parfois lAnalyse non-lisse (Nonsmooth analysis en
anglais).
1.1 Drives directionnelles gnralises et sous-diffrentiels

gnraliss au sens de CLARKE : Dfinitions et premires
proprits
On considre toujours, et sans le rappeler chaque fois, une fonction f :
O E R localement Lipschitz sur louvert O de E et x O .
Dfinition 6.2
La drive directionnelle gnralise de f en x , au sens de Clarke, est
d E
f (x ; d) := lim sup
x x
t 0+
145
f (x + t d) f (x )
.
t
(6.5)
On aurait pu ajouter d d dans la limite suprieure de dfinition dans (6.5),

cela naurait rien chang au rsultat puisque

f (x + t d ) f (x )

f (x + t d) f (x )

L d d

t
t
pour t > 0 assez petit et x voisin de x (car f est Lipschitz de constante L
dans un voisinage de x).
Comme cela tait attendu, f (x ; 0) = 0 et f (x ; d) = f (x ; d) pour
tout > 0. Plus surprenant, et essentiel pour la suite des vnements, est la
proprit de convexit que voici :
Proprit 6.3
La fonction d E
f (x ; d) est convexe continue sur E . On a mme :
d E, | f (x ; d)| L d ,
(6.6)
o L est une constante de Lipschitz pour f dans un voisinage de x .
Dmonstration. Puisque f (x ; ) est positivement homogne ( f (x ; d) =

f (x ; d) pour tout d E et tout > 0), la convexit de f (x ; ) revient
sa sous-additivit. A-t-on
f (x; u + v) f (x; u) + f (x; v) ?
On a clairement :
f (x ; u + v) := lim sup
x x
t 0+
lim sup
x x
t 0+
f (x + t u + t v) f (x )
t
f (x + t u + t v) f (x + t u)
t
+ lim sup
x x
t 0+
f (x + t u) f (x )
t
f (x ; v) + f (x ; u).
Comme le montre nettement la dmonstration ci-dessus, cest vraiment cette
approche qui a consist aller voir "ce qui se passe autour de x" qui a permis
daccder la convexit de f (x ; ).
146
La majoration (6.6) vient immdiatement du fait que

f (x + t d) f (x )

L d

t
pour t > 0 assez petit et x voisin de x.
On aurait pu tre tent de prendre une limite infrieure au lieu dune limite
suprieure dans (6.5) :
inf
f (x ; d) := lim

x x
t 0+
f (x + t d) f (x )
.
t
(6.7)
Cela naurait pas chang le fond de laffaire puisque

f (x ; d) = f (x ; d),
comme cela est ais vrifier. Rien de vraiment nouveau donc par rapport
f (x ; ).
Signalons avant daller plus loin que la limite suprieure
f (x + t d) f (x )
= inf
>0
t
x x
t 0+
r >0
sup
t ]0,]
x B(x,r )
f (x + t d) f (x )
t
est "atteinte" par une suite (xk ) x et (tk ) 0+ , cest--dire : Il existe une
suite (xk ) convergeant vers x et une suite (tk > 0) convergeant vers 0 telles
que
f (xk + tk d) f (xk )
.
f (x ; d) = lim sup
tk
k +
Cela peut aider dans certaines dmonstrations.
Proprits 6.4
(i) (x, d) E E
f (x ; d) est semicontinue suprieurement (comme
fonction de x et d donc). Cela signifie :
(xk ) x, (dk ) d, lim sup f (xk ; dk ) f (x ; d).
k +
(6.8)
(ii) "Symtrisation" :
d E, ( f ) (x ; d) = f (x ; d).
(6.9)
147
Dmonstration. Contentons-nous de dmontrer (6.9). Par dfinition,

x x
t 0+
f (x t d) f (x )
.
t
Avec le changement de variables u := x t d, le quotient diffrentiel

ci-dessus nest autre que
( f )(u + t d) ( f )(u)
.
t
Prendre la limite suprieure quand u x et t 0+ permet de rcup
rer ( f ) (x ; d) larrive.
Puisque f (x ; ) est automatiquement convexe et continue sur E (et mme

Lipschitz sur E), positivement homogne, il est tentant de considrer les
formes linaires continues minorant f (x ; ). Cest prcisment ce qui donne
naissance au sous-diffrentiel gnralis (au sens de Clarke) de f en x.
Dfinition 6.5 Le sous-diffrentiel gnralis de f en x , au sens de Clarke,
est

Cl f (x) := x E | x , d f (x ; d) pour tout d E .
(6.10)
On aurait pu tre tent dutiliser la fonction concave f (x ; ) de (6.7) et

les formes linaires continues majorant f (x ; ). Cela naurait rien chang
in fine puisque, grce la relation f (x ; d) = f (x ; d) (valable pour
tout d E), il dcoule

x E | x , v f (x ; v) pour tout v E
= {x E | x , d f (x ; d) pour tout d E} .
Dsormais, cest toute la machinerie de lAnalyse convexe (Chapitre 4)
qui va tre applique Cl f (x) via la fonction convexe f (x ; ).
nonons en vrac quelques proprits de Cl f .
Proprits 6.6
(i) Cl f (x) est un convexe (E , E)-compact non vide de E ; sa fonction
dappui est f (x ; ), i.e.
d E, f (x ; d) =
sup
x Cl
x , d.
f (x)
(6.11)
148
(ii) Si f est continment diffrentiable sur O , alors :

Cl f (x) = {D f (x)} pour tout x O .
(iii) Si f est convexe et continue sur O , alors
Cl f (x) = f (x) le sous-diffe rentiel de f en x, au sens de

lAnalyse convexe (Chapitre 4)] .
(iv) Si f = max( f 1 , . . . , f k ), o chaque fonction f i est continment diffrentiable sur O , alors :
Cl f (x) = co {D f i (x) | i tels que f i (x) = f (x)} .
(6.12)
En raison de la proprit (iii) ci-dessus, on notera dsormais f (x) (sans la

rfrence Cl) le sous-diffrentiel gnralis de f en x. Dailleurs, le vocable
"sous-diffrentiel gnralis" doit tre compris au sens de "gnralisation de
sous-diffrentiel" ; il ny a rien "qui vient par dessous" pas plus que "par
dessus". Lappellation dorigine de Clarke tait "gradient gnralis".
Revenons au contexte de la dimension finie (E = Rn ) pour complter ce que
nous avions commenc observer page 144.
Proprits 6.7 Si f : O Rn R est localement Lipschitz sur O , alors,
pour tout x O :
f (x) = co f (x)
(6.13)

= co v Rn | (xk ) x, f diffe rentiable en xk , f (xk ) v .

(6.14)
f (x ; d) = lim sup f (x ), d | f diffe rentiable en x .
x x
La proprit (6.13) permet de "voir" sur des exemples comment est fait f (x).
Une version un peu plus gnrale que (6.14) est comme suit. Supposons
que f admette en tout point x dun voisinage de x, une drive directionnelle
usuelle :
f (x ; d) = lim
t 0+
f (x +t d) f (x )
,
t
d Rn . Alors, pour tout d Rn ,
f (x ; d) = lim sup f (x ; d).

x x
(6.14 bis)
La drive directionnelle gnralise f (x ; ) apparat donc comme une

"version rgularise (en allant regarder autour de x)" de la drive directionnelle usuelle f (x ; ).
Donnons quelques exemples dillustrations diverses.
149
Exemple 6.8 Soit f : x R

f (x) = |x |. Alors, f (0) = [1, +1].
De manire plus gnrale, si f : O E R est concave et continue sur O ,
alors

f (x) = x E | f (y) f (x) + x , y x pour tout y E ,
cest--dire le sur-diffrentiel de f en x.
Exemple 6.9 Soit f : R R dfinie par :

1
2
f (x) = x sin
si x = 0, f (0) = 0.
x
Cest lexemple, connu de tous les agrgatifs, dune fonction drivable sur R
mais pas continment drivable sur R. De fait,

1
1

f (x) = 2x sin
cos
si x = 0,
(6.15)
x
x
laquelle drive na pas de limite quand x 0.
Or, f est localement Lipschitz sur R (ceci est facile voir, grce au fait que f
est localement borne). Un calcul simple partir de (6.15) montre que

v R | (xk ) 0, f (xk ) v = [1, +1] ,
do f (0) = [1, +1]. Ainsi, alors que f (0) = 0, f (0) rcupre en
quelque sorte linformation sur loscillation de f (x) autour de 0.
Dune manire plus gnrale, si la fonction localement Lipschitz f : O
E R est Frchet-diffrentiable en x O , D f (x) f (x). Ceci
nest pas vritablement une faiblesse car, rappelons-nous (Proprits 6.6,
(ii)) f (x) = {D f (x)} en tout x O lorsque f est continment diffrentiable sur O .1
1 Pour tre tout fait prcis, cest un renforcement de la Frchet-diffrentiabilit en x, appele
stricte diffrentiabilit de f en x, qui assure que f (x) est un singleton. Dfinition : f est dite
strictement diffrentiable en x sil existe l E telle que
f (y) f (z) l , y z
0 quand y x, z x, y = z.
y z
Cette dfinition, dans le cas des fonctions de la variable relle, remonte G. Peano (1892)
qui estimait quelle "rendait compte du concept de drive utilise dans les sciences physiques
beaucoup mieux que ne le faisait la dfinition de la drive usuelle". Si f est diffrentiable
dans un voisinage de x, la stricte diffrentiabilit de f en x quivaut au fait que D f est
150
Exemple 6.10 Soit g : [0, 1] R continue. Quand

on tait petit on a
x
appris que la fonction f : x [0, 1]
f (x) := 0 g(t) dt est continment
drivable, avec f (x) = g(x).
Soit prsent g un lment de L ([0, 1] , R). On dfinit alors f : [0, 1] R
x
comme au-dessus : f (x) = 0 g(t) dt. Il est facile de voir que f est Lipschitz
sur [0, 1]. Question : que rcupre alors f (x) ? Voici la rponse. Posons :
g (x0 ) = ess.inf g(x), g (x0 ) = ess.sup g(x), pour > 0,
|xx0 |<
|xx0 |<
puis
g(x0 ) = lim g (x0 ), g(x0 ) = lim g (x0 ).
0+
Alors,
0+

f (x0 ) = g(x0 ), g(x0 ) .
Exemple 6.11 Soit H un espace de Hilbert et S une partie ferme non vide
de H . Nous avons vu au 2.2 du Chapitre 2 limportance de la fonctiondistance S, d S , et de ses associs ( 21 d S2 , S , S ). Or, la fonction d S est
toujours Lipschitz sur H (avec L = 1 comme constante de Lipschitz). Cest
donc le moment de se familiariser avec le sous-diffrentiel gnralis d S (x)
/ S et x Fr S. Le lecteur-tudiant est invit traiter
de d S en des points x
des exemples simples dans R2 ou R3 pour voir comment se construit d S (x)
et les convexes compacts particuliers quon en tire (en particulier, d S (x)
B(0, 1)).
1.2 Sous-diffrentiels gnraliss au sens de CLARKE : Rgles de

calcul basiques
Les rgles de calcul basiques sur les sous-diffrentiels gnraliss sont directement drives des rgles de calcul sur les sous-diffrentiels de fonctions
convexes (du Chapitre 4). En effet, f (x) est le sous-diffrentiel en 0 de la
fonction convexe positivement homogne f (x ; ) :
continue en x. Ainsi :

f est strictement differentiable sur O f est continument differentiable sur O .
151
x f (x) f (x ; d) f (x ; 0) + x , d 0 pour tout d E.

Ltablissement des rgles de calcul suit donc le cheminement suivant :
Dmontrer en premier lieu des relations dingalit entre drives
directionnelles gnralises ;
Appliquer les rgles de calcul sous-diffrentiel (de fonctions convexes)
ces fonctions drives directionnelles gnralises ;
En dduire des rgles de comparaison, sous forme dinclusions, entre
sous-diffrentiels gnraliss.
Rgles de calcul 6.12
Toutes les fonctions en jeu sont localement Lipschitz, bien entendu.
(i) ( f )(x) = f (x) pour tout R. En particulier,

( f )(x) = f (x).
(6.16)
( f + g)(x) f (x) + g(x).
(6.17)
(ii)
(iii) Si x est un minimiseur local ou un maximiseur local de f , alors :

0 f (x).
(6.18)
(iv) "Semicontinuit extrieure" de la multiapplication f : E E :
Si (x k ) x, x k f (x k )
et si x k x (pour la topologie faible , (E , E)),

(6.19)
alors x f (x).
(v) Thorme des accroissements finis (ou de la valeur moyenne) : Supposons [x, y] O ; il existe alors t ]0, 1[ tel que
f (y) f (x) f [x + t (y x)], y x
(6.20)

:= x , y x | x f [x + t (y x)] .
(vi) Si f = max( f 1 , . . . , f k ),

f (x) co f i (x) | i tels que f i (x) = f (x) .
(6.21)
152
(vii) Un exemple de rgle de calcul sur fonctions composes : Supposons

que f = g F, avec F continment diffrentiable sur O1 et g localement
Lipschitz sur O2 . Alors :
f (x) [D F(x)] g[F(x)],
(6.22)
o [D F(x)] : E 2 E 1 dsigne ladjointe de la diffrentielle D F(x)
L (E 1 , E 2 ).
Il y a galit en (6.22) lorsque D F(x) est surjective.
Dmonstrations. Nous nen esquisserons que quelques-unes pour illustrer le

cheminement prsent plus haut.
(i) Pour dmontrer (6.16), on utilise le fait que ( f ) (x ; d) = f (x ; d)
pour tout d E.
(ii) On commence par dmontrer que
( f + g) (x ; d) f (x ; d) + g (x ; d) pour tout d E.
(iii) En un point x minimiseur local de f ,
f (x ; d) 0 pour tout d E.
(iv) On commence par dmontrer que

f (x ; d) max f i (x ; d) | i tels que f i (x)
= f (x)
pour tout d E.
Etc.
Quelques commentaires avant daller plus loin :

Linclusion (6.17), et non lgalit, peut surprendre. En fait, il nen est
rien, cest lgalit qui aurait t tonnante, vu la gnralit des fonctions
en jeu et la manire "tarabiscote" dont le sous-diffrentiel gnralis est
construit. Pour prendre un exemple simple, si f (x) = g(x) = |x |,
f (0) = g(0) = [1, +1], alors que ( f + g)(0) = {0} .
Si f = g h, avec g et h convexes, la condition doptimalit (6.18) doit
faire cho ce que nous avons vu au 3 du Chapitre 5 (le modle diffconvexe) : Si x est un minimiseur local ou un maximiseur local de f =
g h, alors
153
0 f (x)
g(x)
h(x),
cest--dire : g(x)
h(x)
= . Cest prcisment cette dfinition que
nous avons adopte pour un point T-critique (ou T-stationnaire) de f =
g h.
La relation (6.20) est trs simple, et pourtant elle est trs utile, ne seraitce quen algorithmique o on est frquemment en situation de comparer f (xk + tk dk ) f (xk ). Or
f (xk + tk dk ) = f (xk ) + tk sk , dk ,
o sk f (k ) et k est un point intermdiaire entre xk et xk + tk dk .
Avoir des galits dans les inclusions des rgles de calcul 6.12 requiert,
a priori, des hypothses fortes sur le comportement des fonctions au
voisinage de x. Lune dentre elles est que, pour les fonctions f en jeu,
la drive directionnelle usuelle f (x ; ) existe et concide avec la drive directionnelle gnralise f (x ; ). Certes, ceci est vrifi pour les
fonctions continment diffrentiables ou les fonctions convexes, mais a
peu de chances de ltre pour une fonction non convexe qui ne serait pas
diffrentiable en x.
1.3 Un exemple dutilisation des sous-diffrentiels gnraliss :

les conditions ncessaires doptimalit dans un problme
doptimisation avec contraintes
Considrons, mme si ce nest pas un contexte aussi gnral que souhait,
un problme doptimisation avec des contraintes ingalits :

Minimiser f (x)
(P )
g1 (x) 0, . . . , g p (x) 0 (ensemble contrainte note S).
Dans le monde diffrentiable, cest--dire celui o toutes les donnes f ,
g1 , . . . , gk : E R sont des fonctions diffrentiables, et mme continment
diffrentiables, les conditions ncessaires doptimalit (du 1er ordre) prennent
les formes que voici.
Conditions la F. JOHN. Si x S est un minimiseur local de f sur S, alors
positifs et non tous nuls tels que :
il existe 0 , i (i I (x)),

0 D f (x)
+
i Dgi (x)
= 0.
(6.23)
iI (x)
154
Ici, I (x)
= {i | gi (x)
= 0}, la somme sur I (x)
vaut 0 si I (x)
= .
Des conditions, dites de qualification des contraintes en x (conditions aux
noncs trs varis) assurent que 0 peut tre choisi = 0 dans lnonc
prcdent. Un exemple de condition de qualification des contraintes est :
(QC)x Il existe d tel que Dgi (x),
d < 0 pour tout i I (x).
Auquel cas nous avons accs :

Conditions la KARUSH-KUHN-TUCKER (KKT). Si x est un minimiseur local de f sur S, et si une condition comme (QC)x est satisfaite, il existe
tels que :
alors des i , i I (x),

i Dgi (x)
= 0.
(6.24)
D f (x)
+
iI (x)
Dans le cas o les donnes f, g1 , . . . , g p dans (P ) sont simplement localement Lipschitz, on a, comme on pouvait sy attendre, des conditions ncessaires doptimalit o les diffrentielles D sont remplaces par des sousdiffrentiels gnraliss . Ceci a dj t vu dans le cas dun problme
doptimisation sans contraintes (cf. (iii) des Rgles de calcul 6.12).
Thorme 6.13 ( la F. JOHN) Si x S est un minimiseur local de f sur S ,
il existe alors
0 , i (i I (x))
positifs et non tous nuls tels que :

0 0 f (x)
+
i gi (x)
= 0.
(6.25)
iI (x)
Thorme 6.14 ( la KKT) Si x S est un minimiseur local de f sur S , et

si, par exemple, on suppose
(QC)x Il existe d tel que gi (x ; d) < 0 pour tout i I (x),
alors il existe des

i , i I (x)
tels que :
0 f (x)
+
i gi (x).
(6.26)
iI (x)
Dmonstrations. Nous dmontrons les deux thormes, lun la suite de

lautre. La technique de dmonstration a ceci dintressant quelle fait appel
elle-mme une "construction non diffrentiable" (et donc napparaissant
pas dans le monde de loptimisation diffrentiable).
Par hypothse, il existe un voisinage de x,
appelons-le V , tel que
f (x) f (x)
pour tout x V S.
(6.27)
155
Considrons prsent

(x) := max f (x) f (x),
gi (x), i = 1, . . . , p .
Les donnes au dpart, f, g1 , . . . , g p , tant dj non diffrentiables, cette
"prise de max" (une construction hautement non diffrentiable) najoute pas
de complexit notre affaire.
Alors :
Pour x V S, (x) (x)
= 0 [en raison de (6.27)] ;
Pour x V , x
/ S, il existe i {1, . . . , p} tel que gi (x) > 0, do
(x) 0.
En somme,
(x) (x)
= 0 pour tout x V.
Se rappelant alors les rsultats (iii) et (iv) des Rgles de calcul 6.12, on a

0 g(x)
co f (x),
gi (x),
i I (x)
,
do lexistence de coefficients de combinaisons convexes,

0 0, i 0 pour tout i I (x),
0 +
i = 1,
iI (x)
tels que
0 0 f (x)
+
i gi (x).
iI (x)
Le Thorme 6.13 est ainsi dmontr.

Supposons maintenant (QC)x et raisonnons par labsurde : 0 = 0 dans
la relation (6.25). On a alors :

non tous nuls et 0
i gi (x).
i 0, i I (x),
iI (x)
Cela induit

iI (x)
i gi (x ; d)
i gi (x ; d) 0 pour tout d E.
iI (x)
En choisissant la direction d apparaissant dans (QC)x et se souvenant que

sont 0 et ne sont pas tous nuls, on arrive une contrales i , i I (x),

diction. Donc 0 ne peut tre nul. Le Thorme 6.14 est dmontr.
156
1.4 En route vers la gomtrie non lisse

Il est recommand ltudiant-lecteur de relire le 2.2 du Chapitre 2 et
le 4 du Chapitre 3. Comme dans ces paragraphes le contexte tait hilbertien, convenons que pour cette section lespace de travail est un espace de
Hilbert H .
Soit S une partie ferme de H et x S, plus spcifiquement x Fr S. Il y a
maintenant plusieurs voies possibles pour dfinir un cne tangent gnralis
et un cne normal gnralis C en x. Nous adoptons lune de ces voies, celle
qui consiste commencer par le cne tangent, comme ce fut le cas au 4.1
du Chapitre 3.
Dfinition 6.15 Soit d H . Cette direction d est dite tangente S en x S
(au sens de Clarke) lorsquune des assertions quivalentes ci-dessous est
vrifie :
(i)

d R+ d S (x) .
(6.28)
(ii) (x n ) S qui converge vers x , (tn ) > 0 qui tend vers 0, (dn ) qui
tend vers d tel que
xn + tn dn S pour tout n.
(iii)
d S (x ; d) = lim sup
x x
t 0+
d S (x + t d)
= 0.
t
(6.29)
(6.30)
Lensemble des directions tangentes S en x est appel cne tangent de

Clarke S en x , et not TCl (S, x) (ou bien TCl
S (x)).
Le cne normal de Clarke S en x est alors naturellement dfini comme

tant le cne polaire du cne tangent :

(6.31)
NCl (S, x) = TCl (S, x) (= R+ d S (x) daprès (6.28)).
Dans le cas o S est convexe, on retrouve les notions de cne tangent et de
cne normal vues au 4.1 du Chapitre 3, ne serait-ce que parce que d S (x ; ) =
d S (x ; ) dans ce cas. Nous laissons donc tomber la rfrence Cl dans les
notations.
157
Retenons en rsum :
En chaque point x de S (de Fr S plus prcisment), il y a deux cnes
convexes ferms mutuellement polaires qui sont dfinis :
T (S, x) : le cone tangent S en x;
N (S, x) : le cone normal S en x.
Avertissement. Vu la gnralit du contexte dans lequel ces deux concepts
sont dfinis (S est un ferm quelconque de H !), on ne peut pas sattendre ce
que les notions de tangence ou de normalit S soient toujours trs prcises
ou informatives.
Signalons nanmoins la condition ncessaire doptimalit que voici. Considrons le problme de minimisation suivant :

Minimiser f (x)
(P )
x S,
o f : H R est localement Lipschitz et S H un ferm.
Thorme 6.16 (condition ncessaire doptimalit)
Si x S est un minimiseur local de f sur S , alors :
0 f (x)
+ N (S, x).
(6.32)
Dmonstration (Esquisse). On vrifie que x est un minimiseur local (sans

contrainte) de la fonction "pnalise" f + L d S , o L est une constante de
Lipschitz de f au voisinage de x.
Par suite (cf. Rgles de calcul 6.12) :
f (x)
+ R+ d S (x)
0 ( f + L d S )(x)
f (x)
+ N (S, x).
Remarque : Soit S reprsent sous forme de contraintes ingalits :

S = x H | g1 (x) 0, . . . , g p (x) 0 ,
o les gi : H R sont localement Lipschitz. Soit x S et supposons
(QC)x Il existe d tel que gi (x ; d) < 0 pour tout i I (x).
On dmontre alors et ce nest pas trs difficile linclusion suivante :

N (S, x)

R+ gi (x).
iI (x)
158
Ainsi, la condition doptimalit (6.32) conduit la condition doptimalit

(6.26).
Comme quoi,
"Tout est dans tout et reciproquement"
(Pierre Dac).
2 Sous-diffrentiation gnralise de fonctions s.c.i. valeurs

dans R {+}
Comme cela a t indiqu dans lintroduction du chapitre, le dsir dtablir des conditions ncessaires doptimalit dans des problmes variationnels
ou doptimisation formuls de manire abstraite et gnrale conduit se proccuper de la sous-diffrentiation gnralise de fonctions
f : E R {+}
et donc non localement Lipschitz ni mme finies sur E. On considrera tout
de mme que (E, ) est un espace de Banach (il deviendra rapidement
plus prcis que cela) et que f est s.c.i. sur E (avec tout ce que cela induit
comme proprits, cf. Chapitre 1). Nous prsentons un choix de quatre de ces
sous-diffrentiels gnraliss, puis les rgles de va-et-vient entre lAnalyse
et la Gomtrie (non lisses), et enfin un exemple de problme doptimisation
o la fonction-objectif minimiser est s.c.i. et rien de plus.
2.1 Un panel de sous-diffrentiels gnraliss

Dans toute la suite, le point de sous-diffrentiation gnralise considr x
est un point en lequel f est finie (x dom f , si on prfre).
Le sous-diffrentiel gnralis (ou gradient gnralis) de Clarke
Le concept propos tend celui tabli en 1e` re partie pour les fonctions localement Lipschitz. Sans entrer dans les dtails de pourquoi et comment on arrive
cela, nous commenons par dfinir la drive directionnelle gnralise :
d E
f (x ; d) = lim
0+
lim sup
inf
vd
x x
f (x ) f (x)
t0+
f (x + t v) f (x )
.
t
(6.33)
La " lim " peut tre remplace par "sup ". Reconnaissons que lexpression
de
0+
f (x ; d)
> 0
dans (6.33) nest pas trs apptissante... Cest le prix payer
2. FONCTIONS S.C.I. VALEURS DANS R {+}
159
pour un concept jouissant de rgles de calcul robustes pour des fonctions

considres f si gnrales. Comme sous-produit, nous dfinissons

Cl f (x) = x E | x , d f (x ; d) pour tout d E .
(6.34)
Il se trouve que, lorsque Cl f (x) = , f (x ; ) est la fonction dappui
de lensemble Cl f (x). Avec la figure ci-jointe, on comprend aisment
pourquoi cest "x x et f (x ) f (x)" qui apparat dans la construction
de f (x ; d) dans (6.33) (il faut vraiment quon sapproche de (x, f (x)) via
le graphe ou lpigraphe de f ).
Comme pour les fonctions localement Lipschitz, on laissera tomber la

rfrence Cl dans le graphisme dsignant le sous-diffrentiel gnralis (ou
gradient gnralis) de Clarke (dfinition (6.34)).
Le sous-diffrentiel gnralis au sens de Frchet
En raison de la ressemblance avec la dfinition de diffrentiabilit de f en x
au sens de Frchet, on dit que f est sous-diffrentiable au sens de Frchet
(ou F-sous-diffrentiable) en x sil existe x E tel que
lim inf
d 0
f (x + d) f (x) x , d
0.
d
(6.35)
Lensemble des x vrifiant ceci est appel le F-sous-diffrentiel de f en x

et est not F f (x). Comme on sy attend, si f est Frchet-diffrentiable
en x, F f (x) ne contient quun seul lment : D F f (x).
Une autre manire dexprimer que x F f (x), plus proche de celles qui
vont suivre, est comme suit : Pour tout > 0, il existe un voisinage B(x, )
de x tel que

f (x ) f (x) + x , x x x x pour tout x B(x, ).
160
Le sous-diffrentiel gnralis au sens de viscosit

Cette nouvelle dfinition est une lgre variante de la prcdente. La fonction f est dite sous-diffrentiable au sens de viscosit en x (ou V-sousdiffrentiable) sil existe une fonction C 1 (E) telle que
f (x) = (x), f (x ) (x ) pour tout x dans un voisinage de x. (6.36)
La collection des D(x) pour des fonctions comme au-dessus est appele
le V-sous-diffrentiel de f en x et est note V f (x).
Les fonctions sont comme les fonctions tests dans la thorie des distributions : on considre toutes les minorantes locales de f et on ramasse toutes
les diffrentielles D(x) dans un sac dnomm V f (x).
Lappellation "de viscosit" vient simplement du fait quon utilise des fonctions tests comme au-dessus dans les dfinitions de "sous-solution de viscosit" et de "sur-solution de viscosit" dans les quations dites de HamiltonJacobi-Bellman.
Un premier enchanement dinclusions est comme suit :
V f (x) F f (x) f (x).
(6.37)
Rduire la gnralit du contexte permet de simplifier quelque peu les choses.

On dit que (E, ) est Frchet-lisse sil existe sur E une norme quivalente
qui soit diffrentiable sur E, part en 0 bien sr (o une norme nest
jamais diffrentiable). Cest le cas de tous les espaces L p (avec leurs normes
habituelles), de tous les espaces de Hilbert (avec les normes hilbertiennes
drives des produits scalaires). De plus, un espace de Banach rflexif peut
tre renorm avec une norme quivalente jouissant de la proprit de diffrentiabilit requise. On a alors la proprit suivante : si (E, ) est Frchetlisse, V f = F f ; ouf, toujours a de gagn !
Le sous-diffrentiel gnralis proximal
Supposons que le contexte de travail soit celui dun espace de Hilbert H .
On dit que f est sous-diffrentiable au sens proximal en x sil existe x H
et r > 0 tels que

2
f (x ) f (x) + x , x x r x x
(6.38)
pour tout x dans un voisinage de x. Gomtriquement, cela signifie quon a

2
considr des minorantes locales x
f (x) + x , x x r x x
de f qui sont quadratiques.
Lensemble des x pour lesquels la proprit au-dessus est satisfaite est appel
le sous-diffrentiel gnralis proximal de f en x et est not prox f (x). Ceci
nous ramne bien des choses tudies au 2 du Chapitre 2.
161
Pour faire une schma-rsum, considrons donc un espace de

Hilbert H , f : H R {+} s.c.i. et x dom f . Alors :
prox f (x) V f (x) = F f (x) f (x).
(6.39)
Comme sous-produit des rsultats du 2.1 du Chapitre 2, mentionnons le

rsultat de densit suivant : Si f H R {+} est s.c.i. et borne
infrieurement sur H , alors

(6.40)
x dom f | prox f (x) = est dense dans dom f.
Il va sans dire que le rsultat attendu suivant est vrai : si x est un minimiseur
local de f , alors 0 prox f (x).
2.2 Les rgles de va-et-vient entre Analyse et Gomtrie non lisses

Soit H un espace de Hilbert et f : H R continment diffrentiable
sur H . Le graphe de f , {(x, y) H R | y = f (x)} est lensemble de
niveau (au niveau 0) de la fonction
(x, y) H R
h(x, y) := f (x) y.
Quand on tait petit on a appris qualors la "normale" cet ensemble de
niveau au point (x, y = f (x)) tait dirige par h(x, y) = ( f (x), 1).
Ayant dfini une "normalit" S = epi f en (x, f (x)), comme cela a t
fait la Section 1.4 de la 1e` re partie, on aurait pu dfinir un sous-diffrentiel
gnralis de f en x comme suit :

f (x) = x H | (x , 1) Nepi f (x, f (x) .
(6.41)
162
Il se trouve mais ce nest pas immdiat dmontrer quon obtient exactement le sous-diffrentiel gnralis de Clarke. Do une premire rgle
sappliquant toutes les "normalits" imaginables :
Ds quon a une notion de normalit un ensemble, on a une notion de
sous-diffrentiabilit une fonction.
Le cheminement inverse peut galement tre envisag : avec la fonction f =
i S (indicatrice de S), on peut dfinir en x S
N (S, x) = (i S )(x).
Ainsi, deuxime rgle sappliquant toutes les sous-diffrentiations gnralises imaginables :
Ds quon a une notion de sous-diffrentiation gnralise pour des fonctions ventuellement valeurs +, on a une notion de normalit un
ensemble.
Exemples.
Un exemple important de problmes doptimisation voqu ds le 2.2 du
Chapitre 1 est celui de la minimisation du rang dune matrice :

Minimiser f (A) := rang de A,
(P )
A C,
o C est un ensemble ferm de Mm,n (R) (convexe le plus souvent).
(P ) est le cousin matriciel dun problme pos dans R p , de formulation plus
simple :

Minimiser c(x) := Card {i | xi = 0} ,
(Q)
x S,
o S est un ensemble ferm de R p . La fonction c est la "fonction de comptage", souvent not x 0 (mais ce nest pas une norme !)
Dans (P ) ou (Q), les fonctions-objectifs sont s.c.i. et valeurs entires.
Aucune proprit de continuit, a fortiori de diffrentiabilit, nest accessible. Ces fonctions (rang, de comptage) sont trs chahutes. Voici deux
trangets (du point de vue Optimisation ou Analyse variationnelle) quon
peut mentionner leur sujet.
163
Proposition 6.17 Dans le problme doptimisation (P ) (ou (Q)), tout point

admissible est minimiseur local. Dmonstration. Nous la faisons dans le cas
du problme (P ). Les deux ingrdients essentiels sont la semicontinuit
infrieure de f : A
f (A) = rang de A et le fait que f ne puisse prendre
quun nombre fini de valeurs.
Soit donc A C . Puisque f est s.c.i. en A,
lim inf f (B) f (A).
B A
Dune manire dtaille, pour tout > 0, il existe un voisinage V de A tel

que
f (B) f (A) pour tout B V.
(6.42)
Choisissons < 1, disons = 1/2. Puisque f ne peut prendre que des
valeurs entires allant de 0 p := min(m, n), nous dduisons de (6.42) :
f (B) f (A) pour tout B V C .
Ainsi, A est un minimiseur local de f sur C .
Quil y ait un ensemble-contrainte ou pas dans le problme (P ) ou (Q)

naffecte en rien le rsultat de la Proposition 6.17.
Il a t vu la fin du Chapitre 5 (Exercices 3 et 4) que des relaxations convexes
de la fonction de comptage et de la fonction rang peuvent tre explicites.
Questions naturelles prsent : quoi ressemblent les sous-diffrentiels gnraliss de la fonction de comptage et de la fonction rang ? Nous fournissons
la rponse pour la fonction de comptage seulement, mais elle est du mme
tonneau pour la fonction rang.
Thorme 6.18 Les sous-diffrentiels gnraliss de la fonction de comptage c en x R p , au sens proximal, de Frchet-viscosit, ou de Clarke,
concident tous et ont pour valeur commune

c(x) = x = (x1 , . . . , x p ) R p | xi = 0 pour tout i
/ I (x) ,
o I (x) = {i = 1, . . . , p tels que xi = 0}.
Dmonstration. Elle passe par lvaluation de quotients diffrentiels de la

)
forme c(x +d)c(x
, pour x voisin de x, ou seulement pour x = x, valuation
d
pouvant tre explicite en raison de la structure particulire de la fonction c.
164
Exercices
Exercice 1 (Comparaison locale de deux fonctions localement Lipschitz)
1) Soit f, g : O E R localement Lipschitz, soit x O . On suppose

f (x)
= g(x),
f (x) g(x) dans un voisinage de x.
Montrer qualors f (x)

g(x)
= .
2) Application. Soit f 1 , . . . , f k : O E R localement Lipschitz et f :=
max( f 1 , . . . , f k ).
Montrer que le sous-diffrentiel f (x), dont on sait dj quil est inclus
dans lensemble co { f i (x) | i tel que f i (x) = f (x)}, vrifie
f (x) f i (x) = pour tout i tel que f i (x) = f (x).
Exercice 2 (Sous-diffrentiel gnralis de | f | versus celui de f )
Soit f : O E R localement Lipschitz et x O un point en lequel f
sannule. Montrer
co { | f |(x) | f |(x)} = co { f (x) f (x)} ;
bref, f (x) et | f |(x) ont la mme "enveloppe convexe symtrise".
Exercice 3 (Thorme de concidence ("squeeze theorem"))
Soit f 1 , . . . , f k : O E R localement Lipschitz. On suppose :

f 1 f 2 . . . f k dans un voisinage de x;
= f 2 (x)
= . . . = f k (x).
f 1 (x)
Montrer qualors f 1 (x)
f 2 (x)
. . . f k (x)
= .
Exercice 4 (Prolongements lipschitziens)
tant donn une partie non vide S de lespace de Banach (E, ), on dsigne
par L ip (S) la classe des fonctions f : E R vrifiant une condition de
Lipschitz sur S, cest--dire vrifiant

| f (x) f (y)|
||| f ||| := sup
x et y dans S, x = y < +.
x y
1) Soit f L ip (S) et k ||| f |||. On pose :
x E, f S,k (x) = sup { f (u) k x u } ,
u S
f S, k (x) = inf { f (u) + k x u } .

u S
EXERCICES
165
a) Montrer que f S, k et f S, k sont des fonctions Lipschitz sur tout

lespace E, avec k comme constante de Lipschitz, et quelles concident avec f sur S.
b) Soit g un prolongement k-Lipschitz de f , cest--dire une fonction
Lipschitz sur E (de constante de Lipschitz k) qui concide avec f
sur S. Montrer que
f S, k g f S, k .
2) Soit f dfinie sur E par :
x E, f (x) = d S c (x),
o S c dsigne le complmentaire (suppos non vide) de S dans E.
Quel est dans ce cas le prolongement f S, 1 ?
3) Soit S constitu dun nombre fini de points de E, soit f : E R une
fonction quelconque. Montrer quil existe une fonction g Lipschitz sur E
vrifiant :
s S, g(s) = f (s)
(interpolation dune fonction quelconque par une fonction Lipschitz).
4) On suppose ici que S est ferm et que k > 0. Montrer que x S est
un minimiseur global de f sur S si et seulement si x est un minimiseur
global de f S, k sur E.
Donner alors deux formes de conditions ncessaires doptimalit vrifies
par x (en termes de sous-diffrentiels gnraliss).
Exercice 5 (Conditions suffisantes doptimalit)
Soit (E, ) un espace de Banach et f : E R localement Lipschitz.
1) Soit C une partie convexe de E et x C vrifiant :
0.
x C, x f (x), x , x x
(6.43)
a) Montrer que x est alors un minimiseur de f sur C.

b) Montrer que si lingalit dans (6.43) est stricte pour tout x C, x =
x,
alors x est un minimiseur strict de f sur C (cest--dire f (x) >
f (x)
pour tout x C, x = x).
c) Indiquer pourquoi la condition (6.43) est satisfaite ds que

f (x ; x x) 0 pour tout x C.
(6.44)
166
2) On suppose ici que E = Rn et on dsigne par f lensemble des points

o f nest pas diffrentiable.
On suppose :
x Rn \ f , f (x), x x 0.
(6.45)
a) Montrer que x est un minimiseur de f sur Rn .

b) Lingalit stricte dans (6.45) pour tout x f , x = x,
implique-telle que x est un minimiseur strict de f sur Rn ?
Exercice 6
Soit f : Rn R s.c.i. On suppose que, pour tout x Rn , le sousdiffrentiel gnralis proximal prox f (x) est soit vide soit rduit {0}.
Montrer qualors la fonction f est constante sur Rn .
La fonction de comptage c (cf. Thorme 6.18) est l pour montrer quon peut
avoir 0 prox c(x) pour tout x Rn , et avoir une fonction extrmement
chahute.
Rfrences
[CLSW] F.H. Clarke, Yu.S. Ledyaev, R.J. Stern and P.R. Wolenski. Nonsmooth Analysis and Control Theory. Graduate texts in mathematics,
[S] W. Shirotzek. Nonsmooth Analysis. Universitext, Springer Verlag, 2007.
[BZ] J.M. Borwein and Q.J. Zhu. Techniques of Variational Analysis. CMS
[C2] F.H. Clarke. Optimization and Nonsmooth Analysis. Wiley, 1983.
Reprinted by SIAM (Classics in Applied Mathematics), 1990
[BL] J.M. Borwein and A.S. Lewis. Convex Analysis and Nonlinear Optimization. CMS books in mathematics, Springer Verlag, 2000.
[RW] R.T. Rockafellar and R.J.-B. Wets. Variational Analysis. Springer Verlag, 1998.
[HUL] J.-B. Hiriart-Urruty and A.S. Lewis. "The Clarke and Michel-Penot
subdifferentials of the eigenvalues of a symmetric matrix". Computational Optimization and Applications Vol. 13, 13 (1999), p. 1323.
[MP] Ph. Michel et J.-P. Penot. "Calcul sous-diffrentiel pour les fonctions
lipschitziennes et non lipschitziennes". C. R. Acad. Sci. Paris Vol. 298
(1984), p. 269272.
[M] B. Mordukhovich. Variational Analysis and Generalized Differentiation, I. Grundlehren der Mathematischen Wissenschaften 330, Springer
Verlag, 2006.
RFRENCES
167
[C] F.H. Clarke. "Generalized gradients and applications". Trans. Amer.

Math. Soc. Vol. 205 (1975), p. 247262.
[C] est le premier article publi (dans une revue) traitant de sous-diffrentiels
gnraliss (ou de gradients gnraliss) au sens de Clarke. Les livres [C2]
et [CLSW] contiennent les dveloppements complets sur ce concept.
Parmi toutes les variantes, signalons celle de Michel et Penot ([MP]) :
La drive directionnelle gnralise au sens de Michel et Penot est
dfinie (pour une fonction localement Lipschitz f ) comme suit :
d E
f (x ; d) := sup lim sup
yE
t 0+
f (x + t y + t d) f (x + t y)
t
Le sous-diffrentiel gnralis qui sensuit est :

mp f (x) = x E | x , d f (x ; d) pour tout d E .
On a gagn un peu (par rapport Cl f (x)) au sens o mp f (x) = {D F f (x)}
quand f est diffrentiable en x, mais on a perdu par le fait que la multiapplication mp : E E nest pas "semicontinue extrieurement". Dans
beaucoup dapplications, notamment celles concernant les fonctions valeurs
propres, les deux notions concident ([HUL]).
Pour les fonctions s.c.i. valeurs dans R{+}, les sous-diffrentiels gnraliss que nous avons abords (2e` me partie du chapitre) apparaissent parfois
dans la littrature sous des noms diffrents. Les livres [RW] (pour un contexte
de dimension finie) et [S] fourniront ltudiant-lecteur, sil en a besoin, un
panorama dtaill sur ces objets.
Enfin, une approche "par limites de sous-diffrentiels", initie ds la fin des
annes 1970 par A.Y. Kruger et B.S. Mordukhovich, conduit des objets
(cnes normaux, sous-diffrentiels gnraliss) qui ne sont pas ncessairement convexes. On y gagne en finesse (les concepts dfinis sont trs prcis) mais on perd la maniabilit fournie par la technologie de lAnalyse
convexe. Le volumineux ouvrage [M] propose une prsentation dtaille de
cette approche.
Maintenant que le Cours est termin, le lecteur-tudiant pourra se faire les
dents sur des problmes variationnels ou doptimisation non rsolus (ou non
compltement rsolus) ce jour.
J.- B. Hiriart- Urruty. "Potpourri of conjectures and open questions in
nonlinear analysis and optimization". SIAM Review Vol. 49, 2 (2007), p. 255273.
168
J.- B. Hiriart- Urruty. "A new series of conjectures and open questions
in optimization and matrix analysis". ESAIM : Control, Optimisation and
Calculus of Variations (2009), p. 454-470.
Index
A
Addition parallle de matrices dfinies
positives, 93
Admissibilit ou faisabilit convexe, 65, 67
Approximation hilbertienne, 42, 49
Approximations successives de points fixes, 34
B
Biconjugue dune fonction
voir Enveloppe convexe dune fonction
Brachystochrone (problme variationnel), 21
Diffrence de fonctions convexes, 129

Diffrentiabilit
au sens de Frchet, 53
au sens de Gteaux, 54
au sens de Hadamard, 54
Domaine dune fonction, 86
Dualisation non convexe
voir Schmas de dualit non convexe
C
Conditionnement dune matrice dfinie
positive, 130
Conditions doptimalit
en optimisation convexe, 115
en optimisation non convexe, 108
Conditions doptimalit asymptotiques
du premier ordre, 83
du deuxime ordre, 39
Conditions doptimalit globale, 110, 121
Cne polaire, 68, 70, 71, 76, 81
Cne tangent un convexe, 77
Cne tangent au sens de Clarke, 156
Cne normal un convexe, 78, 102
Cne normal au sens de Clarke, 156
E
Ensemble de sous-niveau dune fonction
dfinition, 3
Enveloppe convexe
de la varit de Stieffel, 135
des matrices de rang infrieurs k, 135
Enveloppe convexe dune fonction
continuit, 122
diffrentiabilit, 121
comportement linfini, 123
calcul numrique effectif, 123
Enveloppe s.c.i. dune fonction, 5
Epigraphe dune fonction
dfinition, 5
proprits, 3, 86
Existence de minimiseurs
thorme gnral, 1
en optimisation donnes linaires, 9
en prsence de convexit, 16
D
Dcomposition de Moreau, 68, 72, 79
Drive directionnelle
de la projection, 59
dune fonction convexe, 95
gnralise, 142
F
Fonction-barrire, 89
Fonction dappui, 89
Fonction indicatrice dun ensemble
dfinition, 17
proprits, 88

Mathmatiques et Applications 70, DOI: 10.1007/978-3-642-30735-5,
169
170
F (cont.)
Fonction convexe, 87
Fonction diffrence de convexes, 129
Fonction-distance, 42, 88
Fonction-distance signe, 44, 88
Fonction localement Lipschitz, 142
Fonction marginale, 88
Fonction propre, 88
Fonction valeurs propres, 89, 109, 135
Fonction variation totale (s.c.i.), 6
G
Gomtrie non lisse, 156
Gradient
de la fonction-distance, 42, 62
de fonctions convexes, 71
Gradient gnralis au sens de Clarke
voir Sous-diffrentiel gnralis
I
Ingalit
de Massera-Schffer, 17
de Dunkl-Williams, 17
de Milagranda, 17
de Fenchel, 98
dOpial, 137
Inf-convolution, 91, 106
L
Longueur dune courbe (s.c.i.), 6
M
Maximisation convexe sur un convexe, 130
Minimiseur approch, 25, 56
Minimiseurs de lenveloppe convexe
Moindres carrs, 61
Multiapplication-projection, 42, 45, 47
N
Norme
hilbertienne, 11
duale, 11
P
Palais-Smale (condition), 56
Point critique (ou stationnaire), 125
Point T-critique, 133
Index
Principe variationnel
dEkeland, 26, 111
de Borwein-Preiss, 37
de Stegall, 53
Prolongements lipschitziens, 164
Projection
sur un sous-espace vectoriel ferm, 60
sur un convexe ferm, 62, 109
sur un cne convexe ferm, 66
Q
Quasi-convexit, 87
R
Rang dune matrice (s.c.i.), 6
Rgle de Fermat asymptotique, 57
Rgularise s.c.i.
voir Enveloppe s.c.i.
Rgularise dune fonction convexe
de Moreau-Yosida, 94, 112, 138
avec le noyau norme, 94
Relaxation convexe, 118, 119, 136
voir Enveloppe convexe dune fonction
S
Schma de dualiti convexe, 115
Schma de dualit non convexe
modle convexe + quadratique, 124
modle diff-convexe, 129
Semicontinuit infrieure (s.c.i.)
dfinition analytique, 3
caractrisations gomtriques, 3
proprits, 2
enveloppe s.c.i., 4
Semicontinuit suprieure
dfinition, 2
Sparabilit, 16
Sous-diffrentiel dune fonction convexe
dfinition et premiers exemples, 100
proprits basiques, 102
maximalit, 105
approch, 123
diffrentiabilit, 105
rgles de calcul typiques, 105
Sous-diffrentiel gnralis
au sens de Clarke, 144, 156
au sens de Frchet, 159
au sens de viscosit, 160
proximal, 160
Index
T
Thorme de
Banach-Alaoglu-Bourbaki, 15
Clarke-Ekeland-Lasry, 125
F. John, 153
Karush-Kuhn-Tucker, 154
Moreau, 74, 114
Rademacher, 143
de reprsentation de Riesz, 19
Toland-Singer, 130
Von Neumann, 65
171
Weierstrass, 8
Topologie
faible, 9
faible-toile, 14
Transformation de Legendre-Fenchel
dfinition et premires proprits, 95
exemples, 94
rgles de calcul typiques, 99
de la diffrence de fonctions convexes, 137

Bases, Outils Et Principes Pour L'analyse Variationnelle PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bases, Outils Et Principes Pour L'analyse Variationnelle PDF

Uploaded by

Copyright:

Available Formats

www.biblio-scientifique.

For further volumes:

MATHMATIQUES & APPLICATIONS

Bases, outils et principes

Springer Heidelberg New York Dordrecht London

Ceci est un cours, pas un ouvrage de recherche o on serait tent de compiler

Ouvrages rcents du mme auteur

J.-B HIRIART-URRUTY. Les mathmatiques du mieux faire. Vol. 1 : Premiers pas

Rien de si pratique... quune bonne thorie.

Table des matires

- PROLGOMNES : LA SEMICONTINUIT INFRIEURE ;

Table des matires

-AUTOUR DE LA PROJECTION SUR UN CONVEXE FERM;

QUELQUES SCHMAS DE DUALISATION DANS DES

SOUS-DIFFRENTIELS GNRALISS DE FONCTIONS

"Analysis is the technically most successful and best-elaborated

2 La question de lexistence de solutions

PROLGOMNES. RSULTATS FONDAMENTAUX

2.1 La semicontinuit infrieure

0, V voisinage de x tel que f (y) f (x) pour tout x V.

(notion plus "palpable" que celle exprime en (1.1)). Il y a quivalence avec la

cest loccasion dun jeu de mots : "Baire est basque...".

Exemple 1.4 (Un exemple qui marche (et fort utilis))

Pour dmontrer une s.c.i, on utilise aussi bien la proprit de dfinition

PROLGOMNES. RSULTATS FONDAMENTAUX

On dmontre le premier point grce lingalit

(en faisant donc appel la dfinition analytique) ; on dmontre le deuxime

(puis on conclut avec le fait quune intersection quelconque de ferms est un

2.2 Des exemples

PROLGOMNES. RSULTATS FONDAMENTAUX

Exemple 1.9 (Exemple de la longueur dune courbe)

Les courbes graphes de f 1 , f 2 , ..., f k , ... ont toutes la mme longueur,

La fonction "longueur dune courbe" (mme pour des courbes "gentilles")

En dautres termes, le rang de Ak ne peut que chuter lorsque Ak A.

J est ce quon appelle

On dfinit lespace BV () des fonctions variation borne dans  comme

PROLGOMNES. RSULTATS FONDAMENTAUX

Cette proprit de "compacit" est relier celle de semicontinuit

2.3 Un rsultat standard dexistence

premier rsultat) et il existe x S tel que f (x) = inf f (= f) (cest un

(X E ferme pour 2 ) (X ferme pour 1 ).

Si f est borne infrieurement sur S (i.e., f := inf c, x > ), alors le

problme de la minimisation de f sur S a des solutions.

Fig. 1.1 S est polydral

PROLGOMNES. RSULTATS FONDAMENTAUX

Fig. 1.2 f est linaire,

Pourtant S (ferm) na pas t suppos born (S na donc pas t suppos

3 Le choix des topologies. Les topologies faibles sur un espace

(cest vraiment un sup, pas un max).

PROLGOMNES. RSULTATS FONDAMENTAUX

Supposons dsormais que (E, ) est un espace de Banach.

3.2 Topologie faible (E, E ) sur E

(ii) [Qui peut le plus peut le moins]

(xk x) ((xk )k est borne e et lim inf xk  x).

(iv) [Couplage "convergence forte dans E convergence faible dans E "]

Consquence : Si f : E R {+} est convexe s.c.i. (pour la topologie

Le cas de la fonction norme, f =  a t vu au (iii) de la Proposition (1.14)

3.3 Le topologie faible-, (E , E) (weak- en anglais)

PROLGOMNES. RSULTATS FONDAMENTAUX

pour affaiblir la topologie forte sur E : on cre ainsi, sur E , la topologie

"xk x " pour "xk x pour la topologie (E , E)".

xk x (xk , x x , x pour tout x E).

(ii) [La topologie faible- est spare]

On dfinit lespace BV () des fonctions variation borne dans comme

Si f est borne infrieurement sur S (i.e., f := inf c, x > ), alors le

Supposons dsormais que (E, ) est un espace de Banach.

(xk x) ((xk )k est borne e et lim inf xk x).

Le cas de la fonction norme, f = a t vu au (iii) de la Proposition (1.14)

xk x (xk , x x , x pour tout x E).

Pour cela, on minimise f u : x H f u (x) := u x sur C.

avec galit si et seulement si : x = y ou

x + y x + y [2 (x, y)] max (x , y) , (1.13)

t) := Ax, x + 2b, xt + ct 2

(iii) x E, x = v , f (v ) < f (x) + v x.

En raccourci cela donne : > 0, v tel que DG f (v )

S0 est un ensemble de sous-niveau de la fonction x f (x) + x x0 ,