Professional Documents
Culture Documents
Mthodes numriques
Introduction l'analyse numrique et au calcul scientique
Cours /
Guillaume Legendre
7 9
9 9 9 9 9
11
13 15
15 17 17 19 20 21 22 22 23 26 28 29 33 33 34 35 43 47 48 48 49 49 50 51
43
4.1 Localisation des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Mthode de la puissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Approximation de la valeur propre de plus grand module . . . . . . . . . . . . . . 4.2.2 Approximation de la valeur propre de plus petit module : la mthode de la puissance inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Mthode de Jacobi pour les matrices symtriques . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Matrices de rotation de Givens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Mthode de Jacobi classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Mthode de Jacobi cyclique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
57 59 59
60 61 61 61 61
63
65
66 66 67 67 68 70 73 73 74 77 78 79 81 82 84 84 84
6 Interpolation polynomiale
6.1 Polynme d'interpolation de Lagrange . . . . . . . . . . 6.1.1 Forme de Lagrange du polynme d'interpolation 6.1.2 Forme de Newton du polynme d'interpolation . 6.1.3 Algorithme de Neville . . . . . . . . . . . . . . . 6.1.4 Interpolation polynomiale d'une fonction . . . . . 6.2 Interpolation polynomiale par morceaux . . . . . . . . . 6.2.1 Interpolation de Lagrange par morceaux . . . . . 6.2.2 Splines d'interpolation . . . . . . . . . . . . . . . 7.1 7.2 7.3 7.4 Quelques gnralits sur les formules de quadrature Formules de NewtonCotes . . . . . . . . . . . . . Estimations d'erreur . . . . . . . . . . . . . . . . . Formules de quadrature composites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 89 . 90 . 92 . 93 . 94 . 98 . 99 . 100 . . . . . . . . .
89
7 Intgration numrique
103
109
A.2.4 Trace et dterminant d'une matrice . . . . . A.2.5 Valeurs et vecteurs propres . . . . . . . . . . A.2.6 Matrices semblables . . . . . . . . . . . . . . A.2.7 Quelques matrices particulires . . . . . . . . A.3 Normes et produits scalaires . . . . . . . . . . . . . . A.3.1 Dnitions . . . . . . . . . . . . . . . . . . . A.3.2 Produits scalaires et normes vectoriels . . . . A.3.3 Normes de matrices . . . . . . . . . . . . . . A.4 Systmes linaires . . . . . . . . . . . . . . . . . . . A.4.1 Systmes linaires carrs . . . . . . . . . . . . A.4.2 Systmes linaires sur- ou sous-dimensionns A.4.3 Systmes chelonns . . . . . . . . . . . . . . A.4.4 Conditionnement d'une matrice . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
115 117 117 119 121 121 123 125 130 131 131 132 133
B Rappels d'analyse
137
Avant-propos
Ce document regroupe les notes d'un cours enseign en deuxime anne de licence de Mathmatiques et Informatique appliques l'conomie et l'Entreprise (MI2E) l'universit Paris-Dauphine. Cet enseignement se compose la fois de cours magistraux et de sances de travaux dirigs et de travaux pratiques. Son but est de prsenter plusieurs mthodes numriques de base utilises pour la rsolution des systmes linaires, des quations non linaires ou encore pour l'approximation des fonctions par interpolation polynomiale, ainsi que d'introduire aux tudiants les techniques d'analyse (thorique) de ces dernires, en abordant notamment les notions de onvergene, de prision et de stilit. Certains aspects pratiques de mise en uvre sont galement voqus et l'emploi des mthodes est motiv par des problmes concrets. La prsentation et l'analyse des mthodes sont suivies d'une implmentation et d'applications ralises par les tudiants avec les logiciels Matlab R 1 et GNU Octave 2 . Il est noter que ce support de cours comporte des plusieurs passages qui ne seront pas traits dans le cours devant les tudiants (ce dernier xant le programme de l'examen), ou tout au moins pas de manire aussi dtaille. Enn, les notes biographiques sont pour partie tires de Wikipedia 3 . Guillaume Legendre Paris, dcembre .
[AK02]
Matlab est une mrque dpose de he wthorksD snFD http://www.mathworks.com/F GNU Octave est distriu sous liene qx qvD http://www.gnu.org/software/octave/F WikipediaD the free encyclopediaD http://www.wikipedia.org/F
7
A. Quarteroni, R. Sacco, and F. Saleri. wthodes numriquesF elgorithmesD nlyse et ppliE tions. Springer, 2007. J. Stoer and R. Bulirsch. sntrodution to numeril nlysis. Springer-Verlag, third edition, 2002. E. Sli and D. F. Mayers. en introdution to numeril nlysis. Cambridge University Press, 2003. R. S. Varga. wtrix itertive nlysis, volume 27 of pringer series in omputtionl mtheE mtis. Springer-Verlag, second edition, 2000.
Chapitre 1
1.1
Motivations
Un lgorithme est un nonc dcrivant, l'aide d'oprations lmentaires, toutes les tapes d'une dmarche systmatique permettant la rsolution d'un problme spcique. Un algorithme peut son tour contenir des sousElgorithmes et doit pouvoir s'achever aprs un nombre (ni d'oprations lmentaires an de pouvoir tre utilis dans un programme informatique. La mise en uvre d'un algorithme consiste en l'criture de la srie d'oprations lmentaires le composant dans un langage de programmation, ce que l'on appelle aussi frquemment une implementtion. La omplexit d'un algorithme est une mesure de son temps d'excution. Calculer la complexit d'un algorithme fait donc partie de l'analyse de l'ecacit et du cot d'une mthode numrique. pseudo-langage pour la description des algorithmes on compte les soustractions comme des additions
1.2
1.3
10
Premire partie
11
Prambule
algbre linaire numrique : deux/trois thmes : rsolution de systmes linaires (origine, grande taille, caractre particulier des matrices) et recherche de valeurs et vecteurs propres (motivations), problmes aux moindres carrs Dans les applications, beaucoup de matrices particulires : creuses, tridiagonales, symtriques, dnies positives qui proviennent de formualtions de problmes discrtiss par direntes mthodes dirences nies, lments nis, mthodes spectrales... Resolution de systmes linaires : exemple de la discrtisation d'une quation direntielle par dirences nies allaire 82, ciarlet en statitisques ? problme aux valeurs propres : vibrations d'un systme mcanique, corde vibrante allaire 203-206 On est parfois seulement intress par le calcul d'une valeur propre particulire plutot que l'ensemble du spectre (motivations quarteroni 171-2)
13
14
Chapitre 2
(2.1)
avec A une matrice d'ordre n coecients rels inversible et b un vecteur de Rn , par des mthodes dites diretes, c'est--dire fournissant, en l'absence d'erreurs d'arrondi, la solution exte en un nombre (ni 1 d'oprations lmentaires. On verra que ces mthodes consistent en la construction d'une matrice inversible M telle que M A soit une matrice triangulaire, le systme linaire quivalent (au sens o il possde la mme solution) obtenu,
M Ax = M b,
tant alors facile rsoudre (on verra ce que l'on entend prcisment par l). Une telle ide est par exemple la base de la clbre mthode d9limintion de quss 2 , qui permet de ramener la rsolution d'un systme linaire quelconque celle d'un systme triangulaire suprieur. Aprs avoir donn quelques lments sur la rsolution numrique des systmes triangulaires, nous introduisons dans le dtail la mthode d'limination de Gauss. Ce procd d'limination est ensuite rinterprt en termes d'oprations matricielles, donnant lieu une mthode de ftoristion des matrices. Les proprits de cette dcomposition sont explores et son application des matrices particulires est ensuite tudie. Le chapitre se conclut sur la prsentation de quelques autres mthodes de factorisation.
2.1
Observons tout d'abord que la solution du systme linaire Ax = b, avec A une matrice inversible, ne s'obtient pas en inversant A, puis en calculant le vecteur A1 b, mais en ralisant plutt des combinaisons linaires sur les lignes du systme et des substitutions. En eet, on peut facilement voir que le calcul de la matrice A1 quivaut rsoudre n systmes linaires 3 , ce qui s'avre bien plus coteux que la rsolution d'un seul systme. Considrons prsent un systme linaire dont la matrice A est inversible et triangulaire infrieure,
IF yn oppose ii e type de mthodes ve les mthodes dites itrativesD qui nessitent @en thorieA un nomre in(ni d9oprtions pour otenir l solutionF gellesEi sont l9ojet du hpitre QF PF tohnn grl priedrih qu @QH vril IUUU E PQ fvrier IVSSA tit un mthmtiienD stronome et physiien llemndF urnomm pr ses pirs le prince des mathmaticiens D il tudi tous les domines des mthmtiques et ontriu dvelopper l pluprt des rnhes des sienesF QF ges systmes sont
Axi = ei , 1 i n,
15
c'est--dire de la forme
a11 x1 a21 x1 . . . an1 x1 + a22 x2 . . . = = . + ... .. + ann xn = b1 b2 . . . . bn
+ an2 x2
La matrice A tant inversible, ses termes diagonaux aii , i = 1, . . . , n, sont tous non nuls 4 et la rsolution du systme est alors extrmement simple : on calcule x1 par une division, que l'on substitue ensuite dans la deuxime quation pour obtenir x2 , et ainsi de suite... Cette mthode, dite de desente (forwrd sutitution en anglais), s'crit
x1 xi = = b1 a11
(2.2)
L'algorithme mis en uvre pour cette rsolution eectue n(n1) additions et soustractions, n(n1) mul2 2 tiplications et n divisions pour calculer la solution, soit un nombre d'oprations global de l'ordre de n2 . On notera que pour calculer la iime , 2 i n, composante du vecteur solution x, on eectue un produit scalaire entre le vecteur constitu des i 1 premiers lments de la iime ligne de la matrice L et le vecteur contenant les i 1 premires composantes de x. L'accs aux lments de A se fait donc ligne par ligne et on parle pour cette raison d'algorithme est orient ligne (voir l'algorithme 1).
faire
n pour
n pour
xi = xi /aii
On peut obtenir un algorithme orient olonne implmentant la mthode en tirant parti du fait que la iime composante du vecteur x, une fois calcule, peut tre limine du systme. L'ordre des boucles d'indices i et j est alors invers (voir l'algorithme 2, dans lequel la solution x calcule tant commodment stocke dans le tableau contenant initialement le second membre b).
On trouve que x1 = 3 et l'on considre ensuite le systme deux quations et deux inconnues
5 9 0 8 x2 x3 = 2 1 3 , 5 7
16
Algorithme 2 Algorithme de la mthode de descente (version oriente colonne) pour j = 1 n 1 faire n pour n pour
bj = bj /ajj pour i = j + 1 n bi = bi aij bj
faire
bn = bn /ann
Le choix d'une approche oriente ligne ou colonne dans l'criture d'un mme algorithme peut considrablement modier ses performances et dpend de l'architecture du calculateur utilis. Le cas d'un systme linaire dont la matrice est inversible et triangulaire suprieure se traite de manire analogue, par la mthode dite de remonte (k sutitution en anglais) suivante
xn xi = = b1 ann
(2.3)
et dont le cot est aussi de n2 oprations. L encore, on peut produire des algorithmes orients ligne ou colonne pour l'implmentation de la mthode. Dans la pratique, il est utile de remarquer que seule la partie non nulle de la matrice ncessite d'tre stocke 5 pour la rsolution d'un systme triangulaire, d'o une conomie de mmoire consquente dans le cas de grands systmes.
2.2
Une technique de choix pour ramener la rsolution d'un systme linaire quelconque celle d'un systme triangulaire et la mthode d9limintion de quss. Celle-ci consiste en premier lieu transformer, par des oprations simples sur les quations, ce systme en un systme quivalent, c'est--dire ayant la (ou les) mme(s) solution(s), M Ax = M b, dans lequel M A est une matrice triangulaire suprieure 6 (on dit encore que la matrice du systme est sous forme helonne ). Cette tape de mise zro d'une partie des coecients de la matrice est qualie d'limintion et utilise de manire essentielle le fait qu'on ne modie pas la solution d'un systme linaire en ajoutant une quation donne une combinaison linaire des autres quations. Si A est inversible, la solution du systme peut ensuite tre obtenue par une mthode de remonte, mais le procd d'limination est en fait trs gnral, la matrice pouvant tre rectangulaire.
17
En notant A(2) et b(2) la matrice et le vecteur second membre rsultant de ces oprations 7 , on a alors
aij = aij
(2)
et le systme A(2) x = b(2) est quivalent au systme de dpart. En supposant le coecient diagonal a(2) 22 de A(2) , on peut procder l'limination de l'inconnue x3 des lignes 3 n de ce systme, et ainsi de suite. On obtient, sous l'hypothse a(k) = 0, k = 1, . . . , n 1, une suite nie de matrices A(k) , k 2, de la kk forme
a11 0 . . . = 0 . . . 0
(k)
A(k)
(k)
... .. .
...
...
0 . . . 0
akk . . .
(k)
... ...
ank
(k)
(k)
ann
et telles que le systme A(k) x = b(n) est triangulaire suprieur. Les quantits a(k) , k = 1, . . . , n 1 sont kk appeles pivots et l'on a suppos qu'elles taient non nulles chaque tape, les formules permettant de passer du kime systme linaire au k + 1ime se rsumant
aij
(k+1)
= aij
(k)
aik
(k)
akk
(k)
akj et bi
(k)
(k+1)
= bi
(k)
aik
(k)
akk
(k)
bk , i = 2, . . . , n, j = 2, . . . , n.
(k)
En pratique, pour une rsolution la main d'un systme linaire Ax = b par cette mthode, il est commode d'appliquer l'limination la matrice ugmente A b .
Exemple d'application. Considrons la rsolution par la mthode d'limination de Gauss sans change du systme linaire suivant
x1 2 x1 3 x1 4 x1 + 2 x2 + 3 x2 + 4 x2 + x2 + 3 x3 + 4 x3 + x3 + 2 x3 + 4 x4 + x4 + 2 x4 + 3 x4 = 11 = 12 . = 13 = 14
la premire tape, le pivot vaut 1 et on soustrait de la deuxime (resp. troisime (resp. quatrime)) quation la premire quation multiplie par 2 (resp. 3 (resp. 4)) pour obtenir
x1 + 2 x2 x2 2 x2 7 x2 + 3 x3 2 x3 8 x3 10 x3 + 4 x4 7 x4 10 x4 13 x4 = 11 = 10 . = 20 = 3
Le pivot vaut 1 la deuxime tape. On retranche alors la troisime (resp. quatrime) quation la deuxime quation multiplie par 2 (resp. 7), d'o le systme
x1 + 2 x2 x2 + 3 x3 2 x3 4 x3 4 x3 + + + 4 x4 7 x4 4 x4 36 x4 = = = = 11 10 . 0 40
la dernire tape, le pivot est gal 4 et on soustrait la dernire quation l'avant-dernire multiplie par 1 pour arriver
x1 + 2 x2 x2 + 3 x3 2 x3 4 x3 + + 4 x4 7 x4 4 x4 40 x4 = = = = 11 10 . 0 40
18
Ce systme triangulaire, quivalent au systme d'origine, est enn rsolu par remonte :
x4 x3 x2 x1 =1 = x4 = 1 . = 10 2 7 = 1 = 11 2 3 4 = 2
Comme on l'a vu, la mthode de Gauss, dans sa forme sans change, ne peut s'appliquer que si tous les pivots a(k) , k = 1, . . . , n 1, sont non nuls, ce qui limine de fait des matrices inversibles aussi simples kk que
A= 0 1 1 . 0
De plus, le fait que la matrice soit inversible n'empche aucunement l'apparition de pivot nul durant l'limination, comme le montre l'exemple ci-dessous. inversible
On a alors
A(2)
1 = 0 0
et l'limination s'interrompt l'issue de la seconde tape, le pivot a(2) tant nul. 22 Il apparat donc que des conditions plus restrictives que l'inversibilit de la matrice sont ncessaires pour assurer la bonne excution de cette mthode. Celles-ci sont fournies par le thorme 2.2. Indiquons qu'il existe des catgories de matrices pour lesquelles la mthode de Gauss sans change peut-tre utilise sans aucun risque. Parmi celles-ci, on trouve les matrices digonle dominnte pr ligne ou pr olonne et les matrices symtriques d(nies positives (voir ce titre le thorme 2.9).
19
A(3)
2 4 4 0 3 0 = 0 0 7 0 0 2 2 4 0 3 = 0 0 0 0
T
et b(3)
0 4 = , 7
10 3
et
A(4)
4 0 7 0
7 2 7 2 2 3
et b(4)
0 7 = , 4
7 2
d'o la solution x = 1 1 0 2 . On note que l'on a procd au cours de la deuxime tape l'change des deuxime et de la troisime lignes. On pourra remarquer que si la matrice A est non inversible, alors tous les lments a(k) , k i n, ik seront nuls pour au moins une valeur de k entre 1 et n. Si k = n, on n'a dans ce cas pas besoin de raliser l'limination de cette kime (puisque cela est dj fait) et l'on passe simplement l'tape suivante en posant A(k+1) = A(k) et b(k+1) = b(k) . L'limination est donc bien possible pour une matrice carre non inversible et l'on a dmontr le rsultat suivant.
Thorme 2.1 oit A une mtrie rreD inversile ou nonF sl existe u moins une mtrie inversile M telle que l mtrie M A soit tringulire suprieureF
Il reste compter le nombre d'oprations lmentaires que requiert l'application de la mthode d'limination de Gauss pour la rsolution d'un systme linaire de n quations n inconnues. Tout d'abord, pour passer de la matrice A(k) la matrice A(k+1) , 1 k n1, on eectue (nk+1)(nk) = (nk)2 +(nk) 2 additions, (n k + 1)(n k) multiplications et n k divisions, ce qui correspond un total de n(n31) 2 additions, n(n31) multiplications et n(n1) pour l'limination complte. Pour la mise jour du second 2 membre l'tape k, on a besoin de n k additions et multiplications, soit en tout n(n1) additions et 2 multiplications. Enn, il faut faire n(n1) additions et multiplications et n divisions pour rsoudre le 2 systme nal par une mthode de remonte. En tout, la rsolution du systme par la mthode d'limination de Gauss ncessite donc de l'ordre de 3 2 n3 dditionsD n multiplitions et n divisions. titre de comparaison, le calcul de la solution du systme 3 3 2 par la rgle de Cramer (voir la proposition A.61) requiert, en utilisant un dveloppement brutal par ligne ou colonne pour le calcul des dterminants, de l'ordre de (n + 1)! additions, (n + 2)! multiplications et n divisions. Ainsi, pour n = 10 par exemple, on obtient un compte d'environ 700 oprations pour la mthode d'limination de Gauss contre prs de 479000000 oprations pour la rgle de Cramer !
quations et n inconnues, avec m = n. Ce procd ramne en eet toute matrice rectangulaire sous forme chelonne, et l'on peut alors rsoudre le systme associ comme expliqu dans la section A.4. La mthode d'limination de Gauss constitue ce titre un moyen simple de dtermination du rang d'une matrice quelconque.
Exemple numrique tir de [FM67]. Supposons que les calculs sont eectus en virgule ottante
dans le systme dcimal, avec une mantisse trois chires et considrons le systme
104 1 1 1 x1 x2 = 1 , 2
dont la solution est x1 = 1, 0001 et x2 = 0, 9999. En choisissant le nombre 104 comme pivot la premire tape de l'limination de Gauss, on obtient le systme triangulaire
104 0 1 9990 x1 x2 = 1 , 9990
puisque les nombres 104 + 1 = 9999 et 104 + 2 = 9998 sont tous deux arrondis au mme nombre 9990. La solution numrique calcule est alors :
x1 = 0 et x2 = 1,
et est trs loigne de la vritable solution du systme. Si, par contre, on commence par changer les deux quations du systme pour utiliser le nombre 1 comme pivot, on trouve
1 0 1 0, 999 x1 x2 = 2 , 0, 999
puisque les nombres 104 + 1 = 0, 9999 et 2 104 + 2 = 0, 9998 sont arrondis au mme nombre 0, 999. La solution calcule vaut x1 = 1 et x2 = 1, ce qui est cette fois trs satisfaisant. En gnral, le changement de pivot n'a pas un eet aussi spectaculaire que dans l'exemple ci-dessus, mais il n'en demeure pas moins essentiel lorsque les calculs sont eectus en arithmtique virgule ottante. De fait, pour viter la propagation d'erreurs et obtenir une meilleure stabilit numrique de la mthode, il faut chercher, mme dans le cas o le pivot naturel est non nul, choisir le plus grand pivot en valeur absolue. On peut pour cela suivre au dbut de la kime tape, 1 k n 1, de l'limination (k) soit une strtgie de pivot prtiel : le pivot est un des lments aik , k i n, de la k ime colonne situs sous la diagonale vriant
|aik | = max |apk |,
kpn (k) (k)
soit une strtgie de pivot totl : le pivot est un des lments de la sous-matrice aij , k i, j n,
(k)
vriant
(k)
Dans ce dernier cas, si le pivot n'est pas dans la colonne, il faut procder un change de colonnes en plus d'un ventuel change de lignes. Quelle que soit la stratgie adopte, cette recherche de pivot doit galement tre prise en compte dans l'valuation du cot global de la mthode d'limination de Gauss. 21
k ime
en appliquant chaque second membre ej les transformations ncessaires l'limination de Gauss Jordan. D'un point de vue pratique, on a coutume d' augmenter la matrice A inverser avec la matrice identit d'ordre n (les n seconds membres lmentaires ) et d'appliquer la mthode de GaussJordan la matrice crite par blocs A In . Au terme du processus d'limination, le premier bloc contient la matrice identit et, si aucun change de lignes n'a eu lieu, le second l'inverse de A.
Exemple.
2 Soit A = 1 0
1 2 1
0 1. La matrice augmente est 2 2 1 0 1 0 0 A In = 1 2 1 0 1 0 , 0 1 2 0 0 1 1 0 0 1/2 3/2 1 0 1 0 0 1 2 1/2 0 0 1/2 1 0 , 0 0 1 2/3 1/3 0 1/3 2/3 0 , 1/3 2/3 1 3/4 1/2 1/4 1/2 1 1/2 1/4 1/2 , 3/4
1 k = 2, 0 0
k = 3, 3 1 = 2 4 1 2 4 2 1 2. 3
1 0 0 0 1 0 0 0 1
d'o A1
2.3
Nous allons maintenant montrer que la mthode de Gauss dans sa forme sans change est quivalente la dcomposition de la matrice A sous la forme d'un produit de deux matrices, A = LU , avec L
IHF ilhelm tordn @Ier mrs IVRP E IU vril IVWWA tit un godsiste llemndF sl est onnu prmi les mthmtiiens pour le prod d9limintion portnt son nom et puli en IVVV dns son Handbuch der VermessungskundeD tordn mliornt l stilit de l9lgorithme d9limintion de quss pour l9ppliquer l rsolution de prolmes ux moindres rrs en topogrphieF IIF i'etuons un ompte des oprtions e'etues pour l rsolution d9un systme de n qutions n inonnuesF hque tpe kD 1 k nD il fut fire (n k + 2)(n 1) dditionsD (n k + 2)(n 1) multiplitions et (n k + 2) divisions pour mettre jour l mtrie et le seond memre du systmeD mis le rsolution du systme @digonlA (nl ne nessite uune oprtion supplmentireF v rsolution du systme pr l mthode d9limintion de quss!tordn nessite don de l9ordre de n3 oprtionsF
22
une matrice triangulaire infrieure (lower tringulr en anglais), qui est l'inverse de la matrice M des transformations successives appliques la matrice A lors de l'limination de Gauss sans change, et U une matrice triangulaire suprieure (upper tringulr en anglais), avec U = A(n) en reprenant la notation utilise dans la section 2.2.1.
. 0 1 .. . .. . .. . .. . ... 0 .. 1 0 . . . 0 0 1 ..
0 0 . . . 0 1
1 0
...
...
...
...
...
...
...
...
. 0
Cette matrice est orthogonale, de dterminant valant 1. La multiplication de la iime ligne de la matrice A par un scalaire non nul s'eectue en multipliant la matrice par la mtrie de dilttion
1 0 . . . . Di () = . . . . . . . . 0 0 .. . .. . ... .. . 1 .. . ... .. ... ... 0 . . . . . . . = I + ( 1)E M (K). . n ii n . . . . 0 1
. .. . .. .. .
.. . ...
1 .. . ...
...
...
. 0
23
1 Cette matrice est inversible et Di ()1 = Di . ime ligne de A par la somme de la iime ligne et de la j ime , i = j Enn, le remplacement de la i multiplie par un scalaire non nul est obtenu en multipliant gauche la matrice A par la mtrie de trnsvetion (on suppose ici que j < i)
1 0 . . . . Tij () = . . . . . . . . 0
0 .. . .. .
... .. . 1 . . .
...
...
...
.. . ...
0 . . . 1 .. . ... .. .. .
...
...
. 0
0 . . . . . . . = I + E M (K). . n ij n . . . . 0 1
Cette matrice a pour inverse Tij (). On note que le produit de deux matrices de tranvection Tij () et Tkl (), avec et deux scalaires non nuls et (i, j) = (k, l), est commutatif et vaut
Tij ()Tkl () = In + Eij + Ekl .
Ces trois types de matrices permettent de dnir de manire analogue les oprations lmentaires sur les olonnes de A par des multiplications droite de la matrice A (ce sont en eet des oprations lmentaires sur les lignes de la transpose de A).
Factorisation LU
Si l'limination arrive son terme sans qu'il y ait besoin d'changer des lignes du systme linaire, la matrice inversible M du thorme 2.1 est alors le produit
M = E (n1) . . . E (2) E (1)
. .. . .. .. .. . . . .. .. . .
(k)
=
i=k+1
Tik
1
(k) ak+1 k (k) akk (k) ak+2 k (k) akk
1 0 . . . 0
(2.4)
. . .
ank akk
(k)
(k)
...
Par construction, la matrice M est triangulaire infrieure et son inverse est donc galement une matrice triangulaire infrieure. Il en rsulte que la matrice A s'crit comme le produit
A = LU,
dans lequel L = M 1 et U = M A = A(n) est une matrice triangulaire suprieure. Fait remarquable, la matrice L se calcule de manire immdiate partir des matrices E (k) , 1 k n 1, alors qu'il n'existe 24
pas d'expression simple pour M . En eet, chacune des matrices d'limination dnies par (2.4) tant produit de matrices de transvection, il est facile de vrier que son inverse vaut
1 0 ... .. . .. . 0 . . . . . . . . . 0 ... .. ... ... ... 0 . . . . . . . . . . , 1 k n 1, .. . . . . .. .. . . . . .. .. . . 0 ... 0 1
(E
(k) 1
=
i=k+1
Tik
0 1 . .. . . . . . . . = . . . . . . . . 0 ...
. .. 1 0 . . . 0 .
1
(k) ak+1 k (k) akk (k) ak+2 k (k) akk
. . .
ank akk
(k)
(k)
et l'on a alors 12
1 0 1 .. . a(1) 21 a(1) 11 . . . = . . . . . . (1)
an1 a11
(1)
... .. . ..
(k)
...
...
..
. .. .. . .
ak+1 k akk
(k)
1 .. .
. . .
...
ank akk
(k) (k)
...
an n1 an1 n1
(n1)
(n1)
0 . . . . . . . . . . 0 1
o la matrice P (k) , 1 k n 1, est soit la matrice de permutation correspondant l'change de lignes eectu la kime tape, soit la matrice identi si le pivot naturel est utilis. En posant P = P (n1) . . . P (2) P (1) , on a cette fois-ci L = P M 1 et U = (M P 1 )P A, d'o
P A = LU.
Terminons cette section en montrant comment la mthode de factorisation LU fournit un procd rapide de calcul du dterminant de la matrice A, qui n'est autre, au signe prs, que le produit des pivots, puisque
n
uii
et
det(A) = det(P A) = det(P ) det(P A) si on a eectu un nombre pair d'changes de lignes, , det(P A) si on a eectu un nombre impair d'changes de lignes,
25
Thorme 2.2
oit A une mtrie d9ordre nF v ftoristion v de AD ve lii = 1 pour i = 1, . . . , nD existe et est unique si toutes les sousEmtries priniples
a11 . Ak = . . ak1
extrites de A sont inversilesF
... ...
a1k . , 1 k n, . . akk
(2.5)
Il est possible de montrer l'existence de la factorisation LU de manire constructive, en utilisant le procd d'limination de Gauss. En supposant que les n sous-matrices principales extraites de A sont inversibles, on va ici prouver en mme temps l'existence et l'unicit par un raisonnement par rcurrence 13 . Pour k = 1, on a A1 = a11 = 0,
Dmonstration.
et il sut de poser L1 = 1 et U1 = a11 . Montrons prsent que s'il existe une unique factorisation de la sousmatrice Ak1 , 2 k n, de la forme Ak1 = Lk1 Uk1 , avec lk1 ii = 1, i = 1, . . . , k 1, alors il existe une unique factorisation de ce type pour Ak . Pour cela, dcomposons Ak en blocs
Ak = Ak1 cT b , d
avec l et u des vecteurs de Rk et un nombre rel. En eectuant le produit de matrices et en identiant par blocs avec Ak , on obtient
Lk1 Uk1 = Ak1 , Lk1 u = b, lT Uk1 = cT et lT u + = d.
Si la premire de ces galits n'apporte aucune nouvelle information, les trois suivantes permettent de dterminer les vecteurs l et u et le scalaire . En eet, on a par hypothse 0 = det(Ak1 ) = det(Lk1 ) det(Uk1 ), les matrices Lk1 et Uk1 sont donc inversibles. Par consquent, les vecteurs l et u existent et sont uniques et = d lT u. Ceci achve la preuve par rcurrence.
Dans cette preuve, on utilise de manire fondamentale le fait les termes diagonaux de la matrice L sont tous gaux 1. On aurait tout aussi bien pu choisir d'imposer d'autres valeurs (non nulles) ou encore dcider de xer les valeurs des lments diagonaux de la matrice U . Ceci implique que plusieurs factorisations LU existent, chacune pouvant tre dduite d'une autre par multiplication par une matrice diagonale convenable (voir la section 2.4.1). La factorisation LU est particulirement avantageuse lorsque l'on doit rsoudre plusieurs systmes linaires ayant tous A pour matrice, mais des seconds membres dirents. En eet, il sut de conserver les matrices L et U obtenues l'issue de la factorisation pour ramener ensuite la rsolution de chaque systme linaire Ax = b celle de deux systmes triangulaires,
Ly = b, puis U x = y,
ce que l'on accomplit chaque fois en n(n 1) additions, n(n 1) multiplications et 2n divisions.
IQF xotons que e prod de dmonstrtion permet ussi de prouver directement @9estEEdire sns fire ppel un rsultt sur l ftoristion vA l9existene et l9uniit de l ftoristion de gholesky d9une mtrie symtrique d(nie positive @fF thorme PFWAF
26
Si b =
1 1 1
, la solution de Ly = b est y =
1 1 0
et celle de U x = y est x =
Pour toute matrice A inversible, il est possible de se ramener la condition susante du thorme 2.2 aprs des changes pralable de lignes de la matrice (comme on l'a vu lors de la traduction matricielle de l'limination de Gauss avec change). En ce sens, la factorisation LU des matrices inversibles est toujours possible. Si une stratgie de pivot partiel ou total est applique l'limination de Gauss, on a plus prcisment le rsultat suivant.
Thorme 2.3
oit A une mtrie d9ordre n inversileF elorsD il existe une mtrie P @respF des mtries P et QA tennt ompte d9une strtgie de pivot prtiel @respF totlAD une mtrie tringulire infrieure LD dont les lments sont infrieur ou gux 1 en vleur solueD et une mtrie tringulire suprieure U telles que P A = LU (respF P AQ = LU ).
Exemple. Revenons l'exemple de mise en chec de la mthode d'limination de Gauss, pour lequel le
A(2) 1 = 0 0 2 6 0 3 12 = U. 1
pivot naturel est nul la seconde tape. En changeant la deuxime et la troisime ligne, on arrive
d'o
1 L = 2 7
0 1 0
Dans le cas d'une factorisation de type P A = LU , la rsolution du systme linaire (2.1) aprs factorisation s'eectue en appliquant tout d'abord la matrice de permutation P au vecteur b pour obtenir le second membre P b et en rsolvant ensuite le systme Ly = P b par une mthode de descente, puis le systme U x = y par une mthode de remonte. 27
Algorithme 3 Algorithme de factorisation LU version kji pour k = 1 n 1 faire pour i = k + 1 n faire n pour pour j = k + 1 n faire pour i = k + 1 n faire n pour n pour n pour
aij = aij aik akj aik = aik /akk
Algorithme 4 Algorithme de factorisation LU version jki pour j = 1 n faire pour k = 1 j 1 faire pour i = k + 1 n faire n pour n pour pour i = j + 1 n faire n pour n pour
aij = aij /ajj aij = aij aik akj
Terminons sur un algorithme de factorisation LU dit de forme ompte, car ncessitant moins d'oprations intermdiaires que la mthode d'limination de Gauss classique pour produire la factorisation 14 . Il s'agit de la mthode de ftoristion de hoolittle 15 (la mthode de ftoristion de grout [Cro41] est obtenue de manire similaire, mais en choisissant que les lments diagonaux de U , et non de L, sont tous gaux 1). On l'obtient en remarquant que, si aucun change de lignes n'est requis, la factorisation LU
IRF gei tit prtiulirement vntgeux vnt l9vnement et l gnrlistion des mhines lulerF ISF wyrik rsll hoolittle @IU mrs IVQH E PU juin IWIQA tit un mthmtiien mriin qui trvill pour l United States coast and geodetic surveyF sl propos en IVUV une modi(tion de l mthode d9limintion de quss pour l rsolution d9qutions normles provennt de prolmes de tringultionF
28
aij =
r=1
lir urj ,
les inconnues tant les n2 + n coecients des matrices L et U . tant donn que les termes diagonaux de L sont xs et gaux 1 et en supposant les k 1, 2 k n, colonnes de L et U sont connues, la relation ci-dessus conduit
k1
ukj = akj
r=1
lkr urj ,
j = k, . . . , n,
lik =
1 ukk
k1
aik
r=1
lir urj
i = k + 1, . . . , n,
ce qui permet de calculer les coecients de manire squentielle. Cette faon de procder correspond la version ijk de l'algorithme de factorisation. On peut remarquer que l'opration principale est prsent un produit scalaire. Une implmentation de la mthode de Doolittle est propose ci-dessous.
Algorithme 5 Algorithme de factorisation LU version ijk pour i = 1 n faire pour j = 2 i faire pour k = 1 j 1 faire n pour n pour pour j = i + 1 n faire pour k = 1 i 1 faire n pour n pour n pour
aij = aij aik akj aij = aij aik akj aij1 = aij1 /aj1j1
Bien videmment, le choix de l'implmentation employer prfrentiellement dpend de manire cruciale de l'architecture du calculateur utilis et de son ecacit eectuer des oprations algbriques sur des tableaux une ou plusieurs dimensions.
Thorme 2.4 i A est une mtrie d9ordre n digonle stritement dominnte @pr lignes ou pr olonnesA lors elle dmet une unique ftoristion vF in prtiulierD si A est une mtrie d9ordre n digonle stritement dominnte pr olonnesD on
|lij | 1, 1 i, j n.
Dmonstration.
Nous reprenons un argument provenant de [Wil61]. Supposons que A est une matrice diagonale strictement dominante par colonnes. Posons A(1) = A. On sait par hypothse que
n
|a11 | >
j=2
(1)
|aj1 |,
(1)
et a(1) est donc non nul. L'application du procd d'limination sans change donne 11
aij = aij
(2) (1)
aij
(1)
a11
(1)
a1j , 2 i, j n,
(1)
|aij |
i=2
(2)
i=2 n
|aij | +
(1)
(1)
aij
(1) (1) n
a11
(1)
|a1j | aij
(1)
(1)
i=2 n
|aij | + |a1j |
i=2
a11
(1)
<
i=1
|aij |.
(1)
De plus, on a que
|aii |
(2)
|aii |
n (1)
(1)
ai1
(1)
(1) a11
|a1i |
n
(1)
>
j=1 j=i n
|aji |
1
j=2 j=i
aj1
(1)
(1) a11
|a1i |
(1)
=
j=2 j=i n
|aji | +
(1)
aj1
(1)
(1) a11
|a1i |
(1)
j=1 j=i
|aji |,
(2)
et A(2) est donc une matrice diagonale strictement dominante par colonnes. Par un calcul analogue, on montre que si la matrice A(k) , 2 k n 1, est diagonale strictement dominante par colonnes, alors A(k+1) l'est aussi, ce qui permet de prouver le rsultat par rcurrence sur k. Dans le cas d'une matrice A diagonale strictement dominante par lignes, on utilise que sa transpose AT est diagonale strictement dominante par colonnes et admet donc une factorisation LU. On conclut alors en utilisant la proposition 2.8.
contenant l'lment aij de la matrice A, on se sert du fait que le premier coecient de la iime ligne de A, c'est--dire aiip , est stock dans le tableau la (p + q + 1)(i 1) + 1ime position et on en dduit que k = (p + q + 1)(i 1) + j i + p + 1. On notera que certains des lments du tableau de stockage ne sont 1 pas aects, mais leur nombre, gal 2 (p(p 1) + q(q 1)), reste ngligeable. Il est remarquable que les matrices L et U issues de la factorisation LU d'une matrice bande A sont elles-mmes des matrices bandes, de largeur de bande (respectivement infrieure pour L et suprieure pour U ) identique celle de A. La zone mmoire alloue par le mode de stockage dcrit ci-dessus an de contenir une matrice bande est par consquent de taille susante pour qu'on puisse y stocker sa factorisation.
Proposition 2.5
Dmonstration. Soit A matrice bande A d'ordre n et de largeur de bande valant p + q + 1 admetttant une factorisation LU telle que
min(i,j)
aij =
r=1
lir urj , 1 i, j n.
On raisonne alors par rcurrence sur l'indice k = min(i, j). Pour k = 1, on obtient d'une part
a1j = l11 u1j = u1j , 1 j n,
En particulier, on a a11 = l11 u11 = u11 et donc u11 = 0. Par consquent, on trouve que
li1 = ai1 , 1 i n, u11
d'o li1 = 0 si i > p + 1. Supposons prsent que, pour tout k = 1, . . . , K 1 avec 2 K n, on ait
ukj = 0 si j > q + k et lik = 0 si i > p + k.
Soit j > q + K . Pour tout r = 1, . . . , K 1, on a dans ce cas j > q + K q + r + 1 > q + r et, par hypothse de rcurrence, le coecient urj . Ceci implique alors
K K1
0 = aKj =
r=1
et on conclut en utilisant que uKK est non nul, ce qui achve la dmonstration par rcurrence.
aij = 0 si |i j| > 1, 1 i, j n.
31
. ...
. 0
soit inversible et admette, sans qu'il y ait besoin d'change de lignes, une factorisation LU (c'est le cas par exemple si elle est diagonale strictement dominante, iFeF, |a1 | > |c1 |, |ci | > |b1 | + |ci |, 2 i n 1, et |an | > |cn |). Dans ce cas, les matrices L et U sont de la forme
1 0 .. . .. .. . ... .. . .. . .. . 0 ... 0 . . . .. . 0 , .. . 0 ln 1 u1 0 . U = . . . . . 0 v1 .. . .. . ... .. . .. .. . . .. .. . . ... 0 0 .. . 0 . . . 0 , vn1 un
l2 L = 0 . . . 0
. ...
...
et une identication terme terme entre A et le produit LU conduit aux relations suivantes
vi = ci , i = 1, . . . , n 1, u1 = a1 , lj = aj , uj = aj lj cj1 , j = 2, . . . , n. uj1
Cette mthode spcique de factorisation LU d'une matrice tridiagonale est connue sous le nom d'lgorithE me de homs 16 et est un cas particulier de factorisation de Doolittle sans changement de pivot. Si l'on souhaite rsoudre le systme linaire Ax = d, d Rn , dans lequel A est la matrice tridiagonale ci-dessus, on doit, en plus de la factorisation, rsoudre les systmes bidiagonaux Ly = d et U x = y . Les mthodes de descente et de remonte se rsument dans ce cas au formules
y1 = d1 , yi = di li yi1 , i = 2, . . . , n,
et
xn =
yn 1 , xj = (yj cj xj+1 ) , j = n 1, . . . , 1. un uj
La factorisation d'une matrice d'ordre n par l'algorithme de Thomas requiert n1 additions, multiplications et divisions, et les formules ci-dessus ncessitent elles deux 2(n 1) additions et multiplications et n divisions. La rsolution d'un systme linaire tridiagonal ne requiert donc que 8n 7 oprations, ce qui constitue une rduction considrable par rapport au cas d'une matrice quelconque. On peut raliser l'implmentation d'une mthode de rsolution d'un systme linaire tridiagonal d'ordre n, base sur l'algorithme de Thomas, ne ncessitant que 3(n 1) additions, 3(n 1) multiplications et 2n divisions, soit une importante diminution du nombre d'oprations ncessaires par rapport la mthode d'limination de Gauss d'une matrice quelconque.
32
optimisation combinatoire, et plus particulirement en thorie des rseaux et en recherche oprationnelle (il semble d'ailleurs que l'appellation soit due Markowitz 17 ). Les matrices bandes produites par les mthodes courantes de rsolution d'quations aux drives partielles (comme les mthodes de dirences nies ou d'lments nis) sont, en gnral, galement creuses. On tire avantage de la structure d'une telle matrice en ne stockant que ses lments non nuls, ce qui constitue un gain de place en mmoire non ngligeable lorque l'on travaille avec des matrices de grande taille. Dirents formats de stockage existent. Un des inconvnients de la factorisation LU appliques aux matrices creuses est qu'elle entrane l'apparition d'un grand nombre de termes non nuls dans les matrices L et U des endroits o les lments de la matrice initiale sont nuls. Ce phnomne, connu sous le nom de remplissge ((llEin en anglais), pose un problme de structure de donnes, puisque le stockage utilis pour la matrice factoriser ne peut alors contenir sa factorisation. On peut adapter le stockage en ralisant priori une ftoristion symolique de la matrice, qui consiste dterminer le nombre et la position des nouveaux coecients crs au cours de la factorisation eective. Une renumrotation des inconnues et quations du systme linaire associ la matrice creuse, en utilisant par exemple l'lgorithme de guthill!wuee, permet aussi de limiter le remplissage en diminuant la largeur de bande de cette matrice (on pourra consulter l'article [GPS76] sur ce sujet).
2.4
Nous prsentons dans cette dernire section d'autres types de factorisation, adapts des matrices particulires. Il s'agit de la ftoristion vhwT d'une matrice carre, qui devient la ftoristion vhvT lorsque cette matrice est symtrique, de la ftoristion de gholesky 18 , pour une matrice symtrique d(nie positive, et de la ftoristion , que l'on peut gnraliser aux matrices rectangulaires (dans le cadre de la rsolution d'un problme aux moindres carrs par exemple) ou bien carres, mais non inversibles.
Proposition 2.7
ous les onditions du thorme PFPD il existe une unique mtrie tringulire infrieure
LD une unique mtrie digonle D et une unique mtrie tringulire suprieure M T D les lments digonux de L et M tnt tous gux 1D telles que A = LDM T .
Dmonstration.
Les hypothses du thorme 2.2 tant satisfaites, on sait qu'il existe une unique factorisation LU de la matrice A. En choisissant les lments diagonaux de la matrice D gaux uii , 1 i n, (tous non nuls puisque la matrice U est inversible), on a
A = LU = LDD1 U.
IUF rrry wx wrkowitz @n le PR ot IWPUA est un onomiste mriinD lurt du prix xoel d9onomie en IWWHF sl est un des pionniers de l thorie moderne du portefeuilleD ynt tudi dns s thseD soutenue en IWSPD omment l diversi(tion permettit d9mliorer le rendement d9un portefeuille d9tifs (nniers tout en en rduisnt le risqueF IVF endrEvouis gholesky @IS otore IVUS E QI ot IWIVA tit un mthmtiien et o0ier frnisF sl entr en IVWS l9ole polytehnique et e'etu ensuite une rrire dns les servies gogrphiques et topogrphiques de l9rmeF yn lui doit une mthode lre pour l rsolution des systmes d9qutions linires dont l mtrie est symtrique d(nie positiveF
33
Il sut alors de poser M T = D1 U pour obtenir l'existence de la factorisation. Son unicit est une consquence de l'unicit de la factorisation LU.
L'intrt de cette dernire factorisation prend son sens lorsque la matrice A est symtrique, puisque dans ce cas M = L. La factorisation rsultante A = LDLT peut alors tre calcule avec un cot environ deux fois moindre. La factorisation LDMT permet galement de dmontrer le rsultat suivant.
Proposition 2.8 oit A une mtrie rre d9ordre n dmettnt une ftoristion vF elorsD s trnsE pose AT dmet une ftoristion vF
Dmonstration.
Puisque A admet une factorisation LU, elle admet aussi une factorisation LDMT et l'on a
AT = (LDM T )T = (M T )T DT LT = M DLT .
La matrice AT admet donc elle aussi une factorisation LDMT et, par suite, une factorisation LU.
Thorme 2.9
oit A une mtrie symtrique d(nie positive d9ordre nF elorsD il existe une unique mtrie tringulire infrieure B dont les lments digonux sont stritement positifs telle que
A = BB T .
Dmonstration.
En notant Ak , 1 k n, les n sous-matrices principales extraites de A (dnies par (2.5)), on peut crire, pour tout vecteur w de Rk ,
wT Ak w = v T Av, avec vi = wi , 1 i k, et vi = 0, k + 1 i n,
ce qui montre que les sous-matrices Ak sont symtriques dnies positives. La matrice A vrie donc les conditions du thorme 2.2 et admet une unique factorisation LU. Les lments diagonaux de la matrice U sont de plus strictement positifs, car on a
k
A = L1 U.
En posant B = L et C = 1 U , la symtrie de A entrane que BC = C T B T , d'o C(B T )1 = B 1 C T = In (une matrice tant triangulaire suprieure, l'autre triangulaire infrieure et toutes deux coecients diagonaux gaux 1) et donc C = B T . On a donc montr l'existence d'au moins une factorisation de Cholesky. Pour montrer l'unicit de cette dcomposition, on suppose qu'il existe deux matrices triangulaires infrieures B1 et B2 telles que A = B1 B1 T = B2 B2 T ,
T d'o B2 1 B1 = B2 T (B1 )1 . Il existe donc une matrice diagonale D telle que B2 1 B1 = D et, par consquent, B1 = B2 D. Finalement, on a A = B2 B2 T = B2 DDT B2 T ,
et donc D2 = In . Les coecients diagonaux d'une matrice de factorisation de Cholesky tant par hypothse positifs, on a ncessairement D = In et donc B1 = B2 .
(bij )1i,jn avec bij = 0 si i < j et l'on dduit alors de l'galit A = BB T que
n min(i,j)
aij =
k=1
bik bjk =
k=1
bik bjk , 1 i, j n.
34
La matrice A tant symtrique, il sut que les relations ci-dessus soient vries pour j i (par exemple), et l'on va donc construire les colonnes de B partir des colonnes de A. On xe donc j 1 et on fait varier i de 1 n : a11 , a11 = (b11 )2 , d'o b11 =
a21 . . . an1 = b11 bn1 , d'o = b11 b21 ,
d'o b21 =
. . . bn1 =
pour dterminer la premire colonne de B . La j ime colonne de B est obtenue en utilisant les relations
ajj aj+1j . . . anj = bj1 bn1 + bj2 bn2 + + bjj bnj , = = (bj1 )2 + (bj2 )2 + + (bjj )2 ,
d'o
bjj
= =
ajj aj+1j
bjj anj
j1 k=1 bjk bnk
d'o
bnj
bjj
aprs avoir pralablement dtermin les j1 premires colonnes, le thorme 2.9 assurant que les quantits sous les racines carres sont strictement positives. Dans la pratique, on ne vrie d'ailleurs pas que la matrice A est dnie positive (simplement qu'elle est symtrique) avant commencer l'algorithme. En eet, si l'on trouve l'tape k, 1 k n, que (bkk )2 0, c'est que A n'est pas dnie positive. Au contraire, si l'algorithme de factorisation arrive son terme, cela prouve que A est bien dnie positive, car, pour toute matrice inversible B et tout vecteur v non nul, on a
BB T v, v = B T v
2
> 0.
Il est noter que le dterminant d'une matrice dont on connat la factorisation de Cholesky est immdiat, puisque
n 2
bii
Le nombre d'oprations lmentaires ncessaires pour eectuer la factorisation de Cholesky d'une 3 3 n n matrice A symtrique dnie positive d'ordre n par les formules ci-dessus est de n 6 additions, n 6 n(n1) multiplications, 2 divisions et n extractions de racines carres, soit un cot trs favorable par rapport la factorisation LU de la mme matrice. Si l'on souhaite rsoudre un systme linaire Ax = b associ, il faut alors ajouter n(n 1) additions, n(n 1) multiplications et 2n divisions pour la rsolution des 3 3 2 systmes triangulaires, soit au total de l'ordre de n additions, n multiplications, n divisions et n 6 6 2 extractions de racines carres.
2.4.3 Factorisation QR
Le principe de cette mthode n'est plus d'crire la matrice A comme le produit de deux matrices triangulaires, mais comme le produit d'une matrice orthogonle (unitire dans le cas complexe) Q, qu'il est facile d'inverser puisque Q1 = QT , et d'une matrice tringulire suprieure R. Pour rsoudre le systme linaire (2.1), on eectue donc tout d'abord la factorisation de la matrice A, on procde ensuite au calcul du second membre du systme Rx = QT b, qui est enn rsolu par une mthode de remonte. Commenons par donner un rsultat d'existence et d'unicit de cette factorisation lorsque que la matrice A est carre et inversible, dont la preuve s'appuie sur le fameux prod d9orthonormlistion de qrm 19 !hmidt 20 .
IWF trgen edersen qrm @PU juin IVSH E PW vril IWITA tit un tuire et mthmtiien dnoisF sl (t d9importntes ontriutions dns les domines des proilitsD de l l9nlyse numrique et de l thorie des nomresF ve prod qui porte ujourd9hui son nom fut puli en IVVQ dns un rtile intitul On series expansions determined by the methods of least squares F PHF irhrd hmidt @IQ jnvier IVUT E T demre IWSWA tit un mthmtiien llemndF sl est onsidr omme l9un
35
Thorme 2.10
oit A une mtrie relle d9ordre n inversileF elors il existe une mtrie orthogonle Q et une mtrie tringulire suprieure RD dont les lments digonux sont positifsD telles que
A = QR.
gette ftoristion est uniqueF
La matrice A tant inversible, ses colonnes, notes a1 , . . . , an forment une base de Rn . On peut alors obtenir une base orthonorme {q i }1in de Rn partir de la famille {ai }1in en appliquant le procd d'orthonormalisation de GramSchmidt, i.e. a1 q1 = , a1 2
Dmonstration.
q i+1 = ai+1
k=1
(ai+1 , q k ) q k , q i+1 =
i
q i+1 , i = 1, . . . , n 1. q i+1 2
rij q j ,
avec rii = ai i1 (ai , q k ) q k 2 > 0, rij = ai , q j pour 1 j i 1, et rij = 0 pour i < j n, 1 i n. En k=1 notant R la matrice triangulaire suprieure (inversible) de coecients rij , 1 i, j n, et Q la matrice orthogonale dont les colonnes sont les vecteurs q i , 1 i n, on vient d'tablir que A = QR. Pour montrer l'unicit de la factorisation, on suppose que
A = Q1 R1 = Q2 R2 ,
d'o
QT Q1 = R2 R1 1 . 2
En posant T = R2 R1 1 , on a T T T = QT Q1 (QT Q1 )T = In , qui est une factorisation de Cholesky de la matrice 2 2 identit. Ceci entrane que T = In , par unicit de cette dernire factorisation (tablie dans le thorme 2.9).
Le caractre constructif de la dmonstration ci-dessus fournit directement une mthode de calcul de la factorisation QR, utilisant le procd de GramSchmidt. L'algorithme 6 propose une implmentation de cette mthode pour le calcul de la factorisation QR d'une matrice inversible d'ordre n. Cette approche ncessite d'eectuer (n1)n2 additions, n3 multiplications, n2 divisions et n extractions de racines carres pour le calcul de la matrice Q, soit de l'ordre de 2 n3 oprations.
faire
n pour
n pour
rjj = v j 2 q j = v j /rjj
Sur machine cependant, la propagation des erreurs d'arrondis (plus particulirement pour les problmes de grande taille) fait que les vecteurs qi calculs ne sont pas linairement indpendants, ce qui empche la matrice Q d'tre exactement orthogonale. Ces instabilits numriques sont dues au fait que la procdure d'orthonormalisation produit des valeurs trs petites, ce qui pose problme en arithmtique virgule ottante. Il convient alors de recourir une version plus stable de l'algorithme, appele prod de qrm!hmidt modi( (voir algorithme 7). Cette modication consiste en un rordonnancement des calculs de faon ce que, ds qu'un vecteur de la base orthonorme est obtenu, tous les vecteurs restants orthonormaliser lui soient rendus orthogonaux. Une dirence majeure concerne alors le calcul des coecients rij , puisque la mthode originale
des fondteurs de l9nlyse fontionnelle strite moderneF
36
Algorithme 7 Algorithme du procd d'orthonormalisation de GramSchmidt modi pour i = 1 n faire n pour pour i = 1 n faire
rii = v i 2 q i = v i /rii pour j = i + 1 n rij = q v j i v j = v j rij q i v i = ai
faire
n pour n pour
fait intervenir une colonne aj de la matrice factoriser alors que sa variante utilise un vecteur dj partiellement orthogonalis. Pour cette raison, et malgr l'quivalence mathmatique entre les deux versions du procd, la seconde est prfrable la premire lorsque les calculs sont eectus en arithmtique virgule ottante. Celle-ci requiert (2 n+1)n(n1) additions, n3 multiplications, n2 divisions et n extractions 2 de racines carres pour la factorisation d'une matrice inversible d'ordre n, soit encore de l'ordre de 2 n3 oprations au total. Indiquons prsent comment raliser la factorisation QR de d'une matrice non inversible ou rectangulaire. Supposons pour commencer que la matrice A est d'ordre n et non inversible. L'ensemble {a1 , . . . , an } des colonnes de A forment alors une famille lie de vecteurs de Rn et il existe un entier k , 1 < k n, tel que la famille {a1 , . . . , ak } est libre et engendre ak+1 . Le procd de GramSchmidt utilis pour la factorisation de cette matrice va donc s'arrter l'tape k + 1, puisque l'on aura
k
ak+1
l=1
(q l , ak+1 ) q l
= 0.
On commence donc par changer les colonnes de A pour amener les colonnes libres aux premires positions. Ceci revient multiplier A par une matrice de permutation P telle que les rg(A) premires colonnes de A = AP sont libres, les n rg(A) colonnes restantes tant engendres par les rg(A) premires (cette permutation peut d'ailleurs se faire au fur et mesure du procd d'orthornormalisation, en eectuant une permutation circulaire de la kime la nime colonne ds que l'on trouve une norme nulle). On applique alors le procd de GramSchmidt jusqu' l'tape rg(A) pour construire une famille orthonorme {q 1 , . . . , q rg(A) } que l'on complte ensuite par des vecteurs q rg(A)+1 , . . . , q n pour obtenir une base de orthonorme de Rn . On note Q la matrice carre d'ordre n ayant ces vecteurs pour colonnes. On en dduit qu'il existe des scalaires rij tels que
ai =
i j=1 rij
qj qj
si 1 i rg(A), si rg(A) + 1 i n,
avec rii > 0, 1 i rg(A), et on note R la matrice carre d'ordre n telle que
r11 0 . . . R= . . . . . . 0 ... .. . .. . ... ... r1n . . . rrg(A) n . 0 . . . 0
rrg(A) rg(A) 0
...
...
Considrons ensuite une matrice A rectangulaire de taille m n et supposons que m < n. Dans ce cas, on a toujours ker(A) = {0} et tout systme linaire associ A admet une innit de solutions. 37
On suppose de plus que A est de rang maximal, sinon il faut lgrement modier l'argumentaire qui suit. Puisque les colonnes de A sont des vecteurs de Rm et que rg(A) = m, les m premires colonnes de A sont, d'ventuelles permutations de colonnes prs, libres. On peut donc construire une matrice orthogonale Q d'ordre m partir de {a1 , . . . , am } par le procd de GramSchmidt. D'autre part, les colonnes am+1 , . . . , an de A sont engendres par les colonnes de Q et il existe donc des coecients rij tels que i j=1 rij q j si 1 i m,
ai =
m j=1 rij
qj
si m + 1 i n,
r1n . . . . . . . rmn
...
Faisons maintenant l'hypothse que m > n, qui est le cas le plus rpandu en pratique. Pour simplier, on va supposer que ker(A) = {0}, c'est--dire que rg(A) = n (si ce n'est pas le cas, il faut procder comme dans le cas d'une matrice carre non inversible). On commence par appliquer le procd de GramSchmidt aux colonnes a1 , . . . , an de la matrice A pour obtenir la famille de vecteurs q 1 , . . . , q n , que l'on complte par des vecteurs q n+1 , . . . , q m pour arriver une base orthonorme de Rm . On note alors Q la matrice carre d'ordre m ayant pour colonnes les vecteurs qj , j = 1, . . . , m. On a par ailleurs
j
aj =
i=1
rij q j , 1 j n,
...
qui est une matrice de taille m n. Malgr l'amlioration apporte par le procd de GramSchmidt modie, cette mthode reste relativement peu utilise en pratique pour le calcul d'une factorisation QR, car on lui prfre la mthode de rouseholder 21 [Hou58], dont le principe est de multiplier la matrice A par une suite de matrices de transformation trs simples, dites de rouseholder, pour l'amener progressivement sous forme triangulaire suprieure.
Dnition 2.11 oit v une veteur non nul de Rn F yn ppelle matrice de Householder ssoie u vecteur de Householder vD et on note H(v)D l mtrie d(nie pr
H(v) = In 2 vv T . vT v
(2.6)
yn pose de plus H(0) = In D e qui permet de onsidrer l mtrie identit omme une mtrie de rouseholderF
PIF elston ott rouseholder @S mi IWHR E R juillet IWWQA tit un mthmtiien mriinF sl s9intress ux pplitions des mthmtiquesD notmment en iomthmtiques et en nlyse numriqueF
38
Les matrices de Householder possdent des proprits intressantes, que l'on rsume dans le rsultat suivant.
Lemme 2.12
oit v un veteur non nul de Rn et H(v) l mtrie de rouseholder qui lui est ssoieF elorsD H(v) est symtrique et orthogonleF he plusD si x est un veteur de Rn et e est un veteur unitire tels que x = x 2 eD on
H (x x
Dmonstration.
e) x =
e.
Il est facile de voir que H(v) = H(v)T . Par ailleurs, on vrie que
v 2 2 vv T vv T vv T vv T vv T = In 4 = In . 2 +4 4 2 +4 v 2 v 2 v 2 v 24
H(v)2 = In 4
Sans perte de gnralit, on peut ensuite supposer que e est le premier vecteur de la base canonique {ei }1in de Rn . On a
H (x + x
2
e1 ) x
= = =
x2 x2 x
2
(x + x (x + x x
2 2 2
e1 ) (x + x 2 e1 )T T 2 e1 ) (x + x 2 e1 )
2 2 2
+ x
2
v1 (x + x
2
e1 )
2 x e1 .
2
+2 x
v1
e1 ) x = x
e1 .
H(v)x
x = v + w, w Vect(v) v
Figure 2.1 Transformation d'un vecteur x de l'espace par la matrice de Householder H(v).
orthogonl v
La matrice de Householder H(v) est la matrice de la symtrie orthogonle pr rpport l9hyperpln (voir gure 2.1). Les matrices de Householder peuvent par consquent tre utilises pour annuler certaines composantes d'un vecteur x de Rn donn, comme le montre l'exemple suivant.
Exemple. Soit x =
1 1 et choisissons e = e3 . 1 5 1 1 1 1 5 v = x + x 2 e3 = , H(v) = 3 6 3 3 1 1 1 1 1
On a x
3 3 3 3
= 2, d'o
1 0 0 1 et H(v)x = . 2 3 5 0
Dcrivons prsent la mthode de Householder pour la factorisation d'une matrice relle A d'ordre n. Dans ce cas, celle-ci revient trouver n 1 matrices H (k) , 1 k n 1, d'ordre n telles que H (n1) . . . H (2) H (1) A soit triangulaire suprieure. On procde pour cela de la manire suivante. On commence par poser A(1) = A. la kime tape, 1 k n 2, de la mthode, la rpartition des zros dans la matrice A(k) est identique celle obtenue 39
au mme stade de l'limination de Gauss avec change. On doit donc mettre zro des coecients sous-diagonaux de la kime colonne de A(k) . (k) Soit a(k) le vecteur de Rnk+1 contenant les lments a(k) , k i n, de A(k) . Si n i=k+1 |aik | = 0, ik (k) alors A(k) est dj de la forme de A(k+1) et on pose H (k) = In . Si n i=k+1 |aik | > 0, alors il existe, (k) en vertu du lemme 2.12, un vecteur v de Rnk+1 , donn par
v (k) = a(k) a(k)
2
e1
(nk+1)
(2.7)
1 o e(nk+1) dsigne le premier vecteur de la base canonique de Rnk+1 , tel que le vecteur H( (k) ) (k) v a ait toutes ses composantes nulles l'exception de la premire. On pose alors 0 . . = . Rn . 0 v (k)
H (k) =
Ik1 0
0 H( (k) ) v
(2.8)
et alors A(n) = R et Q = H (n1) . . . H (1) = H (1) . . . H (n1) . Notons au passage que nous n'avons suppos A inversible et qu'aucun n'change de colonne n'a t ncessaire comme avec le procd d'orthonormalisation de GramSchmidt. Revenons sur le choix du signe dans (2.7) lors de la construction du vecteur de Householder la k ime tape. Dans le cas rel, il est commode de choisir le vecteur de telle manire ce que le coecient (k+1) akk soit positif. Ceci peut nanmoins conduire d'importantes erreurs d'annulation si le vecteur a(k) 1 est proche d'un multiple positif de e(nk+1) , mais ceci peut s'viter en ayant recours la formule suivante dans le calcul de v (k)
v1
(k)
a1
(k) 2 (k)
a(k)
2
2 2
a1 + a(k)
Cette mthode s'applique de la mme manire aux matrices rectangulaires, quelques modications videntes prs. Par exemple, dans le cas d'une matrice de taille m n avec m > n, la mthode construit n matrices H (k) , 1 k n, d'ordre m telles que la matrice A(n+1) est de la forme
(n+1) a11 0 . . . = . . . . . . 0 ... .. . .. . a1n . . .
(n+1)
A(n+1)
(n+1) ann . 0 . . . 0
...
Une des raisons du succs de la mthode de Householder est sa grande stabilit numrique. Elle ne modie en eet pas le conditionnement du problme, puisque
cond2 (A(n) ) = cond2 (A), A Mn (R),
en vertu de la proposition A.55. De plus, la base contenue dans la matrice Q est numriquement orthonormale et ne dpend pas du degr d'indpendance des colonnes de la matrice A, comme ceci etait le cas pour le procd de GramSchmidt. Ces avantages sont cependant temprs par un cot sensiblement suprieur. 40
Abordons pour nir quelques aspects de la mise en uvre de la mthode de Householder. Dans cette dernire, il faut absolument tenir compte de la structure particulire des matrices H (k) , 1 k n 1 intervenant dans la factorisation. En particulier, il s'avre qu'il n'est pas ncessaire d'assembler une matrice de Householder pour en eectuer le produit avec une autre matrice. Prenons en eet l'exemple d'une matrice M d'ordre m quelconque que l'on veut multiplier par la matrice de Householder H(v) avec v un vecteur de Rm . En utilisant (2.6), on obtient que
H(v)M = M 2 v
2 2
v(M T v)T .
Ainsi, le produit H(v)M se ramne grosso modo un produit scalaire (le coecient = v2 2 ), un 2 produit matrice-vecteur (le produit w = M T v ), un produit vecteur-vecteur (la matrice v( w)T ) suivi de la dirence de deux matrices et ncessite au total 2m2 1 additions, 2m(m + 1) multiplications et une division. Ce rsultat est comparer aux 2m 1 additions, m(m + 2) multiplications et une division requises pour la contruction de H(v), ajoutes aux m2 (m 1) additions et m3 multiplications ncessaires au produit de deux matrices quelconques. Par des considrations analogues, on a
M H(v) = M 2 v
2 2
(M v)v T
Une consquence de cette remarque est que l'on n'a pas, priori, pas stocker, ni mme calculer la matrice Q lors de la rsolution d'un systme linaire Ax = b par la mthode QR, puisque l'on a seulement besoin chaque tape k, k = 1, . . . , n dans le cas d'une matrice A d'ordre n, d'eectuer le produit de la matrice H (k) avec A(k) et de mettre jour le second membre du systme considr. Le cot total de 1 ces oprations est de 3 (n + 1)(2n2 + 7n + 3) additions, 2 (n + 1)(n + 2)(n + 3) multiplications et n + 1 3 divisions, soit environ le double de celui de l'limination de Gauss. Si l'on a besoin de connatre explicitement la matrice Q, il est possible de l'obtenir par un procd consistant, partir de la matrice Q(1) = In , utiliser soit la formule de rcurrence
Q(k+1) = Q(k) H (k) , k = 1, . . . , n 1,
correspondant une umultion rtrogrde. En se rappelant qu'une sous-matrice principale d'ordre k 1 correspond l'identit dans chaque matrice H (k) (voir (2.8)), 1 k n 1, on constate que les matrices Q(k) se remplissent graduellement au cours des itrations de l'accumulation rtrograde, ce qui peut tre exploit pour diminuer le nombre d'oprations requises pour eectuer le calcul, alors que la matrice Q(2) est, au contraire, pleine l'issue de la premire tape de l'accumulation directe. Pour cette raison, la version rtrograde du procd d'accumulation est la solution la moins onreuse et donc celle privilgier pour le calcul eectif de Q.
41
ligne par ligne ou colonne par colonne. Ces matrices orthogonales apparaissent aussi dans la mthode de toi 23 pour le calcul des valeurs propres d'une matrice symtrique (voir le chapitre 4).
Rfrences du chapitre
[ABB+ 99] E. Anderson, Z. Bai, C. Bischof, S. Blackford, J. Demmel, J. Dongarra, J. Du Croz, A. Greenbaum, S. Hammarling, A. McKenney, and D. Sorensen. veegu users9 guide. Society for Industrial and Applied Mathematics, third edition, 1999. [Cro41] P. D. Crout. A short method for evaluating determinants and solving systems of linear equations with real or complex coecients. rnsF emerF snstF ileF ingF, 60 :12351240, 1941. [FM67] G. E. Forsythe and C. B. Moler. gomputer solution of liner systems. Series in automatic computation. Prentice-Hall, 1967. [Giv58] W. Givens. Computation of plane unitary rotations transforming a general matrix to triangular form. tF oF sndF epplF wthF, 6(1) :2650, 1958. [GPS76] N. E. Gibbs, W. G. Poole, Jr., and P. K. Stockmeyer. A comparison of several bandwidth and prole reduction algorithms. egw rnsF wthF oftwre, 2(4) :322330, 1976. [Hou58] A. S. Householder. Unitary triangularization of a nonsymmetric matrix. tF egw, 5(4) :339 342, 1958. [Wil61] J. H. Wilkinson. Error analysis of direct methods of matrix inversion. tF egw, 8(3) :281330, 1961.
PQF grl qustv to toi @IH demre IVHR E IV fvrier IVSIA tit un mthmtiien llemndF es trvux portrent essentiellement sur l9tude des fontions elliptiquesD les qutions di'rentielles et ux drives prtiellesD les systmes d9qutions liniresD l thorie des dterminntsF n trs grnd nomre de rsultts d9lgre et d9nlyse portent ou utilisent son nomF
42
Chapitre 3
o x est la solution du systme (2.1). Dans ce chapitre, on va prsenter des mthodes itratives parmi les plus simples mettre en uvre, savoir les mthodes de toi, de quss!eidel 1 et leurs variantes. Dans ces mthodes, qualifes de mthodes itrtives linires sttionnires du premier ordre, la suite x(k) kN est obtenue, partir d'un vecteur initial arbitraire x(0) , par une relation de rcurrence de la forme
x(k+1) = Bx(k) + c, k N,
(3.2)
o la matrice carre B , appele mtrie d9itrtion de la mthode, et le vecteur c dpendent de la matrice A et du second membre b du systme rsoudre. Pour une matrice pleine, le cot de calcul de ces mthodes est de l'ordre de n2 oprations chaque itration. On a vu au chapitre 2 que le cot totl d'une mthode directe pour la rsolution d'un systme 2 linaire n quations et n inconnues est de l'ordre de 3 n3 oprations. Ainsi, une mthode itrative ne sera comptitive que si elle converge en un nombre d'itrations indpendant de, ou bien croissant de manire sous-linaire avec, l'entier n. Cependant, les mthodes directes peuvent s'avrer particulirement coteuses pour les grandes matrices creuses (comme celles issues de la discrtisation d'quations direntielles ou aux drives partielles 2 ) et les mthodes itratives sont souvent associes la rsolution de ce type de systmes linaires. Avant d'aborder leur description, on va donner quelques rsultats gnraux de convergence et de stabilit, ainsi que des principes de comparaison (en terme de vitesse de onvergene ), d'une classe de mthodes itratives de la forme (3.2). Des rsultats plus prcis pour les mthodes prsentes, mais s'appuyant sur des cas particuliers, comme celui de systmes dont la matrice A est symtrique d(nie positive, sont tablis en n de chapitre.
3.1
Gnralits
Dans cette section, nous abordons quelques aspects gnraux des mthodes itratives de rsolution de systmes linaires de la forme (3.2). Dans toute la suite, nous nous plaons dans le cas de matrices et de vecteurs complexes, mais les rsultats sont bien sr valables dans le cas rel.
IF hilipp vudwig von eidel @PR otore IVPI E IQ ot IVWTA tit un mthmtiienD physiien de l9optique et stronome llemndF sl tudi l9errtion optique en stronomie en l domposnt en inq phnomnes onstitutifsD ppels les cinq aberrations de Seidel D et reste ussi onnu pour l mthode de rsolution numrique de systmes linires portnt son nomF PF sl existe nnmoins des solveurs 0es ss sur des mthodes diretes pour es s prtiuliers @voir pr exemple hiVTAF
43
Dnition 3.1
x(0) dns Cn F
Nous introduisons ensuite une condition qu'une mthode itrative de la forme (3.2) doit ncessairement satisfaire pour qu'elle puisse converger vers la solution de (2.1).
Dnition 3.2
ne mthode itrtive de l forme (3.2) est dite consistante ve (2.1) si B et c sont tels que l9on x = Bx + cD le veteur x tnt l solution de (2.1)D ouD de mnire quivlenteD c = (In B)A1 bF
Dnitions 3.3 yn ppelle erreur @respF rsiduA l9itrtion kD k ND de l mthode itrtive le veteur e(k) = x(k) x @respF r (k) = b Ax(k) AD o x = A1 b est l solution de (2.1)F
On dduit de ces dnitions qu'une mthode itrative consistante de la forme (3.2) converge si et seulement si lim e(k) = 0 (soit encore si lim r(k) = lim Ae(k) = 0). k+ k+ k+ La seule proprit de consistance ne susant pas assurer que la mthode considre converge, nous donnons dans le rsultat suivant un critre fondamental de convergence.
Thorme 3.4
si (B) < 1F
Dmonstration.
de rcurrence
En pratique, le rayon spectral d'une matrice est dicile calculer, mais on a dduit du thorme A.56 que le rayon spectral d'une matrice B est strictement infrieur 1 s'il existe au moins une norme matricielle pour laquelle B < 1. L'tude de convergence des mthodes itratives de rsolution de systmes linaires de la forme (3.2) repose donc sur la dtermination de (B) ou, de manire quivalente, la recherche d'une norme matricielle telle que B < 1. Une autre question laquelle on se trouve confront lorsque l'on est en prsence de deux mthodes itratives convergentes est de savoir laquelle des deux converge le plus rapidement. Une rponse est fournie par le rsultat suivant : la mthode la plus rapide est celle dont la matrice a le plus petit rayon spectral.
tntes ve
Thorme 3.5
(2.1)D
oit une norme vetorielle quelonqueF yn onsidre deux mthodes itrtives onsisE
x(k+1) = Bx(k) + c et x(k+1) = B x(k) + c, k 0, ve x(0) = x(0) et (B) < (B)F elorsD pour tout rel stritement positif D il existe un entier N tel que kN
o x dsigne l solution de
Dmonstration.
sup
x(0) x =1
x(k) x x(k) x
1/k
(B) , (B) +
(2.1)F
D'aprs le thorme A.59, tant donn > 0, il existe un entier N , dpendant de , tel que
kN sup
e(0) =1
B k e(0)
1/k
((B) + ).
Par ailleurs, pour tout entier k N , il existe un vecteur e(0) , dpendant de k, tel que
e(0) = 1 et B k e(0)
1/k
= Bk
1/k
(B),
44
en vertu du thorme A.56 et en notant la norme matricielle subordonne la norme vectorielle considre. Ceci achve de dmontrer l'assertion.
Parlons prsent de l'utilisation d'une mthode itrative pour le calcul d'une solution pprohe de (2.1). En pratique, il conviendrait de mettre n aux calculs la premire itration pour laquelle l'erreur est susament petite , c'est--dire le premier entier naturel k tel que
e(k) = x(k) x ,
o est une tolrance xe et est une norme vectorielle donne. Cependant, on ne sait gnralement pas valuer l'erreur, puisque la solution x n'est pas connue, et il faut donc avoir recours un autre critre d'arrt. Deux choix naturels s'imposent alors. Tout d'abord, les rsidus r(k) = b Ax(k) tant trs faciles calculer, on peut tester si r(k) , avec une tolrance xe. Puisque l'on a
e(k) = x(k) x = x(k) A1 b = A1 r (k) A1 r (k) ,
on doit choisir telle que A . Ce critre peut par consquent tre trompeur si la norme de A1 est 1 grande et qu'on ne dispose pas d'une bonne estimation de cette dernire. Il est en gnral plus judicieux de considrer dans le test d'arrt un rsidu normlis,
r (k) r (k) , ou encore , (0) b r
la seconde possibilit correspondant au choix de l'initialisation x(0) = 0. Dans ce dernier cas, on obtient le contrle suivant de l'erreur reltive
e(k) A1 x r (k) cond(A) , x
o cond(A) dsigne le conditionnement de la matrice A relativement la norme subordonne considre. Un autre critre parfois utilis dans la pratique est bas sur l'inrment x(k+1) x(k) , k N. L'erreur d'une mthode itrative de la forme (3.2) vriant la relation de rcurrence x(k+1) = Bx(k) , k N, on obtient, par utilisation de l'ingalit triangulaire,
e(k+1) B e(k) B B 1 B e(k+1) + x(k+1) x(k) , k N,
d'o
e(k+1)
x(k+1) x(k) , k N.
Les mthodes de Jacobi et de GaussSeidel que nous allons prsenter font partie de la famille de mthodes itratives de la forme M x(k+1) = N x(k) + b, k 0, (3.3) bases sur la dcomposition (splitting en anglais) de la matrice A,
A = M N,
(3.4)
avec M une matrice inversible. Pour que la formule ci-dessus soit utilisable en pratique, il faut par ailleurs que la matrice M soit filement inversible, c'est--dire que l'on doit pouvoir rsoudre simplement et faible cot un systme linaire ayant M pour matrice. On verra en eet que, pour les mthodes prcites, M est une matrice respectivement diagonale et triangulaire infrieure. En vertu du thorme 3.4, la convergence d'une mthode consistante dnie par (3.3) dpend de la valeur du rayon spectral de sa matrice d'itration, M 1 N . Plusieurs rsultats de convergence, propres aux mthodes de Jacobi et de GaussSeidel (ainsi que leurs variantes relaxes), sont donns dans la section 3.5. Le rsultat ci-dessous garantit la convergence d'une mthode itrative associe une dcomposition A = M N quelonque d'une matrice A hermitienne 3 dnie positive.
QF gomme on l9 dj mentionnD tous les rsultts nons le sont dns le s omplexeD mis restent vris dns le s rel en remplnt le mot hermitien pr symtrique F
45
Thorme 3.6
oit A une mtrie hermitienne d(nie positiveD que l9on dompose sous l forme (3.4) ve M une mtrie inversileF i l mtrie hermitienne M +N est d(nie positiveD lors (M 1 N ) < 1F
La matrice A (que l'on suppose d'ordre n) tant hermitienne, la matrice M + N est eectivement hermitienne puisque
Dmonstration.
M + N = M + M A = M + M A = M + N .
La matrice A tant par ailleurs dnie positive, l'application de Cn dans R dnie par
v = (v Av)
1/2
dnit une norme vectorielle, et on note galement la norme matricielle qui lui est subordonne. On va maintenant tablir que M 1 N < 1. Par dnition, on a
M 1 N = In M 1 A = sup
v =1
v M 1 Av .
= = = =
puisque la matrice M +N est dnie positive par hypothse. La fontion de Cn dans R qui v associe vM 1 Av tant continue sur le compact {v Cn | v = 1}, elle y atteint sa borne suprieure, ce qui achve la dmonstration.
Les mthodes itratives de la forme (3.3) tant destines tre utilises sur des machines dont les calculs sont entachs d'erreurs d'arrondis, il convient de s'assurer que leur convergence ne s'en trouve pas dtruite ou encore qu'elles ne convergent pas vers des vecteurs qui ne sont pas la solution de 2.1. Le rsultat de stabilit suivant montre qu'il n'en est rien.
Thorme 3.7 oit A une mtrie inversile d9ordre nD dompose sous l forme (3.4)D ve M une mtrie inversile et (M 1 N ) < 1D b un veteur de Cn et x l9unique solution de (2.1)F yn suppose de plus qu9 hque tpe l mthode itrtive est 'ete d9une erreurD u sens o le veteur x(k+1) D k ND est donn pr
x(k+1) = M 1 N x(k) + M 1 b +
(k)
(3.5)
, k 0,
e(k) = (M 1 N )k e(0) +
i=0
(M 1 N )i
(ki1)
, k 0.
Puisque (M 1 N ) < 1, il existe, par application du thorme (A.56), une norme matricielle subordonne s telle que M 1 N < 1 ; on note galement s la norme vectorielle qui lui est associe. Les normes vectorielles sur Cn tant quivalentes, il existe une constante C , strictement plus grande que 1 et ne dpendant que de M 1 N , telle que C 1 v v s C v , v Cn .
46
e(k)
M 1 N
k s
e(0)
+C
i=0
M 1 N
i s
M 1 N
k s
e(0)
C 1 + M 1 N
, k 0,
s
C2 1 + M 1 N
3.2
Observons que, si les coecients diagonaux de la matrice A sont non nuls, il est possible d'isoler la iime inconnue dans la iime quation de (2.1), 1 i n et l'on obtient alors le systme linaire quivalent
xi =
n 1 bi aij xj , i = 1, . . . , n. aii j=1 j=i
Le mthode de Jacobi se base sur ces relations pour construire, partir d'un vecteur initial x(0) donn, une suite x(k) kN par rcurrence
xi
(k+1)
(3.6)
ce qui implique que M = D et N = E + F dans la dcomposition (3.4) de la matrice A, o D est la matrice diagonale dont les coecients sont les coecients diagonaux de A, dij = aij ij , E est la matrice triangulaire infrieure de coecients eij = aij si i > j et 0 autrement, et F est la matrice triangulaire suprieure telle que fij = aij si i < j et 0 autrement, avec 1 i, j n. On a ainsi A = D (E + F ) et la matrice d'itration de la mthode est donne par
BJ = D1 (E + F ).
On note que la matrice diagonale D doit tre inversible. Cette condition n'est cependant pas trs restrictive dans la mesure o l'ordre des quations et des inconnues peut tre modi. Une gnralisation de la mthode de Jacobi est la mthode de surErelxtion de toi (toi overE relxtion (ty ) en anglais), dans laquelle un paramtre de relaxation est introduit. Les relations de rcurrence deviennent
xi
(k+1)
(3.7)
Cette mthode est consistante pour toute valeur de non nulle et concide avec la mthode de Jacobi pour = 1. L'ide de relaxer la mthode repose sur le fait que, si l'ecaci de la mthode se mesure par le rayon spectral de la matrice d'itration, alors, puisque (BJ ()) est une fonction continue de , on peut trouver une valeur de pour laquelle ce rayon spectral est le plus petit possible et qui donne donc une mthode itrative plus ecace que la mthode de Jacobi. Ce type de raisonnement s'applique galement la mthode de GaussSeidel (voir la section suivante). L'tude des mthodes de relaxation pour un type de matrices donn consiste en gnral dterminer, s'ils existent, un intervalle I de R ne contenant pas l'origine tel que, pour tout choisi dans I , la mthode converge, et un paramtre de relaxation optimal 0 I tel que (dans le cas de la mthode de sur-relaxation)
(BJ (0 )) = inf (BJ ()).
I
47
3.3
Remarquons prsent que, lors du calcul du vecteur x(k+1) par les formules de rcurrence (3.6), les premires i 1imes composantes de x(k+1) sont connues lors de la dtermination de iime , 2 i n. La mthode de GaussSeidel utilise ce fait en se servant des composantes du vecteur x(k+1) dj obtenues pour le calcul des suivantes. On a alors
(k+1) xi
(3.8)
ce qui revient poser M = D E et N = F dans la dcomposition (3.4), d'o la matrice d'itration associe
BGS = (D E)1 F.
Pour que la mthode soit bien dnie, il faut que la matrice D soit inversible, mais, l encore, cette condition n'est pas trs restrictive en pratique. On peut galement introduire dans cette mthode un paramtre de relaxation . On parle alors de mthode de surErelxtion suessive (suessive overErelxtion (y ) en anglais), dnie par
xi
(k+1)
Cette dernire mthode est consistante pour toute valeur de non nulle et concide avec la mthode de GaussSeidel pour = 1. Si > 1, on parle de surErelxtion, de sousErelxtion si < 1. Il s'avre que la valeur du paramtre optimal est, en gneral, plus grande que 1, d'o le nom de la mthode.
3.4
Parlons prsent de l'implmentation des mthodes de Jacobi et de GaussSeidel, et de leurs variantes, en utilisant un test d'arrt bas sur le rsidu. Dans ce cas, il convient tout d'abord de remarquer que les mthodes itratives de la forme (3.3) peuvent galement s'crire
x(k+1) = x(k) + M 1 r (k) , k 0,
(3.9)
o le vecteur r(k) = b Ax(k) est le rsidu l'tape k. C'est sur cette dernire criture que reposeront les algorithmes proposs pour les direntes mthodes. Pour l'initialisation de la mthode itrative, on choisit gnralement, sauf si l'on possde priori des informations sur la solution, le vecteur nul, c'est--dire x(0) = 0. Ensuite, chaque tape de la boucle de l'algorithme, on devra raliser les oprations suivantes : calcul du rsidu, rsolution du systme linaire ayant M pour matrice et le rsidu comme second membre, mise jour de l'approximation de la solution, jusqu' ce que la norme du rsidu soit plus petite qu'une tolrance prescrite. Dans la pratique, il est aussi ncessaire de limiter le nombre d'itrations, an d'liminer les problmes lis la non-convergence d'une mthode. Le nombre d'oprations lmentaires requises chaque itration pour un systme linaire d'ordre n se dcompose en 2n additions et n2 multiplications pour le calcul du rsidu, n divisions (pour la mthode de Jacobi) ou n(n1) additions, n(n1) multiplications et n divisions (pour la mthode de GaussSeidel) 2 2 pour la rsolution du systme linaire associ la matrice M , n additions pour la mise jour de la solution approche, n 1 additions, n multiplications et une extraction de racine carre pour le calcul de 48
la norme du rsidu servant au critre d'arrt (on peut galement raliser le test directement sur la norme du rsidu au carr, ce qui vite d'extraire une racine carre). Ce compte de l'ordre de 1 n2 additions et 2 3 2 2 n multiplications s'avre donc trs favorable par rapport celui des mthodes directes du chapitre 2 si le nombre d'itrations eectuer reste petit devant n. Terminons en remarquant que, dans la mthode de Jacobi (ou JOR), chaque composante de l'approximation de la solution peut tre calcule indpendamment des autres. Cette mthode est donc facilement paralllisable. Au contraire, pour la mthode de GaussSeidel (ou SOR), ce calcul ne peut se faire que squentiellement, mais sans qu'on ait toutefois besoin de stocker l'approximation de la solution l'tape prcdente, d'o un gain de mmoire.
3.5
Avant de considrer la rsolution de systmes linaires dont les matrices possdent des proprits particulires, commenons par un rsultat gnral pour la mthode de sur-relaxation successive.
Thorme 3.8 (condition ncessaire de convergence pour la mthode SOR) ve ryon spetrl
de l mtrie de l mthode de surErelxtion suessive vri(e toujours l9inglit
= (1 )n ,
compte tenu des structures des matrices, respectivement diagonale et triangulaires, D, E et F . En notant i , 1 i n, les valeurs propres de cette matrice, on en dduit alors que
n
(BGS ())n
|i | = |det(BGS ())| = |1 |n .
i=1
Thorme 3.9
pour 0 < 1F
Dmonstration.
o les nombres k sont les valeurs propres de la matrice BJ . En posant k = rk eik , on a alors
|k | = 2 rk 2 + 2rk cos(k )(1 ) + (1 )2 (rk + 1 )2 , k = 1, . . . , n,
Thorme 3.10
i A est une mtrie digonle stritement dominnte pr lignesD lors les mthodes de toi et de quss!eidel sont onvergentesF
49
|aii | >
Dmonstration. Soit A une matrice d'ordre n i=1 |aij | pour i = 1, . . . , n. En posant j=i
r = max
1in
j=1 j=i
aij , aii
et en observant alors que BJ = r < 1, on en dduit que la mthode de Jacobi est convergente. On considre prsent l'erreur l'itration k + 1, k N, de la mthode de GaussSeidel qui vrie
i1
ei
(k+1)
=
j=1
e(k+1) r e(k) , k N, en raisonnant par rcurrence sur l'indice i, 1 i n, des composantes du vecteur. Pour i = 1, on a
n
On va tablir que
e1
(k+1) Supposons que |ej | r e(k) i1 (k+1)
(k+1)
=
j=2
pour j = 1, . . . , i 1. On a alors
n i1
|ei
|
j=1
aij aij (k+1) (k) |+ |ej |ej | e(k) aii aii j=i+1
,
r
j=1
< e(k)
i=1 j=i
aij , aii
r e(k) lim
rk e(0)
k+
e(k)
= 0,
La matrice A tant hermitienne, on a D E F = D E F , et donc D = D et F = E compte tenu de la dnition de ces matrices. Le paramtre tant un rel non nul, il vient alors
D 1 2 E + D+F = . La matrice D est elle aussi dnie positive. En eet, en notant Ak , 1 k n, les sous-matrices principales de A, on a (D) = n (Ak ), chacune de ces sous-matrices tant dnie positive (c'est une consquence du k=1 thorme A.51). La matrice M + N est donc dnie positive si et seulement si 0 < < 2 et il sut pour conclure d'appliquer le thorme 3.6. M + N =
Dmonstration. Puisque la matrice A est hermitienne, on peut utiliser le thorme 3.6 condition que la 2 2 matrice hermitienne D A soit dnie positive. Ses valeurs propres tant donnes par dii i , o les i sont les valeurs propres de la matrice A, i = 1, . . . , n, ceci implique 2 dii 0<< , i = 1, . . . , n, i d'o le rsultat.
50
Thorme 3.13
i A est une mtrie tridigonleD lors les ryons spetrux des mtries d9itrtion des mthodes de toi et quss!eidel sont lis pr l reltion
(BGS ) = (BJ )2
de sorte que les deux mthodes onvergent ou divergent simultnmentF in s de onvergeneD l mthode de quss!eidel onverge plus rpidement que elle de toiF
Lemme 3.14
our tout slire non nul D on d(nit l mtrie tridigonle A() d9ordre n pr
a1
b2 A() = 0 . . . 0
1 c1 .. . .. .. .
0 .. . .. .. .
. ...
. 0
... .. . .. . .. . bn
. 0 1 cn1 an
0 . . .
(3.10)
De mme, les valeurs propres de la matrice d'itration de la mthode de GaussSeidel BGS = (D E)1 F sont les zros du polynme
pBGS () = det(BGS In ) = det((E D)1 ) det( D E F ).
Compte tenu de la structure tridiagonale de A, la matrice A() = 2 D 2 E 1 F est bien de la forme (3.10) et l'application du lemme 3.14 avec le choix = 1 montre que
det(2 D 2 E F ) = det(2 D E F ) = n det( D E F ), det(D) n pJ () = n pJ (). det(E D) De cette dernire relation, on dduit que, pour tout non nul, pBGS (2 ) = 2 (BGS ) (BJ ),
d'o
On remarque que, dans la dmonstration ci-dessus, on a tabli une bijection entre les valeurs propres non nulles de la matrice BGS et les paires de valeurs propres opposes non nulles de matrice BJ . 51
Si la matrice tridiagonale est de plus hermitienne dnie positive, le thorme 3.11 assure que la mthode de sur-relaxation successive converge pour 0 < < 2. La mthode de Gauss-Seidel (qui correspond au choix = 1 dans cette dernire mthode) est donc elle aussi convergente, ainsi que la mthode de Jacobi en vertu du thorme 3.13. De plus, on est en mesure de dterminer une valeur explicite du paramtre de relaxation optimal de la mthode de sur-relaxation successive. Ceci est l'objet du rsultat suivant.
Thorme 3.15 i A est une mtrie tridigonle hermitienne d(nie positiveD lorsD l mthode de surErelxtion suessive onverge pour 0 < < 2 et il existe un unique prmtre optimlD
0 = 2 1+ 1 (BJ )2 ,
A() =
2 + 1 1 D 2 E F.
det
2 + 1 D 2 E F 2 + 1
il vient
pBGS () (2 ) =
Ainsi, pour toute valeur propre de la matrice BJ , le nombre est aussi une valeur propre et les carrs (, ) des deux racines 2 2 4( 1) (, ) = 2 de l'quation du second degr en 2 + 1 = , sont des valeurs propres de la matrice BGS (). Par consquent, on a la caractrisation suivante
(BGS ()) =
(BJ )
et donc (1 ) R+ , puisque les matrices A et D sont dnies positives. Pour dterminer le rayon spectral (BGS ()), il sut donc d'tudier la fonction
M : [0, 1[]0, 2[ (, ) R max {|+ (, )|, | (, )|} ,
52
puisque + (, ) = (, ), car (, ) = 1 (2 2 2( 1)) (2 2 4( 1))1/2 , et || < 1 d'une 2 2 part et que la mthode ne peut converger si ]0, 2[ d'autre part. Pour = 0, on vrie que
M (0, ) = | 1|.
Si 2 2 < < 2, alors les nombres complexes + (, ) et (, ) sont conjugus et un calcul simple montre 1+ 1 que M (, ) = |+ (, )| = | (, )| = 1. Si 0 < <
2
1+ 12
2
1+
12
, on a
2 4( 1)
+ M (, ) = 2 + (, ) (, ) = + (, ) +
2 2
> 0,
et donc, x,
(BJ )
On va enn pouvoir minimiser le rayon spectral (BGS ()) par rapport . Pour 0 < <
+ |+ ((BJ ), )| = 2 + ((BJ ), ) ((BJ ), ) = + ((BJ ), ) (BJ ) + 2
2 , 1(Bj )2
il vient
= 2 + ((BJ ), )
Sachant que 0 < (BJ ) < 1, on trouve que le minimum de |+ ((BJ ), )| sur 0,
1+
1+
est atteint en
2 . 1(Bj )2
1+
2 ,2 1(Bj )2
point. On en dduit que, lorsque varie dans ]0, 2[, le minimum de (BGS ()) est atteint en
0 = 1+ 2 , 1 (Bj )2
(3.11)
53
0 1
Figure 3.1 Valeur du rayon spectral de la matrice d'itration BGS () en fonction du paramtre de
relaxation dans le cas d'une matrice A tridiagonale hermitienne dnie positive. on parle de mthode de Richardson insttionnire. Dans ce cadre, les mthodes de Jacobi et de Gauss Seidel (resp. JOR et SOR) peuvent tre vues comme des mthodes de Richardson avec = 1 (resp. = ) et respectivement M = D et M = D E . Bien videmment, de nombreux autres choix ont t proposs pour le pronditionneur (la matrice M 1 ) et le paramtre d'acclration de la mthode. Nous renvoyons la littrature spcialise, et notamment au livre de Saad [Saa03], pour plus de dtails. D'un point de vue pratique, les mthodes itratives prsentes dans ce chapitre ont t supplantes par la mthode du grdient onjugu [HS52] et ses gnralisations. Celle-ci fait partie des mthodes dites diretion de desente, dont le point de dpart est la minimisation de la fonction
J(x) = 1 x Ax x b, x Cn , 2
avec A une matrice d'ordre n hermitienne dnie positive et b un vecteur de Cn . Dans ce cas, J atteint son minimum en x = A1 b et la rsolution du systme Ax = b quivaut bien celle du problme de minimisation. Pour la rsolution numrique de ce problme par une mthode itrative, l'ide est de se servir d'une suite minimisante de la forme
x(k+1) = x(k) + (k) p(k) , k 0,
o le vecteur p(k) et le scalaire (k) sont respectivement la diretion de desente et le ps de desente l'tape k, partir d'une initialisation x(0) donne. On remarque que le choix du rsidu r(k) comme direction de descente et d'un pas de descente indpendant de l'itration conduit une mthode de Richardson stationnaire (il sut en eet de choisir M = In dans (3.11)) appele mthode du grdient ps (xe. La mthode du grdient ps optiml est obtenue en dterminant le pas de descente (k) , k 0, chaque tape (c'est une mthode de Richardson instationnaire) de manire minimiser la norme de l'erreur e(k+1) , avec une norme vectorielle adapte. Dans la mthode du gradient conjugu, la direction de descente fait intervenir le rsidu l'tape courante, mais galement la direction de descente l'tape prcdente (de manire garder une mmoire des itrations prcdentes et d'viter ainsi des phnomnes d'oscillations) et un pas optimal est utilis. Cette dernire mthode est en fait une mthode directe employe comme une mthode itrative, puisque l'on peut montrer qu'elle converge en au plus n itrations. C'est une mthode de urylov 5 , une proprit fondamentale tant que le vecteur x(k) , k 0, minimise la fonction J sur l'espace ane x(0) +Kk , avec Kk = Vect{r(0) , Ar(0) , . . . , Ak1 r(0) } est le sousEespe de urylov d9ordre k gnr par la matrice A et le vecteur r(0) . Si la matrice A n'est pas hermitienne dnie positive, on ne peut plus appliquer la mthode du gradient conjugu car A ne permet pas de dnir un produit scalaire (hermitien) sur Cn , ce point intervenant de
SF elexe xikolevith urylov @Aleks&i Nikol&eviq KrylovD IS ot IVTQ E PT otore IWRSA tit un ingnieur nvlD e@ a mthmtiien et mmoriliste russeF sl est lre pour ses trvux en mthmtiques ppliquesD notmment un rtile pru en IWQID onsr ux prolmes ux vleurs propres et introduisnt e que l9on ppelle ujourd9hui les sous-espaces de KrylovF
54
manire critique dans les proprits de la fonction J . Cependant, le cadre des mthodes de Krylov est propice la construction de mthodes itratives consistant minimiser la norme 2 du rsidu. Parmi les nombreuses mthodes existantes, citons la mthode du grdient ionjugu (ionjugte grdient method (figq ) en anglais) [Fle76], la mthode orthomin [Vin76] ou la mthode du rsidu minimal gnralise (generlized miniml residul method (qwi ) en anglais) [SS86].
Rfrences du chapitre
[DER86] I. Du, A. Erisman, and J. Reid. hiret methods for sprse mtries. Oxford University Press, 1986. [Fle76] R. Fletcher. Conjugate gradient methods for indenite systems. In xumeril nlysis E proE eedings of the hundee onferene on numeril nlysisD IWUS, pages 7389. Springer, 1976. [HS52] M. R. Hestenes and E. Stiefel. Methods of conjugate gradients for solving linear systems. tF esF xtF furF tndrds, 49(6) :409436, 1952. [Saa03] Y. Saad. stertive methods for sprse liner systems. SIAM, second edition, 2003. [SS86] Y. Saad and M. H. Schultz. GMRES: a generalized minimal residual algorithm for solving nonsymmetric linear systems. sew tF iF ttistF gomputF, 7(3) :856869, 1986. [Vin76] P. K. W. Vinsome. Orthomin, an iterative method for solving sparse sets of simultaneous linear equations. In roeedings of the fourth symposium on numeril simultion of reservoir performne, pages 4959. Society of Petroleum Engineers of AIME, 1976.
55
56
Chapitre 4
4.1
Certaines mthodes de calcul des valeurs propres permettant d'approcher une valeur propre bien spcique, il peut tre utile d'avoir une ide de la localisation des valeurs propres dans le plan complexe. Dans ce domaine, une premire estimation est donne par le thorme A.56, dont on dduit que, pour toute matrice carre A et pour toute norme matricielle consistante , on a
|| A , (A).
Cette ingalit, bien que souvent grossire, montre que toutes les valeurs propres de A sont contenues dans un disque de rayon A et centre en l'origine du plan complexe. Une autre estimation de localisation des valeurs propres priori, plus prcise mais nanmoins trs simple, est fournie par le thorme 4.2.
IF xiels renrik eel @S ot IVHP E T vril IVPWA tit un mthmtiien norvgienF sl est onnu pour ses trvux en nlyseD notmment sur l semiEonvergene des sries numriquesD des suites et sries de fontionsD les ritres de onvergene des intgrles gnrlises et sur les intgrles et fontions elliptiquesD et en lgreD sur l rsolution des qutions lgriques pr rdiuxF PF olo u0ni @PP septemre IUTS E IH mi IVPPA tit un mdein et mthmtiien itlienF on nom est li l dmonstrtion prtielle de l9irrsoluilit lgrique des qutions de degr stritement suprieur qutreD l thorie des groupes et une rgle de division rpide des polynmesF
57
Dnition 4.1 ( disques de Gershgorin 3 ) oit A une mtrie de Mn (C)F ves disques de Gershgorin Di D i = 1, . . . , nD sont les rgions du pln omplexe d(nies pr
n
Di = {z C | |z aii | Ri } , ve Ri =
j=1 j=i
|aij |.
(4.1)
Thorme 4.2 ( thorme des disques de Gershgorin ) i A est une mtrie d9ordre nD lors
n
(A)
i=1
Di ,
(4.1)F
Supposons que C soit une valeur propre de A. Il existe alors un vecteur non nul v de Cn tel que Av = v , c'est--dire
n
aij vj = vi , i = 1, . . . , n.
j=1
Soit vk , avec k {1, . . . , n}, la composante de v ayant le plus grand module (ou l'une des composantes de plus grand module s'il y en a plusieurs). On a d'une part vk = 0, puisque v est non nul par hypothse, et d'autre part
n n
akj vj akk vk =
j=1 j=k
akj vj |vk | Rk ,
ce qui prouve, aprs division par |vk |, que la valeur propre est contenue dans le disque de Gershgorin Dk , d'o le rsultat.
Ce thorme assure que toute valeur propre de la matrice A se trouve dans la runion des disques de Gershgorin de A (voir la gure 4.1). La transpose AT de A possdant le mme spectre que A, on obtient de manire immdiate une premire amlioration du rsultat.
Figure
4.1 Reprsentation dans le plan complexe des valeurs propres (en rouge) et des disques de Gershgorin (en bleu) de la matrice complexe .
QF emyon ernovith qershgorin @Semn Aranoviq GerxgorinD PR ot IWHI E QH mi IWQQA tit un mthmtiien ilorusse @sovitiqueA qui trvill en lgre et en thorie des fontions d9une vrile omplexeF hns son rtile ber die Abgrenzung der Eigenwerte einer Matrix puli en IWQID il donn des estimtions permettnt de loliser dns le pln omplexe les vleurs propres d9une mtrie rreF
58
Proposition 4.3
Di
Dj ,
(A)
i=1
j=1
Dj = {z C | |z ajj | Cj } , ve Cj =
i=1 i=j
|aij |,
(4.1)
La version suivante du thorme permet d'tre encore plus prcis sur la localisation des valeurs propres quand la runion des disques de Gershgorin d'une matrice possde des composantes connexes.
Thorme 4.4 ( second thorme de Gershgorin ) oit A est une mtrie d9ordre nD ve n 2F
yn suppose qu9il existe un entier p ompris entre A et n1 tel que l9on puisse diviser l runion des disques de qershgorin en deux sousEensemles disjoints de p et n p disquesF elorsD le premier premier sousE ensemle ontient extement p vleurs propresD hune tnt ompte ve s multipliit lgriqueD les vleurs propres restntes tnt dns le seond sousEensemleF
Dmonstration.
wikipedia/traduire We shall use a so-called homotopy (or continuation) argument. For 0 1, we consider the matrix B() = (bij ()) Mn (C), where
bij () = aii if i = j, aij if i = j.
Then, B(1) = A, and B(0) is the diagonal matrix whose diagonal elements coincide with those of A. Each of the eigenvalues of B(0) is therefore the centre of one of the Gerschgorin discs of A ; thus exactly p of the eigenvalues of B(0) lie in the union of the discs in D(p). Now, the eigenvalues of B() are the zeros of its characteristic polynomial, which is a polynomial whose coecients are continuous functions of ; hence the zeros of this polynomial are also continuous functions of . Thus as increases from 0 to 1 the eigenvalues of B() move along continuous paths in the complex plane, and at the same time the radii of the Gerschgorin discs increase from 0 to the radii of the Gerschgorin discs of A. Since p of the eigenvalues lie in the union of the discs in D(p) when = 0, and these discs are disjoint from all of the discs in D(q), these p eigenvalues must still lie in the union of the discs in D(p) when = 1, and the theorem is proved.
4.2
Mthode de la puissance
La mthode de la puissance fournit une trs bonne approximation des valeurs propres extrmales d'une matrice et de vecteurs propres associs. Dans la suite, on note 1 et n les valeurs propres d'une matrice A d'ordre ayant ayant respectivement le plus petit et le plus grand module.
et supposons que n soit de multiplicit algbrique gale 1 et que la dernire des ingalits ci-dessus est stricte. Sous ces hypothses, n est appele vleur propre dominnte de A. 59
tant donn un vecteur initial arbitraire q (0) de Cn normalis, on considre pour k = 1, 2, . . . la mthode itrative suivante
z (k) = Aq (k1) , z (k) q (k) = (k) , z 2 (k) = (q (k) ) Aq (k) ,
appele mthode de la puissance. Analysons ses proprits de convergence. Par rcurrence sur k, on peut vrier que
q (k) = Ak q (0) , k 1. Ak q (0) 2
Cette relation rend explicite le rle jou par les puissance de la matrice A. Ayant suppos cette dernire diagonalisable, il existe une base de vecteurs propres de A dans laquelle on peut dcomposer le vecteur q (0) :
n
q (0) =
i=1
i q i .
Comme Av i = i v i , on a
n1
Ak q (0) = n k n
vn +
i=1
i n
i n
vi
, k 1.
i Puisque | n | < 1, la composante le long de v 1 du vecteur Aq (0) (et donc celle de q (k) ) augmente quand k augmente en module, tandis que les composantes suivant les autres directions diminuent. On obtient alors, en utilisant les deux dernires relations,
q (k) =
n k (v n + y (k) n , n k (v n + y (k) 2 n
o y (k) dsigne un vecteur tendant vers 0 quand k tend vers l'inni. Le vecteur q (k) s'aligne donc avec un vecteur propre associ la valeur propre dominante quand k tend vers l'inni. On a de plus l'estimation d'erreur suivante l'tape k.
Thorme 4.5
oit A une mtrie digonlisle d9ordre n dont les vleurs propres stisfont
|1 | |2 | < |n |.
in supposnt n = 0 dns FFFD il existe une onstnte C > 0 telle que
q (k) v n
o q
(k)
C|
n1 k | , k 1, n
= vn +
n1 i=1
i n
i n
vi F
Dmonstration.
quarteroni 173
Dans le cas rel symetrique, la convergence est plus rapide (Allaire 217, GVL 406-407) Remarques sur test d'arret deation
4.2.2 Approximation de la valeur propre de plus petit module : la mthode de la puissance inverse
shift 60
4.3
La mthode de Jacobi se sert de la structure particulire des matrices symtriques pour construire une suite de matrice convergeant vers la forme de hur (voir le thome A.29) diagonale, orthogonalement semblable, de la matrice symtrique. Elle utilise pour cela les mtries de qivens.
G(p, q, )
= q ime
Cette matrice repsente la rotation d'angle (dans le sens trigonomtrique) dans le plan des pime et vecteur de la base canonique de Rn . completer Ciarlet 114-113
61
62
Deuxime partie
63
Chapitre 5
Ce problme intervient notamment dans l'tude gnrale de fonctions d'une variable relle, qu'elle soit motive ou non par des applications 1 , pour lesquelles des solutions exactes de ce type d'quation ne sont pas connues 2 . Toutes les mthodes que nous allons prsenter sont itratives et consistent donc en la construction d'une suite de rels (x(k) )kN qui, on l'espre, sera telle que
k+
lim x(k) = .
En eet, la dirence du cas des systmes linaires, la convergence de ces mthodes itratives dpend en gnral du choix de la donne initiale x(0) . On verra ainsi qu'on ne sait souvent qu'tablir des rsultats de onvergene lole, valables lorsque x(0) appartient un certain voisinage du zro . Aprs avoir caractris la convergence de suites engendres par des mthodes itratives, en introduisant notamment la notion d'ordre de convergence, nous prsentons plusieurs mthodes parmi les plus connues et les plus utilises : tout d'abord des mthodes dites d9endrement comme les mthodes de dichotomie et de la fausse position, puis les mthodes de la corde, de Newton 3 Raphson 4 , qui sont toutes deux des
IF issyons nnmoins de donner deux exemplesD l9un issu de l physiqueD l9utre de l9onomieF upposons tout d9ord que l9on herhe dterminer le volume V oup pr n molules d9un gz de vn der ls de temprture T et de pression pF v9qution d9tt @9estEEdire l9qution lint les vriles d9tt que sont nD pD T et V A d9un tel gz s9rit
p+a n V
2
(V nb) = nkB T,
o les oe0ients a @pression de ohsionA et b @ovolumeA dpendent de l nture du gz onsidr et kB dsigne l onstnte de foltzmnnF yn est don men rsoudre une qution non linire d9inonnue V et de fontion f (V ) = n 2 p+a V (V nb) nkB T F edmettons mintennt que l9on souhite luler le tux de rendement nnuel moyen R d9un fonds de plementD en supposnt que l9on investi hque nne une somme (xe de V euros dns le fonds et que l9on se retrouve prs n nnes ve un pitl d9un montnt de M eurosF ve reltion lint M D nD R et V est
n
M =V
(1 + R)k = V
k=1
et on doit lors trouver R tel que f (R) = M V 1+R ((1 + R)n 1) = 0F R PF wme dns le s d9une qution lgriqueD on rppelle qu9il n9existe ps de mthode de rsolution gnrle prtir du degr inqF QF ir ss xewton @R jnvier ITRQ E QI mrs IUPUA tit un philosopheD mthmtiienD physiien et stronome nglisF pigure emlmtique des sienesD il est surtout reonnu pour s thorie de l grvittion universelle et l rtion du lul in(nitsimlF RF toseph phson @vF ITRV E vF IUISA tit un mthmtiien nglisF on trvil le plus notle est son ouvrge Analysis
65
mthodes de point (xe, et enn la mthode de la scante. Dans chaque cas, un ou plusieurs rsultats de convergence d ho sont noncs. Des mthodes adaptes au cas particulier des quations algbriques
5.1
Gnralits
Dnition 5.1 (ordre d'une suite convergente) oit une suite (x(k) )kN de rels onvergent vers une limite F yn dit que ette suite convergente d'ordre r 1D s9il existe deux onstntes 0 < C1
C2 < + telles que C1
o k0 pprtient NF
|x(k+1) | C2 , k k0 , |x(k) |r
(5.1)
Par extension, une mthode itrative produisant une suite convergente vriant les relations (5.1) sera galement dite d9ordre r. On notera que, dans plusieurs ouvrages, on trouve l'ordre d'une suite dni uniquement par le fait qu'il existe une constante C 0 telle que, pour tout k k0 0, |x(k+1) | C|x(k) |r . Il faut cependant observer que cette dnition n'assure pas l'unicit de r, l'ordre de convergence pouvant ventuellement tre plus grand que r. On prfrera donc dire dans ce cas que la suite est d'ordre r u moins. On remarquera aussi que, si r est gal 1, on a ncessairement C2 < 1 dans (5.1), faute de quoi la suite ne pourrait converger. (k+1) | La dnition 5.1 est trs gnrale et n'exige pas que la suite |x (k) |r admette une limite quand |x kN k tend vers l'inni. Lorsque c'est le cas, on a coutume de se servir de la dnition suivante.
Dnition 5.2 oit une suite (x(k) )kN de rels onvergent vers une limite F yn dit que ette suite est convergente d'ordre rD ve r > 1D vers s9il existe un rel > 0D ppel constante asymptotique d'erreurD tel que
|x(k+1) | = . k+ |x(k) |r lim
(5.2)
converge linairement si
= 1AF
super-linairement
@respF
sous-linairementA
Ajoutons que la convergence d'ordre 2 est dite qudrtique, celle d'ordre 3 uique. Si cette dernire caractrisation est particulirement adapte l'tude pratique de la plupart des mthodes itratives que nous allons prsenter dans ce chapitre, elle a comme inconvnient de ne pouvoir permettre de fournir l'ordre d'une suite dont la vitesse de convergence est variable, ce qui se traduit par le fait que la limite (5.2) n'existe pas. On a alors recours une dnition tendue .
yn dit qu9une suite (x(k) )kN de rels limite s9il existe une suite ((k) )kN vri(nt
Dnition 5.3
|x(k) | (k) , k N,
aequationum universalisD
puli en ITWH et ontennt une mthode pour l9pproximtion d9un zro d9une fontion d9une vrile relle vleurs rellesF
66
On remarquera l'ajout du qualicatif u moins dans la dnition 5.3, qui provient du fait que l'on a d procder une majoration par une suite convergeant vers zro avec un ordre r au sens de la dnition 5.2. Bien videmment, on retrouve la dnition 5.2 si l'on a galit dans (5.3), mais ceci est souvent impossible obtenir en pratique. Finissons en indiquant que les notions d'ordre et de constante asymptotique d'erreur ne sont pas purement thoriques et sont en relation avec le nombre de chires exacts obtenus dans l'approximation de . Posons en eet (k) = log10 (|x(k) |) ; (k) est alors le nombre de chires signicatifs dcimaux exacts de x(k) . Pour k susament grand, on a
(k+1) r (k) log10 ().
On voit donc que si r est gal un, on ajoute environ log10 () chires signicatifs chaque itration. Par exemple, si = 0, 999 alors log10 () 4, 34 104 et il faudra prs de 2500 itrations pour gagner une seule dcimale. Par contre, si r est strictement plus grand que un, on multiplie environ par r le nombre de chires signicatifs chaque itration. Ceci montre clairement l'intrt des mthodes d'ordre plus grand que un.
(5.5)
Selon les cas, chacun de ces critres peut s'avrer soit trop restrictif, soit trop optimiste. COMPLETER par conditionnement de l'equation et analyse d'erreur + dessins (quarteroni p 212 + 336-7)
5.2
Mthodes d'encadrement
Cette premire classe de mthodes repose sur la proprit fondamentale suivante, relative l'existence de zros d'une appliquation d'une variable relle valeurs relles.
Thorme 5.4 (existence d'un zro d'une fonction continue) oit un intervlle non vide [a, b] de
R et f une pplition ontinue de [a, b] dns R vri(nt f (a)f (b) < 0F elors il existe ]a, b[ tel que f () = 0F
Dmonstration.
Si f (a) < 0, on a 0 ]f (a), f (b)[, sinon f (a) > 0 et alors 0 ]f (b), f (a)[. Dans ces deux cas, le rsultat est une consquence du thorme des valeurs intermdiaires (voir thorme B.1 en annexe).
67
Proposition 5.5
|x(k) |
ba , k N. 2k+1
(5.6)
Il ressort de cette proposition que la mthode de dichotomie converge de manire certaine : c'est une mthode glolement onvergente. L'estimation d'erreur (5.6) fournit par ailleurs directement un critre d'arrt pour la mthode, puisque, prcision donne, cette dernire permet d'approcher en un nombre prvisible d'itrations. On voit en eet que, pour avoir |x(k) | , il faut que
ln ba ba k 1. 2k+1 ln(2)
(5.7)
Ainsi, pour amliorer la prcision de l'approximation du zro d'un ordre de grandeur, c'est--dire trouver 1 k > j tel que |x(k) | = 10 |x(j) |, il faut eectuer k j = ln(10) 3.32 itrations. La convergence de ln(2) cet algorithme est donc lente. Enn, la mthode de dichotomie ne garantit pas une rduction monotone 68
10
15
20
25
30
mthode de dichotomie pour l'approximation de la racine = 0, 9061798459... du polynme de Legendre 5 de degr 5, P5 (x) = x (63x4 70 x2 + 15), dont les racines se situent dans l'intervalle ] 1, 1[. On a choisi 8 les bornes a = 0, 6 et b = 1 pour l'intervalle d'encadrement initial et une prcision de 1010 pour le test d'arrt, qui est atteinte aprs 31 itrations ( comparer la valeur 30, 89735... de l'estimation (5.7). On observe que l'erreur a un comportement oscillant, mais diminue nanmoins en moyenne.
de l'erreur absolue d'une itration l'autre, comme on le constate sur la gure 5.2. Ce n'est donc pas une mthode d'ordre un au sens de la dnition 5.1. On gardera donc l'esprit que la mthode de dichotomie est une mthode robuste permettant d'obtenir une approximation raisonnable du zro pouvant servir l'initialisation d'une mthode dont la convergence est plus rapide mais seulement lole, comme la mthode de NewtonRaphson (voir la section 5.3.4).
f (x) = x3 + 2x 3x 1 contenue dans l'intervalle [1, 2] (cette fonction est en eet continue et on a f (1) = 1 et f (2) = 9), avec une prcision gale 104 . Le tableau suivant donne les valeurs respectives des bornes a(k) et b(k) de l'intervalle d'encadrement, de l'approximation x(k) de la racine et de f (x(k) ) en fonction du numro k de l'itration.
SF edrienEwrie vegendre @IV septemre IUSP E W jnvier IVQQA tit un mthmtiien frnisF yn lui doit d9importntes ontriutions en thorie des nomresD en sttistiquesD en lgre et en nlyseD insi qu9en mniqueF sl est ussi lre pour tre l9uteur des lments de gomtrieD un trit puli pour l premire fois en IUWR reprennt et modernisnt les lments d9iulideF
69
0 1 2 3 4 5 6 7 8 9 10 11 12 13
a(k) 1 1 1 1,125 1,1875 1,1875 1,1875 1,195312 1,195312 1,197266 1,198242 1,198242 1,198486 1,198608
b(k) 2 1,5 1,25 1,25 1,25 1,21875 1,203125 1,203125 1,199219 1,199219 1,199219 1,19873 1,19873 1,19873
x(k) 1,5 1,25 1,125 1,1875 1,21875 1,203125 1,195312 1,199219 1,197266 1,198242 1,19873 1,198486 1,198608 1,198669
f (x(k) ) 2,375 0,328125 0,419922 0,067627 0,124725 0,02718 0,020564 0,003222 0,008692 0,00274 0,000239 0,001251 0,000506 0,000133
x(k) = a(k)
On a reprsent sur la gure 5.3 la construction des premires approximations x(k) ainsi trouves. Cette mthode apparat comme plus exible que la mthode de dichotomie, le point x(k) ainsi construit tant plus proche de l'extrmit de l'intervalle [a(k) , b(k) ] en laquelle la valeur de la fonction |f | est la plus petite. Par ailleurs, si f est une fonction linaire, on voit que le zro est obtenu aprs une itration plutt qu'une innit. Indiquons que si la mesure de l'intervalle d'encadrement [a(k) , b(k) ] ainsi obtenu dcrot bien lorsque k tend vers l'inni, elle ne tend pas ncessairement, la dirence de la mthode de dichotomie, vers zro, comme l'illustre l'exemple ci-dessous.
Exemple. On reprend l'exemple prcdent en utilisant cette fois la mthode de la fausse position. Le
tableau prsente ... 70
x(0)
On observe que la borne de droite de l'intervalle d'encadrement initial est conserve tout au long du calcul. De fait, compte tenu des hypothses sur f , on peut voir que la mthode conduit invitablement partir d'un certain rang l'une des congurations prsentes la Figure 5.4, pour chacune desquelles l'une des deux bornes de l'intervalle d'encadrement n'est plus jamais modie tandis que l'autre converge de manire monotone vers le zro de la fonction. La mthode se comporte alors comme une mthode de point (xe (comparer ce titre (5.9) avec (5.10)). Sous des hypothses de rgularit lgrement restrictives 6 sur f , on peut tablir le rsultat de convergence suivant pour la mthode de la fausse position.
Thorme 5.6
oit f une fontion de lsse C 2 sur un intervlle [a, b]D vri(nt f (a)f (b) < 0D et soit ]a, b[ l9unique solution de l9qution f (x) = 0F elorsD l suite x(k) kN onstruite pr l mthode de l fusse position onverge linirement vers F
Dmonstration. Si f est une fonction ane, la mthode converge en une tape. Sinon, l'une des congurations illustres la gure 5.4 est obligatoirement atteinte par la mthode partir d'un certain rang et l'on peut se ramener sans perte de gnralit au cas o l'une des bornes de l'intervalle de dpart reste xe tout au long du processus itratif. Supposons prsent que f (x) > 0 (f croissante) et f (x) > 0 (f convexe) sur l'intervalle [a, b] (c'est la premire conguration dcrite plus haut). On remplace alors l'tape k + 1, k 0, l'intervalle [x(k) , b] par [x(k+1) , b], o la borne x(k+1) est donne (en choisissant, de manire un peu abusive, x(0) gal a) par la formule
x(k+1) = x(k)
TF v9hypothse f
drivable
(5.9)
est en e'et su0snte pour tlir le rsulttD mis demnderit une preuve plus loreF
71
f () > 0
a(k)
f () < 0
b(k)
f () < 0
(k)
b(k)
f () > 0
Figure 5.4 Direntes congurations atteintes par la mthode de la fausse position partir d'un certain
rang.
tudions prsent la suite (x(k) )kN en posant g(x) = x
bx f (x), f (b)f (x)
fonction g est de manire vidente de classe C 1 sur [a, b[ et continue en b, avec g(b) = b
g (x) = 1
On a par ailleurs
f (b) f (x) (b x)f (x) f (b) f (x) (b x)f (x) bx f (x) + f (x) = f (b), x [a, b[, f (b) f (x) (f (b) f (x))2 (f (b) f (x))2
(b)f dont on dduit la continuit de g en b, avec g (b) = f 2f (b)(b) . L'application g est donc de classe C 1 sur [a, b]. 2 La fonction f tant suppose convexe sur [a, b], on a f (b) f (x) (b x)f (x) 0, x [a, b], ainsi que f (b) > 0, puisque f est croissante et f (a)f (b) < 0. Par consquent, g est croissante sur [a, b] et alors g([a, b]) [g(a), g(b)]. ba Enn, on utilise la croissance de f et le fait que f (a) < 0 et f (b) > 0 pour montrer que g(a) = a f (b)f (a) f (a) a
et g(b) = b
La suite est donc croissante et majore par b ; elle converge vers une limite [a, b], qui vrie, par continuit de g , g( ) = . Puisque x(0) = a < , on a, par rcurrence, x(k) , k N, et donc , d'o ]a, b[ et, par suite, f ( ) = 0 donc = , par unicit de . Pour prouver que la convergence est linaire, on doit montrer que
0 < lim x(k+1) < 1. k+ x(k)
b.
Or, le thorme des accroissements nis (voir thorme B.3 en annexe) et la continuit de la fonction g impliquent que x(k+1) b lim = g () = 1 f (), k+ x(k) f (b) f () et, f tant strictement convexe, il est alors facile de voir que la pente de la droite passant par les points (, 0) et (b, f (b)) est strictement plus grande que celle de la tangente la courbe reprsentative de f au point , d'o la conclusion. La mme technique de dmonstration s'adapte pour traiter les trois cas (pour lesquels les signes de f (x) et f (x) sont constants sur [a, b]) restants, ce qui achve la preuve.
On notera que le critre d'arrt des itrations de la mthode doit ncessairement tre bas sur la valeur du rsidu f (x(k) ), puisque la longueur de l'intervalle d'encadrement du zro de f ne tend pas ncessairement vers zro. 72
5.3
Les mthodes d'approximation de zros introduites dans la suite se passent de l'hypothse de changement de signe de f en et ne consistent pas en la construction d'une suite d'intervalles contenant le zro de la fonction ; bien qu'tant aussi des mthodes itratives, ce ne sont pas des mthodes d'encadrement. Rien ne garantit d'ailleurs que la suite (x(k) )kN produite par l'un des algorithmes prsents prend ses valeurs dans un intervalle x priori. REPRENDRE ! ! ! D'autre part, comme nous l'avons dj vu avec la mthode de la fausse position, prendre en compte les informations donnes par les valeurs de la fonction f et mme, dans le cas o celle-ci est direntiable, celles de sa drive aux points x(k) , k N, peut conduire des proprits de convergence amliores. On verra que les mthodes prsentes exploitent ce principe sous direntes formes. Les sections 5.3.3 et 5.3.4 sont respectivement consacres aux mthodes de la corde et de Newton Raphson, qui sont ensuite analyses la section 5.3 dans le cadre gnral des mthodes de point xe. La mthode de la scante est introduite et analyse dans la section 5.3.5.
5.3.1 Principe
La famille de mthodes que nous allons maintenant introduire utilise le fait que le problme f (x) = 0 peut toujours ramener au problme quivalent x g(x) = 0, pour lequel on a le rsultat suivant.
Thorme 5.7 ( thorme du point xe de Brouwer 7 ) oit [a, b] un intervlle non vide de R et g une pplition ontinue de [a, b] dns luiEmmeF elorsD il existe un point de [a, b]D ppel point xe de la fonction gD vri(nt g() = F
Dmonstration.
Posons f (x) = x g(x). On a alors f (a) = a g(a) 0 et f (b) = b g(b) 0, puisque g(x) [a, b] pour tout x [a, b]. Par consquent, f est une fonction continue sur [a, b], telle que f (a)f (b) 0. Le thorme 5.4 assure alors l'existence d'un point dans [a, b] tel que 0 = f () = g().
Bien entendu, toute quation de la forme f (x) = 0 peut s'crire sous la forme x = g(x) en posant g(x) = x + f (x), mais cela ne garantit en rien que la fonction auxiliaire g ainsi dnie satisfait les hypothses du thorme 5.7. Il existe cependant de nombreuses faons de construire g partir de f , comme le montre l'exemple ci-aprs, et il sut donc de trouver une transformation adapte.
f (x) = ex 2x 1 sur l'intervalle [1, 2]. Nous avons f (1) < 0 et f (2) > 0, f possde donc bien un zro sur l'intervalle [1, 2]. Soit g(x) = 1 (ex 1). L'quation x = g(x) 2 est bien quivalente f (x) = 0, mais g , bien que continue, n'est pas valeurs de [1, 2] dans lui-mme. Rcrivons prsent le problme en posant g(x) = ln(2x + 1). Cette dernire fonction est continue et croissante sur l'intervalle [1, 2], valeurs dans lui-mme. Elle satisfait donc les conditions du thorme 5.7.
Nous venons de montrer que, sous certaines conditions, approcher les zros d'une fonction f revient approcher les points xes d'une fonction g , sans que l'on sache pour autant traiter ce nouveau problme. Une mthode courante pour la dtermination de point xe se rsume la construction d'une suite (x(k) )kN par le procd itratif suivant : tant donn x(0) (appartenant [a, b]), on pose
x(k+1) = g(x(k) ), k 0.
(5.10)
On dit que la relation (5.10) est une itrtion de point (xe. La mthode d'approximation rsultante est appele mthode de point (xe ou bien encore mthode des pproximtions suessives. Si la suite (x(k) )kN dnie par (5.10) converge, cela ne peut tre que vers un point xe de g . En eet, en posant lim x(k) = , k+ nous avons que
= lim x(k+1) = lim g(x(k) ) = g
k+ k+ k+
lim x(k)
= g(),
la deuxime galit provenant de la dnition (5.10) de la suite rcurrente et la troisime tant une consquence de la continuit de g .
UF vuitzen igertus tn frouwer @PU fvrier IVVI E P demre IWTTA tit mthmtiien et philosophe nerlndisF es pports onernrent priniplement l topologie et l logique formelleF
73
Dnition 5.8 (application contractante) oit [a, b] un intervlle non vide de R et g une pplition de [a, b] dns RF yn dit que g est une pplition contractante si et seulement si il existe une onstnte
K telle que 0 < K < 1 vri(nt |g(x) g(y)| K|x y|, x [a, b], y [a, b].
(5.11)
On notera que la onstnte de vipshitz 8 de g n'est autre que la plus petite constante K vriant la condition (5.11). Le rsultat suivant est une application dans le cas rel du thorme du point (xe de fnh 9 (galement attribu Picard 10 ), dont l'nonc gnral vaut pour toute application contractante dnie sur un espe mtrique omplet.
Thorme 5.9
oit [a, b] un intervlle non vide de R et g une pplition ontrtnte de [a, b] dns luiEmmeF elorsD l fontion g possde un unique point (xe dns [a, b]F he plusD l suite (x(k) )kN d(nie pr l reltion (5.10) onvergeD pour toute initilistion x(0) dns [a, b]D vers e point (xe et l9on les deux estimtions suivntes X
(5.12) (5.13)
(k) Dmonstration. On commence par montrer que la suite (x )kN est une suite de Cauchy. En eet, pour tout entier k non nul, on a |x(k+1) x(k) | = |g(x(k) ) g(x(k1) )| K|x(k) x(k1) |,
le dernier membre tendant vers zro lorsque k tend vers l'inni. La suite relle (x(k) )kN converge donc vers une limite dans [a, b]. L'application g tant continue 11 , on dduit alors par un passage la limite dans (5.10) que = g(). Supposons prsent que g possde deux points xes et dans l'intervalle [a, b]. On a alors
0 | | = |g() g()| K| |,
d'o = puisque K < 1. La premire estimation se prouve alors par rcurrence sur k en crivant que
|x(k) | = |g(x(k1) ) g()| |x(k1) |, k 1,
VF udolph ytto igismund vipshitz @IR mi IVQP E U otore IWHQA tit un mthmtiien llemndF on trvil s9tend sur des domines ussi vris que l thorie des nomresD l9nlyseD l gomtrie di'rentielle et l mnique lssiqueF WF tefn fnh @QH mrs IVWP E QI ot IWRSA tit un mthmtiien polonisF sl est l9un des fondteurs de l9nlyse fontionnelle moderne et introduisit notmment des espes vetoriels norms ompletsD ujourd9hui ppels espaces de BanachD lors de son tude des espes vetoriels topologiquesF lusieurs importnts thormes et un lre prdoxe sont ssois son nomF IHF ghrles mile ird @PR juillet IVST E II demre IWRIA tit un mthmtiien frnisD glement philosophe et historien des sienesF sl est l9uteur de deux di0iles thormes en nlyse omplexe et fut le premier utiliser le thorme du point (xe de fnh dns une mthode d9pproximtions suessives de solutions d9qutions di'rentielles ou d9qutions ux drives prtiellesF IIF g9est pr hypothse une pplition K ElipshitzienneF
74
Sous les hypothses du thorme 5.9, la convergence des itrations de point xe est assure quel que soit le choix de la valeur intiale x(0) dans l'intervalle [a, b] : c'est donc un nouvel exemple de convergence glole. Par ailleurs, l'un des intrts de ce rsultat est de donner une estimation de la vitesse de convergence de la suite vers sa limite, la premire ingalit montrant en eet que la convergence est gomtrique. La seconde ingalit est aussi particulirement utile d'un point de vue applicatif, car elle fournit chaque tape un majorant de la distance la limite (sans pour autant la connatre) en fonction d'une quantit connue. Il est alors possible de majorer le nombre d'itrations que l'on doit eectuer pour approcher le point xe avec une prcision donne.
Corollaire 5.10
gonsidrons l mthode de point (xe d(nie pr l reltion (5.10)D l fontion g vriE (nt les hypothses du thorme SFWF tnt donnes une prision > 0 et une initilistion x(0) dns l9intervlle [a, b]D soit k0 () le plus petit entier tel que
|x(k) | , k k0 ().
yn lors l mjortion
k0 ()
d'o
K |x(0) x(1) |. 1K En substituant cette expression dans (5.13), on obtient que |x(0) | |x(k) | Kk |x(0) x(1) |, 1K
En prenant le logarithme nprien de chacun des membres de cette dernire ingalit, on arrive
k ln() + ln(1 K) ln(|x(1) x(0) |) , ln(K)
Dans la pratique, vrier que l'application g est K -lipschitzienne n'est pas toujours ais. Lorsque g est une fonction de classe C 1 sur l'intervalle [a, b], il est possible d'utiliser la caractrisation suivante.
Proposition 5.11
oit [a, b] un intervlle non vide de R et g une fontion de lsse C 1 d(nie de [a, b] dns luiEmme vri(nt
75
Dmonstration.
D'aprs le thorme des accroissements nis (voir thorme B.3 en annexe), pour tous x et y contenus dans l'intervalle [a, b] et distincts, on sait qu'il existe un rel c strictement compris entre x et y tel que
|g(x) g(y)| = |g (c)||x y|,
d'o le rsultat.
On est alors en mesure d'aner le rsultat de convergence globale prcdent dans ce cas particulier.
Thorme 5.12
oit [a, b] un intervlle non vide de R et g une pplition stisfisnt les hypothses de l proposition SFIIF elorsD l fontion g possde un unique point (xe dns [a, b] et l suite (x(k) )kN d(nie pr (5.10) onvergeD pour toute initilistion x(0) dns [a, b]D vers e point (xeF he plusD on
(5.14)
Dmonstration. La proposition 5.11 tablissant que g est une application contractante sur [a, b], les conclusions du thorme 5.9 sont valides et il ne reste qu' prouver l'galit (5.14). En vertu du thorme des accroissements nis (voir le thorme B.3 en annexe), il existe, pour tout k 0, rel (k) strictement compris entre x(k) et tel que x(k+1) = g(x(k) ) g() = g ( (k) )(x(k) ).
On notera que ce thorme assure une convergence u moins linire de la mthode de point xe. La quantit |g ()| est appele, par comparaison avec la constante C apparaissant dans (5.1), fteur de onvergene symptotique de la mthode. Encore une fois, il est souvent dicile en pratique de dterminer priori un intervalle [a, b] sur lequel les hypothses de la proposition 5.11. Il est nanmoins possible de se contenter d'hypothses plus faibles, au prix d'un rsultat de convergence seulement lole.
oit [a, b] un intervlle non vide de RD une fontion g ontinue de [a, b] dns luiEmme et un point (xe de g dns [a, b]F yn suppose de plus que g dmet une drive ontinue dns un voisinge de D ve |g ()| < 1F elorsD l suite (x(k) )kN d(nie pr (5.10) onverge vers D pour toute initilistion x(0) hoisie su0sment prohe de F
Dmonstration.
Thorme 5.13
Par hypothses sur la fonction g , il existe un rel h > tel que g est continue sur l'intervalle [ h, + h]. Puisque |g ()| < 1, on peut alors trouver un intervalle I = [ , + ], avec 0 < h, tel que |g (x)| L, avec L < 1, pour tout x appartenant I . Pour cela, il sut de poser L = 1 (1 + |g ()|) et d'utiliser 2 la continuit de g pour choisir h de manire ce que
|g (x) g ()| 1 1 |g ()| , x I . 2
Supposons prsent que, pour un entier k donn, le terme x(k) de la suite dnie par la relation de rcurrence (5.10) appartient I . On a alors, en vertu du thorme des accroissements nis (voir thorme B.3 en annexe),
x(k+1) = g(x(k) ) = g(x(k) ) g() = g ( (k) )(x(k) ),
|x(k+1) | L|x(k) |,
76
et x(k+1) appartient donc lui aussi I . On montre alors par rcurrence que, si x(0) appartient I , alors x(k) galement, k 0, et que |x(k) | Lk |x(0) |, ce qui implique que la suite (x(k) )kN converge vers .
On peut observer que, si |g ()| > 1 et si x(k) est susamment proche de pour avoir |g (x(k) )| > 1, on obtient |x(k+1) | > |x(k) | et la convergence ne peut alors avoir lieu (sauf si x(k) = ). Dans le cas o |g ()| = 1, il peut y avoir convergence ou divergence selon les cas considrs. Cette remarque et le thorme 5.13 conduisent l'introduction des dnitions suivantes.
Dnitions 5.14 oit [a, b] un intervlle non vide de RD une fontion g ontinue de [a, b] dns luiE mme et un point (xe de g dns [a, b]F yn dit que est un point xe attractif si l suite (x(k) )kN d(nie pr l9itrtion de point (xe (5.10) onverge pour toute initilistion x(0) su0sment prohe de F iproquementD si ette suite ne onverge pour uune initilistion x(0) dns un voisinge de D exepte x(0) = D le point (xe est dit rpulsifF
conditions susantes + exemples methodes d'ordre superieur gautschi 235, quarteroni 225
(5.15)
avec h une fonction satisfaisant 0 < |h(x)| < + sur le domaine de dnition (ou plus gnralement sur un intervalle contenant un zro) de f . Sous cette hypothse, on vrie facilement que tout zro de f est point xe de g , et vice versa. Le choix le plus simple pour la fonction h est alors celui conduisant la mthode de relxtion, qui consiste en la construction d'une suite (x(k) )kN satisfaisant la relation de rcurrence
x(k+1) = x(k) f (x(k) ), k 0,
(5.16)
avec un rel x, la valeur de x(0) tant donne. En supposant f direntiable dans un voisinage de son zro , rien ne garantit que la mthode converge si f () = 0 mais on voit qu'on peut facilement assurer la convergence locale de cette mthode si est un zro simple et est tel que 0 < f () < 2. Ceci est rigoureusement tabli dans le thorme suivant.
Thorme 5.15
oit f une fontion relle de lsse C 1 dns un voisinge du rel tel que f () = 0F upposons que f () = 0F elors il existe un ensemle de rels tel que l suite (x(k) )kN d(nie pr (5.16) onverge u moins linirement vers D pour toute initilistion x(0) hoisie su0sment prohe de F
Dmonstration.
Supposons que f () > 0, la preuve tant identique, aux changements de signe prs, si f () < 0. La fonction f tant continue dans un voisinage de , on peut trouver un rel > 0 tel que f (x) 1 f () dans 2 l'intervalle I = [ , + ]. Posons alors M = maxf (x). On a alors
xI
1 M 1 f (x) 1
f (), x I . 2
77
D'un point de vue gomtrique, le point x(k+1) dans (5.16) est, chaque itration, l'abscisse du point d'intersection entre la droite de pente 1/ passant par le point (x(k) , f (x(k) )) et l'axe des abscisses (voir gure ref). Elle est pour cette raison aussi appele mthode de l orde, le nouvel itr de la suite tant dtermin par la corde de pente constante joignant un point de la courbe de la fonction f l'axe des abscisses. Connaissant un intervalle d'encadrement [a, b] de , on a coutume de dnir la mthode de la corde par
x(k+1) = x(k) ba f (x(k) ), k 0, f (b) f (a)
(5.17)
avec x(0) donn dans [a, b]. Sous les hypothses du thorme 5.15, la mthode converge si l'intervalle [a, b] est tel que
ba<2 f (b) f (a) . f ()
(5.18)
l'initialisation x(0) tant donne. Cette mthode peut tre interprte comme une linristion de l9qution f (x) = 0 u point x = x(k) . En eet, si l'on remplace f (x) au voisinage du point x(k) par l'approximation ane obtenue en tronquant au premier ordre le dveloppement de Taylor de f en x(k) et qu'on rsoud l'quation linaire rsultante
f (x(k) ) + (x x(k) )f (x(k) ) = 0,
en notant sa solution x(k+1) , on retrouve l'galit (5.18). Il en rsulte que, gomtriquement parlant, le point x(k+1) est l'abcisse du point d'intersection entre la tangente la courbe de f au point (x(k) , f (x(k) )) et l'axe des abscisses (voir gure 5.5). Par rapport toutes les mthodes introduites jusqu' prsent, on pourra remarquer que la mthode de Newton ncessite chaque itration l'valuation des deux fonctions f et f au point courant x(k) . Cet eort est compens par une vitesse de convergence accrue, puisque cette mthode est d'ordre deux.
Thorme 5.16
oit f une fontion relle de lsse C 2 dns un voisinge du rel tel que f () = 0F upposons que f () = 0F elors l suite (x(k) )kN d(nie pr (5.18) onverge u moins qudrtiquement vers D pour toute initilistion x(0) hoisie su0sment prohe de F
Dmonstration.
a ecrire
resultt de onvergene glole @hypF signes derivesA suli QS
Thorme 5.17
Dmonstration.
a ecrire
x(0)
(5.19)
79
Bien que l'on doive disposer de deux estimations de avant de pouvoir utiliser la relation de rcurrence (5.19), cette mthode ne requiert chaque tape qu'une seule valuation de fonction, ce qui est un avantage par rapport la mthode de Newton, dont la relation (5.18) demande de connatre les valeurs de f (x(k) ) et de f (x(k) ). Cependant, la dirence de la mthode de la fausse position, rien n'assure qu'au moins un zro de f se trouve entre x(k1) et x(k) , pour tout k N. Enn, compare la mthode de la corde, elle ncessite le calcul de mise jour du quotient apparaissant dans (5.19). Le bnce tir de cet eort supplmentaire est bien une vitesse de convergence superlinire, mais cette convergence n'est plus que lole, comme le montre le rsultat suivant 13 .
upposons que f est une fontion de lsse C 2 dns un voisinge d9un zro simple F elorsD si les donnes x(1) et x(0) D ve x(1) = x(0) D hoisies dns e voisingeD sont su0smment prohes de D l suite d(nie pr (5.19) onverge vers ve un ordre @u moinsA gl 1 (1 + 5) = 2 1, 6180339887 . . .
Dmonstration. Nous allons tout d'abord prouver la convergence locale de la mthode. cette n, introduisons, pour > 0, l'ensemble I = {x R | |x | } et supposons que f est classe C 2 dans ce voisinage de . Pour susament petit, dnissons f (s) M () = max , sI 2f (t)
Thorme 5.18
tI
14
M () < 1.
(5.20)
Le nombre est l'unique zro de f contenu dans I . En eet, en appliquant la formule de TaylorLagrange (voir thorme B.5 en annexe) l'ordre deux f au point , on trouve que
f (x) = f () + (x )f () + 1 (x )2 f (c), 2
Si x I et x = , les trois facteurs dans le membre de droite sont tous dirents de zro (le dernier parce que f (x ) 2f (c) < M () < 1) et la fonction f ne s'annule qu'en sur l'intervalle I . () Montrons prsent que, quelles que soient les initialisations x(1) et x(0) , avec x(1) = x(0) , dans I , la suite (x )kN construite par la mthode de la scante converge vers en prouvant que, pour tout k 0, x(k) appartient I et que deux itrs successifs x(k) et x(k1) sont distincts, sauf si f (x(k) ) = 0 pour k donn, auquel cas la mthode aura converg en un nombre ni d'itrations. On raisonne par rcurrence, le rsultat tant vrai par hypothse pour k = 0. Supposons que x(k) et x(k1) appartiennent I , avec x(k) = x(k1) , pour k 1. Utilisons (5.19) pour obtenir une relation faisant intervenir les trois erreurs conscutives (x(i) ), i = k 1, k, k + 1. En soustrayant dans chaque membre de (5.19) et en se servant que f () = 0, il vient
(k)
x(k+1) = x(k)
f [x(k1) , x(k) ] f [x(k) , ] x(k) x(k1) f (x(k) ) = (x(k) ) , f (x(k) ) f (x(k1) ) f [x(k1) , x(k) ]
Par la relation de rcurrence pour les dirences divises (6.9), la dernire galit se rcrit alors
x(k+1) = (x(k) )(x(k1) ) f [x(k1) , x(k) , ] . f [x(k1) , x(k) ]
IQF xotons qu9on ne peut utiliser les tehniques introduites pour les mthodes de point (xe pour tlir un rsultt de onvergeneD l reltion @SFIWA ne pouvnt s9rire sous l forme @SFIHA voulueF f IRF xotons que lim M () = 2f () < +D on peut don ien stisfire l ondition @SFPHA pour ssez petitF ()
0
80
Par application du thorme des accroissements nis (voir thorme B.3 an annexe), il existe (k) , compris entre x(k1) et x(k) , et (k) , contenu dans le plus petit intervalle auquel appartiennent x(k1) , x(k) et , tels que
f [x(k1) , x(k) ] = f ( (k) ) et f [x(k1) , x(k) , ] = 1 f ( (k) ). 2
f ( (k) ) , 2 f ( (k) )
(5.21)
d'o
|x(k+1) | 2
et x(k+1) appartient I . Par ailleurs, il est clair d'aprs la relation (5.19) que x(k+1) est dirent de x(k) , except si f (x(k) ) est nulle. En revenant (5.21), il vient alors que
|x(k+1) | M ()|x(k) |, k 0,
et donc
ce qui permet de prouver que la mthode converge. Il reste vrier que l'ordre de convergence de la mthode est au moins gal r = 1 (1 + 5). On remarque 2 tout d'abord que r satisfait r2 = r + 1. On dduit ensuite de (5.21) que
|x(k+1) | M ()|x(k) | |x(k1) |, k 0.
En posant E (k) = M ()|x(k) |, k 0, on obtient, aprs multiplication de l'ingalit ci-dessus par M (), la relation E (k+1) E (k) E (k1) , k 0. Soit E = max(E (1) , E (0)
1/r
, k 0.
Cette ingalit est en eet trivialement vrie pour k = 0. En la supposant vraie jusqu'au rang k, k 1, elle est galement vraie au rang k 1 et l'on a
E (k+1) E r
k+1
Er = Er
(r+1)
= Er
k 2
= Er
k+2
Le rsultat est donc valable pour tout entier positif k. En revenant la dnition de E (k) , on obtient que
|x(k) | (k) , avec (k) =
k+1 1 Er , k 0, M ()
avec E < 1 par hypothses sur , x(1) et x(0) . Il reste remarquer que
r (k+1) r1 E = M ()r1 , k 0, r = M () (k) E rk+1 r
k+2
5.4
Dans cette dernire section, nous considrons la rsolution numrique d'quations algbriques, c'est-dire le cas pour lequel l'application f est un polynme pn de degr n 0 :
n
pn (x) =
i=0
ai xi ,
(5.22)
81
les coecients ai , i = 0, . . . , n, tant des nombres rels donns. S'il est trivial de rsoudre les quations algbriques du premier degr 15 et que la forme des solutions des quations du second degr 16 est bien connue, il existe aussi des expressions analytiques pour les solutions des quations de degr trois et quatre, publies par Cardano 17 en 1545 dans son ertis wgnD ive de egulis elgeriis vier nus (les formules tant respectivement dues del Ferro 18 et Tartaglia 19 pour le troisime et Ferrari 20 pour le quatrime). Par contre, le thorme d'AbelRuni indique qu'il existe des polynmes de degr suprieur ou gal cinq dont les racines ne s'expriment pas par radicaux. Le recours une approche numrique se trouve par consquent compltement motiv.
avec b0 = pn (z).
On a : b4 = 7, b3 = 5 + 7 0, 5 = 8, 5, b2 = 2 + 8, 5 0, 5 = 2, 25, b1 = 0 + 2, 25 0, 5 = 1, 125 et b0 = 8 + 1, 125 0, 5 = 8, 5625, d'o la valeur 8, 5625. Il est noter qu'on peut organiser ces calculs successifs de cet algorithme dans un tableau, ayant pour premre ligne les coecients ai , i = n, n 1, . . . , 0, du polynme valuer et comme seconde ligne les coecients bi , i = n, n 1, . . . , 0. Ainsi, chaque lment de la seconde ligne est obtenu en multipliant l'lment situ sa gauche par z et en ajoutant au rsultat l'lment situ au dessus.
7 7
5 8, 5
2 2, 25
0 1, 125
8 . 8, 5625
Remarquons que les oprations employes par la mthode sont celles d'un procd de division synthE En eet, si l'on ralise la division euclidienne de pn (x) par (x z), il vient
pn (x) = (x z) qn1 (x) + r0 ,
b ITF ge sont les qutions de l forme a x2 + b x + c = 0D ve a = 0D dont les solutions sont donnes pr x = b 2a 4ac F IUF qirolmo grdno @PR septemre ISHI E PI septemre ISUTA tit un mthmtiienD mdein et strologue itlienF es trvux en lgreD et plus prisment ses ontriutions l rsolution des qutions lgriques du troisime degrD eurent pour onsquene l9mergene des nomres imginiresF IVF ipione del perro @T fvrier IRTS E S novemre ISPTA tit un mthmtiien itlienF sl est lre pour voir t le premier trouver l mthode de rsolution des qutions lgriques du troisime degr sns terme qudrtiqueF IWF xiol pontn rtgli @vers IRWW E IQ demre ISSUA tit un mthmtiien itlienF sl ft l9un des premiers utiliser les mthmtiques en listiqueD pour l9tude des trjetoires de oulets de nonF PHF vodovio perrri @P fvrier ISPP E S otore ISTSA tit un mthmtiien itlienF lve de grdnoD il est l9origine de l mthode de rsolution des qutions lgriques du qutrime degrF PIF illim qeorge rorner @IUVT E PP septemre IVQUA tit un mthmtiien nglisF sl est onnu pour s mthode permettnt l9pproximtion des rines d9un polynme et pour l9invention en IVQR du zootropeD un ppreil optique donnnt l9illusion du mouvementF PPF hns e tleuD on jout une premire olonne ontennt 0 l deuxime ligne (n de pouvoir rliser l mme oprtion pour otenir tous les oe0ients bi D i = 0, . . . , nD y ompris bn F
82
o le quotient qn1 Pn1 est un polynme dpendant de z par l'intermdiaire de ses coecients, puisque
n
qn1 (x) =
i=1
bi xi1 ,
et le reste r0 est une constante telle que r0 = b0 = pn (z). Ainsi, la mthode de Horner fournit un moyen simple d'eectuer trs rapidement la division euclidienne d'un polynme par un monme de degr un. sant un tableau comme prcdemment, soit
on obtient 4 x3 7 x2 + 3 x 5 = (x 2)(4 x2 + x + 5) + 5. Appliquons de nouveau la mthode pour eectuer la division du quotient qn1 par (x z). On trouve
qn1 (x) = (x z) qn2 (x) + r1 ,
qn2 (x) =
i=2
bi xi2 et r1 = c1 ,
On a par ailleurs
et, en drivant cette dernire galit, on trouve que r1 = c1 = pn (z). On en dduit un procd itratif permettant d'valuer toutes les drives du polynme pn au point z . On arrive en eet
pn (x) = rn (x z)n + + r1 (x ) + r0 ,
(5.24)
aprs n + 1 itrations de la mthode que l'on peut rsumer dans un tableau synthtique comme on l'a dj fait
0 0 . . . 0 an bn cn . . . rn an1 bn1 cn1 . . . rn1 . . . a2 . . . b2 . . . c2 . . . r2 . .. a1 b1 r1 a0 r0
(5.25)
dans lequel tous les lments n'appartenant pas la premire ligne (contenant les seuls coecients connus initialement) ou la premire colonne sont obtenus en multipliant l'lment situ gauche par z et en ajoutant le rsultat de cette opration l'lment situ au dessus. Par drivations successives de (5.24), on montre alors que
rj = 1 (j) p (z), j = 0, . . . , n, j! n
o p(j) dsigne la j ime drive du polynme pn . n 1 Le calcul de l'ensemble du tableau (5.25) demande 2 (n2 + n) additions et autant de multiplications. 83
(5.26)
seulement besoin des deux premires colonnes du tableau synthetique si qn1 est le polynme associ pn , il vient en drivant par rapport x
pn (x) = qn1 (x; z) + (x z) qn1 (x; z),
d'o pn (z) = qn1 (z; z). Grce cette identit, la mthode de NewtonHorner pour l'approximation (0) d'une racine rj prend la forme suivante : tant donn une estimation initiale rj de la racine, calculer
rj
(k+1)
= rj
(k)
pn (rj ) pn (rj )
(k)
(k)
= rj
(k)
(k)
, k 0.
Pour un polynme de degr n, le cot de chaque itration de l'algorithme est gal 4n. ? ? ? ? Si la racine est complexe, il est ncessaire de travailler en arithmtique complexe et de prendre la donne initiale dans C. voir Gautschi 237
5.4.4 Dation
AJOUTER manque de stabilite a cause des additions (ranement necessaire lors de la deation) Une fois une approximation d'une racine du polynme obtenue, on eectue une division de celui-ci par (x ...) et on applique de nouveau la mthode de recherche de zros au polynme quotient pour l'approximation d'une autre racine. Ce procd itratif, permettant l'approximation successive de toutes les racines d'un polynme, est appel d)tion. Associ la mthode de NewtonHorner, il exploite pleinement la mthode de Horner. REPRENDRE et COMPLETER On peut alors, chaque tape, amliorer la prcision en utilisant l'approximation rj obtenue d'une racine comme donne initiale de la mthode de NewtonHorner (par exemple) applique au polynme original pn , c'est la phse de r0nement de la mthode. le processus de dation est aect d'erreurs d'arrondi. Pour amliorer sa stabilit, on peut commencer par approcher la racine r1 de module minimum (qui est la plus sensible au mauvais conditionnement du problme), puis continuer avec les suivante jusqu' celle de plus grand module. quateroni 228, Stoer 306
dans les espaces de Banach (la drive tant alors entendue au sens de la drive de Frchet 23 ). Elle est un lment ssentiel de la dmonstration du fameux thorme de xsh 24 !woser 25 , un rsultat d'inversion locale formul dans une classe particulire d'espaces de Frchet. On peut l'utiliser pour traiter le problme d'optimisation non linaire sans contraintes
xRd
min f (x),
o f (x) est le gradient de f au point x. Cette dernire quation est en eet un systme de d quations d inconnues que l'on peut rsoudre par la mthode de Newton. Dans ce cas particulier, il est important de noter que la mthode construit une suite convergeant vers un point stationnaire de la fonction f , sans faire de distinction entre les minima ou les maxima. Il faut donc en gnral procder des modications adquates de la mthode pour la contraindre viter les points stationnaires qui ne sont pas des minima, ce qui n'est pas une tche aise. En partie pour cette raison, la littrature sur les applications de la mthode de Newton (et de toutes ses variantes) en optimisation est trs riche et abondante. Nous renvoyons le lecteur intress l'ouvrage [BGLS06] en guise d'introduction. Lorsque l'on se sert de la mthode de NewtonRaphson pour la recherche dans le plan complexe des racines d'un polynme p, celle-ci prsente ce que l'on appelle des ssins de onvergene ou d9ttrtion. Ce sont des rgions du plan complexe associes l'une des solutions de l'quation p(z) = 0 de la faon suivante : un point z du plan appartient au bassin de convergence G associ la racine si la suite dnie par la mthode de Newton avec z comme donne initiale, c'est--dire z (0) = z et
z (k+1) = z (k) p(z (k) ) , k 0, p (z (k) )
converge vers . Les frontires de ces rgions sont alors constitues des points pour lesquels la suite (z (k) )kN ne converge pas. Fait remarquable, cet ensemble est une frtle, plus particulirement l'enp(z) semble de Julia 26 associ la fonction mromorphe z z p (z) , et sa reprsentation donne lieu, selon le polynme considr, des images particulirement surprenantes (voir la gure 5.7 ci-dessous). Il peut s'avrer intressant, notamment pour obtenir des estimations, de savoir combien de racines relles d'un polynme sont contenues dans un intervalle donn. On peut pour cela utiliser les suites de turm 27 . On trouvera plus de dtails dans [IK94]. Pour un aperu historique et une prsentation d'algorithmes rcents concernant la rsolution des quations algbriques, on pourra consulter l'article de Pan [Pan97].
Rfrences du chapitre
[BGLS06] J. F. Bonnans, J. C. Gilbert, C. Lemarchal, and C. A. Sagastizbal. xumeril optimiztionD theoretil nd prtil spets. Universitext. Springer, second edition, 2006. [Mul56] D. E. Muller. A method for solving algebraic equations using an automatic computer. wthF F eids gompF, 10(56) :208215, 1956.
PQF wurie en prhet @P septemre IVUV E R juin IWUQA tit un mthmtiien frnisF rs proli(queD il (t d9imE portntes ontriutions en topologieD en proilits et en sttistiqueF PRF tohn pores xshD trF @n le IQ juin IWPVA est un mthmtiien et onomiste mriinF sl s9est priniplement intress l thorie des jeuxD l gomtrie di'rentielle et ux qutions ux drives prtiellesF sl prtg le prix xoel d9onomie en IWWR ve einhrd elten et tohn rrsnyi pour leurs trvux en thorie des jeuxF PSF trgen uurt woser @R juillet IWPV E IU demre IWWWA tit un mthmtiien mriin d9origine llemndeF es reherhes portrent sur les qutions di'rentiellesD l thorie spetrleD l mnique leste et l thorie de l stilitF sl pport des ontriutions fondmentles l9tude des systmes dynmiquesF PTF qston wurie tuli @Q fvrier IVWQ E IW mrs IWUVA tit un mthmtiien frnisD spiliste des fontions d9une vrile omplexeF sl est priniplement onnu pour son remrqule Mmoire sur l'itration des fractions rationnellesF PUF tques ghrles prnois turm @PW septemre IVHQ E IS demre IVSSA tit un mthmtiien frnis d9origine llemndeF
85
[Pan97] [Ypm95]
V. Y. Pan. Solving a polynomial equation : some history and recent progress. sew evF, 39(2) :187220, 1997. T. J. Ypma. Historical development of the NewtonRaphson method. sew evF, 37(4) :531 551, 1995.
86
Figure 5.7 Illustration de l'utilisation de la mthode de Newton pour la recherche des racines complexes
de l'quation z 5 1 = 0. gauche, on a reprsent les bassins de convergence de la mthode : chaque point z (0) (choisi ici tel que |Re(z (0) )| 2 et |Im(z (0) )| 2) servant d'initialisation est color en fonction de la racine atteinte en cas de convergence (une sixime couleur tant attibue s'il n'y a pas convergence). droite, on a color ces mmes points en fonction du nombre d'itrations requis pour atteindre la convergence avec une tolrance gale 103 pour le critre d'arrt. La structure fractale des frontires des bassins de convergence est clairement observe.
87
88
Chapitre 6
Interpolation polynomiale
Soit n un entier positif. tant donn une famille de n + 1 points (xi , yi )i=0,...,n distincts du plan, l'interpoltion est une technique consistant construire une courbe d'un type donn passant par les points (xi , yi ). Les quantits yi , i = 0, . . . , n, peuvent en eet reprsenter les valeurs aux nuds xi , i = 0, . . . , n, d'une fonction f connues analytiquement, et l'on cherche alors remplacer f par une fonction plus simple manipuler en vue d'un calcul numrique faisant intervenir des drives et/ou des intgrales, ou bien encore des donnes exprimentales, auquel cas on vise obtenir une reprsentation ou mme une loi empirique pour celles-ci lorsque leur nombre est important. Dans un problme d'interpoltion polynomile de vgrnge 1 , on cherche en particulier dterminer un polynme de degr n dont le graphe passe par ces n + 1 points, c'est--dire trouver n Pn vriant n (xi ) = yi pour i = 0, . . . , n. On dit alors que le polynme n interpole les quantits {yi }i=0,...,n aux nuds {xi }i=0,...,n . Le choix de polynmes n'est pas le seul possible : l'interpoltion trigonomtrique utilise des polynmes trigonomtriques et est largement utilise pour la mise en uvre de l'analyse de Fourier 2 . Cependant, la rgularit, la facilit de calcul d'une valeur en un point (grce la mthode de Horner) et les nombreuses autres proprits des polynmes en font une classe de fonctions particulirement intressante d'un point de vue pratique. L'interpolation polynomiale est pour cette raison un outil de premier plan pour l'approximation numrique des fonctions. Dans ce chapitre, on traite majoritairement de l'interpolation de Lagrange, qui constitue la base thorique principale de l'interpolation polynomiale. Aprs en avoir donn les principes et les proprits, nous considrons les aspects pratiques du calcul du polynme d9interpoltion de vgrnge ainsi que l'tude de l'erreur d9interpoltion, qui est l'erreur commise lorsque l'on substitue une fonction donne son polynme d'interpolation. Quelques exemples d'interpoltion pr moreux concluent cette (brve) prsentation. On suppose une fois pour toutes que {(xi , yi )}i=0,...,n , n 0, est une famille de n + 1 points dont les abcisses xi sont toutes deux deux distinctes. An d'allger la rdaction, on appellera souvent dans ce chapitre (la section consacre l'interpolation par morceaux faisant toutefois exception) polynme d'interpolation le polynme de Lagrange associ aux points {(xi , yi )}i=0,...,n .
6.1
en introduction. Commenons par montrer que ce problme est ien pos, c'est--dire qu'il admet une unique solution.
{(xi , yi )}i=0,...,n est dni comme tant la solution du problme d'interpolation polynomiale mentionn
IF toseph vouis vgrnge @qiuseppe vodovio vgrngi en itlienD PS jnvier IUQT E IH vril IVIQA tit un mthmtiien et stronome frnoEitlienF pondteur du lul des vritions ve iulerD il glement produit d9importntes ontriutions tnt en nlyse qu9en gomtrieD en thorie des groupes et en mniqueF PF toseph pourier @PI mrs IUTV E IT mi IVQHA tit un mthmtiien et physiien frnisD onnu pour ses trvux sur l domposition de fontions priodiques en sries trigonomtriques onvergentes et leur pplition u prolme de l propgtion de l hleurF
89
Thorme 6.1
oit n un entier positifF tnt donn n + 1 points distints x0 , . . . , xn et n + 1 vleurs y0 , . . . , yn D il existe un unique polynme n Pn tel que n (xi ) = yi pour i = 0, . . . , nF
Dmonstration.
n (x) =
j=0
aj xj , x R,
et ramener le problme d'interpolation la dtermination des coecients aj , j = 0, . . . , n. En utilisant les conditions n (xi ) = yi , i = 0, . . . , n, on arrive un systme linaire n + 1 quations et n + 1 inconnues :
a0 + a1 xi + + an xi n = yi , i = 0, . . . , n.
(6.1)
Ce systme possde une unique solution si et seulement si la matrice carre qui lui est associe est inversible. Or, il se trouve que le dterminant de cette dernire est un dterminant de Vandermonde 3 dont on peut montrer (preuve est laisse en exercice) qu'il vaut
1 1 . . . 1 x0 x1 . . . xn ... ... ... x0 n n1 x1 n (xj xi ) = . = . . i=0 0i<jn xn n
n
(xj xi ) .
j=i+1
Les nuds d'interpolation tant tous distincts, ce dterminant est non nul.
Remarque. Une autre faon de prouver l'unicit du polynme d'interpolation est la suivante. Supposons qu'il existe un autre polynme m , de degr m infrieur ou gal n, tel que m (xi ) = yi pour i = 0, . . . , n. La dirence n m s'annule alors en n + 1 points distincts, elle est donc nulle d'aprs le thorme fondamental de l'algbre. Pour construire le polynme d'interpolation n , il sut donc de rsoudre le systme (6.1). Il a cependant t dmontr (voir [Gau75]) que le nombre de conditionnement des matrices de Vandermonde peut tre grand, ce qui conduit des erreurs importantes lors de la rsolution numrique par des mthodes directes, cette rsolution s'avrant galement coteuse (de l'ordre de O(n3 ) oprations arithmtiques) lorsque le nombre de nuds d'interpolation est important. Plusieurs auteurs ont propos des mthodes rapides (de l'ordre de O(n3 ) oprations arithmtiques) et numriquement stables pour la rsolution des systmes de Vandermonde, mais celles-ci s'appuient sur la forme de xewton du polynme d'interpolation (voir la section 6.1.2). On pourra consulter la bibliographie en n de chapitre pour des rfrences. Une autre possibilit consiste crire le polynme d'interpolation non pas dans la base canonique mais dans une base adapte, pour laquelle la matrice du systme linaire associ au problme est diagonale : la base des polynmes de vgrnge.
Dnition 6.2
yn ppelle
n + 1 polynmes li Pn D i = 0, . . . , nD d(nis pr
(6.2)
Bien que communment employe pour ne pas alourdir les critures, la notation li , i = 0, . . . , n, utilise pour les polymes de Lagrange ne fait pas explicitement apparatre leur degr. La valeur de l'entier n est en gnral claire compte tenu du contexte, mais il faudra cependant bien garder cette remarque l'esprit, puisque l'on peut tre amen augmenter n (voir la section 6.1.2) et mme le faire tendre
QF elexndreEhophile ndermonde @PV fvrier IUQS E Ier jnvier IUWTA tit un musiienD mthmtiien et himiste frnisF on nom est ujourd9hui surtout ssoi un dterminntF
90
tendre vers l'inni (voir la section 6.1.4). Ajoutons que, si l'on a exig que n soit suprieur ou gal 1 dans la dnition, le cas trivial n = 0 peut en fait tre inclus dans tout ce qui va suivre en posant l0 1 si n = 0.
Proposition 6.3
Dmonstration.
ves polynmes de vgrnge {li }i=0,...,n D n 0D sont tous de degr nD vri(ent li (xk ) =
ik D i, k = 0, . . . , nD et forment une se de Pn F
Le rsultat est vident si n = 0. Si n 1, les deux premires proprits dcoulent directement de la dnition (6.2) des polynmes de Lagrange. On dduit ensuite de la deuxime proprit que, si le polynme n i=0 i li , i R, i = 1, . . . , n, est identiquement nul, alors on a
n
0=
i=0
titre d'illustration, on a reprsent sur la gure 6.1 les graphes sur l'intervalle [1, 1] des polynmes de Lagrange associs aux nuds 1, 0, 5, 0, 0, 5 et 1.
1.2 1 0.8 0.6 0.4 0.2 0 -0.2 -0.4 -0.6 -1 -0.5 0 0.5 1
l0 (x) l1 (x) l2 (x) l3 (x) l4 (x)
Figure 6.1 Graphes des polynmes de Lagrange li (x), i = 0, . . . , 5 associs des nuds quidistribus
sur l'intervalle [1, 1]. On dduit de la proposition 6.3 le rsultat suivant.
Thorme 6.4
oit n un entier positifF tnt donn n + 1 points distints x0 , . . . , xn et n + 1 vleurs y0 , . . . , yn D le polynme d9interpoltion n Pn tel que n (xi ) = yi D i = 0, . . . , nD est donn pr l
n (x) =
i=0
yi li (x).
(6.3)
Dmonstration. Pour tablir (6.3), on utilise que les polynmes {li }i=0,...,n forment une base de Pn . La dcomposition de n dans cette base s'crit n = n i li , et on a alors i=0
yj = n (xj ) =
i=0
91
Notons alors
n (x) =
n1
(x xi )
i=0
(6.5)
le polynme de xewton de degr n ssoi ux nuds {xi }i=0,...,n1 et dterminons le coecient an . Comme n (xn ) = yn , on dduit de (6.4) que
an = yn n1 (xn ) . n (xn )
Le coecient an donn par la formule ci-dessus est appele la nime di'rene divise de xewton et se note gnralement
an = y[x0 , x1 , . . . , xn ], n 1.
On a par consquent
n (x) = n1 (x) + y[x0 , x1 , . . . , xn ] n (x). n, que
(6.6)
En posant y[x0 ] = y0 et 0 1, on obtient, partir de (6.6) et en raisonnant par rcurrence sur le degr
n
n (x) =
i=0
y[x0 , . . . , xi ] i (x),
(6.7)
qui est, en vertu de l'unicit du polynme d'interpolation, le mme polynme que celui dnit par (6.3). La forme (6.7) est appele formule des di'renes divises de xewton du polynme d9interpoltion. Ce n'est autre que l'criture de n dans la base 4 de Pn forme par la famille de polynmes de Newton {i }i=0,...,n .
n (x) =
i=0
(6.8)
@i.e.D que
RF yn montre en e'et pr rurrene que {i }i=0,...,n est une fmille de n + 1 polynmes le polynme i D i = 0, . . . , nD est de degr iAF
92
En utilisant alors (6.7) pour identier y[x0 , . . . , xn ] avec le coecient lui correspondant dans (6.8), on obtient la forme explicite suivante pour cette dirence divise :
n
y[x0 , . . . , xn ] =
i=0
yi . n+1 (xi )
Parmi toutes les consquences de cette dernire expression, il en est une particulirement importante pour la mise en uvre de la forme de Newton du polynme d'interpolation. En eet, par une simple manipulation algbrique, on obtient la formule de rcurrence
y[x0 , . . . , xn ] = y[x1 , . . . , xn ] y[x0 , . . . , xn1 ] , xn x0
(6.9)
de laquelle ces quantits tirent leur nom et qui fournit un procd pour leur calcul eectif. Ce dernier consiste en la construction du tableau suivant
x0 x1 x2 . . . xn y[x0 ] y[x1 ] y[x2 ] . . . y[x0 , x1 ] y[x1 , x2 ] . . .
y[x0 , x1 , x2 ] . . .
..
(6.10)
y[x0 , . . . , xn ]
au sein duquel les dirences divises sont disposes de manire ce que leur valuation se fasse de proche en proche en observant la rgle suivante : la valeur d'une dirence est obtenue en soustrayant la dirence place immdiatement sa gauche celle situe au dessus de cette dernire, puis en divisant le rsultat par la dirence entre les deux points de l'ensemble {xi }i=0,...,n situs respectivement sur la ligne de la dirence calculer et sur la dernire ligne atteinte en remontant diagonalement dans le tableau partir de cette mme dirence. Les dirences divises apparaissant dans la forme de Newton (6.7) du polynme d'interpolation de Lagrange sont les n+1 coecients diagonaux du tableau (6.10). Leur valuation requiert n(n+1) additions 1 et 2 n(n + 1) divisions. Si l'on dispose d'une valeur yn+1 (= y[xn+1 ]) associe un nouveau nud xn+1 , on n'a qu' calculer une ligne supplmentaire (y[xn , xn+1 ] y[x0 , . . . , xn+1 ]) pour construire le polynme n+1 (x) partir de n (x) en lui ajoutant y[x0 , . . . , xn+1 ] n+1 (x), ce qui ncessite 2(n + 1) additions et n + 1 divisions.
(1 4)/(1 + 1) = 5/2 (4 + 1)/(2 1) = 5 (5 + 5/2)/(2 + 1) = 5/2 (6 4)(3 2) = 2 (2 5)/(3 1) = 3/2 (3/2 5/2)/(3 + 1) = 1 5 5 3 (x) = 4 (x + 1) + (x + 1)(x 1) (x + 1)(x 1)(x 2). 2 2
d'o
Lemme 6.5
oient xik D k = 0, . . . , nD n + 1 nuds distints et yik D k = 0, . . . , nD n + 1 vleursF yn note xi0 ,xi1 ,...,xin le polynme d9interpoltion de degr n tel que
93
(6.11)
Notons q(x) le membre de droite de (6.11). Les polynmes xi0 ,...,xin ,xi et xi0 ,...,xin ,xi tant tous deux de degr n + 1, le polynme q est de degr infrieur ou gal n + 2. On vrie ensuite que
q(xik ) = (xik xj ) xi0 ,...,xin ,xi (xik ) (xik xi ) xi0 ,...,xin ,xj (xik ) = yik , k = 0, . . . , n, xi xj (xi xj ) xi0 ,...,xin ,xi (xi ) (xj xi ) xi0 ,...,xin ,xj (xj ) = yi , q(xj ) = = yj . xi xj xi xj
et
q(xi ) =
On en dduit que q = xi0 ,...,xin ,xi ,xj par unicit du polynme d'interpolation.
Dans la classe de mthodes utilisant l'identit (6.11), l'une des plus connues est l'lgorithme de xeville, qui consiste calculer de proche en proche les valeurs au point x considr des polynmes d'interpolation, de degr croissant, associs des sous-ensembles des points {(xi , yi )}i=0,...,n . la manire de (6.10) pour les dirences divises, cette construction peut s'organiser dans un tableau synthtique :
x0 x1 x2 . . . xn x0 (x) = y0 x1 (x) = y1 x2 (x) = y2 . . . xn (x) = yn x0 ,x1 (x) x1 ,x2 (x) . . . xn1 ,xn (x)
..
(6.12)
x0 ,...,xn (x)
Le point x tant x, les lments de la deuxime colonne du tableau sont les valeurs prescrites yi associes aux nuds d'interpolation xi , i = 0, . . . , n. partir de la troisime colonne, tout lment est obtenu, partir de deux lments situs immdiatement sa gauche (respectivement sur la mme ligne et sur la ligne prcdente), en appliquant (6.11). Par exemple, la valeur x0 ,x1 ,x2 (x) est donne par
x0 ,x1 ,x2 (x) = (x x2 )x0 ,x1 (x) (x x0 )x1 ,x2 (x) . x0 x2
Application A ecrire
Il existe plusieurs variantes de l'algorithme de Neville permettant d'amliorer son ecacit ou sa prcision (voir par exemple [SB02]). Il n'est lui-mme qu'une modication de l'lgorithme d9eitken 5 , utilisant (6.11) mais avec des polynmes d'interpolation intermdiaires dirents, ce qui conduit au tableau suivant :
x0 x1 x2 . . . x0 (x) = y0 x1 (x) = y1 x2 (x) = y2 . . . x0 ,x1 (x) x0 ,x2 (x) . . . x0 ,xn (x) x0 ,x1 ,x2 (x) . . .
xn
xn (x) = yn
..
(6.13)
x0 ,...,xn (x)
94
2.5
f (x) 2 f (x)
1.5
Figure 6.2 Graphes de la fonction f (x) = ex et de son polynme d'interpolation de Lagrange de degr
Polynme d'interpolation de Lagrange d'une fonction Dnition 6.6 oient n + 1 nuds distints xi D i = 0, . . . , nD et f une fontion donneF yn ppelle polynme d'interpolation @ou interpolantA de Lagrange de degr n de la fonction f D et on note
n f D le polynme d9interpoltion de vgrnge de degr n ssoi ux points (xi , f (xi ))i=0,...,n F
sur l'intervalle [1, 1], avec comme nuds d'interpolation les points x0 = 1, x1 = 0 et x2 = 1. Nous avons : 1 1 l0 (x) = x(x 1), l1 (x) = 1 x2 et l2 (x) = x(x + 1),
2 2
d'o
2 f (x) =
1 1 x(x 1) e1 + (1 x2 ) e0 + x(x + 1) e1 , 2 2
ce que l'on peut encore crire 2 f (x) = 1 + sinh(1)x + (cosh(1) 1)x2 . Du point de vue de l'approximation polynomiale, le polynme d'interpolation de Lagrange de la fonction f aux nuds xi , i = 0, . . . , n, comme le polynme de degr n minimisant l'erreur d9pproximtion, base sur une semi-norme, suivante
n
f pn =
i=0
Bien que les valeurs de f et de son polynme d'interpolation soient les mmes aux nuds d'interpolation, elles dirent en gnral en tout autre point et il convient donc d'tudier l'erreur d9interpoltion f n f sur l'intervalle auquel appartiennent les nuds d'interpolation. En supposant la fonction f susament rgulire, on peut tablir le rsultat suivant, qui donne une estimation de cette dirence.
Thorme 6.7
oient n + 1 nuds distints xi D i = 0, . . . , nD ontenus dns un intervlle [a, b] non vide de R et f une fontion suppose de lsse C n+1 sur [a, b]F v9erreur d9interpoltion en tout point x de [a, b] est lors donne pr
f (x) n f (x) =
(6.14)
95
o c ]a, b[ et n+1 est le polynme de xewton de degr n + 1 ssoi l fmille {xi }i=0,...,n F yn de plus
|f (x) n f (x)|
ve Mn+1 = max |f (n+1) (x)|F
x[a,b]
(6.15)
Si le point x concide avec l'un des nuds d'interpolation, les deux membres de (6.14) sont nuls et l'galit est trivialement vrie. Supposons prsent que x est un point x de [a, b], dirent de xi pour i = 0, . . . , n, et introduisons la fonction auxiliaire
Dmonstration.
Celle-ci est de classe C n+1 sur [a, b] (en vertu des hypothses sur la fonction f ) et s'annule en n + 2 points (puisque (x) = (x0 ) = (x1 ) = = (xn ) = 0). D'aprs le thorme de Rolle (voir thorme B.2 en annexe), la fonction possde au moins n + 1 zros distincts dans l'intervalle ]a, b[ et, par rcurrence, (j) , 0 j n + 1, admet au moins n + 2 j zros distincts. Par consquent, il existe c appartenant ]a, b[ tel que (n+1) (c) = 0, ce qui s'crit encore f (x) n f (x) f (n+1) (c) (n + 1)! = 0, n+1 (x) d'o (6.14). Pour prouver (6.15), il sut de remarquer que f (n+1) , et donc |f (n+1) |, est une fonction continue sur [a, b]. Ainsi, l'application x |f (n+1) (x)| est borne sur [a, b] et atteint son maximum sur cet intervalle ; l'ingalit (6.15) se dduit donc de (6.14).
La forme de Newton du polynme d'interpolation permet d'obtenir une autre expression que (6.14) pour l'erreur d'interpolation. Soit en eet n f le polynme d'interpolation de f aux nuds x0 , . . . , xn et soit t un nud arbitraire distinct des prcdents. Si l'on dsigne par n+1 f le polynme interpolant f aux nuds x0 , . . . , xn et t, on a, en utilisant (6.7),
n+1 f (x) = n f (x) + f [x0 , . . . , xn , t](x x0 ) . . . (x xn ).
(6.16)
Cette nouvelle formule s'avre tre une tautologie, puisque, si elle ne fait intervenir aucune drive, elle utilise des valeurs de f dont celle au point x... Nanmoins, en supposant vraies les hypothses du thorme 6.7, en posant x = xn+1 [a, b] et en comparant (6.16) avec (6.14), il vient
f [x0 , . . . , xn+1 ] = f (n+1) (c) , (n + 1)!
avec c ]a, b[. L'intrt de cette dernire identit vient du fait que la forme de Newton de n f peut alors tre vue comme un dveloppement de Taylor de f en x0 ( condition |xn x0 | ne soit pas trop grand) tronqu l'ordre n. A VOIR !
96
ce problme de manire un peu plus spcique. Nous supposerons ici que l'on fait le choix, trs courant, d'une rpartition uniforme des nuds (on dit que les nuds sont quirprtis ou encore quidistrius ) sur un intervalle [a, b] non vide de R, en posant
xi = a + i(b a) , i = 0, . . . , n, n N . n
Au regard de l'estimation (6.15), il apparat clairement que la convergence de la suite (n f )nN des polynmes d'interpolation d'une fonction f de classe C sur [a, b] est li au comportement de Mn+1 lorsque n augmente. En eet, si
n+ (n
lim
lim
c'est--dire que la suite des polynmes d'interpolation de la fonction f associs des nuds quirpartis sur l'intervalle [a, b] converge vers f quand n tend vers l'inni, uniformment sur [a, b]. Malheureusement, il existe des fonctions pour lesquelles la quantit Mn+1 max |n+1 (x)| tend vers l'inni plus rpidement que (n + 1)! lorsque n tend vers l'inni. Un exemple clbre d'un tel cas pathologique est celui d Runge, dans lequel on considre le polynme d'interpolation avec nuds quirpartis de la fonction
f (x) = 1 1 + x2
x[a,b]
sur l'intervalle [5, 5]. Les valeurs du maximum de la valeur absolue de l'erreur d'interpolation pour f en fonction du degr d'interpolation sont prsentes dans la table 6.1 pour des valeurs paires de n allant de 2 24. On observe une croissance exponentielle de l'erreur avec n. La gure 6.3 reprsente les graphes de la fonction f et des polynmes d'interpolation 2 f , 4 f , 6 f , 8 f et 10 f associs des nuds quirpartis sur l'intervalle [5, 5] et permet de mettre en vidence le phnomne de divergence
max |f (x) n f (x)| 0,64623 0,43836 0,61695 1,04518 1,91566 3,66339 7,19488 14,39385 29,19058 59,82231 123,62439 257,21305
Table 6.1 Erreur d'interpolation de Lagrange nuds quirpartis en norme de la convergence uniforme
en fonction du degr d'interpolation pour la fonction de Runge f (x) =
1 1+x2
Ce comportement de la suite des polynmes d'interpolation n'a rien voir avec un ventuel manque de rgularit de la fonction f , qui est de classe C sur R et dont toutes les drives sont bornes sur [5, 5], mais est li au fait que la srie de Taylor de la fonction d'une variable complexe z f (z) n'est convergente que dans le disque ouvert de centre z = 0 et de rayon gal 1, la fonction possdant deux ples sur l'axe imaginaire en z = i. 97
Notons qu'un choix convenable des nuds d'interpolation permet d'tablir un rsultat de convergence uniforme du polynme d'interpolation n f vers toute fonction f continue. C'est le cas notamment avec les points de heyhev 7 (voir le tableau 6.2 et la gure 6.4). degr n
2 4 6 8 10 12 14 16 18 20 22 24
x[5,5]
max |f (x) n f (x)| 0,6006 0,2017 0,15602 0,17083 0,10915 0,06921 0,0466 0,03261 0,02249 0,01533 0,01036 0,00695
Table 6.2 Erreur d'interpolation de Lagrange utilisant les points de Tchebychev en norme de la convergence uniforme en fonction du degr d'interpolation pour la fonction de Runge f (x) = [5, 5].
1 1+x2
sur l'intervalle
6.2
Jusqu' prsent, nous n'avons attaqu le problme de l'approximation sur un intervalle [a, b] d'une fonction f par l'interpolation de Lagrange qu'en un sens glol, c'est--dire en cherchant n'utiliser qu'une seule expression analytique de l'interpolant (un seul polynme) sur [a, b]. Pour obtenir une approximation
UF fnouti vvovith heyhev @Pafn&ti@ L~v&viq QebyxvD R mi IVPI E PT novemre IVWRA tit un mthmtiien u i o russeF sl est onnu pour ses trvux dns le domine des proilits et des sttistiquesF
98
f 2 f 4 f 6 f 8 f 10 f
plus prcise, on n'a alors d'autre choix que d'augmenter le degr du polynme d'interpolation. L'exemple de Runge voqu dans la section 6.1.4 montre que la convergence uniforme de n f vers f n'est cependant pas garantie pour toute distribution arbitraire des nuds d'interpolation. Une alternative cette premire approche est de construire une partition de l'intervalle [a, b] en sousintervalles sur chacun desquels on emploie une interpolation polynomiale de bas degr. On parle alors d'interpoltion polynomile pr moreux. L'ide naturelle suivie ici est que toute fonction peut tre approche de manire arbitrairement prcise par des polynmes de degr un (ou mme zro) sur des intervlles su0smment petits. Dans toute cette section, on dsigne par [a, b] un intervalle non vide de R et par f une application de [a, b] dans R. On considre galement n + 1 nuds xj , j = 0, . . . , n, tels que a = x0 < x1 < < xn = b, ralisant une partition de [a, b] en n sous-intervalles. Aprs avoir brivement introduit l'interpoltion de vgrnge pr moreux, nous allons nous concentrer sur une classe de mthodes d'interpolation par morceaux possdant des proprits de rgulrit glole intressantes : les splines d9interpoltion.
tels que [a, b] = + interpolation de Lagrange sur chaque intervalle Ij en n + 1 nuds quirpartis (i) {xj }0in avec n petit. Pour n 1 et h donne, on introduit
N 1 j=0 Ij n Xh = v C 0 ([a, b]), v|Ij Pn (Ij ), Ij h
qui est l'espace des fonctions continues sur [a, b] dont la restriction chaque sous-intervalle Ij est polynomiale de degr infrieur ou gal n. Pour toute fonction f continue sur [a, b], le polynme d'interpolation par morceaux n f concide sur chaque Ij avec l'interpolant de f|Ij aux n + 1 nuds x(i) 0 i n. Par j h consquent, si f est de classe C n+1 sur [a, b], on obtient en utilisant (6.15) dans chaque sous-intervalle
f n f h
C hn+1 f (n+1)
o f
= max |f (x)|.
x[a,b]
99
Dnition 6.8
Il ressort de cette dnition que tout polynme de degr k est une spline, mais une spline est en gnral, et mme quasiment toujours en pratique, constitue de polynmes dirents sur chaque sousintervalle [xj , xj+1 ], j = 0, . . . , n, et la drive kime de la spline sk peut donc prsenter une discontinuit en chacun des nuds internes x1 , . . . , xn . Un nud en lequel se produit une telle discontinuit est appel un nud tif. On constate aussi que les conditions (6.17) et (6.18) ne susent pas pour caractriser une spline d'interpolation de degr k. En eet, la condition (6.17) signie que la restriction sk,j = sk|[xj ,xj+1 ] de la spline sk au sous-intervalle [xj , xj+1 ] peut s'crire
k
sk,j (x) =
i=0
et il faut donc dterminer les (k + 1)n coecients sij , i = 0, . . . , k, j = 0, . . . , n 1. La condition (6.18) se traduit par
sk,j (xj ) = sk,j (xj ), j = 1, . . . , n 1, m = 0, . . . , k 1,
(m) (m)
ce qui revient obtenir (n 1)k quations sur ces coecients. Par ailleurs, une spline d'interpolation de la fonction f doit aussi vrier
sk (xj ) = f (xj ), j = 0, . . . , n,
et il ne reste donc que (k + 1)n (n 1)k (n + 1) = k 1 contraintes imposer. Le choix (arbitraire) de ces dernires dnit alors le type de splines d'interpolation utilis : 1. soit s(m) (a) = s(m) (b), m = 0, . . . , k 1, et l'on parle de splines priodiques, k k 2. soit, pour k = 2l 1, l 2, s(l+j) (a) = s(l+j) (b) = 0, j = 0, . . . , l 2, et les splines sont dites k k nturelles. Parmi les deux cas traits, on retiendra principalement celui des splines d9interpoltion uiques, qui sont les splines de plus petit degr permettant d'obtenir une approximation de classe C 2 de la fonction interpole.
100
Le lecteur intress par le phnomne de Runge pourra consulter l'article de J. F. Epperson [Epp87], dans lequel l'auteur aborde de manire simple ce problme de divergence sous l'angle de l'analyse complexe. L'article [BP70] prsente une mthode de rsolution ecace des systmes de Vandermonde, grralise dans [Hig88] des systmes plus gnraux. rfrences pour les splines [de 01] Ajoutons que l'interpolation polynomiale se gnralise trs simplement au cas multidimensionnel lorsque le domaine d'interpolation est un produit tensoriel d'intervalles. Associe des nuds choisis comme tant les racines de polynmes orthogonaux, elle est l'origine de plusieurs mthodes spetrles d'approximation (voir par exemple [Tre00]). L'interpolation polynomiale par morceaux est pour sa part extrmement exible et permet, une fois tendue au cas multidimensionnel, de prendre en compte facilement des domaines de forme complexe (typiquement tout polygone lorsqu'on se place dans R2 ou tout polydre dans R3 ). La thorie de l'interpolation est ce titre un outil de base de la mthode des lments (nis (voir par exemple [Cia78]), qui, tout comme les mthodes spectrales, est trs utilise pour la rsolution numrique des quations aux drives partielles.
Rfrences du chapitre
[BP70] . Bjork and V. Pereyra. Solution of Vandermonde systems of equations. wthF gompF, 24(112) :893903, 1970. [Cia78] P. G. Ciarlet. he (nite element method for ellipti prolems, volume 4 of tudies in mthemtis nd its pplitions. North-Holland Publishing Company, 1978. [de 01] C. de Boor. e prtil guide to splines, volume 27 of epplied mthemtil sienes. Springer Verlag, revised edition, 2001. [Epp87] J. F. Epperson. On the Runge example. emerF wthF wonthly, 94(4) :329341, 1987. [Gau75] W. Gautschi. Norm estimates for inverses of Vandermonde matrices. xumerF wthF, 23(4) :337 347, 1975. [Hig88] N. J. Higham. Fast solution of Vandermonde-like systems involving orthogonal polynomials. swe tF xumerF enlF, 8(4) :473486, 1988. [SB02] J. Stoer and R. Bulirsch. sntrodution to numeril nlysis. Springer-Verlag, third edition, 2002. [Tre00] L. N. Trefethen. petrl methods in Matlab. SIAM, 2000.
101
102
Chapitre 7
Intgration numrique
Le calcul d'une intgrale dnie de la forme
b
I(f ) =
a
f (x) dx,
o f est une fonction continue sur l'intervalle born [a, b] valeurs dans R, est un problme classique intervenant dans de nombreux domaines, qu'ils soient scientiques ou non. Cette valuation peut cependant s'avrer dicile en pratique, mme lorsque l'on dispose d'une expression analytique de l'intgrale, voire impossible (c'est le cas par exemple lorsque la fonction f est la solution d'une quation direntielle qu'on ne sait pas explicitement rsoudre ou bien lorsqu'on ne connat pas de primitive de f , mme en ayant recours des techniques de changement de variable ou d'intgration par parties). Dans ce chapitre, nous introduisons des formules de qudrture, qui consistent approcher la valeur de l'intgrale par une somme pondre nie de valeurs de la fonction f en des points choisis ; en d'autres mots, ces formules fournissent une approximation de I(f ) par la quantit
n
In (f ) =
i=0
i f (xi ),
(7.1)
avec n 0, les coecients {i }i=0,...,n tant rels et dpendant de l'entier n et les points {xi }i=0,...,n appartenant [a, b]. Nous limitons notre expos aux formules de NewtonCotes 1 , qui sont un cas particulier de formules de qudrture interpoltoires.
7.1
nuds
Dans l'expression (7.1), les points xi et les coecients i , i = 0, . . . , n, sont respectivement appels et poids de la formule de quadrature. Comme pour les problmes d'interpolation tudis au chapitre prcdent, la prcision d'une formule de quadrature pour une fonction f C 0 ([a, b]) donne se mesure notamment en valuant l'erreur de
qudrture
En (f ) = I(f ) In (f ).
Pour toute formule de quadrature, on dnit par ailleurs son degr d9extitude comme le plus grand entier r 0 pour lequel
I(f ) = In (f ), f Pm , m {0, . . . , r}.
Enn, une formule de qudrture interpoltoire est obtenue en remplacant la fonction f dans l'intgrale par son polynme d'interpolation (de Lagrange ou de Hermite selon les cas). On a le rsultat suivant.
IF oger gotes @IH juillet ITVP E S juin IUITA tit un mthmtiien nglisD premier titulire de l hire de professeur plumien d9stronomie et de philosophie exprimentle de l9universit de gmridgeF fien qu9il ne puli qu9un rtile de son vivntD il pport d9importntes ontriutions en lul intgrlD en thorie des logrithmes et en nlyse numriqueF
103
Thorme 7.1 oit n un entier positifF oute formule de qudrture interpoltoire n + 1 nuds un degr d9extitude u moins gl nD et riproquementF
Dmonstration.
Montrons tout d'abord l'assertion. Si la fonction f appartient Pn , alors n f = f , o n f dsigne le polynme d'interpolation.... Par dnition, on a alors
b b
In (f ) =
a
n f (x) dx =
a
f (x) dx = I(f ).
7.2
Formules de NewtonCotes
Les formules de quadrature de NewtonCotes sont bases sur l'interpolation de Lagrange nuds quirpartis dans l'intervalle [a, b]. Pour n un entier positif x, notons xi = x0 + ih, i = 0, . . . , n, les nuds de quadrature. Il existe deux types de formules de NewtonCotes : les formules fermes, pour lesquelles les extrmits de l'intervalle [a, b] font partie des nuds, c'est-dire x0 = a, xn = b et h = ba (n 1), et dont les formules bien connues du trpze (n = 1) et n de impson 2 (n = 2) sont des cas particuliers, ba les formules ouvertes, pour lesquelles x0 = a + h, xn = b h et h = n+2 (n 0), auxquelles appartient la formule du point milieu (n = 0). Soit f un fonction continue sur l'intervalle [a, b]. Une fois x l'ensemble des nuds {xi }i=0,...,n , la formule est obtenue en construisant le polynme d'interpolation de Lagrange n f de f , puis en posant
b
In (f ) =
a
n f (x) dx.
n b
On a alors
In (f ) =
a
f (xi ) li (x)
i=0
dx =
i=0
f (xi )
a
li (x) dx,
et, en identiant, on trouve que les poids sont donns par les intgrales de polynmes de Lagrange sur l'intervalle [a, b]
b
i =
a
li (x) dx, i = 0, . . . , n.
Une proprit intressante est que ces poids ne dpendent explicitement que de n et h et pas de l'intervalle d'intgration [a, b]. Preuve dans Quarteroni page 299 quelques tables Prsentons maintenant plus en dtails quelques cas particuliers des formules de quadrature de Newton Cotes.
Formule du point milieu. Cette formule (aussi appele formule du retngle ) est obtenue en remplaant la fonction f par la valeur qu'elle prend au milieu de l'intervalle [a, b] (voir la gure 7.1), d'o
I0 (f ) = (b a)f a+b 2 . a+b
(7.2)
Le poids de quadrature vaut donc 0 = b a et le nud est x0 = . 2 2 En supposant la fonction f de classe C sur [a, b], on peut utiliser le thorme 7.2 pour montrer que l'erreur de quadrature de cette formule vaut
f (c) (b a)3 , c ]a, b[. 24 Son degr d'exactitude est par consquent gal 1. E0 (f ) =
PF homs impson @PH ot IUIH E IR mi IUTIA tit un inventeur et mthmtiien nglisD onnu priniplement pour l mthode d9intgrtion numrique portnt son nomF
104
f (x)
a+b 2
Figure 7.1 Formule du point milieu. La valeur approche de l'intgrale I(f ) correspond l'aire colore
en bleu.
Formule du trapze. On obtient cette formule en remplaant la fonction f par son polynme d'interpolation de Lagrange de degr un aux points a et b (voir la gure 7.2). On alors
I2 (f ) = ba [f (a) + f (b)] . 2
(7.3)
bleu.
Figure 7.2 Formule du trapze. La valeur approche de l'intgrale I(f ) correspond l'aire colore en
En supposant f de classe C 2 sur [a, b], on obtient la valeur suivante pour l'erreur de quadrature
E1 (f ) = f (c) (b a)3 , c ]a, b[. 12
Formule de Simpson. Cette dernire formule est obtenue en substituant la fonction f son polynme
d'interpolation de Lagrange de degr deux aux nuds x0 = a, x1 = 105
a+b et x2 = b (voir la gure 7.3) et 2
s'crit
I1 (f ) =
ba f (a) + 4 f 6
a+b 2
+ f (b) .
(7.4)
ba ba et 1 = 2 . 6 3 f (x)
a+b 2
bleu.
Figure 7.3 Formule de Simpson. La valeur approche de l'intgrale I(f ) correspond l'aire colore en
On montre, grce au thorme 7.2, que, si la fonction f est de classe C 4 sur l'intervalle [a, b], l'erreur de quadrature peut s'crire
f (4) (c) (b a)5 , c ]a, b[. 2880 Cette formule a donc un degr d'exactitude gal 3. E2 (f ) =
7.3
Estimations d'erreur
pour les formules fermes
Dmontrons maintenant le rsultat utilis pour l'obtention des estimations des erreurs de quadrature des formules du point milieu, du trapze et de Simpson fournies plus haut.
Thorme 7.2
n (t) dt < 0,
a
n (t) dt > 0,
a
ve a < c < bF ve degr d9extitude des formules de xewton!gotes est don gl n + 1 lorsque n est pir et n lorsque n est impirF
Dmonstration.
a ecrire IK 308-314
106
7.4
x0
(0)
x0
(1)
x0
(2)
x0
(3)
x0
(4)
x0
(5)
(6) x0 b
Figure 7.4 Formule du point milieu composite sept sous-intervalles sur [a, b]. La valeur approche de
l'intgrale I(f ) correspond l'aire colore en bleu.
107
108
Annexe A
A.1
Espaces vectoriels
Dnition A.1
n espace vectoriel sur K est un ensemle non vide E sur lequel est d(nie une loi interne note +D ppele additionD et une loi externe note 1 D ppele multiplication par un scalaireD possdnt les proprits suivntes X IF (E, +) est un groupe ommuttif @ou lienAD PF (, ) K2 et v E D ( + ) x = v + v D QF (, ) K2 et v E D ( v) = () v D RF K et (v, w) E 2 D (v + w) = v + v D SF v E D 1K v = v D le slire 1K tnt l9lment unitire du orps KF ves lments de l9espe vetoriel E sont ppels yn dit qu9une prtie non vide F d9un espe vetoriel E est un de E si et seulement si
vecteursF
Dnition A.2
sous-espace vectoriel
(v, w) F 2 , (, ) K2 , v + w F.
En particulier, l'ensemble des combinaisons linaires d'une famille {v i }i=1,...,p de p vecteurs de E est un sous-espace vectoriel de E , appel sousEespe engendr par la famille de vecteurs. On le note
Vect{v 1 , . . . , xp } = {v = 1 v 1 + + p v p , avec i K, i = 1, . . . , p} .
Dnition A.3
n espe vetoriel sur K est dit de dimension de rdinl (niF inonD il est dit de dimension innieF
IF hns l prtiqueD on omet souvent d9rire l symole F g9est e que nous fisons iiF
109
Dans toute la suite, nous ne considrons que des espaces vectoriels de dimension nie.
Dnitions A.4 ne fmille de veteurs {vi }i=1,...,p d9un espe vetoriel E est dite libre si les veteurs v 1 , . . . , v p sont linairement indpendantsD 9estEEdire si l reltion
1 v 1 + + p v p = 0,
o 0 est l9lment nul de E et i KD i = 1, . . . , pD implique que 1 = = p = 0F hns le s ontrireD l fmille est dite lieF
On appelle se de l'espace vectoriel E toute famille libre et gnratrice de E . Si la famille {ei }i=1,...,n est une base de E , tout vecteur de E admet une dcomposition unique de la forme
n
v=
i=1
vi ei , v E,
les scalaires vi , i = 1, . . . , n, tant appels les omposntes du vecteur v dans la base {ei }i=1,...,n . On a de plus les rsultats suivants.
Thorme A.5
i E est un espe vetoriel de dimension (nie nD lors toute fmille lire @et don toute seA est (nie et de rdinl u plus gl nF
Dmonstration.
On va montrer par rcurrence sur n 1 que si G = {g 1 , . . . , g n } est une famille gnratrice de E et si F = {f 1 , . . . , f n , f n+1 } est une famille de n + 1 lments de E , alors cette dernire famille est lie. 2 Pour n = 1, on a f 1 = 1 g 1 et f 2 = 2 g 1 . On en dduit que F est lie, car ou bien f 1 = 0, ou bien f 2 = 1 f 1 . On suppose maintenant n 2. Il existe alors une famille {aij }i=1,...,n+1, j=1,...,n de scalaires telle que
f1 f2 . . . fn f n+1 = = = = a11 g 1 a21 g 1 . . . an1 g 1 an+11 g 1 + + + + ... ... ... ... + + + + a1n1 g n1 a2n1 g n1 . . . ann1 g n1 an+1n1 g n1 + + + + a1n g n , a2n g n , . . . ann g n , an+1n g n .
Si les coecients ain , 1 i n + 1, sont nuls, alors les vecteurs f i , 1 i n + 1, sont dans Vect{g i }i=1,...,n1 ; de l'hypothse de rcurrence, on dduit que la famille {f i }i=1,...,n est lie et donc que F est lie. Sinon, il existe un entier i compris entre 1 et n + 1, disons i = n + 1 tel que ain = 0. On peut alors remplacer g n ajn 1 par an+1n f n+1 n1 an+1j g j , de sorte que les vecteurs hj = f j an+1n f n+1 , 1 j n sont encore dans j=1 Vect{g i }i=1,...,n1 . Par hypothse de rcurrence, la famille {h1 , . . . , hn } est lie : il existe des scalaires 1 , . . . , n non tous nuls tels que n i hi = n i f i + f n+1 = 0E . On en dduit que F est lie. i=1 i=1
Corollaire A.6 i E est un espe vetoriel de dimension (nieD lors toutes ses ses sont (nies et ont le mme rdinlF
Dmonstration. Si B et B sont deux bases, alors B est libre et B est gnratrice, donc cardB cardB par le thorme prcdent. On obtient l'autre ingalit en changeant B et B .
Dnition A.7 ve rdinl d9une se quelonque d9un espe vetoriel E dimension de E et se note dim E F
A.2
Matrices
Soit m et n deux entiers strictement positifs. On appelle mtrie m lignes et n colonnes coecients dans K un ensemble A de mn scalaires aij de K, i = 1, . . . , m, j = 1, . . . , n, prsents dans le tableau rectangulaire suivant
a11 a21 A= . . . am1 a12 a22 . . . ... ... ... a1n a2n . . . .
am2
amn
110
Les scalaires aij , i = 1, . . . , m, j = 1, . . . , n, sont appels oe0ients, ou lments, de la matrice A, le premier indice i tant celui de la ligne de l'lment et le second j tant celui de la colonne. Ainsi, l'ensemble des coecients ai1 , . . . , ain est la iime ligne de la matrice et l'ensemble a1j , . . . , amj est la j ime olonne. Les lments d'une matrice A sont nots (A)ij , ou plus simplement aij lorsque qu'aucune confusion ou ambigut n'est possible. On note Mm,n (K) l'ensemble des matrices m lignes et n colonnes dont les coecients appartiennent K. Une matrice est dite relle ou omplexe selon que ses lments sont dans R ou C. Si m = n, la matrice est dite rre d9ordre n et on note Mn (K) l'ensemble correspondant. Lorsque m = n, on parle de matrice retngulire. On appelle digonle d'une matrice A d'ordre n l'ensemble des coecents aii , i = 1, . . . , n. Cette diagonale divise la matrice en une partie surEdigonle, compose des lments dont l'indice de ligne est strictement infrieur l'indice de colonne, et une partie sousEdigonle forme des lments pour lesquels l'indice de ligne est strictement suprieur l'indice de colonne. tant donn A Mm,n (R), on note AT Mn,m (R) la mtrie trnspose 2 de A telle que
(AT )ij = (A)ji , 1 i n, 1 j m.
On a alors (AT )T = A. De mme, tant donn A Mm,n (C), on note A Mn,m (C) la mtrie djointe de A telle que
(A )ij = (A)ji , 1 i n, 1 j m,
le scalaire z dsignant le nombre complexe conjugu du nombre z , et on (A ) = A. On appelle veteur ligne (resp. veteur olonne ) une matrice n'ayant qu'une ligne (resp. colonne). Nous supposerons toujours qu'un vecteur est un vecteur colonne, c'est--dire que l'on reprsentera le vecteur v dans la base {ei }i=1...,n par
v1 v2 v = . , . . vn
et que le veteur trnpos v T (resp. veteur djoint v ) de v sera alors reprsent par le vecteur ligne suivant v T = v1 v2 . . . vn (resp. v = v1 v2 . . . vn ). Enn, dans les dmonstrations, il sera parfois utile de considrer un ensemble constitu de lignes et de colonnes particulires d'une matrice. On introduit pour cette raison la notion de sousEmtrie.
oit A une mtrie de Mm,n (K)F oient 1 i1 < < ip m et 1 j1 < < jq n deux ensemles d9indiesF v mtrie S de Mp,q (K) ynt pour oe0ients
skl = aik jl , 1 k p, 1 l q,
est ppele une
sous-matrice de AF
ne mtrie A de Mm,n (K) est dite
Il est aussi trs courant d'associer une matrice une dcomposition en sous-matrices.
Dnition A.9 (dcomposition par blocs d'une matrice) dcompose par blocs si elle s9rit
A11 A21 A= . . . AM 1
o les
A12 A22 . . . AM 2
A1N A2N . . . AM N
L'intrt de telles dcompositions par blocs rside dans le fait que certaines oprations dnies sur les matrices restent formellement les mmes, les coecients de la matrice tant remplacs par ses sousmatrices.
PF yn peut ussi d(nir l mtrie trnspose d9une mtrie omplexeD mis ette notion n9 en gnrl que peu d9intrt dns e sF
111
Dnition A.11 (somme de deux matrices) oit A et B deux mtries de Mm,n (K)F yn ppelle somme des mtries A et B l mtrie C de Mm,n (K) dont les oe0ients sont cij = aij + bij D i =
L'lment neutre pour la somme de matrices est la mtrie nulle, note 0, dont les coecients sont tous gaux zro. On rappelle que l'on a par ailleurs
(A + B)T = AT + B T et (A + B) = A + B , A, B Mm,n (K).
Dnition A.12 (multiplication d'une matrice par un scalaire) oit A une mtrie de Mm,n (K) et un slireF ve rsultt de l multiplication de la matrice A par le scalaire est l mtrie C
de Mm,n (K) dont les oe0ients sont cij = aij D i = 1, . . . , mD j = 1, . . . , nF
On a
Muni des deux dernires oprations, l'ensemble Mm,n (K) est un espace vectoriel sur K (la vrication est laisse en exercice). On appelle alors se nonique de Mm,n (K) l'ensemble des mn matrices Ekl , k = 1, . . . , m, l = 1, . . . , n, de Mm,n (K) dont les lments sont dnis par
(Ekl )ij = 0 si i = k ou j = l , 1 i m, 1 j n. 1 si i = k et j = l
Dnition A.13 (produit de deux matrices) oit A une mtrie de Mm,p (K) et B une mtrie de Mp,n (K)F ve produit des mtries A et B est l mtrie C de Mm,n (K) dont les oe0ients sont donns
pr cij =
p k=1
aik bjk D i = 1, . . . , mD j = 1, . . . , nF
Le produit de matrices est associatif et distributif par rapport la somme de matrices, mais il n'est pas commutatif en gnral. Dans le cas de matrices carres, on dit que deux matrices A et B ommutent si AB = BA. Toujours dans ce cas, l'lment neutre pour le produit de matrices d'ordre n est la matrice carre, appele mtrie identit, dnie par
In = (ij )1i,jn ,
Cette matrice est, par dnition, la seule matrice d'ordre n telle que AIn = In A = A pour toute matrice A d'ordre n. Muni de la multiplication par un scalaire, de la somme et du produit de matrice l'ensemble Mn (K) est une algbre (la vrication est laisse en exercice). Si A est une matrice d'ordre n et p un entier, on dnit la matrice Ap comme tant le produit de A par elle-mme rpt p fois, en posant A0 = In . On rapelle enn que l'on a
(AB)T = B T AT et (AB) = B A , A Mm,p (K), B Mp,n (K).
Terminons en indiquant que toutes ces oprations peuvent s'tendre au cas de matrices dcomposes par blocs, pourvu que la taille de chacun des blocs soit telle que les oprations soient bien dnies. On a par exemple le rsultat suivant.
QF veopold uroneker @U demre IVPQ E PW demre IVWIA tit un mthmtiien et logiien llemndF sl tit persud que l9rithmtique et l9nlyse doivent tre fondes sur les nomres entiers et pport d9importntes ontriutions en thorie des nomres lgriquesD en thorie des qutions et sur les fontions elliptiquesF
112
Lemme A.14 (produit de matrices dcomposes par blocs) oient A et B deux mtries de tilles
omptiles pour e'etuer le produit AB F i A dmet une domposition en los (AIK )1IM, 1KN de formts respetifs (rI , sK ) et B dmet une domposition omptile en los (BKJ )1KN, 1JP de formts respetifs (sK , tJ )D lors le produit C = AB peut ussi s9rire omme une mtrie pr los (CIJ )1IM, 1JP D de formts respetifs (rI , tJ ) et donns pr
N
CIJ =
K=1
AIK BKJ , 1 I M, 1 J P.
oient E et F deux espes vetoriels sur le mme orps K et f une pplition de E dns F F yn dit que f est une application linaire si
Dnitions A.16
noyau
@kernel en nglisA de f D et
Ker f = {x E | f (x) = 0} .
yn dit que f est injective si Ker f = {0}F yn ppelle image de f D et l9on note Im f D l9ensemle
Im f = {y F | x E, y = f x)} ,
et le rang de f est l dimension de Im f F v9pplition f est dite surjective si Im f = F F in(nD on dit que f est bijectiveD ou que 9est un isomorphismeD si elle est injetive et ijetiveF
Le rsultat suivant permet de relier les dimensions du noyau et de l'image d'une application linaire.
oit E et F deux espes vetoriels sur K de dimension (nieF our toute pplition f de L (E, F )D on
i f (ei ) = 0.
i=p+1 n n On a alors f i=p+1 i ei = 0, et donc i=p+1 i ei Ker f . n p Il existe donc un ensemble {1 , . . . , p } Kp tel que i=p+1 i ei = i=1 i ei , d'o 1 e1 + + p ep p+1 ep+1 n en = 0. Comme la famille {e1 , . . . , ep } est libre, on en dduit que p+1 = = n = 0, ce qui montre que {f (ep+1 ), . . . , f (en )} est libre. Soit maintenant y Im f . Il existe x E tel que y = f (x). Comme {e1 , . . . , en } engendre E , il existe {1 , . . . , n } Kn tel que x = n i ei . On a alors i=1 n n n
y = f (x) = f
i=1
i ei
=
i=1
i f (ei ) =
i=p+1
i f (ei ),
113
puisque les vecteurs ei , 1 i p, appartiennent au noyau de f . La famille {f (ep+1 ), . . . , f (en )} engendre donc Im f et c'est une base de ce sous-espace de F . On conclut alors
dim(Im f ) = n p = dim E dim(Ker f ).
Supposons prsent que E et F sont deux espaces vectoriels, tous deux de dimension nie avec dim(E) = m et dim(F ) = n. Soit des bases respectives {ei }i=1,...,n une base de E et {f i }i=1,...,m une base de F . Pour toute application linaire f de E dans F , on peut crire que
m
f (ej ) =
i=1
aij f i , 1 j n,
(A.1)
Dnition A.18
yn ppelle reprsentation matricielle de l9pplition linire f de L (E, F )D reE ltivement ux ses {ei }i=1,...,n et {f i }i=1,...,m D l mtrie A de Mm,n (K) ynt pour oe0ients les slires aij D 1 i mD 1 j nD d(nis de mnire unique pr les reltions (A.1)F
Une application de L (E, F ) tant compltement caractrise par la donne de la matrice A et d'une couple de bases, on en dduit que L (E, F ) est isomorphe Mm,n (K). Cet isomorphisme n'est cependant pas intrinsque, puisque la reprsentation matricielle dpend des bases choisies pour E et F . Rciproquement, si on se donne une matrice, alors il existe une innit de choix d'espaces vectoriels et de bases qui permettent de dnir une innit d'applications linaires dont elle sera la reprsentation matricielle. Par commodit, on fait le choix canonique de considrer l'application linaire de Km dans Kn , tous deux munis de leurs bases canoniques respectives, qui admet pour reprsentation cette matrice. On peut ainsi tendre aux matrices toutes les dnitions prcdemment introduites pour les applications linaires.
Dnitions A.19 (noyau, image et rang d'une matrice) oit A une K = R ou CF ve noyau de A est le sousEespe vetoriel de Kn d(ni pr
Ker (A) = {x Kn | Ax = 0} .
v9image de A est le sousEespe vetoriel de Km d(ni pr
Enn, une matrice A de Mm,n (K) est dite de rng mximum si rg(A) = min(m, n).
Il ressort de cette dnition qu'une matrice A inversible est la matrice d'un endomorphisme bijectif. Par consquent, une matrice A d'ordre n est inversible si et seulement si rg(A) = n. Si une matrice A est inversible, son inverse est videmment inversible et (A1 )1 = A. On rappelle par ailleurs que, si A et B sont deux matrices inversibles, on a les galits suivantes :
(AB)1 = B 1 A1 , (AT )1 = (A1 )T , (A )1 = (A1 ) et (A)1 = 1 1 A , K .
114
trace
n
tr(A) =
i=1
aii ,
la seconde ayant comme consquence le fait que la trace d'une matrice est invariante par changement de base. En eet, pour toute matrice A et tout matrice inversible P de mme ordre, on a
tr(P AP 1 ) = tr(P 1 P A) = tr(A).
le slire d(ni pr l formule de veiniz 4
Dnition A.22 (dterminant d'une matrice) yn ppelle dterminant d9une mtrie A d9ordre n
n
det(A) =
Sn
()
i=1
a(i)i ,
Par proprit des permutations, on a det(AT ) = det(A) et det(A ) = det(A), pour toute matrice A d'ordre n. On peut voir le dterminant d'une matrice A d'ordre n comme une forme multilinire des n colonnes de cette matrice,
det(A) = det(a1 , . . . , an ),
o les vecteurs aj , j = 1, . . . , n, dsignent les colonnes de A. Ainsi, multiplier une colonne (ou une ligne, puisque det(A) = det(AT )) de A par un scalaire multiplie le dterminant par ce scalaire. On a notamment
det(A) = n det(A), K, A Mn (K).
Cette forme est de plus lterne : changer deux colonnes (ou deux lignes) de A entre elles entrane la multiplication de son dterminant par 1 et si deux colonnes (ou deux lignes) sont gales ou, plus gnralement, si les colonnes (ou les lignes) de A vrient une relation non triviale de dpendance linaire, le dterminant de A est nul. En revanche, ajouter une colonne (resp. ligne) une combinaison linaire des autres colonnes (resp. lignes) ne modie pas le dterminant. Ces proprits expliquent elles seules le rle essentiel que joue les dterminant en algbre linaire. On rapelle enn que le dterminant est un morphisme de groupes du groupe linaire des matrices inversibles de Mn (K) dans K (muni de la multiplication). Ainsi, si A et B sont deux matrices d'ordre n, on a
det(AB) = det(BA) = det(A) det(B),
1 . det(A)
RF qottfried ilhelm von veiniz @Ier juillet ITRT E IR novemre IUITA tit un philosopheD mthmtiien @et plus gnrlement sienti(queAD iliothireD diplomte et homme de loi llemndF sl invent le lul intgrl et di'rentiel indpendmment de xewton et introduisit les nottions en usge ujourd9huiF SF ppelons qu9une permutation d9un ensemle est une ijetion de et ensemle dns luiEmmeF yn note Sn le groupe @pour l loi de omposition A des permuttions de l9ensemle {1, . . . , n}D ve n NF v signature d9une permuttion de Sn est le nomreD gl 1 ou 1D d(ni pr
() =
1i<jn
(i) (j) . ij
115
Dnition A.23 (dterminant extrait) oit A une mtrie de Mm,n (K) et q un entier stritement positifF yn ppelle dterminant extrait d'ordre q le dterminnt de n9importe quelle mtrie d9ordre
q otenue prtir de A en liminnt m q lignes et n q olonnesF
Proposition A.24 ve rng d9une mtrie A de Mm,n (K) est donn pr l9ordre mximum des dtermiE nnts extrits non nuls de AF Dnitions A.25 (mineur, cofacteur) oit A une mtrie d9ordre nF yn ppelle mineur ssoi
a11 . . . Cof ij (A) = (1)i+j ai11 ai+11 . . . an1
in(nD on ppelle matrice des l9ensemle des ofteurs de AD l9lment aij D 1 i, j nD de A le dterminnt d9ordre n 1 de l mtrie otenue pr suppression de l iime et de l j ime olonne de AF yn ppelle cofacteur ssoi e mme lment le slire
On remarque que si A est une matrice d'ordre n, un scalaire et Eij , (i, j) {1, . . . , n}2 , un vecteur de la base canonique de Mn (K), on a, par multilinarit du dterminant,
a11 . . . det(A + Eij ) = det(A) + ai11 ai1 ai+11 . . . an1 ... a1j1 . . . 0 . . . 0 1 0 . . . 0 a1j+1 . . . . . . ai1j+1 . . . aij+1 . . . ai+1j+1 . . . . . . anj+1 . . . a1n . . . ai1n ain = det(A) + Cof ij (A). ai+1n . . . ann
Cette observation conduit une mthode rcursive de calcul d'un dterminant d'ordre n par dveloppement, ramenant ce calcul celui de n dterminants d'ordre n 1, et ainsi de suite.
det(A) =
k=1
Dmonstration. Quitte transposer la matrice, il sut de prouver la formule du dveloppement par rapport une colonne. On considre alors la matrice, de dterminant nul, obtenue en remplaant la j ime colonne de A, j {1, . . . , n}, par une colonnes de zros. Pour passer de cette matrice A, on doit lui ajouter les n matrices aij Eij , i = 1, . . . , n. On en dduit que pour passer du dterminant (nul) de cette matrice celui de A, on doit lui ajouter les n termes aij Cof ij , i = 1, . . . , n, d'o le rsultat.
Proposition A.27
AAT = AT A = det(A) In .
TF ierreEimon vple @PQ mrs IURW E S mrs IVPUA tit un mthmtiienD stronome et physiien frnisF on uvre l plus importnte onerne le lul des proilits et l mnique lesteF
116
Dmonstration.
Considrons la matrice, de dterminant nul, obtenue en remplaant la j ime colonne de A, j {1, . . . , n}, par une colonnes de zros et ajoutons lui les n matrices aik Eik , i = 1, . . . , n, avec k {1, . . . , n} et k = j . La matrice rsultante est galement de dterminant nul, puisque deux de ses colonnes sont identiques. Ceci signie que
n
ce qu'on traduit matriciellement par AAT = det(A) In . La seconde formule dcoule du fait que det(AT ) = det(A).
associ A. Le spetre d'une matrice A, not (A), est l'ensemble des valeurs propres de A. On rappelle les proprits suivantes :
n n
tr(A) =
i=1
i , det(A) =
i=1
i .
Par consquent, la matrice A est singulire si au moins une de ses valeurs propres est nulle. Enn, le ryon spetrl d'une matrice A est le nombre dni par
(A) = max |i |.
1in
det(AT In ) = det((A In )T ) = det(A In ) d'o (AT ) = (A). toute valeur propre d'une matrice A est associ au moins un vecteur non nul v tel que Av = v
et appel veteur propre de la matrice A correspondant la valeur propre . Le sous-espace vectoriel constitu de la runion de l'ensemble des vecteurs propres associs une valeur propre et du vecteur nul est appel sousEespe propre orrespondnt l vleur propre . Il concide par dnition avec Ker (A In ) et sa dimension est n rg(A In ). On appelle cette dernire multipliit gomtrique de et elle ne peut jamais tre suprieure la multipliit lgrique de , dnie comme la multiplicit de en tant que racine du polynme caractristique. Une valeur propre ayant une multiplicit gomtrique infrieure sa multiplicit algbrique est dite dfetive.
Dnition A.28 (matrices semblables) yn dit que deux mtries A et B d9ordre n son semblables
s9il existe une mtrie d9ordre n inversile P telle que
A = P BP 1 .
117
On dit que deux matrices A et B sont unitirement (resp. orthogonlement ) semblables si la matrice P de la dnition est unitaire (resp. orthogonale). On voit que deux matrices sont semblables si et seulement si elles reprsentent le mme endomorphisme dans deux bases ventuellement direntes. La matrice P de la dnition est donc une matrice de passage et on en dduit que deux matrices semblables possdent le mme rang, la mme trace, le mme dterminant et le mme polynme caractristique (et donc le mmes spectre). Ces applications sont appeles invrints de similitude. L'exploitation la notion de matrices semblables permet entre autres de rduire la complexit du problme de l'valuation des valeurs propres d'une matrice. En eet, si l'on sait transformer une matrice donne en une matrice semblable diagonale ou triangulaire, le calcul des valeurs propres devient alors immdiat. On a notamment le thorme suivant 7 .
oit une mtrie A rreF sl existe une mtrie U unitire telle que l mtrie U AU soit tringulire suprieure ve pour oe0ients digonux les vleurs propres de AF
Le thorme arme qu'il existe une matrice triangulaire unitairement semblable la matrice A. Les lments diagonaux d'une matrice triangulaire tant ses valeurs propres et deux matrices semblables ayant le mme spectre, les lments diagonaux de U AU sont bien les valeurs propres de A. Le rsultat est prouv par rcurrence sur l'ordre n de la matrice. Il est clairement vrai pour n = 1 et on le suppose galement vri pour une matrice d'ordre n 1, avec n 2. Soit 1 une valeur propre d'une matrice A d'ordre n et soit u1 une vecteur propre associ normalis, c'est--dire tel que u1 2 = 1. Ayant fait le choix de n 1 vecteurs pour obtenir une base orthonorme {u1 , . . . , un } de Cn , la matrice Un , ayant pour colonnes les vecteurs uj , j = 1, . . . , n, est unitaire et on a 1 s12 ... sin 0 Un AUn = . , . . Sn1 0 o s1j = (u1 , Auj ), j = 2, . . . , n, et o le bloc Sn1 est une matrice d'ordre n 1. Soit prsent Un1 une matrice unitaire telle que Un1 Sn1 Un1 soit une matrice triangulaire suprieure et soit 1 0 ... 0 0 Un1 = . . . . Un1 0 La matrice Un1 est unitaire et, par suite, Un Un1 galement. On obtient par ailleurs 1 t12 ... 0 (Un Un1 ) A(Un Un1 ) = Un1 (Un AUn )Un1 = . . . Un1 Sn1 Un1 0 avec 1
t12 ... tin = 1 s12 ... sin Un1 , ce qui achve la preuve.
tin
Parmi les dirents rsultats qu'implique la dcomposition de Schur, il y a en particulier le fait que toute matrice hermitienne A est unitairement semblable une matrice diagonale relle, les colonnes de la matrice U tant des vecteurs propres de A. Ceci est le point de dpart de la mthode de toi pour le calcul approch des valeurs propres d'une matrice relle symtrique (voir la section 4.3 du chapitre 4). Ajoutons qu'il ne faut pas confondre la notion de matrices semblables avec celle de mtries quivE lentes 9 . En revanche, si deux matrices sont semblables, alors elles sont quivalentes.
UF hns l dmonstrtion de e rsulttD on fit ppel plusieurs notions qui sont ordes @ultrieurementFFFA dns l setion eFQF VF sssi hur @Is&i XurD IH jnvier IVUS ! IH jnvier IWRIA tit un mthmtiien russe qui trvill surtout en a@ ellemgneF sl s9intress l omintoire et l reprsenttion des groupes et donn son nom plusieurs onepts et rsultts mthmtiques vrisF WF heux mtries A et B m lignes et n olonnes sont dites quivalentes s9il existe deux mtries inversiles P et QD respetivement d9ordre m et nD telles que B = P AQF
118
Enn, une matrice A d'ordre n est dite digonlisle si elle est semblable une matrice digonle (voir la dnition A.33). On note que, dans ce cas, les lments diagonaux de la matrice P 1 AP sont les valeurs propres 1 , 2 , . . . , n de la matrice A, et que la j ime colonne de la matrice P , 1 j n, est forme des composantes (relativement la mme base que pour la matrice A) d'un vecteur propre associ j . Ainsi, une matrice est diagonalisable si et seulement s'il existe une base de vecteurs propres.
trie relle symtrique @respF omplexe hermitienneA d9ordre nF elorsD il existe une mtrie orthogonle @respF unitireA P telle que l mtrie P 1 AP soit une mtrie digonleF ves lments digonux de ette mtrie sont les vleurs propres de AD qui sont rellesF
Matrices diagonales
Les matrices digonles interviennent de nombreuses reprise en algbre linaire. Elles vrient des proprits qui rendent leur manipulation particulirement aise d'un point de vue calculatoire.
Dnition A.33 (matrice diagonale) ne mtrie A d9ordre n est dite pour les ouples d9indies (i, j) {1, . . . , n}2 tels que i = j F
La dmonstration du lemme suivant est laisse au lecteur.
diagonale
si on aij = 0
Lemme A.34
v somme et le produit de deux mtries digonles sont des mtries digonlesF ve dterminnt d9une mtrie digonle est gl u produit de ses lments digonuxF ne mtrie digonle A est don inversile si et seulement si tous ses lments digonux sont non nuls etD dns e sD son inverse est une mtrie digonle dont les lements digonux sont les inverses des lements digonux orrespondnts de AF
Matrices triangulaires
Les matrices tringulires forment une classe de matrices intervenant trs couramment en algbre linaire numrique.
Dnition A.35 (matrice triangulaire) yn dit qu9une mtrie A d9ordre n est triangulaire suprieure @respF infrieureA si on aij = 0 pour les ouples d9indies (i, j) {1, . . . , n}2 tels que i > j
@respF i < j AF
Une matrice la fois triangulaire suprieure est infrieure est une matrice diagonale. On vrie par ailleurs facilement que la matrice transpose d'une matrice triangulaire suprieure est une matrice triangulaire infrieure, et vice versa. La dmonstration du lemme suivant est laisse en exercice. 119
Lemme A.36 oit A une mtrie d9ordre n tringulire suprieure @respF infrieureAF on dterminnt est gl u produit de ses termes digonux et elle est don inversile si et seulement si es derniers sont tous sont non nulsF hns e sD son inverse est ussi une mtrie tringulire suprieure @respF infrieureA dont les lments digonux sont les inverses des lments digonux de AF oit B une utre mtrie d9ordre n tringulire suprieure @respF infrieureAF v somme A + B et le produit AB sont des mtries tringulires suprieures @respF infrieuresA dont les lments digonux sont respetivement l somme et le produit des lments digonux orrespondnts de A et B F Matrices bandes
Une mtrie nde est une matrice carre dont les coecients non nuls sont localiss dans une bande autour de la diagonale principale. Plus prcisement, on a la dnition suivante.
Dnition A.37 oit n un entier stritement positifF yn dit qu9une mtrie A de Mn (R) est une matrice bande s9il existe des entiers positifs p et q stritement infrieurs n tels que aij = 0 pour tous les ouples d9entiers (i, j) {1, . . . , n}2 tels que i j > p ou j i > q F v largeur de bande de l mtrie
vut p + q + 1D ve p lments priori non nuls guhe de l digonle et q lments droite sur hque ligneF
Dnition A.38 yn dit qu9une mtrie A d9ordre n est diagonale dominante par lignes @respeE tivement par colonnesA si
n n
|aii |
j=1 j=i
|aji |), 1 i n.
Les matrices diagonale strictement dominante possdent la particularit d'tre inversibles, comme le montre le rsultat suivant 10 .
Thorme A.39
Dmonstration.
oit A une mtrie d9ordre n digonle stritement dominnte @pr lignes ou pr olonnesAF elorsD A est inversileF
Supposons que A est une matrice diagonale strictement dominante par lignes et prouvons l'assertion par l'absurde. Si A est non inversible, alors son noyau n'est pas rduit zro et il existe un vecteur x de Rn non nul tel que Ax = 0. Ceci implique que
n
aij xj = 0, 1 i n.
j=1
Le vecteur x tant non nul, il existe un indice i0 dans {1, . . . , n} tel que 0 = |xi0 | = max |xi | et l'on a alors
1in n
ai0 i0 xi0 =
j=1 j=i0
ai0 j xj ,
d'o
|ai0 i0 |
|ai0 j |
j=1 j=i0
|xj | |xi0 |
|ai0 j |,
j=1 j=i0
IHF ge thome semle voir t redouvert de nomreuses fois de mnire totlement indpendnte @voir l liste de rfrenes dns uRWAF
120
ce qui contredit le fait que A est diagonale strictement dominante par lignes. Si la matrice A est diagonale strictement dominante par colonnes, on montre de la mme manire que sa transpose AT , qui est une matrice diagonale strictement dominante par lignes, est inversible et on utilise que det(AT ) = det(A).
A.3
La notion de norme est particulirement utile en algbre linaire numrique pour quantier l'erreur de l'approximation de la solution d'un systme linaire par une mthode itrative (voir le chapitre 3), auquel cas on fait appel une norme dite vetorielle sur Cn (ou Rn ), ou bien eectuer des analyses d'erreur priori des mthodes directes de rsolution de systmes linaires (voir le chapitre 2), qui utilisent des normes dites mtriielles dnies sur Mn (C) (ou Mn (R)).
A.3.1 Dnitions
Nous rappelons dans cette section plusieurs dnitions et proprits caractre gnral relatives aux normes et aux produits scalaires sur un espace vectoriel.
v 0D v E D et v = 0 si et seulement si v = 0D v = || v D KD v E D
triangulaireD 9estEEdire
u + v u + v , u, v E.
On appelle espe vetoriel norm un espace vectoriel muni d'une norme. C'est un cas particulier d'espace mtrique dans lequel la distance entre deux lments est donn par
d(u, v) = u v , u, v E.
Dnition A.41 (normes quivalentes) oit E un espe vetoriel sur le orps KD ve K = R ou CF yn dit que deux normes et sur E sont quivalentes s9il existe deux onstntes positives c et
C telles que c v
C v , v E.
Dnition A.42 (produit scalaire) n produit scalaire @respF produit scalaire hermitienA sur un espe vetoriel E sur R @respF CA est une pplition ( , ) de E E dns R @respF CA possdnt les proprits suivntes X
IF elle est
(u, v + w) = (u, v) + (u, w) @respF (u, v + w) = (u, v) + (u, w)), u, v, w E, R @respF CA,
PF elle est
QF elle est
121
espace euclidien
du produit slire ( , )F yn
Lemme A.44 ( ingalit de Cauchy 12 Schwarz 13 ) oit E un espe vetoriel sur R ou C muni
|(u, v)| u v , u, v E,
o l9on not v =
Dmonstration. Soit u et v deux vecteurs de E . On va dmontrer le rsultat dans le cas rel. Dans le cas complexe, on se ramne au cas rel en multipliant u par un scalaire de la forme ei , avec rel, de manire ce le produit (ei u, v) est rel. On considre l'application qui tout rel t associe u tv . On a, par proprits du produit scalaire, 0 u t v 2 = u 2 + 2t (u, v) + t2 v) 2 , t R.
Le polynme ci-dessus tant du second ordre et positif sur R, son discriminant doit tre ngatif, c'est--dire
4|(u, v)|2 4 u
2
d'o l'ingalit annonc. En outre, on a galit lorsque le discriminant est nul, ce qui signie que le polynme possde une racine relle d'o u + v = 0.
tout produit scalaire, on peut associer une norme particulire comme le montre le thorme suivant.
Thorme A.45
D d(nie pr
v =
est une norme sur E D ppele
(v, v), v E,
Dmonstration. Il s'agit de montrer que l'application ainsi dnie possde toutes les proprits d'une norme nonces dans la dnition A.40. La seule de ses proprits non vidente est l'ingalit triangulaire, que l'on va ici dmontrer dans le cas complexe, le cas rel s'en dduisant trivialement. Pour tous vecteurs u et v de E , on a
u+v
= u
+ (u, v) + (v, u) + v
= u
+ (u, v) + (u, v) + v
= u
+ 2 Re((u, v)) + v
+2 u
v + v
= ( u + v )2 .
Dnition A.46 oit E un espe vetoriel sur R ou C muni d9un produit slire ( , )F yn dit que deux veteurs u et v de E sont orthogonauxD e que l9on note u v D si (u, v) = 0F r extensionD un veteur v de E est orthogonal une partie G de E D e que l9on note v GD si le veteur v est orthogonl tout veteur de GF in(nD un ensemle de veteurs {ui }i=1,...,m D 2 m nD de E est dit orthonormal s9il vri(e
(ui , uj ) = ij , 1 i, j m.
IPF eugustinEvouis guhy @PI ot IUVW ! PQ mi IVSUA tit un mthmtiien frnisF rs proli(queD ses reherhes ouvrent l9ensemle des domines mthmtiques de son poqueF yn lui doit notmment en nlyse l9introdution des fontions holomorphes et des ritres de onvergene des sriesF es trvux sur les permuttions furent prurseurs de l thorie des groupesF sl (t ussi d9importntes ontriutions l9tude de l propgtion des ondes en optique et en mniqueF IQF url rermnn emndus hwrz @PS jnvier IVRQ E QH novemre IWPIA tit un mthmtiien llemndF es trvuxD sur des sujets llnt de l thorie des fontions l gomtrie di'rentielle en pssnt pr le lul des vritionsD furent mrqus pr une forte intertion entre l9nlyse et l gomtrieF
122
(u, v) = v T u = uT v =
i=1 n
ui vi si K = R, ui vi si K = C,
i=1
(u, v) = v u = u v =
est appele produit slire nonique (et produit slire eulidien lorsque K = R). On note La norme induite par ce produit scalaire, appele norme eulidienne dans le cas rel, est alors
n 1/2
(v, v) =
i=1
|vi |
On rappelle que les matrices orthogonales (resp. unitaires) prservent le produit scalaire canonique sur Rn (resp. Cn ) et donc sa norme induite. On a en eet, pour tout matrice orthogonale (resp. unitaire) U ,
(U u, U v) = (U T U u, v) = (u, v) (resp. U u, U v) = (U U u, v) = (u, v)), u, v Rn (resp. Cn ).
=
i=1
|vi |,
et
v
= max |vi |.
1in
Thorme A.47
p 1D l9pplition
oit E un espe vetoriel sur R ou CD de dimension (nie nF our tout nomre rel p d(nie pr
n 1/p
v
est une normeF
Dmonstration.
=
i=1
|vi |
, v E,
Pour p = 1, la preuve est immdiate et on va donc considrer que p est strictement plus grand que 1. Dans ce cas, on dsigne par q le nombre rel tel que
1 1 + = 1. p q
1 p ln() 1 q e + e p q
ln()
p q + , p q
123
|ui vi | u
i=1
q.
Pour tablir que l'application p est une norme, il sut prsent de prouver qu'elle vrie l'ingalit triangulaire, les autres proprits tant videntes. Pour cela, on crit que
(|ui | + |vi |)p = |ui | (|ui | + |vi |)p1 + |vi | (|ui | + |vi |)p1 , 1 i n,
+ v
p) i=1
On rappelle enn que dans un espace vectoriel de dimension nie sur un corps complet (comme R ou
.
Nous pouvons maintenant introduire la notion de matrice symtrique d(nie positive, dont les proprits sont intressantes pour les mthodes de rsolution de systmes linaires tudies dans les chapitres 2 et 3.
si (Ax, x) 0D x Cn D ve (Ax, x) = 0 si et seulement si x = 0F
Dnition A.48 (matrice dnie positive) ne mtrie d9ordre n est dite dnie positive sur Cn
Les matrices dnies positives sur Rn ne sont pas ncessairement symtriques. On peut cependant prouver qu'une matrice relle A est dnie positive sur Rn si et seulement si sa prtie symtrique, qui 1 est la matrice 2 (A + AT ), est dnie positive sur Rn . Plus gnralement, on a le rsultat suivant montre qu'une matrice coecients complexes est ncessairement hermitienne, ce qui nous amne ne considrer dans la suite que des matrices dnies positives symtriques ou hermitiennes.
Proposition A.49
Dmonstration.
oit A une mtrie de Mn (C) @respF RAF iD pour tout veteur v de Cn D l quntit (Av, v) est relleD lors A est une mtrie hermitienne @respF symtriqueAF
Si la quantit (Av, v) est relle pour tout vecteur de Cn , alors (Av, v) = (Av, v), c'est--dire
n n n n n n n n
aij vj vi =
i=1 j=1 i=1 j=1
aij vj vi =
i=1 j=1
aij vj vi =
i=1 j=1
aji vi vj ,
ce qui implique
Par des choix appropris du vecteur v , on en dduit que aij = aji , pour tous i, j dans {1, . . . , n}.
Deux proprits principales des matrices dnies positives sont rsumes ci-dessous.
ne mtrie est d(nie positive sur Cn si et seulement si elle est hermitienne et ses vleurs propres sont stritement positivesF in prtiulierD un mtrie d(nie positive est inversileF
Dmonstration. Soit A une matrice dnie positive. On sait alors, d'aprs la prcdente proposition, qu'elle est hermitienne et il existe donc une matrice unitaire U telle que la matrice U AU est diagonale, avec pour coecients diagonaux les valeurs propres i , i = 1, . . . , n, de A. En posant v = U w pour tout vecteur de Cn , on obtient
Thorme A.50
(Av, v) = (AU w, U w) = (U AU w, w) =
i=1
i |wi |2 =
i=1
i |wi |2 .
En choisissant successivement w = ei , avec i = 1, . . . , n, on trouve que 0 < (Aei , ei ) = i . La rciproque est immdiate, puisque si la matrice A est hermitienne, alors il existe une base orthonorme de Cn forme de ses vecteurs propres.
Le rsultat classique suivant fournit une caractrisation simple des matrices symtriques (ou hermitienne) dnies positives. 124
d(nie positive si et seulement tous ses mineurs prinipux sont stritement positifsD 9estEEdire si toutes les sousEmtries priniples
...
akk
Puisque (Ax, x)Rn > 0 pour tout vecteur x non nul de Rn , ceci est donc en particulier vrai pour tous les vecteurs de la forme x1 . . x = . . xn1 0 Par consquent, la matrice An1 est dnie positive et tous ses mineurs principaux, qui ne sont autres que les n 1 mineurs principaux de A, sont strictement positifs. Le fait que A soit dnie positive impliquant que ses valeurs propres sont strictement positives, on a que det(A) = n i > 0 et l'on vient donc de montrer le sens i=1 direct de l'quivalence. Rciproquement, si tous les mineurs principaux de A sont strictement positifs, on applique l'hypothse de rcurrence pour en dduire que la sous-matrice An1 est dnie positive. Comme det(A) > 0, on a l'alternative suivante : soit toutes les valeurs propres de A sont strictement positives (et donc A est dnie positive), soit au moins deux d'entre elles, i et j , sont strictement ngatives. Dans ce dernier cas, il existe au moins une combinaison linaire v i + v j , avec et tous deux non nuls, ayant zro pour dernire composante. Puisqu'on a dmontr que An1 tait dnie positive, il s'ensuit que (A( v i + v j ), v i + v j )Rn > 0. Mais, on a par ailleurs (A( v i + v j ), v i + v j )Rn = 2 i + 2 j < 0, d'o une contradiction.
125
Dnition A.52 (normes consistantes) yn dit que trois normesD toutes notes d(nies sur Cm D Mm,n (C) et Cn D sont consistantes si
Av A v , A Cmn , v Cn .
et respetivement
Dnition A.53 (norme matricielle) ne norme matricielle sur Mn (C) est une pplition de Mn (C) dns R vri(nt les proprits d9une norme @voir l d(nition eFRHA insi que l proprit de
sous-multiplicativit suivnte X
AB A B , A, B Mn (C).
(A.2)
Toutes les normes sur Mn (C) ne sont pas des normes matricielles comme le montre l'exemple suivant, tir de [GV96].
Exemple. La norme
on a 2 = A2
> A
= 1.
On remarquera aussi qu'il existe toujours une norme vectorielle avec laquelle une norme matricielle donne est consistante. En eet, tant donne une norme matricielle et un vecteur non nul quelconque u dans Cn , il sut de dnir la norme vectorielle par
v = vu , v Cn .
Ainsi, il n'est pas ncessaire de prciser explicitement la norme vectorielle avec laquelle la norme matricielle est consistante.
|aij |2 =
i,j=1
tr(AA ), A Mn (C),
est une norme matricielle (la dmonstration est laisse en exercice), appele norme de proenius 16 , consistante avec la norme vectorielle euclidienne 2 , car on a
n n 2 n
|xj |2 = A
2 F
Av
2 2
=
i=1 j=1
aij xj = n.
i=1
|aij |2
j=1 j=1
v 2. 2
Proposition A.54 (norme matricielle subordonne) tnt donn une norme vetorielle
l9pplition de Mn (C) dns R d(nie pr
sur Cn D
A = sup
vCn v=0
(A.3)
126
Dmonstration. On remarque tout d'abord que la quantit A est bien dnie pour tout matrice d'ordre n : ceci dcoule de la continuit de l'application de Cn dans R qui un vecteur v associe Av sur la sphre unit, qui est compacte puisqu'on est en dimension nie. La vrication des proprits satisfaites par une norme matricielle est alors immdiate.
On dduit de la dnition (A.3) que In = 1 pour toute norme matricielle subordonne . Un bon exemple de norme matricielle n'tant pas subordonne une norme vectorielle est la norme de Frobenius, pour laquelle on a dj vu que In F = n. La proposition suivante donne le calcul des normes subordonnes aux normes vectorielles 1 , 2 et .
Proposition A.55
= max
1jn
|aij |,
i=1
(A A) = A
(AA ) = A 2 ,
n
= max
1in
|aij |.
j=1
Av
=
i=1 j=1
aij vj
j=1
|vj |
i=1
|aij |
1jn
max
|aij |
i=1
1.
Pour montrer (A.4), on construit un vecteur (qui dpendra de la matrice A) tel que l'on ait galit dans l'ingalit ci-dessus. Il sut pour cela de considrer pour cela le vecteur u de composantes
ui = 0 pour i = j0 , uj0 = 1,
max
|aij | =
i=1 i=1
|aij0 |.
Av
= max
1in
aij vj
j=1
1in
max
|aij |
j=1
|aij | =
j=1 j=1
|ai0 j |.
On prouve prsent (A.5). La matrice A A tant hermitienne, il existe (voir le thorme A.32) une matrice unitaire U telle que la matrice U A AU est une matrice diagonale dont les lments sont les valeurs propres, par ailleurs positives, i , i = 1, . . . , n, de A A. En posant w = U v , on a alors
A = sup
vCn v=0
i
i=1
1in
max i .
127
D'autre part, en utilisant l'ingalit de CauchySchwarz, on trouve, pour tout vecteur v non nul,
Av 2 (A Av, v) A Av 2 = 2 2 v 2 v 2 v
2 2 2
A A
A 2,
d'o A 2 A 2 . En appliquant cette ingalit A , on obtient l'galit A 2 = A 2 = (AA ). On montre ensuite l'invariance de la norme 2 par transformation unitaire, c'est--dire que AU 2 = A 2 pour toute matrice unitaire U et toute matrice A. Puisque U U = In , on a
UA
2 2
UA
= sup
vCn v=0
U Av v 2 2
2
2 2
= sup
vCn v=0 2,
(U U Av, v) = A 2. v 2 2
= v
on a par ailleurs
= sup
vCn v=0
AU v v 2 2
2 2
= sup
uCn u=0
Au 2 Au 2 2 2 = sup = A 2. 1 u 2 U u 2 uCn 2 2
u=0
Enn, si A est une matrice normale, alors elle diagonalisable dans une base orthonorme de vecteurs propres (voir le thorme A.32 et on a A = U DU , avec U une matrice unitaire et D une matrice diagonale ayant pour lments les valeurs propres de A, d'o
A
2
= U DU
= D
= (A).
Cette proposition amne quelques remarques. On observe tout d'abord que A 1 = A , et l'on a A 1 = A et A 2 = (A) si A est une matrice hermitienne (donc normale). Si U est une matrice unitaire (donc normale), on a alors U 2 = (In ) = 1. La norme A 2 n'est autre que la plus grande valeur singulire 17 de la matrice A et son calcul pratique est donc beaucoup plus dicile et coteux que celui de A 1 ou A Il est galement clair l'examen de la dmonstration ci-dessus que les expressions trouves pour A 1 , A 2 et A sont encore valables pour des matrices rectangulaires. Dans ce cas cependant, ces applications ne sont plus des normes matricielles mais de simples normes sur un espace vectoriel de matrices donn, puisque le produit de telles matrices n'a en gnral pas de sens. Enn, si l'on a montr qu'il existait des normes matricielles et des matrices A vriant l'galit A = (A), il faut insister sur le fait que le rayon spectral n'est pas une norme (par exemple, toute matrice triangulaire non nulle dont les coecients diagonaux sont nuls a un rayon spectral gal zro). On peut nanmoins prouver que l'on peut toujours approcher le rayon spectral d'une matrice donne d'aussi prs que souhait par valeurs suprieures, l'aide d'une norme matricielle convenablement choisie. Ce rsultat est fondamental pour l'tude de la convergence des suites de matrices (voir le thorme A.58).
Thorme A.56
(A) A .
h9utre prtD tnt donn une mtrie A et un nomre stritement positif D il existe u moins une norme mtriielle suordonne telle que
A (A) + .
Dmonstration. Si est une valeur propre de A, il existe un vecteur propre v = 0 associ, tel que Av = v . Soit w un vecteur tel que la matrice vw ne soit pas nulle. On a alors
|| vw = vw = Avw A
vw ,
d'aprs la proprit de sous-multiplicativit d'une norme matricielle, et donc || A . Cette ingalit tant vraie pour toute valeur propre de A, elle l'est en particulier quand || est gal au rayon spectral de la matrice et la premire ingalit se trouve dmontre.
A A @ou AT A si l mtrie A est relleAF
IUF yn ppelle
valeurs singulires
d9une mtrie rre A les rines rres positives de l mtrie rre hermitienne
128
Soit maintenant A une matrice d'ordre n. Il existe une matrice unitaire U telle que T = U 1 AU soit triangulaire (suprieure par exemple) et que les lments diagonaux de T soient les valeurs propres de A. tout rel > 0, on dnit la matrice diagonale D telle que dii = i1 , i = 1, . . . , n. tant donn > 0, on peut choisir susament petit pour que les lments extradiagonaux de la matrice (U D )1 A(U D ) = (D )1 T D soient aussi petits, par exemple de faon avoir
n
ji |tij | , 1 i n 1.
j=i+1
On a alors
(U D )1 A(U D )
= max
1in
ji |tij | (A) + .
j=i
Il reste vrier que l'application qui une matrice B d'ordre n associe (U D )1 B(U D ) est une norme matricielle (qui dpend de A et de ), ce qui est immdiat puisque c'est la norme subordonne la norme vectorielle (U D )1 .
Thorme A.57 oit une norme mtriielle suordonne et A une mtrie d9ordre n vri(nt A < 1F elors l mtrie In A est inversile et on les inglits
1 1 (In A)1 . 1+ A 1 A
r illeursD si une mtrie de l forme In A est singulireD lors on nessirement A 1 pour toute norme mtriielle F
On remarque que (In A)v = 0 implique que Av = v . D'autre part, puisque A < 1, on a, si v = 0 et par denition d'une norme matricielle subordonne, Av < v . On en dduit que, si (In A)v = 0, alors v = 0 et la matrice In A est donc inversible. On a par ailleurs 1 = In In A (In A)1 (1 + A ) (In A)1 ,
Dmonstration.
d'o
(In A)1 1 + A
(In A)1 ,
ce qui conduit la seconde ingalit. Enn, dire que la matrice In A est singulire signie que 1 est valeur propre de A et donc que (A) 1. On utilise alors le thorme A.56 pour conclure.
Le rsultat qui suit donne des conditions ncessaires et susantes pour que la suite forme des puissances successives d'une matrice carre donne converge vers la matrice nulle. Il fournit un critre fondamental de convergence pour les mthodes itrtives de rsolution des systmes linires introduites dans le chapitre 3.
Thorme A.58
@iA @iiA
k k+ k+
lim A = 0D
Prouvons que (i) implique (ii). Soit une norme vectorielle et la norme matricielle subordonne correspondante. Pour tout vecteur v , on a l'ingalit
Dmonstration.
Ak v Ak
v ,
129
qui montre que lim Ak v = 0. Montrons ensuite que (ii) implique (iii). Si (A) 1, alors il existe une valeur propre de A et v = 0 un vecteur propre associ tels que
Av = v et || 1.
k+
La suite (Ak v)kN ne peut donc converger vers 0, puisque Ak v = k v . Le fait que (iii) implique (iv) est une consquence immdiate du thorme A.56. Il reste montrer que (iv) implique (i). Il sut pour cela d'utiliser l'ingalit Ak A k , k N, vrie par la norme subordonne de l'nonc.
On peut maintenant prouver le rsultat suivant, qui prcise un peu plus le lien existant entre la norme matricielle et le rayon spectral d'une matrice.
Thorme A.59
lim
Ak
1/k
= (A).
1/k
Dmonstration.
, on sait dj que
, k N.
A (A) +
vrie (A ) < 1 et on dduit du thorme A.58 que lim Ak = 0. Par consquent, il existe un entier l, dpendant de , tel que
k+
k l Ak =
Ak 1. ((A) + )k (A) + ,
A.4
Systmes linaires
Soit m et n deux entiers strictement positifs. Rsoudre un systme linire de m qutions n inonnues et oe0ents dns un orps K consiste trouver la ou les solutions, s'il en existe, de l'quation algbrique
Ax = b,
o A est une matrice de Mm,n (K), appele mtrie du systme, b est un vecteur de Km , appel seond memre du systme, et x est un vecteur de Kn , appel inonnue du systme. On dit que le vecteur x est solution du systme ci-dessus si ces composantes vrient les m quations
n
aij xk = bi , i = 1, . . . , m,
j=1
du systme. Enn, le systme linaire est dit omptile s'il admet au moins une solution, inomptile sinon, et homogne si son second membre est nul. Dans cette section, nous rappellons des rsultats sur l'existence et l'unicit ventuelle des solutions de systmes linaires et leur dtermination. 130
Thorme A.60 i A est une mtrie inversileD lors il existe une unique solution du systme linire Ax = bF i A n9est ps inversileD lors soit le seond memre b pprtient l9imge de A et il existe lors un in(nit de solutions du systme qui di'rent deux deux pr un lment du noyu de AD soit le seond memre n9pprtient ps l9imge de AD uquel s il n9y ps de solutionF
La dmonstration de ce rsultat est vidente et laisse au lecteur. Si ce dernier thorme ne donne pas de forme explicite de la solution permettant son calcul, cette dernire peut s'exprimer l'aide des formules suivantes.
les olonnes d9une mtrie inversile A de Mn (K)F ves omposnte de l solution du systme Ax = b sont donnes pr
Dmonstration.
Or, si le vecteur x est solution de Ax = b, ses composantes sont les composantes du vecteur b dans la base de Kn forme par les colonnes de A, c'est--dire
n
b=
j=1
xj a j .
On en dduit que
det a1 , . . . , ai1 ,
n j=1
d'o la formule.
On appelle systme de grmer tout systme d'quations linaires dont la matrice est inversible. Aussi sduisante qu'elle soit, la rgle de Cramer s'avre parfaitement inecace en pratique. Le problme provient de l'valuation des dterminants intervenant dans les formules, qui ncessite bien trop d'oprations si l'on applique une mthode rcursive de calcul du dterminant.
Thorme A.62
sl existe une solution du systme linire Ax = b si et seulement si le seond memre b pprtient l9imge de AF v solution est unique si est seuelement si le noyu de A est rduit u veteur nulF heux solutions du systme di'rent pr un lment du noyu de AF
Le rsultat suivant est obtenu par simple application du thorme du rang (thorme A.17).
Lemme A.63 i m < nD lors dim ker(A) n m 1D et s9il existe une solution u systme linire Ax = bD il en existe une in(nitF
IVF qriel grmer @QI juillet IUHR E R jnvier IUSPA tit un mthmtiien suisseF ve trvil pr lequel il est le mieux onnu est son trit Introduction l'analyse des lignes courbes algbriques puli en IUSHF
131
Dnition A.64 (matrice chelonne) ne mtrie A de Mm,n (K) est dite chelonne ou en chelons s9il existe un entier rD 1 r min(m, n) et une suite d9entiers 1 j1 < j2 < . . . < jr n tels
que
aiji = 0 pour 1 i rD et aij = 0 pour 1 i r et 1 j < ji @i 2 si j1 = 1AD 9estEEdire que les oe0ients aiji D ppels pivotsD sont les premiers oe0ients non nuls des r premires lignesD aij = 0 pour r < i m et 1 j nD 9estEEdire que toutes les lignes prs les r premires sont
nullesF
Exemple. La matrice
0 0 0 0
1 0 0 0
1 2 0 0
0 1 3 0
2 5 0 0
est une matrice chelonne dont les pivots sont 1, 2 et 3. On dduit immdiatement de la dnition prcdente que le rang d'une matrice chelonne est gal au nombre r de pivots. Dans un systme linire helonn, c'est--dire associ une matrice chelonne, de m quations n inconnues, les inconnues xj1 , . . . , xjr sont dites priniples et les n r inconnues restantes sont appeles seondires. Considrons prsent la rsolution d'un systme linaire chelonn Ax = b de m quations n inconnues et de rang r. Commenons par discuter de la compatibilit de ce systme. Tout d'abord, si r = m, le systme linaire est compatible et ses quations sont linairement indpendantes. Sinon, c'est-dire si r < m, les m r dernires lignes de la matrice A sont nulles et le systme linaire n'est donc compatible que si les m r dernires composantes du vecteur b sont galement nulles, ce qui revient vrier m r onditions de omptiilit. Parlons prsent de la rsolution eective du systme lorsque ce dernier est compatible. Plusieurs cas de gure se prsentent. Si r = m = n, le systme est de Cramer et admet une unique solution. Le systme chelonn est alors triangulaire (suprieur) et se rsout par des substitutions successives (voir la section 2.1 du chapitre 2). Si r = n < m, la solution existe, puisque le systme est suppos satisfaire les m r conditions de compatibilit, et unique. On l'obtient en rsolvant le systme linaire quivalent
a11 x1 + a12 x2 a21 x2 + ... + ... .. . + a1r xr + a2r xr . . . arr xr = b1 = b2 . . . = br
Enn, si r < n m et le systme est compatible, on commence par faire passer les inconnues
secondaires dans les membres de droite du systme. Ceci se traduit matriciellement par la rcriture du systme sous la forme
AP xP = b AS xS ,
o AP est une sous-matrice extraite de A m lignes et r colonnes, constitue des colonnes de A qui contiennent un pivot, xP est un vecteur de Kr ayant pour composantes les inconnues principales, AS est une sous-matrice extraite de A m lignes et n r colonnes, constitue des colonnes de A ne contenant pas de pivot, et xS est un vecteur de Knr ayant pour composantes les inconnues 132
secondaires. Ce dernier systme permet d'obtenir de manire unique les inconnues principales en fonction des inconnues secondaires, qui jouent alors le rle de paramtres. Dans ce cas, le systme admet une innit de solutions, qui sont chacune la somme d'une solution particulire de Ax = b et d'une solution du systme homogne Ax = 0 (c'est--dire un lment du noyau de A). Une solution particulire s0 du systme est obtenue, par exemple, en compltant la solution du systme AP xP0 = b, que l'on rsout de la mme faon que dans le cas prcdent, par des zros pour obtenir un vecteur de Kn (ceci revient xer la valeur de toutes les inconnues secondaires zro), iFeF,
s0 = xP0 0 .
On dtermine ensuite une base du noyau de A en rsolvant les n r systmes linaires AP xPk = (nr) , 1 k n r, o e(nr) dsigne le kime vecteur de la base canonique de Knr (ceci k revient xer la valeur de la kime inconnue secondaire 1 et celles des autres zro), le vecteur de base xk correspondant tant
b AS ek sk = xPk (nr) . ek
x = s0 +
k=1
ck sk ,
Dnition A.65 (conditionnement d'une matrice) oit une norme mtriielle suordonneF our toute mtrie inversile A d9ordre nD on ppelle conditionnement de A reltivement l norme
mtriielle le nomre
cond(A) = A
A1 .
La valeur du conditionnement d'une matrice dpendant en gnral de la norme subordonne choisie, on a coutume de signaler celle-ci en ajoutant un indice dans la notation, par exemple cond (A) = A A1 . On note que l'on a toujours cond(A) 1 puisque 1 = In = AA1 A A1 . D'autres proprits videntes du conditionnement sont rassembles dans le rsultat suivant.
Thorme A.66
@PA yn
@IA yn cond(A) = cond(A1 ) et cond( A) = cond(A) pour tout slire non nulF
cond2 (A) =
n , 1
133
cond2 (A) =
o les slires i D 1 i nD sont les vleurs propres de AF @RA i A est une mtrie unitire ou orthogonleD son onditionnement cond2 (A) vut 1F @SA ve onditionnement cond2 (A) est invrint pr trnsformtion unitire @ou orthogonleA X
A1
((A1 ) A1 ) =
(A1 (A1 ) ) =
(A A)1 ) =
1 , 1
ce qui dmontre la proprit (2). La proprit (3) rsulte de l'galit A 2 = (A) vrie par les matrices normales (voir encore la proposition A.55). Si A est une matrice orthogonale ou unitaire, lgalit A 2 = (A A) = (In ) = 1 entrane la proprit (4). Enn, la proprit (5) est une consquence de l'invariance par transformation unitaire de la norme 2 (voir une nouvelle fois la proposition A.55).
La proposition ci-dessous montre que plus le conditionnement d'une matrice est grand, plus la solution d'un systme linaire qui lui est associ est sensible aux perturbations des donnes.
Proposition A.67
oit A une mtrie inversile d9ordre n et b un veteur non nul de tille orresponE dnteF i x et x + x sont les solutions respetives des systmes linires Ax = b et A(x + x) = b + bD ve b un veteur de tille nD on
b x cond(A) . x b
i x et x + x sont les solutions respetives des systmes linires Ax = b et (A + A)(x + x) = bD ve A une mtrie d9ordre nD on
x A cond(A) . x + x A
he plusD es deux inglits sont optimlesD 9estEEdire que l9on peut trouver une mtrie A donneD on peut trouver des veteurs b et b @respF une mtrie A et un veteur bA non nuls tels que l9on une glitF
On remarque que le vecteur x est donn par x = A1 b, d'o x A1 b . Comme on a par ailleurs b A x , on en dduit la premire ingalit. Pour la seconde ingalit, on tire de lgalit Ax + A(x + x) = 0 la majoration x A1 A x + x , dont on dduit le rsultat. Le fait que les ingalits sont optimales dcoule du fait que, pout tout norme matricielle subordonne et toute matrice A d'ordre n, il existe un vecteur y non nul tel que Ay = A y (voir la dmonstration de la proposition A.54).
Dmonstration.
Bien qu'optimales, les ingalits de ce dernier rsultat sont, en gnral, pessimistes. Elles conduisent nanmoins l'introduction d'une terminologie courante, en lien avec le conditionnement d'une matrice, qui vise traduire le fait que la rsolution numrique d'un systme linaire donn pourra tre sujette, ou pas, d'importants problmes d'erreurs sur la solution obtenue. Ainsi, on dit qu'une matrice inversible est ien onditionne (relativement une norme matricielle) si son conditionnement est proche de l'unit. Au contraire, elle dite ml onditionne si son conditionnement est trs grand devant 1. Les matrices unitaires (ou orthogonales) tant trs bien conditionnes, on comprend l'intrt justi de faire intervenir ces matrices plutt que d'autres dans diverses mthodes numriques matricielles. 134
Rfrences de l'annexe
[Tau49] O. Taussky. A recurring theorem on determinants. emerF wthF wonthly, 56(10) :672676, 1949. [Tur48] A. M.. Turing. Rounding-o errors in matrix processes. urtF tF wehF epplF wth, 1(1) :287 308, 1948.
135
136
Annexe B
Rappels d'analyse
Dans cette annexe, on rappelle en les dmontrant quelques rsultats d'analyse auxquels on fait appel dans les chapitres 5, 6 et 7.
Thorme B.1 ( thorme des valeurs intermdiaires ) oit [a, b] un intervlle non vide de R
et f une pplition d(nie et ontinue sur [a, b] vleurs dns RF elorsD pour tout rel y ompris entre f (a) et f (b)D il existe @u moinsA un rel c dns [a, b] tel que f (c) = y F
Dmonstration.
Si y = f (a) ou y = f (b), le rsultat est immdiat. Dans toute la suite, on peut supposer que f (a) < f (b), quitte poser g = f si f (a) > f (b). Soit donc y ]f (a), f (b)[ et considrons l'ensemble E = {x [a, b] | f (x) y} ; E est une partie de R non vide (car a E ) et majore (par b), qui admet donc une borne suprieure, note c. Nous allons montrer que f (c) = y . Par dnition de la borne suprieure, il existe une suite (xn )nN d'lments de E telle que lim xn = c. L'application f tant continue en c, on a part, f (b) > y , donc c = b. Pour tout x ]c, b[, f (x) > y donc
n+
lim f (xn ) = f (c). Or, pour tout n N, f (xn ) y donc f (c) y . D'autre
xc, x>c
n+
lim
une pplition de [a, b] dns RF i f est ontinue sur [a, b]D drivle sur ]a, b[ et telle que f (a) = f (b)D lors il existe c ]a, b[ tel que f (c) = 0F
Dmonstration.
Notons m =
x[a,b]
Puisque l'application f est continue sur le segment [a, b], elle est borne et atteint ses bornes. inf f (x) et M = sup f (x). Si M = m, alors f est constante et f (x) = 0 pour tout x ]a, b[.
x[a,b]
Supposons m < M . Comme f (a) = f (b), on a soit M = f (a), soit m = f (a). Ramenons-nous au cas M = f (a). Il existe alors un point c ]a, b[ tel que f (c) = M . Soit x [a, b] tel que f (x) M = f (c). Si x > c, on a f (x) f (c) f (x) f (c) 0, et si x < c, on obtient 0. L'application f tant drivable en c, nous obtenons, en xc xc passant la limite, f (c) 0 et f (c) 0, d'o f (c) = 0.
sements (nis.
Le thorme de Rolle permet son tour de prouver le rsultat suivant, appel le thorme des roisE
tel que
Thorme B.3 ( thorme des accroissements nis ) oit [a, b] un intervlle non vide de R et f une pplition de [a, b] dns RF i f est ontinue sur [a, b] et drivle sur ]a, b[D lors il existe c ]a, b[
f (c) = f (b) f (a) . ba
IF wihel olle @PI vril ITSP E V novemre IUIWA tit un mthmtiien frnisF 9il invent l nottion n x pour dsigner l rine nme d9un rel xD il reste priniplement onnu pour voir tli en ITWID dns le s prtiulier des polynmes rels une vrileD une premire version du thorme portnt ujourd9hui son nomF
137
Dmonstration.
Il est clair que est continue sur [a, b], drivable sur ]a, b[ et que (a) = (b). En appliquant le thorme de Rolle , on obtient qu'il existe c ]a, b[ tel que (c) = 0, c'est--dire tel que
f (c) = f (b) f (a) . ba
On dduit directement l'inglit des roissements (nis du thorme B.3. Celle-ci est plus gnrale que le thorme du mme nom, dans la mesure o elle s'applique d'autres fonctions que les fonctions d'une variable relle valeurs dans R, comme par exemple les fonctions de R dans C ou de Rn (n N ) dans R.
Thorme B.4 ( ingalit des accroissements nis ) oit [a, b] un intervlle non vide de RF i
f est une fontion ontinue sur [a, b]D drivle sur ]a, b[ et qu9il existe un rel M > 0 tel que x ]a, b[, |f (x)| M,
lors on
f (b) = f (a) +
soit enore
f (a) f (n) (a) f (n+1) (c) f (a) (b a) + (b a)2 + + (b a)n + (b a)n+1 , 1! 2! n! (n + 1)!
n
f (b) =
k=0
Dmonstration.
k=0
(n+1)
(c), avec c ]a, b[. On dnit pour cela la fonction : [a, b] R comme suit
n
(x) = f (b)
k=0
Cette fonction est continue sur [a, b], drivable sur ]a, b[ et vrie d'autre part (a) = (b) = 0. D'aprs le thorme de Rolle, il existe donc c ]a, b[ tel que (c) = 0. Or, pour tout x ]a, b[, on a
n
(x)
=
k=1
k=0
Le rsultat ci-dessous est une autre consquence du thorme des valeurs intermdiaires.
PF frook ylor @IV ot ITVS E QH novemre IUQIA tit un mthmtiienD rtiste peintre et musiien nglisF sl invent le lul ux di'renes (nies et douvrit l9intgrtion pr prtiesF
138
une fontion ontinue sur [a, b]F elorsD il existe un rel c stritement ompris entre a et b vri(nt
b
: [a, b] R
f (t) dt = f (c).
a
x[a,b]
La fonction f tant continue sur l'intervalle [a, b], on pose m = inf f (x) et M = sup f (x)
x[a,b] b
et on a alors
m (b a)
a
f (t) dt M (b a).
oit [a, b] un intervlle non vide de R et f : [a, b] R une fontion ontinue sur [a, b] et g : [a, b] R une fontion ontinue et positive sur [a, b]F elorsD il existe un rel c stritement ompris entre a et b vri(nt
f (t)g(t) dt = f (c)
a
Dmonstration.
g(t) dt.
a
x[a,b]
La fonction f tant continue sur l'intervalle [a, b], on pose m = inf f (x) et M = sup f (x).
x[a,b]
m
a
g(t) dt
a
f (t) g(t) dt M
a
g(t) dt.
f (t) g(t) dt
b a
M,
g(t) dt
On note que, dans ce dernier thorme, on peut simplement demander ce que la fonction g soit intgrable sur ]a, b[, plutt que continue sur [a, b]. SECONDE FORMULE (f continue dcroissante, g borne) ?
Thorme B.8 ( thorme de la moyenne discrte ) oit [a, b] un intervlle non vide de R et
f : [a, b] R une fontion ontinue sur [a, b]D xj D j = 0, . . . , nD n + 1 points de [a, b] et j D j = 0, . . . , nD n + 1 onstntes toutes de de mme signeF elorsD il existe un rel c ompris entre a et b vri(nt
n n
j f (xj ) = f (c)
j=0
Dmonstration.
j .
i=0
La fonction f tant continue sur l'intervalle [a, b], on pose m = inf f (x) et M = sup f (x)
x[a,b] x[a,b]
m
j=0
j
j=0
j f (xj ) M
j=0
j .
n j=0
On considre prsent, pour tout point x de [a, b], la fonction continue F (x) = f (x) ci-dessus, on a
n
F (x)
j=0
j f (xj ) F (x),
et l'on dduit du thorme des valeurs intermdiaires qu'il existe un point c, strictement compris entre x et x, tel que F (c) = n j f (xj ), ce qui achve la preuve. j=0
139
140