Professional Documents
Culture Documents
1 : Page
Faculté des sciences économiques et de gestion (FASEG)
Réalisé par :
Abdi-Basid IBRAHIM
Abdi-Basid ADAN ADAN
Hawa DIENG
2 : Page
II- Nettoyage de jeu de données………………………………………………………………..7
Conclusion…………………………………………..…………………..……………………………………………………………………………..………………………...…61
Annexe…………………………………………………………………………..……………………………………………………………………………..……………………… 62
3 : Page
Tableau 6 : Erreur commise lors de la représentation sphérique de la matrice de
corrélation
4 : Page
Figure 10 : Graphique des corrélations des variables quantitatives (rectangulaire)
Figure 11 : Graphique de comparaison des boites de données
Figure 12 : Graphique des Scree plot de valeurs propres
Figure 13 : Graphique des éboulis des valeurs propres
Figure 14 : Nuage des points variables (cercle de corrélation)
Figure 15 : Représentation Sphérique d’une matrice de corrélation
Figure 16 : Représentation Sphérique d’une matrice de corrélation sur un axe de 55
degrés
Figure 17 : Représentation Juxtaposés des variables et individus en 3D
Figure 18 : Cercle de corrélation du plan axe 1 et axe 2
Figure 19 : Contributions des variables à l’axe 1
Figure 20 : Diagramme en barre des contributions des variables à l’axe 2
Figure 21 : Diagramme en barre de qualité de la représentation
Figure 22 : Projections des individus sur le plan 1 et 2
Figure 23 : Diagramme en barre des cosinus carré sur l’axe 1
Figure 24 : Diagramme en barre des cosinus carré des individus à l’axe 2
Figure 25 : Diagramme en barre des cosinus carré des individus sur le plan 1 et 2
Figure 26 : graphique juxtaposées variables et individus
Figure 27 : Variables illustratives sur le plan axe 1 et 2
Figure 28 : Individus supplémentaires sur le plan axe 1 et 2
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
5 : Page
Figure 39 : représentation juxtaposées des individus et variables selon le Classement
de la politique sur la dette
Figure 40 : Qualité de représentations des individus
Figure 41 : Représentation des individus illustratifs
Figure 42 : Représentation des individus selon les variables de la qualité de niveau de
vie pib.h, iaa et esp :
Figure 43 : Représentation en ellipse des nuages dual et direct
Figure 44 : double représentations des corrélations des variables
Figure 45 : Dispersion de l’espérance de vie en Afrique
Figure 46 : Dendrogramme circulaire des pays de l’union africaine
Figure 47 : Graphique résidu et valeurs estimés de la régression
Figure 48 : Graphique des résidus standardisés
Figure 49 : Graphique des résidus standardisés et réduites
Figure 50 : Graphique de distance de Cook des résidus standardisés
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
INTRODUCTION
L'Union africaine (UA) est une organisation d'États africains créée en 2002,
à Durbanen en Afrique du Sud. En application de la déclaration de
Syrte du 9 septembre 1999. Elle a remplacé l'Organisation de l'unité africaine (OUA).
La mise en place de ses institutions (Commission, Parlement panafricain et Conseil
de paix et de sécurité) a eu lieu en juillet 2003 au sommet de Maputo au Mozambique.
6 : Page
Les objectifs de l'UA comportent la création d'une banque centrale de
développement. Le PIB nominal des États membres de l'Union africaine s'élevait à 1 627
milliards de dollars. Le PIB en parité de pouvoir d'achat de l'Union africaine s'élevait à 2 849
milliards de dollars, la plaçant à la sixième place mondiale, après l'Allemagne 64,65,66.
Dans le cadre de notre exemple, nous cherchons à décrire les différents profils
en matière des progrès économiques réalisés par les pays de l’union africaine en 2014
et leurs impacts dans leurs sociétés.
7 : Page
parmi les 15 variables, 3 sont qualitatives. On vise alors plusieurs
caractéristiques d’un pays notamment : sa politique économique ; sa dette ; son
environnement ; secteur financier ; pauvreté ; secteur privé & échanges et
secteur public...etc.
Ainsi, la description de toutes les variables et tous les individus sont disponibles
dans la partie annexe (page 70).
L’apurement de la base est une étape non négligeable, qui vient juste avant
l’analyse statistique de données, elle consiste à nettoyer le jeu de donnes de
plusieurs informations malveillantes afin de veiller la fiabilité des interprétations.
Il est donc capital d’identifier au préalable les données aberrantes (ou
atypiques) et les données manquantes.
En statistique, une donnée aberrante est une valeur ou une observation qui est
"distante" des autres observations effectuées sur le même phénomène, c'est-à-
dire qu'elle contraste grandement avec les valeurs "normalement" mesurées. Ils
peuvent prendre plusieurs formes, parmi lesquelles :
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
données catégorielles
données positives
valeur extrême de probabilité faible
Remarque : il est parfois difficile de savoir si une donnée est aberrante ou atypique.
8 : Page
2. Données manquantes (NA)
On parle de valeur manquante lorsqu’on n’a pas d’observations pour une variable
donnée pour un individu donné. Le problème de la gestion des données manquantes
est un vaste sujet. Ils ne peuvent pas être ignorés lors des analyses statistiques. Mais
selon leurs proportions et leurs types, des solutions différentes vont être choisies.
Concernant leurs types, il existe trois catégories de données manquantes :
On dit que les données manquantes sont complètement aléatoires (Missing completely
at Raandom (MCAR)), si la probabilité qu’une observation soit manquante ne dépend
pas de mesures observées ou non observés. En termes mathématiques, cela s’écrit :
𝑃(𝑟|𝑥𝑜𝑏𝑠 , 𝑥𝑚𝑖𝑠𝑠 ) = 𝑃(𝑟), ou r représente la réponse, on dit parfois que le non réponse
est repartie uniformément.
Les données manquantes sont aléatoires (Missing at Random (MAR)), si sachant les
données observées, le mécanisme de non réponse ne dépend pas de non observer.
Les données manquantes ne sont pas aléatoires (Missing Not at Random (MNAR)), si
les raisons pour lesquelles les données sont manquantes dépendent des données
manquantes d’elles-mêmes.
Remarque :
- Malheureusement, on ne peut souvent pas dire, à partir des données quel est
le mécanisme des manques.
Sur le 100% d’information que le jeu de données que nous nous apprêtons à analyser, 16,48%
correspond à des valeurs manquantes et 83.52% des valeurs disponibles comme nous montre
le graphique ci-dessous :
Interprétation
La part de données manquantes est largement au-dessus du seuil de 5%, nous allons donc
faire appel à une méthode de correction de valeur non disponible (NA) avant de pouvoir mener
les analyses statistiques.
Les méthodes d’imputations les plus simples consistent à remplacer les données
manquantes par leur moyenne ou leur médiane. L’inconvénient de cette approche est
10 : Page
qu’elle conduit à une sous-estimation parfois violente de la variance des estimateurs.
Dans façon générale, il est préférable de faire de l’imputation multiple, l’idée est de
réaliser plusieurs tirages et de repérer les analyses pour prendre en compte et rétablir
la variable sous-jacente à l’absence de données. L’usage optimal est de réaliser Cinq
tirages.
à estimer la matrice de covariance à partir des individus renseignés puis d’estimer les
paramètres de l’analyse en composante principales et enfin reconstruire les données.
Le choix de l’apurement de jeu de données se fera dans notre projet par imputation de
la médiane. En effet, ce dernier est un indicateur avantageux par rapport à la moyenne
car il est invariant ou robuste aux valeurs extrêmes (ou atypiques) de certains
individus.
11 : Page
B) Etudes statistiques par variable
12 : Page
esp 50,59 75,64 60,95 61,73 6,301 0,10 Hétérogène
Interprétation :
et le coefficient de variation...etc.
Pour chaque variable, on peut observer ses deux valeurs extrêmes comme le pib par
habitant qui varie entre 633,9 $ à 32 860 $ dans les pays de l’union africaine.
quand cet indicateur est supérieur à 50%. Par contre, la dernière variable ‘espérance
13 : Page
Source, R, Auteur, 2017
Interprétation :
PIB/H iaa
14 : Page
Source, R, Auteur, 2017
On a représenté ici les boites à moustache de pib par habitant (pib/h) et la part de la
population ayant accès à l’installation d’assainissement amélioré (iaa). Ces graphiques
sont plutôt notchés autrement-dit les intervalles de confiance de la médiane sont aussi
représentés. Ils dénudent de manière graphique les informations sur le tableau de la
statistique élémentaire
Il est essentiel aussi d’appréhender les variables qualitatives afin dénuder les profiles
15 : Page
des pays africains selon les modalités de ces variables. Dans notre exemple, il s’agit
les variables comme : la qualité des infrastructures portuaires ; de classement de la
politique de la dette et de la qualité de la gestion de l’administration publique.
Interprétation :
16 : Page
18.87%
58.49%
22.64%
Interprétation :
dcm dcp epb ebs fbcf ibs prp pib.h rnb vab iaa esp
17 : Page
dcm 1.00
dcp 0.79 1.00
epb 0.87 0.80 1.00
ebs 0.83 0.97 0.85 1.00
fbcf 0.85 0.91 0.95 0.92 1.00
ibs 0.85 0.98 0.84 0.98 0.92 1.00 0.91
prp 0.90 0.88 0.87 0.94 0.88 0.91 1.00
pib.h 0.13 0.26 0.19 0.24 0.23 0.24 0.24 1.00
rnb 0.98 0.86 0.93 0.90 0.93 0.91 0.94 0.18 1.00
vab 0.98 0.81 0.92 0.84 0.91 0.86 0.89 0.17 0.99 1.00
iaa 0.21 0.37 0.26 0.34 0.30 0.36 0.29 0.70 0.25 0.23 1.00
esp 0.03 0.21 0.12 0.15 0.19 0.20 0.06 0.41 0.07 0.06 0.66 1.00
source, R, Auteur, 2017
Tableau 3 : Matrice de corrélation de Kendall des variables
quantitatives
dcm dcp epb ebs fbcf ibs prp pib.h rnb vab iaa esp
dcm 1.00 0.76 0.55 0.57 0.73 0.60 0.51 0.24 0.83 0.68 0.06 0.16
dcp 1.00 0.55 0.57 0.80 0.59 0.44 0.33 0.81 0.65 0.12 0.20
epb 1.00 0.72 0.63 0.66 0.64 0.27 0.59 0.55 0.13 0.15
ebs 1.00 0.58 0.89 0.76 0.26 0.64 0.63 0.10 0.12
fbcf 1.00 0.56 0.48 0.33 0.82 0.68 0.10 0.22
ibs 1.00 0.71 0.22 0.65 0.65 0.11 0.12
prp 1.00 0.27 0.55 0.56 0.15 0.13
pib.h 1.00 0.30 0.21 0.43 0.31
rnb 1.00 0.78 0.11 0.15
vab 1.00 0.02 0.11
iaa 1.00 0.31
esp 1.00
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
dcm dcp epb ebs fbcf ibs prp pib.h rnb vab iaa esp
dcm 1.00
dcp 0.92 1.00
epb 0.70 0.69 1.00
ebs 0.73 0.71 0.85 1.00
fbcf 0.89 0.93 0.76 0.73 1.00
ibs 0.74 0.74 0.79 0.97 0.71 1.00
prp 0.66 0.59 0.77 0.89 0.64 0.83 1.00
pib.h 0.32 0.45 0.37 0.37 0.44 0.32 0.39 1.00
rnb 0.93 0.93 0.74 0.79 0.94 0.78 0.71 0.42 1.00
vab 0.79 0.80 0.70 0.77 0.81 0.78 0.69 0.29 0.86 1.00
18 : Page
iaa 0.08 0.19 0.17 0.15 0.14 0.14 0.22 0.60 0.15 0.03 1.00
esp 0.21 0.28 0.20 0.17 0.30 0.17 0.19 0.44 0.20 0.15 0.47 1.00
source, R, Auteur, 2017
Interprétation :
Parmi les méthodes des calculs des coefficients de corrélation linéaire, il existe des
méthodes paramétriques et non paramétriques. En général, un coefficient de
corrélation en valeur absolue assez proche de 1 est dit fortement corrélés c’est le cas
entre la formation en capital fixe (fbcf) et le dépense de consommation de
l’administration publique (dcp).
Interprétation :
19 : Page
Source, R, Auteur, 2017
Interprétation :
Le graphique ci-contre étudie la corrélation linéaire entre les variables sous forme
graphique. A l’intérieur de chaque cadran on observe un diagramme circulaire
représentant la part de la corrélation entre deux variables sur une barre de 1 (100%) :
plus le cercle est coloré en bleu (ou en rouge foncé) : plus le coefficient de corrélation
est proche de 1 en valeur absolue.
20 : Page
Source, R, Auteur, 2017
Interprétation :
21 : Page
Source, R, Auteur, 2017
Interprétation :
La particularité de ce graphique de corrélation est l’accompagnement des corrélations
entre les variables d’un dendrogramme (classification). Plus la corrélation est de rouge
foncé plus la corrélation linéaire est proche de 1. D’autre part, plus la corrélation n’est
de couleur bleu foncé et sa valeur est presque nul (pas de liaison linéaire).
L’interprétation des classifications des variables se fera dans la partie C des
classifications ascendantes hiérarchiques individus et variables.
22 : Page
sample estimates:
cor
0.7853694
23 : Page
𝐻0 : 𝐼𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑐𝑝𝑑 𝑒𝑡 𝑐𝑎𝑝
{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝐷é𝑝𝑒𝑛𝑑𝑛𝑎𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑐𝑝𝑑 𝑒𝑡 𝑐𝑎𝑝
La probabilité critique (0.01535) associée au test de Chi deux est inférieure au seuil
de risque de 5%. On rejette alors l’hypothèse nulle d’indépendance entre les variables.
Nous pouvons affirmer que les variables classement de la politique de la dette et
classement de la qualité de l’administration publique sont significativement
dépendants.
La probabilité critique (0.02033) associée au test de Chi deux est inférieure au seuil
de risque de 5%. On rejette alors l’hypothèse nulle d’indépendance entre les variables.
Nous pouvons affirmer que les variables classement de la politique de la dette et la
qualité des infrastructures portuaires sont significativement dépendants.
Quand on s'intéresse à décrire les relations entre plusieurs variables et individus dans
un tableau de mesure, on met en œuvre alors la statistique descriptive multivariée dite
l'Analyse en Composantes Principales (ACP) vue comme une méthode exploratoire
multidimensionnelle permettant d'étudier une matrice de corrélation.
24 : Page
ne sont pas sur la diagonale sont nulles, c'est-à-dire s’il y a des interactions entre les
variables. On teste alors l’hypothèse nulle 𝐻0 : la matrice est proche de la matrice
identité à une constante multiplicative près :
Interprétation :
Le représentation ci-dessus montre l’intérêt de centre et réduire les données pour
pouvoir prendre en compte les effets des unités de différentes données pour mener
une analyses conjointes des variables en multidimensionnelle.
25 : Page
(coude) suivi d’une décroissance régulière. On sélectionne les axes avant le
décrochement (décroissance rapide).
Critère de Kaiser : on ne retient que les axes dont l’inertie est supérieure à l’inertie
moyenne I/p (I : inertie et p variables). Kaiser en ACP normée : I/p= 1 : On ne
retiendra que les axes associés à des valeurs propre supérieures à 1
Le Critère du Scree-test : on sélectionne les axes correspondant à des différences
secondes > 0 (un peu large).
En générale, dans la pratique, on ne retient que les q axes qui fournit près de 80% de
l’inertie total (loi de Pareto) ou encore les axes que l’on peut interpréter.
26 : Page
Source R, 2017
Coupure k=2
Inertie Perdue
Source R, 2017
Inertie Conservée
Interprétation :
L’inertie total, la somme des carrées de tous les données sont égales aux nombres
des variables (ici 12), car les données sont normées. La chute est importante dès le
deuxième axe qui ne conserve plus que 86.88% de l’inertie totale. Le critère de Kaiser
nous conduit à conserver aussi deux composantes principales. Enfin le critère de
Scree-test va aussi dans le même sens, on ne tient compte que les deux premiers
axes principaux.
27 : Page
En effet, plus on conserve d’autres axes, plus les points vont se rassembler autour de
l'origine et donc moins on serait en mesure d'interpréter les résultats. En effet, on n’est
pas dans le cas de la « malédiction dimensionnelle ».
On s’intéresse à étudier dans cette partie les variables et les individus actives dans
l’analyse en composantes principales : l’ensemble des données en rapport avec le
sujet d’étude, les individus normaux en matière de contributions.
Groupe B
Groupe A
28 : Page
Source, R, Auteur, 2017
Interprétation :
Nous allons faire appel aux méthodes dérivées de l'analyse en composante principale
qui permettent d'obtenir des représentations de meilleure qualité de la matrice de
corrélation. Il s'agit par exemple de la méthode dite de représentation sphérique d'une
matrice de corrélation ou encore de l’analyse en composante focalisé…etc.
dcm dcp epb ebs fbcf ibs prp pib.h rnb vab iaa
dcm 0.000 -0.023 -0.018 -0.019 -0.014 0.008 -0.005 -0.064 0.034 0.012 -0.038
29 : Page
dcp 0.000 -0.046 0.013 0.006 0.012 -0.010 -0.080 0.004 -0.019 -0.042
epb 0.000 -0.013 0.016 -0.025 0.016 -0.014 0.011 0.007 -0.036
ebs 0.000 0.003 0.006 0.014 -0.072 0.004 -0.027 -0.038
fbcf 0.000 -0.005 0.000 -0.029 0.015 0.011 -0.053
ibs 0.000 -0.001 -0.072 0.019 0.000 -0.021
prp 0.000 -0.039 0.007 -0.011 -0.031
pib.h 0.000 -0.050 -0.037 -0.011
rnb 0.000 0.016 -0.039
vab 0.000 -0.039
iaa 0.000
esp -0.011
Source R, 2017
Interprétation
Ici, l’erreur standard varie entre 0 à 0.08 (soit 0 à 8%) de déformation de la réalité
observée entre les variables. Les dépenses en consommation de l’administration
publique et le pib par habitant représente la relation la plus déformée dans le plan
factoriel alors que d’autres liaisons sont exactement représentés comme dans
l’espace à n individus, d’où la véracité de l’analyse en composantes principales.
30 : Page
Source R, 2017
Interprétation :
Ici, au lieu de projeter les points de l'hyper-sphère sur un plan, on a projeté ces points de l'hyper-sphère sur une sphère en dimension 3,
représentée sur un plan en dimension 2. Les résultats s'interprètent exactement de la même façon que l'analyse en composante principale.
Alors, ici nous avons des points en face de nous et des points par projection sur la face arrière de la sphère. Pour avoir un dessin plus facilement
Master interprétable,
2 En Méthodes Statistiques Et Econométriques
on peut faire tourner la sphère sur un axe vertical de 55 degrés, voir le graphique ci-dessous.
Analyse Des Données
Figure 16 : Représentation Sphérique d’une matrice de corrélation sur un axe de 55 degrés
GROUPE A
31 : Page
Source R, 2017
Interprétation :
La qualité de la représentation est meilleure que celle d'une analyse en composante principale, mathématiquement prouvé à l'aide de simulations.
Le groupe A des variables (encadrée en rouge) est fortement corrélés entre elles. La sphère à gauche montre la face arrière, on voit les variables
Masterpib.h,
2 En iaa et esp isolés autour d’un même arc de cercle, tout comme pour les variables de groupe A.
Méthodes Statistiques Et Econométriques
Analyse Des Données
32 : Page
Source R, 2017
Interpretaion
Il convient souvent d’appuyer les interprétations visuelles des nuages des points par
les aides à l’interprétation parmi lesquels les cordonnées ; les corrélations ; les qualités
des représentations ; les contributions absolue et relative (ou cosinus au carré).
33 : Page
Source R, 2017
Interprétation
Les variables contribuant le plus à la formation de l’axe 1 sont celles dont les
coordonnées sur cet axe sont proches de 1 en valeur absolue. Autre moyen de les
repérer consiste à identifier les contributions significatives des variables, il suffit pour
cela de comparer les valeurs de la colonne Dim.1 de vecteurs propres à la racine de
1
la contribution moyenne × 100 = 28,88%, le signe donnant le sens de la
√12
contribution. On obtient :
Tableau 7 : Contributions des variables à l’axe1
- axe1 + axe1
-dcm (Dépenses de consommation finale des ménages)
34 : Page
-dcp (Dépenses de consommation finale des administrations publiques)
-epb (Épargne brute)
-ebs (Exportations de biens et de services)
-fbcf (Formation brute de capital fixe)
-ibs (Importations de biens et de services)
-prp (Paiements de revenus primaires)
-rnb (revenu national brute)
-vab (Valeur ajoutée brute au coût des facteurs)
Source R, 2017
Master 2Source
En Méthodes Statistiques Et Econométriques
R, 2017
Analyse Des Données
Interprétation
Avec une contribution significative (CTR), les points variables explicatifs de l’axe 1 sont
à la fois répertoriées dans la première colonne du tableau précédent et représentés
dans le diagramme en battons de contribution à l’axe 1. En effet, il s’agit celles qui ont
participé pleinement à la formation de la première composante principale. Pour être
encore plus rigoureux et fournir une information fiable, il suffit de lire les critères des
aides à l’interprétation :
35 : Page
1) et donc exprime par ailleurs, une meilleure bonne qualité de représentation ou une
forte contribution relative (Voir annexe cos²) sur cet axe.
En effet, les coordonnées de ces variables sont assez proches de 1. L’angle formé par
les variables avec l’axe 1 voisine la valeur nulle 0. Or cosinus de 0 donne 1 ce qui
explique, tout simplement leur qualité de représentation sur cet axe.
AXE 2 :
Tableau 8 : Contributions des variables à l’axe 2 :
- axe1 + axe1
-pib.h (PIB par habitant)
Source R, 2017
36 : Page
Interprétation
En ce qui concerne pour l’axe 2, les variables étudiés pour la dimension 1 sont par
contre mal représenté sur cet axe. En effet leurs coordonnées sur l’axe 2 sont assez
proche de 0, ce qui veut dire que leurs qualités de représentations sur l’axe 2 est
mauvaise (car coordonné au carré est égal au cosinus au carré sur l’axe).
En revanche, les points variables parlants pour l’axe 2 sont les pib par habitant ;
l’espérance de vie ; et l’installation d’assainissement améliorés comme le montre le
diagramme en bâton des contributions des variables pour l’axe 2. Il s’agit des variables
fortement corrélé et bien représenté sur l’axe 2 (coordonnées assez proche de 1).
Conclusion :
En dernier lieu, en s’intéressant au plan factoriel (axes 1 et 2) qui restitue près de 87%
de l’information ou de l’inertie total. Les points variables les plus captivants sur le plan
sont assez proche du cercle de corrélation et assez loin de l’origine. Le cercle de
37 : Page
Source R, 2017
38 : Page
Source R, 2017
Interprétation
De même, les individus contribuant le plus à la formation de l’axe 1 sont ceux dont les
coordonnées sur cet axe sont les plus élevées en valeur absolue. Pour repérer les
contributions significatives, on compare les valeurs de la colonne Dim.1, coordonnées
des individus, à la racine carrée de la première valeur propre √8.39=2.88, le signe
donnant le sens de contribution. On obtient :
- axe1 + axe1
-ZAF (Afrique du Sud)
-DZA (Algérie)
-EGY (Égypte)
-NGA (Nigéria
Source R, 2017
Figure 23 : Diagramme en barre des cosinus carré sur l’axe 1
39 : Page
Interprétation
Le tableau ci-dessus regroupe les points les plus parlants pour l’axe 1 comme l’Afrique
du Sud ; l’Algérie ; l’Egypte ; le Nigeria. Avec une contribution significative à la
formation de l’axe 1, ces individus statistiques ont aussi une qualité de représentation
remarquable sur le graphique du nuage direct.
Ainsi, il est clair que seuls, les individus mieux représentés seront interpréter grâce à
l’identification de contribution relative et absolue. On peut constater sur le graphique
les points coloriés d’orange au bleu avec variation de diamètre de disque afin d’illustrer
l’intensité de la qualité de la représentation de chaque point selon les dimensions.
Sous réserve, d’une bonne représentation, la proximité de deux individus sur un plan
factoriel est synonyme d’individus ayant un comportement similaire, c’est-à-dire ayant
des réponses presque pareilles aux variables.
40 : Page
compris entre 0.50 ; 0.80].
AXE 2 :
Pour repérer les contributions significatives des individus pour l’axe 2, il suffit de
comparer les valeurs de la colonne Dim.2, coordonnées des individus, à la racine
carrée de la deuxième valeur propre √2.04 = 1.42, le signe donnant le sens de
contribution. On obtient :
- axe1 + axe1
-SYC (Seychelles)
-MUS (Maurice)
-TUN (Tunisie)
-CPV (Cap Vert)
-BWA (Botswana)
Source R, 2017
41 : Page
Interprétation
Ils sont caractérisés par une coordonnée très élevée en valeur absolue et participent
à la formation de l’axe 2.
Les pays Seychelles ; Maurice ; Botswana ; Tunisie ; …etc. sont aussi bien représenté
sur l’axe 2.
Conclusion :
Enfin, sur le plan factoriel (axes 1 et 2) qui restitue près de 87% de l’information ou de
l’inertie total. Les points individus les plus captivants sur le plan sont assez loin de
l’individu moyen. En étudiant, leurs qualités de représentations sur ce plan, autrement
dit la somme de cosinus carré des points de deux axes. Elles voisinent la valeur 1 pour
les différents individus considérés, ce qui témoigne une meilleure qualité de la
représentation des points sur le plan 1 et 2 comme le montre le graphique ci-dessous :
42 : Page
Source R, 2017
Groupe A
43 : Page
Groupe C
Groupe B
Source R, 2017
Interprétation
L’étude à la fois des individus et variables est rendu possible grâce au relation de
dualité de deux graphes (nuage direct et dual). Les pays qui sont à proximités partage
le même profil en raison de valeurs presque similaires des variables. L’axe 1 oppose
les pays de groupe C à ceux des groupes A et B. Néanmoins, l’axe 2 oppose les pays
des groupes A à ceux de groupe B.
Les variables qui déterminent la croissance économique sont corrélés avec l’axe 1
alors que les déterminants de niveaux de vie sont corrélés avec l'axe 2 notamment pib
par habitant (en parité de pouvoir d’achat) ; l’Esperance de vie et l’accès des
assainissements améliorer.
En termes plus simples, selon l’axe 1, les pays du groupe C (Égypte, et Algérie) avec
le Maroc, l’Afrique du Sud et le Nigéria) sont marquées par une croissance
économique significatives contrairement au pays du groupe A (Somalie ;
Mozambique ; Guinée ; Soudan du Sud ; Sierra Leone) et B (Seychelles ; Maurice ;
Tunisie ; Gabon ; Cap Vert, Botswana et Guinée équatorial).
44 : Page
D’autre part, selon l’axe 2, les pays de groupes A (Somalie ; Mozambique ; Guinée ;
Soudan du Sud ; Sierra Leone) sont caractérisés par un niveau de vie déplorable en
2014 contrairement au pays de groupe B (Seychelles ; Maurice ; Tunisie ; Gabon ; Cap
Vert, Botswana et Guinée équatorial).
Une pratique courante, lorsque l’on procède à une analyse factorielle, est de
considérer des variables ou des individus comme ILLUSTRATIFS (ou
« supplémentaires »), ce qui consiste à ne pas s’en servir pour les calculs des
composantes principales mais à les conserver au chaud pour les placer ensuite parmi
les résultats. Cette opération ne relève pas d’un ostracisme éhonté mais obéit au
contraire à de louables préoccupations.
45 : Page
Source R, 2017
Interpretation
46 : Page
Source R, 2017
Interprétation
Les individus mise en supplémentaire sont les pays suivants Djibouti ; Somalie ; Tchad
et l’Erythrée. En effet, ces observations présentaient beaucoup des valeurs
manquantes, la correction par imputation à la médiane a permis leur conservation dans
l’analyse de l’ACP. Malgré l’apurement de jeu de données ces individus statistiques
sont mal représentés sur le plan.
47 : Page
Source R, 2017
Interprétation
- Enfin, les pays avec une mauvaise qualité des infrastructures portuaires
se concentrent au centre.
En général, on peut dire que nous avons trois groupes des pays en matière
d’infrastructures portuaires.
48 : Page
Source R, 2017
Interprétation
L’étude des observations (ici les 53 pays de l’union africaine) selon le Classement de
la politique sur la dette par l’EPIN (cpd). On observe les individus originaux (assez loin
de l’individu moyen) se caractérisent par un politique élevé sur la gestion de dette (ces
49 : Page
Source R, 2017
Interprétation
L’étude des observations (ici les 53 pays de l’union africaine) selon Classement de la
qualité de l’administration publique par l’EPIN (cap). On observe les individus originaux
(assez loin de l’individu moyen) qui se caractérisent par une qualité de l’administration
publique élevé à savoir le Nigeria, qui rejoint les pays avec une qualité des
administrations publiques très élevé.
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
Conclusion :
En résumé comme nous avons déjà étudié le test de Chi Deux entre ces variables,
plus le pays n’est en croissance économique et plus le classement de la politique de
la dette, de la qualité de l’administration publique et la de la qualité des infrastructures
portuaires (pour les pays concernés) sont très améliorés.
L’analyse en composante principales focalisé est aussi une autre variante de l’ACP
classique et s’intéresse à expliquer un phénomène observé ou aléatoire dans une
population. Dans notre exemple, on souhaite s’attacher à expliquer le revenu national
50 : Page
brut des pays africains.
Source R, 2017
INTERPRETATION
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
51 : Page
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.387e+08 6.184e+08 -1.033 0.307129
dcm 9.478e-01 1.732e-02 54.731 < 2e-16 ***
ebs 4.767e-01 1.661e-01 2.870 0.006234 **
fbcf 8.326e-01 1.254e-01 6.639 3.51e-08 ***
dcp 7.619e-01 1.984e-01 3.840 0.000382 ***
ibs -5.405e-01 1.477e-01 -3.661 0.000658 ***
epb 4.315e-01 8.312e-02 5.191 4.86e-06 ***
prp 7.435e-01 4.790e-01 1.552 0.127636
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Source:R, 2017
Interprétation :
Dans ce modèle linéaire multiple, on peut voir que les variables significativement
associés au revenu national brut dans l’analyse focalisé expliquent 99,93% de la
variabilité de ce variable, autrement-dit, elles ont un impact significatif sur la variable
endogène (RNB).
Par ailleurs, le test de student affirme que les variables explicatives sont significatives
au seuil de 1% à l’exception de prp. On étudiant la significativité globale du modèle à
l’aide du test de Fisher, on peut affirmer au seuil de risque de 1% que le modèle est
globalement significatif.
52 : Page
notamment la matrice des distances.
Source R, 2017
On voit sur le graphique trois différents saut d’inertie autrement dit 2 classes, 5 et 8
classes représentés ci-dessus respectivement en vert, rouge et bleu.
53 : Page
Source R, 2017
Interprétation
54 : Page
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
55 : Page
Cluster 4 Cluster 5
Cluster 3
Cluster 1
Cluster 2
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
56 : Page
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
Interprétation
Nous avons cinq profils des pays qui se ressemblent notamment comme le montre la
répartition sur le plan factoriel des classes des individus. Le Nigeria forme un groupe
57 : Page
à lui seul ; l’Afrique avec l’Algérie et l’Égypte se ressemblent. L’Angola et la Maroc
partage presque les mêmes profils et donc constitue une classe. Les 8 pays de
l‘UEMOA se regroupe et forme un grand groupe avec d’autre pays. Les pays comme
Seychelles ; la Tunis ; le Maurice ; Le Gabon ; Le Guinée Equatorial ; le Botswana et
le Cap Vert constitue à leur tour un groupe de pays homogène entre eux.
De même, pour les variables, le partitionnement des variables sur la base des
corrélations.
58 : Page
Cluster 1 Cluster 2
Cluster 3
Source R, 2017
Interprétation
En analyse en composantes principales, nous avions vu que les variables esp ;
pib.h, et iaa étaient bien corrélées avec l’axe 2. Dans cette représentation de
dendrogramme, elles forment une classe de trois variables.
En ce sens, nous pouvons d’avantage étudier la liaison linéaire les plus proche entre
les variables de façon graphique notamment : les variables ‘dcp’ ; ‘ebs’ ;’ibs’
constituent aussi un groupe de variables et sont corrélées négativement avec l’axe 1.
Enfin les variables ‘dcm’ ; ‘rnb’ ; ‘vab’ ; ‘prp’ ; ‘epb’ ; ‘fbcf’ sont fortement corrélés
entre elles. On observe en tous trois classes des variables.
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
SYNTHESE :
L’analyse statistique univariée nous a été très utile pour observer variable par variable
en leurs caractéristiques de postions et de dispersions. A travers duquel l’on est amené
à centré et réduire nos données avant l’analyse multivariées.
L’essentiel dans l’analyse statistique bivariée dans notre exemple nous a facilité
d’appréhender la notion de l’intensité de liaison linéaire entre les variables
quantitatives et d’autre part entre variables qualitatives. Le coefficient de corrélation,
appuyé avec le test de corrélation permet d’entrevoir la représentation du cercle de
59 : Page
corrélation et la classification ascendante hiérarchique des variables.
En ce qui concerne l’axe 2, les variables de Pib par habitant, l’Esperance de vie et
l’accès de la population à l’assainissement améliorer ont permis de donner une
signification au deuxième axe. En effet leurs coordonnées ; corrélation, contribution et
qualités de représentations sont élevé et assez proche de 1. L’axe 2 détermine en ce
sens la qualité de niveau de vie des pays africains.
En revanche, les pays comme Djibouti, Somalie, Souan du Sud sont opposés au
groupes de pays précédents : autrement-dit on signale une difficulté de croissance
économique dû vraisemblablement aux guerres civiles ; au manque des
ressources…etc.
60 : Page
Les individus statistiques au centre du graphique sont considérables, leurs
interprétations risquent d’être erronées ou inopérants. Cependant, les pays comme
Seychelles ; Maurice ; Tunis ; Botswana ; Cap Vert, Congo République Démocratique
sont bien repentes sur l’axe 2. Ils sont caractérisés par un niveau de vie élevé (Pib. H
espérance de vie, accès installation d’assainissement améliorer élevés pour vérifier il
suffit de revoir les informations de jeu de données).
En dernier lieu, l’étude des modalités des variables qualitatives vient en appui les
interprétations des sorties de l’analyse en composantes principales.
Conclusion :
En général, les études des pays du continent africain ont fait preuve l’existence de
trois profils bien distingue en ce qui se rapporte à la croissance économique de l’union
africaine en 2014.
61 : Page
53 pays de l‘Afrique retenus comme suit :
D’autre part, la classification des variables rétablie les informations déjà connus à partir
de la corrélation et des graphiques des corrélations des variables. On peut aussi
regrouper ensemble les deux dernières familles des variables (voir figure 37).
ANNEXE
Figure 39 : représentation juxtaposées des individus et
variables selon le Classement de la politique sur la dette
62 : Page
Source R, 2017
63 : Page
Source R, 2017
Figure 41 : Représentation des individus illustratifs
64 : Page
Source R, 2017
65 : Page
Figure 45 : Dispersion de l’espérance de vie en Afrique
66 : Page
Source R, 2017
67 : Page
Source R, 2017
Source R, 2017
68 : Page
Source R, 2017
Source R, 2017
69 : Page
CIV Côte d'Ivoire
DJI Djibouti
EGY Égypte, République arabe d’
ERI Érythrée
ETH Éthiopie
GAB Gabon
GMB Gambie
GHA Ghana
GIN Guinée
GNQ Guinée équatoriale
GNB Guinée-Bissau
KEN Kenya
LSO Lesotho
LBR Libéria
MDG Madagascar
MWI Malawi
MLI Mali
MAR Maroc
MUS Maurice
MRT Mauritanie
MOZ Mozambique
NAM Namibie
NER Niger
NGA Nigéria
UGA Ouganda
CAF République centrafricaine
RWA Rwanda
STP Sao Tomé-et-Principe
SEN Sénégal
SYC Seychelles
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
70 : Page
Tableau 12: Libellé des variables
Codes Variables
dcm Dépenses de consommation finale des ménages ($ US courants)
Dépenses de consommation finale des administrations publiques ($ US
dcp courants)
epb Épargne brue ($ US courants)
ebs Exportations de biens et de services (BDP, $ US courants)
fbcf Formation brute de capital fixe ($ US courants)
ibs Importations de biens et de services (BDP, $ US courants)
prp Paiements de revenus primaires (BDP, $ US courants)
pib.h PIB par habitant, ($ PPA internationaux courants)
rnb RNB ($ US courants)
vab Valeur ajoutée brute au coût des facteurs ($ US courants)
iaa Installations d’assainissement améliorées (% de la population y ayant accès)
esp Espérance de vie à la naissance, total (années)
Qualité de l’infrastructure portuaire, FEM (1 = extrêmement sous-développée à
qip 7 = bien développée et efficace selon les standards internationaux)
Classement de la qualité de l’administration publique par l’EPIN (1=faible et
cap 6=élevée)
cpd Classement de la politique sur la dette par l’EPIN (1=faible et 6=élevée)
Dim.1 Dim.2
dcm -0.9255150 0.19397287
dcp -0.9352302 -0.03603834
epb -0.9306106 0.09993320
ebs -0.9585881 0.02178162
fbcf -0.9622451 0.04097850
ibs -0.9649853 -0.00403470
prp -0.9529127 0.09548479
pib.h -0.2869807 -0.76081565
rnb -0.9733648 0.15209293
vab -0.9461369 0.16663868
iaa -0.3802459 -0.84638685
71 : Page
esp -0.1908922 -0.79498388
PC1 PC2
dcm 0.85657805 0.0376254729
dcp 0.87465544 0.0012987617
epb 0.86603615 0.0099866447
ebs 0.91889107 0.0004744392
fbcf 0.92591559 0.0016792375
ibs 0.93119657 0.0000162788
prp 0.90804263 0.0091173458
pib.h 0.08235789 0.5788404575
rnb 0.94743911 0.0231322607
vab 0.89517505 0.0277684487
iaa 0.14458691 0.7163706948
esp 0.03643984 0.6319993684
72 : Page
0.6713072329 2.971240e-01 3.336639e-01 6.076849e-01
BDI 1.45457570 0.389627503 0.6505327086 4.667622e-02 4.759637e-01 1.405249e-01
CMR 0.59294370 0.371528840 0.3282000558 1.288537e-01 7.909119e-02 1.277730e-01
COM 1.20572213 0.072533794 0.7871210835 2.848576e-03 3.270361e-01 4.870066e-03
COD 0.51916066 0.817678961 0.2370501374 5.880338e-01 6.063240e-02 6.188988e-01
COG 1.03857210 0.222416156 0.5591640159 2.564476e-02 2.426468e-01 4.579169e-02
CIV 0.86550997 1.299768417 0.2345451245 5.289495e-01 1.685176e-01 1.563817e+00
DJI 1.13514828 -0.207015436 0.7648846633 2.543878e-02 2.898721e-01 3.966975e-02
EGY -6.79904032 -1.293126877 0.8754820301 3.166899e-02 1.039912e+01 1.547876e+00
ERI 1.08131511 0.391226492 0.5549775605 7.264862e-02 2.630303e-01 1.416806e-01
ETH 0.25161791 0.372630453 0.0400627739 8.786473e-02 1.424244e-02 1.285318e-01
GAB 0.64646382 -1.484655421 0.0957659564 5.050961e-01 9.401338e-02 2.040353e+00
GMB 1.15103253 -0.276715069 0.5325177446 3.077687e-02 2.980413e-01 7.087934e-02
GHA 0.13376686 0.619157385 0.0167311475 3.584518e-01 4.025300e-03 3.548593e-01
GIN 1.29244812 0.858910030 0.6756047309 2.983746e-01 3.757746e-01 6.828878e-01
GNQ 0.32198220 -2.768662084 0.0052012663 3.845787e-01 2.332195e-02 7.095678e+00
GNB 1.35085432 1.021407910 0.6112271198 3.494492e-01 4.105048e-01 9.657227e-01
KEN -0.21886743 0.071315389 0.0447162313 4.747549e-03 1.077615e-02 4.707827e-03
LSO 1.51423490 0.970650252 0.5683178859 2.335234e-01 5.158076e-01 8.721267e-01
LBR 1.47742439 0.722937060 0.7160225117 1.714420e-01 4.910342e-01 4.837879e-01
MDG 1.20108916 0.496739330 0.4890399649 8.364711e-02 3.245277e-01 2.284079e-01
MWI 1.32353016 0.102582331 0.8316971918 4.996233e-03 3.940659e-01 9.740901e-03
MLI 1.19599716 0.890746114 0.6272151672 3.479078e-01 3.217818e-01 7.344494e-01
MAR -2.95546776 -1.929490788 0.5836624810 2.487681e-01 1.964960e+00 3.446192e+00
MUS -0.05876958 -3.552627033 0.0002356624 8.611611e-01 7.769739e-04 1.168297e+01
MRT 1.22043408 -0.185349462 0.9197223546 2.121342e-02 3.350656e-01 3.180070e-02
MOZ 0.98501071 1.051771813 0.4370027910 4.982478e-01 2.182645e-01 1.023993e+00
NAM 0.85334365 -0.514641280 0.5157192625 1.875749e-01 1.638133e-01 2.451677e-01
NER 1.25797723 1.077355772 0.5333219776 3.911670e-01 3.559974e-01 1.074416e+00
NGA -12.48936420 3.695908084 0.8761719776 7.672750e-02 3.508988e+01 1.264435e+01
Master 2 En Méthodes Statistiques Et Econométriques
Analyse Des Données
73 : Page
TUN -0.85258465 -2.903576560 0.0707740700 8.208536e-01 1.635220e-01 7.804060e+00
ZMB 0.42751969 0.034012455 0.5176197120 3.276231e-03 4.111625e-02 1.070853e-03
ZWE 1.05824218 0.377856967 0.7767814593 9.903383e-02 2.519250e-01 1.321627e-01
CPV 1.08831392 -1.986652617 0.1818105595 6.058353e-01 2.664462e-01 3.653406e+00
74 : Page
Tableau 20 : Modalités ces variables qualitatives illustratives
Dist Dim.1 cos2 v.test Dim.2 cos2 v.test Dim.3 cos2 v.test
BD | 1.731 | 1.343 0.602 1.986 | 1.060 0.375 2.562 | -0.071 0.002 -0.387 |
D | 0.598 | -0.484 0.654 -1.649 | -0.326 0.296 -1.816 | -0.003 0.000 -0.036 |
SD | 0.384 | 0.011 0.001 0.016 | -0.148 0.149 -0.358 | 0.079 0.042 0.431 |
E | 0.904 | -0.632 0.488 -0.753 | 0.232 0.066 0.451 | 0.590 0.426 2.593 |
F | 0.967 | -0.369 0.145 -0.717 | -0.880 0.827 -2.795 | 0.060 0.004 0.432 |
M | 0.626 | 0.383 0.374 1.200 | 0.445 0.505 2.280 | -0.194 0.096 -2.239 |
E1 | 1.131 | 0.997 0.776 2.873 | 0.521 0.212 2.454 | -0.117 0.011 -1.245 |
F1 | 1.121 | -1.023 0.833 -1.319 | -0.424 0.143 -0.894 | 0.171 0.023 0.812 |
M1 | 1.213 | -1.055 0.756 -1.149 | -0.555 0.209 -0.988 | -0.021 0.000 -0.086 |
TE | 1.132 | -0.940 0.690 -1.391 | -0.577 0.260 -1.396 | 0.157 0.019 0.857 |