Abd-Basid ADAN

Analyse Des Données
Université de Cheik Anta Diop de Dakar
1 : Page
Faculté des sciences économiques et de gestion (FASEG)
Centre de recherche et de formation pour le développement

Economique et social (CREFDES)
Projet D’analyse Des Données

Professeur PAPA NGOM
Master II en Méthodes Statistiques et Econométriques (MSE)

2016-2017
Réalisé par :
Abdi-Basid IBRAHIM
Abdi-Basid ADAN ADAN
Hawa DIENG
Adresse : 45753 Dakar-Fann, Km1 Avenue Cheikh Anta Diop,

Dakar 45753 Téléphone : 33 864 55 28
Master 2 En Méthodes Statistiques Et Econométriques

Tables des Matières
Liste des tableaux……………………………………………………..…………………………………………………………………………………….…………………..3

Liste des figures……………………………………………………………..……………………………………………………….............................................................4
Liste des sigles et abréviations ………………………………………………………………..……………………………..…………………………………...5
Introduction………………………………………………………..…………………………………..……………………………………………………………………………...6
A) Description de jeu de donnée ……………………..........…..........…..........…..................…..........…..........…..........…..........…..................7
I- Présentation des variables et des observations ........... ………………………………………………………………...7
2 : Page
II- Nettoyage de jeu de données………………………………………………………………..7
B) Etudes Statistiques par variable………………………………………………………………..…11
I- Analyse Statistique des variables quantitatives.……………..…………….……………..11
II- Analyse Statistique des variables qualitatives.……………..…..………….……………..15
C) Etudes Statistiques des liaisons entre deux variables……………………………………….17
I- Analyse Statistique Bivariée..………………………………………………………………17
II- Tests de significativités de liaisons.....……………………………………… ……………22
D) Etudes Statistiques Multidimensionnelles………………………………………………………24
I- Analyse en Composantes Principales …………………………………………....……….24
II- Analyse en Composantes Principales Focalisées….…………………………………….50
E) Classifications des individus et variables……………………………..………………… ..……52
I- Classification Ascendante Hiérarchique des individus…………..…………………...….52
II- Classification Ascendante Hiérarchique des variables………………………..…………58
Conclusion…………………………………………..…………………..……………………………………………………………………………..………………………...…61
Annexe…………………………………………………………………………..……………………………………………………………………………..……………………… 62

Listes des tableaux et sigles d’abréviations


⟹ Liste des tableaux
Tableau 1 : Eléments de Statistiques Descriptives des Variables
Tableau 2 : Matrice de corrélation de Pearson des variables quantitatives
Tableau 3 : Matrice de corrélation de Kendall des variables quantitatives
Tableau 4 : Matrice de corrélation de Spearman des variables quantitatives
Tableau 5 : Valeurs propres de la diagonalisation de la matrice de corrélation
3 : Page
Tableau 6 : Erreur commise lors de la représentation sphérique de la matrice de
corrélation
Tableau 7 : Contributions des variables à l’axe1
Tableau 8 : Contributions des variables à l’axe 2 :
Tableau 9 : Contributions des individus à l’axe 1
Tableau 10 Contributions des individus à l’axe 2
Tableau 11: Pays membres de l’Union africaine
Tableau 12: Libellé des variables
Tableau 13 : Coordonnées des variables
Tableau 14 : Cosinus carrés des variables
Tableau 15 : Vecteur Propres
Tableau 16 : Coordonnées, cosinus carré et contribution des individus
Tableau 17 : Individus Supplémentaires
Tableau 18 : Variables Supplémentaires
Tableau 19 : Variables Continues Supplémentaires
Tableau 20 : Modalités ces variables qualitatives illustratives

⟹ Liste des figures

Figure 1 : Représentation de la part des valeurs manquantes
Figure 2 : Boîte à moustache des variables quantitatives
Figure 3 : Boite à moustache de quelques variables
Figure 4 : Histogramme et Densités de quelques variables
Figure 5 : Digramme en bande de Classement de la politique sur la dette en Afrique
Figure 6 : Camembert de Classement de la politique sur la dette en Afrique
Figure 7 : Graphique de régression partielle entre dcm & dcp
Figure 8 : Graphique de corrélation de tous les variables (circulaire)
Figure 9 : Graphique en paires des variables quantitatives
4 : Page
Figure 10 : Graphique des corrélations des variables quantitatives (rectangulaire)
Figure 11 : Graphique de comparaison des boites de données
Figure 12 : Graphique des Scree plot de valeurs propres
Figure 13 : Graphique des éboulis des valeurs propres
Figure 14 : Nuage des points variables (cercle de corrélation)
Figure 15 : Représentation Sphérique d’une matrice de corrélation
Figure 16 : Représentation Sphérique d’une matrice de corrélation sur un axe de 55
degrés
Figure 17 : Représentation Juxtaposés des variables et individus en 3D
Figure 18 : Cercle de corrélation du plan axe 1 et axe 2
Figure 19 : Contributions des variables à l’axe 1
Figure 20 : Diagramme en barre des contributions des variables à l’axe 2
Figure 21 : Diagramme en barre de qualité de la représentation
Figure 22 : Projections des individus sur le plan 1 et 2
Figure 23 : Diagramme en barre des cosinus carré sur l’axe 1
Figure 24 : Diagramme en barre des cosinus carré des individus à l’axe 2
Figure 25 : Diagramme en barre des cosinus carré des individus sur le plan 1 et 2
Figure 26 : graphique juxtaposées variables et individus
Figure 27 : Variables illustratives sur le plan axe 1 et 2
Figure 28 : Individus supplémentaires sur le plan axe 1 et 2
Figure 29 : Habillage des observations par la Variable qualitative illustrative (qip)

Figure 30 : Habillage des observations par la variable qualitative illustrative (cpd)
Figure 31 : Habillage des observations par la Variable illustrative (cap)
Figure 32 : Représentation du cercle de corrélation de L’ACP Facolisée
Figure 33 : Saut d’inertie du dendrogramme
Figure 34 : Critère BIC Pour le choix de nombre classe
Figure 35 : Dendrogrammes des individus
Figure 36 : Dendrogramme des individus
Figure 37 : Répartition des groupes des individus sur le plan factoriel
Figure 38 : Dendrogramme des variables
5 : Page
Figure 39 : représentation juxtaposées des individus et variables selon le Classement
de la politique sur la dette
Figure 40 : Qualité de représentations des individus
Figure 41 : Représentation des individus illustratifs
Figure 42 : Représentation des individus selon les variables de la qualité de niveau de
vie pib.h, iaa et esp :
Figure 43 : Représentation en ellipse des nuages dual et direct
Figure 44 : double représentations des corrélations des variables
Figure 45 : Dispersion de l’espérance de vie en Afrique
Figure 46 : Dendrogramme circulaire des pays de l’union africaine
Figure 47 : Graphique résidu et valeurs estimés de la régression
Figure 48 : Graphique des résidus standardisés
Figure 49 : Graphique des résidus standardisés et réduites
Figure 50 : Graphique de distance de Cook des résidus standardisés
⟹ Liste des sigles et abréviations

P-value : probabilité critique ou seuil nominale
PCA : Analyse en composantes principales
Eig : Valeur propres ‘eigen value’
Clust : Groupes ou classes

INTRODUCTION
L'Union africaine (UA) est une organisation d'États africains créée en 2002,
à Durbanen en Afrique du Sud. En application de la déclaration de
Syrte du 9 septembre 1999. Elle a remplacé l'Organisation de l'unité africaine (OUA).
La mise en place de ses institutions (Commission, Parlement panafricain et Conseil
de paix et de sécurité) a eu lieu en juillet 2003 au sommet de Maputo au Mozambique.
6 : Page
Les objectifs de l'UA comportent la création d'une banque centrale de
développement. Le PIB nominal des États membres de l'Union africaine s'élevait à 1 627
milliards de dollars. Le PIB en parité de pouvoir d'achat de l'Union africaine s'élevait à 2 849
milliards de dollars, la plaçant à la sixième place mondiale, après l'Allemagne 64,65,66.
Les objectifs futurs de l'Union africaine comportent notamment la création

d'une zone de libre-échange, d'une union douanière, d'un marché unique, d'une
banque centrale et d'une monnaie commune établissant ainsi une union économique
et monétaire. Les projets actuels consistent à établir une Communauté économique
africaine avec une monnaie commune d'ici à 2023. Il y a actuellement 55 membres de
l'UA après la réintégration du Maroc le 30 janvier 2017, soit tous les pays d'Afrique à
l'exception du Somaliland (qui n'est reconnu par aucun État).
Dans le cadre de notre exemple, nous cherchons à décrire les différents profils
en matière des progrès économiques réalisés par les pays de l’union africaine en 2014
et leurs impacts dans leurs sociétés.

A) Descriptions de jeu de données
I- Présentation des variables et des observations
Le jeu de données que nous étudions provient de la plate-forme de la banque

mondiale. Cette base est composée de 55 pays membres de l’Union africain à
l’exception de la Lybie (donnée indisponible) et de Sahara occidental (pays non
reconnu par l’ONU mais membre à part entière dans l’Union Africaine).
En effet, plusieurs variables ont des données manquantes en 2014 sur ces
certaines observations. Les données sont à la fois quantitatives et qualitatives,
7 : Page
parmi les 15 variables, 3 sont qualitatives. On vise alors plusieurs
caractéristiques d’un pays notamment : sa politique économique ; sa dette ; son
environnement ; secteur financier ; pauvreté ; secteur privé & échanges et
secteur public...etc.
Ainsi, la description de toutes les variables et tous les individus sont disponibles
dans la partie annexe (page 70).
II- Nettoyage de jeu des données
L’apurement de la base est une étape non négligeable, qui vient juste avant
l’analyse statistique de données, elle consiste à nettoyer le jeu de donnes de
plusieurs informations malveillantes afin de veiller la fiabilité des interprétations.
Il est donc capital d’identifier au préalable les données aberrantes (ou
atypiques) et les données manquantes.
1. Données aberrantes (extrême ou atypiques)
En statistique, une donnée aberrante est une valeur ou une observation qui est
"distante" des autres observations effectuées sur le même phénomène, c'est-à-
dire qu'elle contraste grandement avec les valeurs "normalement" mesurées. Ils
peuvent prendre plusieurs formes, parmi lesquelles :
 données catégorielles
 données positives
 valeur extrême de probabilité faible
Dans ce cas de données issues d’une distribution continue multivariée, on peut

repérer ces informations fallacieuses par projection sur un sous espace (ACP,
ACP non linéaire) ou éventuellement par classification (présence se classe
d’effectif très faible). On doit alors considère les données correspondantes
comme des données manquantes.
Remarque : il est parfois difficile de savoir si une donnée est aberrante ou atypique.
8 : Page
2. Données manquantes (NA)
On parle de valeur manquante lorsqu’on n’a pas d’observations pour une variable
donnée pour un individu donné. Le problème de la gestion des données manquantes
est un vaste sujet. Ils ne peuvent pas être ignorés lors des analyses statistiques. Mais
selon leurs proportions et leurs types, des solutions différentes vont être choisies.
Concernant leurs types, il existe trois catégories de données manquantes :
 On dit que les données manquantes sont complètement aléatoires (Missing completely
at Raandom (MCAR)), si la probabilité qu’une observation soit manquante ne dépend
pas de mesures observées ou non observés. En termes mathématiques, cela s’écrit :
𝑃(𝑟|𝑥𝑜𝑏𝑠 , 𝑥𝑚𝑖𝑠𝑠 ) = 𝑃(𝑟), ou r représente la réponse, on dit parfois que le non réponse
est repartie uniformément.
 Les données manquantes sont aléatoires (Missing at Random (MAR)), si sachant les
données observées, le mécanisme de non réponse ne dépend pas de non observer.
𝑃(𝑟|𝑥𝑜𝑏𝑠 , 𝑥𝑚𝑖𝑠𝑠 ) = 𝑃(𝑟|𝑥𝑜𝑏𝑠 )
 Les données manquantes ne sont pas aléatoires (Missing Not at Random (MNAR)), si
les raisons pour lesquelles les données sont manquantes dépendent des données
manquantes d’elles-mêmes.

Remarque :
- Malheureusement, on ne peut souvent pas dire, à partir des données quel est
le mécanisme des manques.
- On exige généralement, le recours à des corrections des valeurs manquantes

(NA) lorsque la proportion de NA de l’échantillon est supérieur à 5%.
Sur le 100% d’information que le jeu de données que nous nous apprêtons à analyser, 16,48%
correspond à des valeurs manquantes et 83.52% des valeurs disponibles comme nous montre
le graphique ci-dessous :
Figure 1 : Représentation de la part des valeurs manquantes
Source R ; 2017 9 : Page
 Interprétation
La part de données manquantes est largement au-dessus du seuil de 5%, nous allons donc
faire appel à une méthode de correction de valeur non disponible (NA) avant de pouvoir mener
les analyses statistiques.

3. Méthodes d’apurement de la base
3.1. Méthode de suppression
Le scénario de suppression des valeurs manquantes consiste à retirer les variables

ou les individus présentant des données manquantes ou imputer des valeurs au
données manquantes ou encore de développer des méthodes (ou algorithme) qui
permettent de mener les analyses en présence de données manquantes.
3.2 Méthode d’imputation par la moyenne ou la médiane
Les méthodes d’imputations les plus simples consistent à remplacer les données
manquantes par leur moyenne ou leur médiane. L’inconvénient de cette approche est
10 : Page
qu’elle conduit à une sous-estimation parfois violente de la variance des estimateurs.
3.3 Méthode d’imputation par tirage conditionnel
On peut améliorer l’idée de l’imputation par la moyenne en réalisant par tirage

conditionnel. Le principe est d’utiliser l’information apportée par les variables
renseignées. Plusieurs approches sont possibles :
 Estimer la loi jointe et générer conditionnellement une réalisation

 Réaliser une classification à partir des variables complétement renseignées
conditionnelle par classe.
 Construire un modèle de régression à partir des individus complétement renseigné
pour prédire les données manquantes
Dans façon générale, il est préférable de faire de l’imputation multiple, l’idée est de
réaliser plusieurs tirages et de repérer les analyses pour prendre en compte et rétablir
la variable sous-jacente à l’absence de données. L’usage optimal est de réaliser Cinq
tirages.
3.4 Méthode d’imputation par analyse factoriel
L’analyse en composante factorielle permet de reconstruire des données par

projections dans un espace de dimension réduite. Cette caractérisation peut être
exploitée pour remplacer des données manquantes. L’approche la plus naïve consiste

à estimer la matrice de covariance à partir des individus renseignés puis d’estimer les
paramètres de l’analyse en composante principales et enfin reconstruire les données.
Le choix de l’apurement de jeu de données se fera dans notre projet par imputation de
la médiane. En effet, ce dernier est un indicateur avantageux par rapport à la moyenne
car il est invariant ou robuste aux valeurs extrêmes (ou atypiques) de certains
individus.
11 : Page
B) Etudes statistiques par variable
I. Analyse Statistique des variables quantitatives
Il nous faut à présent traiter un ensemble de données. Tout naturellement, cela

commence par les organiser, les regarder, les représenter graphiquement, regrouper
celles qui se ressemblent. Elaborer les moyens de rassembler l'information sous une
forme aisée à manipuler et à communiquer...etc. En général faire appel aux outils et
méthodes de la statistique descriptive notamment les caractéristiques de positions
(médiane, moyenne, les quartiles, les déciles…etc.) ; de dispersions (intervalles
interquartiles ; variance ; écart types) ; d’aplatissement et d’asymétrie...etc.

Tableau1 : Eléments de Statistiques Descriptives des Variables
Minimum Maximum Médian Moyenne Ecart Type Coef.Var. Dispersion

dcm 6,25E+08 4,08E+11 8,51E+09 3,11E+10 6,98E+10 2,24 Homogène
dcp 91130000 7,27E+10 2,44E+09 6,64E+09 1,32E+10 1,99 Homogène
epb -1,25E+09 1,26E+11 2,64E+09 9,22E+09 2,26E+10 2,45 Homogène
ebs 87160000 1,09E+11 4,47E+09 1,19E+10 2,17E+10 1,83 Homogène
fbcf 1,19E+08 8,58E+10 3,82E+09 1,01E+10 1,87E+10 1,86 Homogène
ibs 2,29E+08 1,16E+11 7,83E+09 1,51E+10 2,34E+10 1,55 Homogène
prp 5815000 2,06E+10 563000000 1,82E+09 3,94E+09 2,17 Homogène
pib.h 633,9 32860 2807 5499 6707 1,22 Homogène
rnb 3,54E+08 5,49E+11 1,28E+10 4,52E+10 9,78E+10 2,17 Homogène
vab 3,31E+08 5,62E+11 1,37E+10 4,33E+10 9,68E+10 2,23 Homogène
iaa 6,7 98,4 32,1 39,09 25,1 0,64 Homogène
12 : Page
esp 50,59 75,64 60,95 61,73 6,301 0,10 Hétérogène
Sources R, auteur, 2017
 Interprétation :
Le tableau ci-dessus synthétise quelques paramètres intéressants de la statistique
descriptive à savoir le minimum, le maximum ; la moyenne ; la médiane ; l’écart type
et le coefficient de variation...etc.
Pour chaque variable, on peut observer ses deux valeurs extrêmes comme le pib par
habitant qui varie entre 633,9 $ à 32 860 $ dans les pays de l’union africaine.
En effet, le coefficient de variation témoigne une homogénéité entre les observations
quand cet indicateur est supérieur à 50%. Par contre, la dernière variable ‘espérance
de vie à la naissance’ est la seule à être hétérogène (inférieur à 50%).

Figure 2 : Boîte à moustache des variables quantitatives
13 : Page
Source, R, Auteur, 2017
Les boites à moustaches permettent de visualiser plusieurs paramètres de de

dispersion et de position à la fois : le quartile 1 (25%) ; le quartile 3 (75%) ; la médiane
(50%), l’intervalle interquartile (75%) et la valeur maximale et minimale des variables
quantitatives. Nous pouvons avoir une idée de la tendance centrale en ce sens, si la
médiane n’est pas au centre, on peut juger la symétrie de la distribution (coefficient
d’aplatissement et d’asymétrie). Par la longueur de la boite, il est possible d’estimer la
variabilité des valeurs pour chaque sous-groupe. La longueur des « moustaches »
donne une idée de la taille de la queue de la distribution (lois de probabilités
statistiques). En dernier lieu, on comprend à travers cette représentation que nos
données ne sont pas de même ordre de grandeur notamment pour la variable
espérance de vie comparer revenu nationale brute.

Figure 3 : Boite à moustache de quelques variables
PIB/H iaa
14 : Page
On a représenté ici les boites à moustache de pib par habitant (pib/h) et la part de la
population ayant accès à l’installation d’assainissement amélioré (iaa). Ces graphiques
sont plutôt notchés autrement-dit les intervalles de confiance de la médiane sont aussi
représentés. Ils dénudent de manière graphique les informations sur le tableau de la
statistique élémentaire
Figure 4 : Histogramme et Densités de quelques variables
Histogramme des Histogramme des

importations des exportations des
biens et services biens et services

Le diagramme de dispersion (ici ’histogramme) des importations et des exportations

des biens et services des pays de l’union africains montre l’existence de deux groupe
des pays homogènes entre eux et hétérogènes entre groupe. La densité des variables
ne coïncide pas avec celle de loi gaussienne. Il faudrait alors recourir lors de la mesure
de liaison dans l’analyse bivariée à la corrélation de Kendall pour vérifier la fiabilité de
corrélation de Pearson.
II- Analyse Statistique des variables qualitatives
Il est essentiel aussi d’appréhender les variables qualitatives afin dénuder les profiles
15 : Page
des pays africains selon les modalités de ces variables. Dans notre exemple, il s’agit
les variables comme : la qualité des infrastructures portuaires ; de classement de la
politique de la dette et de la qualité de la gestion de l’administration publique.
Figure 5 : Digramme en bande de Classement de la politique sur

la dette en Afrique

Le Classement de la politique sur la dette en Afrique effectué par l’EPIN (1=faible et

6=élevée qui correspond au libellés E : élevée, F : faible ; M : moyen ; TE : très élevé)
représenté dans le graphique ci-dessus. On peut dire que la gestion de la politique de
la dette en Afrique est passablement gérée. Les pays ou leurs politiques sont très bien
gérer ne représente que 18%.
Figure 6 : Camembert de Classement de la politique sur la dette

en Afrique
16 : Page
18.87%
58.49%
22.64%
La Qualité de l’infrastructure portuaire des pays africains est représentée en

diagramme circulaire : D : développé ; SD : sous développé et BD : Bine développé.
Sur la totalité des infrastructures portuaire en Afrique, 58.49% sont développé où

améliorer ; 22,64% de ces infrastructures sous développé ou en mauvais qualités.
Tandis que quelques pays possèdent des infrastructures bien équipés avec une part
minoritaire de 18.87%.
C) Etudes Statistiques des liaisons entre deux variables

I. Analyse Statistiques bivariées (conjointe)
Dans le cas où l'on s'intéresse à deux variables simultanément, on met en œuvre la

statistique descriptive bivariée à savoir la matrice de corrélation, la droite de moindre
carré, le test de khi-deux, l’analyse de la variance, la régression…etc.
Tableau 2 : Matrice de corrélation de Pearson des variables

quantitatives
dcm dcp epb ebs fbcf ibs prp pib.h rnb vab iaa esp
17 : Page
dcm 1.00
dcp 0.79 1.00
epb 0.87 0.80 1.00
ebs 0.83 0.97 0.85 1.00
fbcf 0.85 0.91 0.95 0.92 1.00
ibs 0.85 0.98 0.84 0.98 0.92 1.00 0.91
prp 0.90 0.88 0.87 0.94 0.88 0.91 1.00
pib.h 0.13 0.26 0.19 0.24 0.23 0.24 0.24 1.00
rnb 0.98 0.86 0.93 0.90 0.93 0.91 0.94 0.18 1.00
vab 0.98 0.81 0.92 0.84 0.91 0.86 0.89 0.17 0.99 1.00
iaa 0.21 0.37 0.26 0.34 0.30 0.36 0.29 0.70 0.25 0.23 1.00
esp 0.03 0.21 0.12 0.15 0.19 0.20 0.06 0.41 0.07 0.06 0.66 1.00
source, R, Auteur, 2017
Tableau 3 : Matrice de corrélation de Kendall des variables
quantitatives
dcm 1.00 0.76 0.55 0.57 0.73 0.60 0.51 0.24 0.83 0.68 0.06 0.16
dcp 1.00 0.55 0.57 0.80 0.59 0.44 0.33 0.81 0.65 0.12 0.20
epb 1.00 0.72 0.63 0.66 0.64 0.27 0.59 0.55 0.13 0.15
ebs 1.00 0.58 0.89 0.76 0.26 0.64 0.63 0.10 0.12
fbcf 1.00 0.56 0.48 0.33 0.82 0.68 0.10 0.22
ibs 1.00 0.71 0.22 0.65 0.65 0.11 0.12
prp 1.00 0.27 0.55 0.56 0.15 0.13
pib.h 1.00 0.30 0.21 0.43 0.31
rnb 1.00 0.78 0.11 0.15
vab 1.00 0.02 0.11
iaa 1.00 0.31
esp 1.00
Tableau 4 : Matrice de corrélation de Spearman des variables

quantitatives
dcm 1.00
dcp 0.92 1.00
epb 0.70 0.69 1.00
ebs 0.73 0.71 0.85 1.00
fbcf 0.89 0.93 0.76 0.73 1.00
ibs 0.74 0.74 0.79 0.97 0.71 1.00
prp 0.66 0.59 0.77 0.89 0.64 0.83 1.00
pib.h 0.32 0.45 0.37 0.37 0.44 0.32 0.39 1.00
rnb 0.93 0.93 0.74 0.79 0.94 0.78 0.71 0.42 1.00
vab 0.79 0.80 0.70 0.77 0.81 0.78 0.69 0.29 0.86 1.00
18 : Page
iaa 0.08 0.19 0.17 0.15 0.14 0.14 0.22 0.60 0.15 0.03 1.00
esp 0.21 0.28 0.20 0.17 0.30 0.17 0.19 0.44 0.20 0.15 0.47 1.00
source, R, Auteur, 2017
Parmi les méthodes des calculs des coefficients de corrélation linéaire, il existe des
méthodes paramétriques et non paramétriques. En général, un coefficient de
corrélation en valeur absolue assez proche de 1 est dit fortement corrélés c’est le cas
entre la formation en capital fixe (fbcf) et le dépense de consommation de
l’administration publique (dcp).
Figure 7 : Graphique de régression partielle entre dcm & dcp

Le graphique de régression partielle (partial linéaire square) détermine une tendance

ellipsoidique (corrélation importante entre les deux dépenses en concurrence les
dépenses de ménage et celle de l’administration publique).
Figure 8 : Graphique de corrélation de tous les variables

(circulaire)
19 : Page
Le graphique ci-contre étudie la corrélation linéaire entre les variables sous forme
graphique. A l’intérieur de chaque cadran on observe un diagramme circulaire
représentant la part de la corrélation entre deux variables sur une barre de 1 (100%) :
plus le cercle est coloré en bleu (ou en rouge foncé) : plus le coefficient de corrélation
est proche de 1 en valeur absolue.

Figure 9 : Graphique en paires des variables quantitatives
20 : Page
La laissions linéaire entre deux variables quantitatives se traduit aussi par la

représentation de la régression entre elles : plus le nuage des points d’une variable se
regroupent autour d’une droite et plus la corrélation ne devient importante.

Figure 10 : Graphique des corrélations des variables quantitatives

(rectangulaire)
21 : Page
La particularité de ce graphique de corrélation est l’accompagnement des corrélations
entre les variables d’un dendrogramme (classification). Plus la corrélation est de rouge
foncé plus la corrélation linéaire est proche de 1. D’autre part, plus la corrélation n’est
de couleur bleu foncé et sa valeur est presque nul (pas de liaison linéaire).
L’interprétation des classifications des variables se fera dans la partie C des
classifications ascendantes hiérarchiques individus et variables.

II- Tests de significativités de liaisons

Dans cette section, on désire tester la significativité de la corrélation entre les variables
quantitatives et mener aussi le test de Chi deux pour les variables qualitatives.
-Test de corrélation entre dcm et dcp

Pearson's product-moment correlation
data: dcm and dcp

t = 9.0604, df = 51, p-value = 3.336e-12
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.6538819 0.8708077
22 : Page
sample estimates:
cor
0.7853694
𝐻0 : 𝑁𝑜𝑛 𝑐𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑐𝑚 𝑒𝑡 𝑑𝑐𝑝

{ 𝑐𝑜𝑛𝑡𝑟𝑒
𝐻1 : 𝐶𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑑𝑐𝑚 𝑒𝑡 𝑑𝑐𝑝
La probabilité critique associé au test de corrélation de Pearson est inférieure au seuil

de risque de 5%. On rejette alors l’hypothèse nulle d’indépendance entre les variables.
On conclue que les variables dcp et dcm sont bien corrélés (0.78 appartenant à
l’intervalle de confiance IC = [0.6538819 ; 0.8708077]).
-Test de corrélation entre fbcf et rnb

Pearson's product-moment correlation
data: fbcf and rnb

t = 17.626, df = 51, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8759641 0.9572961
sample estimates:
cor
0.9268175
𝐻0 : 𝑁𝑜𝑛 𝑐𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑓𝑏𝑐𝑓 𝑒𝑡 𝑟𝑛𝑏

𝐻1 : 𝐶𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑓𝑏𝑐𝑓 𝑒𝑡 𝑟𝑛𝑏
La probabilité critique associée au test de corrélation de Pearson est inférieure au seuil

En conclusion, les variables fbcf et rnb sont fortement corrélés (0.926 appartenant à
l’intervalle de confiance IC = [0.8759641 ; 0.9572961]).
-Test d’indépendance de Chi deux de Pearson entre cpd et cap
Pearson's Chi-squared test

data: cpd and cap
X-squared = 15.7184, df = 6, p-value = 0.01535
23 : Page
𝐻0 : 𝐼𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑐𝑝𝑑 𝑒𝑡 𝑐𝑎𝑝
𝐻1 : 𝐷é𝑝𝑒𝑛𝑑𝑛𝑎𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑐𝑝𝑑 𝑒𝑡 𝑐𝑎𝑝
La probabilité critique (0.01535) associée au test de Chi deux est inférieure au seuil
Nous pouvons affirmer que les variables classement de la politique de la dette et
classement de la qualité de l’administration publique sont significativement
dépendants.
-Test d’indépendance de Chi deux de Pearson entre cpd et qip
Pearson's Chi-squared test

data: qip and cpd
X-squared = 14.9909, df = 6, p-value = 0.02033
𝐻0 : 𝐼𝑛𝑑é𝑝𝑒𝑛𝑑𝑎𝑛𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑐𝑝𝑑 𝑒𝑡 𝑞𝑖𝑝

𝐻1 : 𝐷é𝑝𝑒𝑛𝑑𝑛𝑎𝑐𝑒 𝑒𝑛𝑡𝑟𝑒 𝑙𝑒𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑐𝑝𝑑 𝑒𝑡 𝑞𝑖𝑝
La probabilité critique (0.02033) associée au test de Chi deux est inférieure au seuil
Nous pouvons affirmer que les variables classement de la politique de la dette et la
qualité des infrastructures portuaires sont significativement dépendants.

D) Etudes Statistiques Multidimensionelles

I. Analyse en Composantes Principales
Quand on s'intéresse à décrire les relations entre plusieurs variables et individus dans
un tableau de mesure, on met en œuvre alors la statistique descriptive multivariée dite
l'Analyse en Composantes Principales (ACP) vue comme une méthode exploratoire
multidimensionnelle permettant d'étudier une matrice de corrélation.
1. Test de sphéricité de données

Les tests de sphéricité permettent de déterminer si les composantes d’une matrice qui
24 : Page
ne sont pas sur la diagonale sont nulles, c'est-à-dire s’il y a des interactions entre les
variables. On teste alors l’hypothèse nulle 𝐻0 : la matrice est proche de la matrice
identité à une constante multiplicative près :
Test of sphericity using spatial signs

Q.2 = 3165.956, df = 77, p-value < 2.2e-16
alternative hypothesis: true shape is not equal to diag(12)
Source : R,2017
La valeur critique associée au test est largement inférieure au seuil conventionnel. On

rejette l’hypothèse nulle au seuil de risque de 1%. Nous pouvons affirmer qu’il est
possible de mener une analyse en composante principales sur l’échantillon considéré.
Figure 11 : Graphique de comparaison des boites de données

Le représentation ci-dessus montre l’intérêt de centre et réduire les données pour
pouvoir prendre en compte les effets des unités de différentes données pour mener
une analyses conjointes des variables en multidimensionnelle.
2. Choix de nombre d’axes à retenir

Pour le choix du nombre d’axes à retenir plusieurs méthodes sont à nos dispositions
parmi lesquelles :
 Critère du coude : sur l’éboulis des valeurs propres, on observe un décrochement
25 : Page
(coude) suivi d’une décroissance régulière. On sélectionne les axes avant le
décrochement (décroissance rapide).
 Critère de Kaiser : on ne retient que les axes dont l’inertie est supérieure à l’inertie
moyenne I/p (I : inertie et p variables). Kaiser en ACP normée : I/p= 1 : On ne
retiendra que les axes associés à des valeurs propre supérieures à 1
 Le Critère du Scree-test : on sélectionne les axes correspondant à des différences
secondes > 0 (un peu large).
En générale, dans la pratique, on ne retient que les q axes qui fournit près de 80% de
l’inertie total (loi de Pareto) ou encore les axes que l’on peut interpréter.
Tableau 5 : Valeurs propres de la diagonalisation de la matrice de corrélation
Eigenvalue Variance.Percent Cumulative.Variance.Percent

Dim.1 8.3873142994 69.894285828 69.89429 %
Dim.2 2.0383094106 16.985911755 86.88020%
Dim.3 0.6022532475 5.018777063 91.89897%
Dim.4 0.4150957775 3.459131479 95.35811%
Dim.5 0.2423754168 2.019795140 97.37790%
Dim.6 0.1688947233 1.407456028 98.78536%
Dim.7 0.0991614331 0.826345276 99.61170%
Dim.8 0.0241715322 0.201429435 99.81313%
Dim.9 0.0119010787 0.099175656 99.91231%
Dim.10 0.0065525642 0.054604701 99.96691%
Dim.11 0.0036266246 0.030221872 99.99713%
Dim.12 0.0003438921 0.002865767 100.00000%

Figure 12 : Graphique des Scree plot de valeurs propres
26 : Page
Source R, 2017
Figure 13 : Graphique des eboulis des valeur propres
Coupure k=2
Inertie Perdue
Source R, 2017
Inertie Conservée

L’inertie total, la somme des carrées de tous les données sont égales aux nombres
des variables (ici 12), car les données sont normées. La chute est importante dès le
deuxième axe qui ne conserve plus que 86.88% de l’inertie totale. Le critère de Kaiser
nous conduit à conserver aussi deux composantes principales. Enfin le critère de
Scree-test va aussi dans le même sens, on ne tient compte que les deux premiers
axes principaux.
En conclusion, on ne retient que les deux premières composantes principales avec

une inertie totale de 86,88%.
27 : Page
En effet, plus on conserve d’autres axes, plus les points vont se rassembler autour de
l'origine et donc moins on serait en mesure d'interpréter les résultats. En effet, on n’est
pas dans le cas de la « malédiction dimensionnelle ».
3. Analyses Des Individus et Variables Actives
On s’intéresse à étudier dans cette partie les variables et les individus actives dans
l’analyse en composantes principales : l’ensemble des données en rapport avec le
sujet d’étude, les individus normaux en matière de contributions.
En réalité ce qui est identifiable comme illustratives (ou supplémentaires) à premier

vue sont les variables qualitatives. Nous allons déterminer en ce qui concerne les
données quantitatives et les individus illustratifs lors de l’analyse, car toutes les
informations sont en rapport avec l’objet d’étude (éléments actives). Ils (éléments
supplémentaires) seront repérables en leurs fortes contributions ou mal
représentations dans les plans factoriels considérés

Figure 14 : Nuage des points variables (cercle de corrélation)
Groupe B
Groupe A
28 : Page
Dans le cercle de corrélation ci-dessus, on observe en haut à droit du graphique, les

pourcentages de variances expliquées relatifs à l'axe x et y. En sommant ces deux
valeurs on obtient, ici : 69% + 16% = 85%, qui correspond le pourcentage de variance
cumulé ou le part d'information que l'on a pu capturer lors de l'analyse en composante
principale. Cette inertie contenue dans la matrice de corrélation est cette fois ci
représenté graphiquement. On voit deux groupes des variables corrélés fortement
entre elles, mais aussi sur l’axe ou elles sont bien représentées. Sur le plan, ces
groupes des variables (A et B) sont assez proche du cercle de corrélation, sans aucun
doute leur qualité de représentation (QLT) est assez proche de 1.

Représentation Sphérique De La Matrice De Corrélation :
Nous allons faire appel aux méthodes dérivées de l'analyse en composante principale
qui permettent d'obtenir des représentations de meilleure qualité de la matrice de
corrélation. Il s'agit par exemple de la méthode dite de représentation sphérique d'une
matrice de corrélation ou encore de l’analyse en composante focalisé…etc.
Tableau 6 : Erreur commise lors de la représentation sphérique

de la matrice de corrélation
dcm dcp epb ebs fbcf ibs prp pib.h rnb vab iaa
dcm 0.000 -0.023 -0.018 -0.019 -0.014 0.008 -0.005 -0.064 0.034 0.012 -0.038
29 : Page
dcp 0.000 -0.046 0.013 0.006 0.012 -0.010 -0.080 0.004 -0.019 -0.042
epb 0.000 -0.013 0.016 -0.025 0.016 -0.014 0.011 0.007 -0.036
ebs 0.000 0.003 0.006 0.014 -0.072 0.004 -0.027 -0.038
fbcf 0.000 -0.005 0.000 -0.029 0.015 0.011 -0.053
ibs 0.000 -0.001 -0.072 0.019 0.000 -0.021
prp 0.000 -0.039 0.007 -0.011 -0.031
pib.h 0.000 -0.050 -0.037 -0.011
rnb 0.000 0.016 -0.039
vab 0.000 -0.039
iaa 0.000
esp -0.011
Source R, 2017
 Interprétation
Le tableau ci-dessus illustre la part de la déformation de l’espace initial à l’espace

propre lors des projections des variables sur le plan factoriels principaux.
Ici, l’erreur standard varie entre 0 à 0.08 (soit 0 à 8%) de déformation de la réalité
observée entre les variables. Les dépenses en consommation de l’administration
publique et le pib par habitant représente la relation la plus déformée dans le plan
factoriel alors que d’autres liaisons sont exactement représentés comme dans
l’espace à n individus, d’où la véracité de l’analyse en composantes principales.

Figure 15 : Représentation Sphérique d’une matrice de corrélation
30 : Page
Source R, 2017
Ici, au lieu de projeter les points de l'hyper-sphère sur un plan, on a projeté ces points de l'hyper-sphère sur une sphère en dimension 3,
représentée sur un plan en dimension 2. Les résultats s'interprètent exactement de la même façon que l'analyse en composante principale.
Alors, ici nous avons des points en face de nous et des points par projection sur la face arrière de la sphère. Pour avoir un dessin plus facilement
Master interprétable,
2 En Méthodes Statistiques Et Econométriques
on peut faire tourner la sphère sur un axe vertical de 55 degrés, voir le graphique ci-dessous.
Figure 16 : Représentation Sphérique d’une matrice de corrélation sur un axe de 55 degrés
GROUPE A
31 : Page
Source R, 2017
La qualité de la représentation est meilleure que celle d'une analyse en composante principale, mathématiquement prouvé à l'aide de simulations.
Le groupe A des variables (encadrée en rouge) est fortement corrélés entre elles. La sphère à gauche montre la face arrière, on voit les variables
Masterpib.h,
2 En iaa et esp isolés autour d’un même arc de cercle, tout comme pour les variables de groupe A.
Méthodes Statistiques Et Econométriques
Figure 17 : Representation Juxtaposés des variables et

individus en 3D
32 : Page
Source R, 2017
 Interpretaion
Cette representation en trois dimensions sur un plan en deux dimension permet de

meiux visualiser la position des points variable et de chaque individu en dimension 3 (
les points individus sont en arriere et d’autres en avant contrairement aux variables qui
sont projetées sur deux voix de directions (en rouge). Ce ci explique la mauvais qualité
de representation de certains individus sur le plan 1 et 2.

3.1 INTERPRETATION DES GRAPHES DUAL & DIRECT
Il convient souvent d’appuyer les interprétations visuelles des nuages des points par
les aides à l’interprétation parmi lesquels les cordonnées ; les corrélations ; les qualités
des représentations ; les contributions absolue et relative (ou cosinus au carré).
3.1.1 Nuage Dual (nuages des points variables)
Figure 18 : Cercle de corrélation du plan axe 1 et axe 2
33 : Page
Source R, 2017

 Interprétation
Les variables contribuant le plus à la formation de l’axe 1 sont celles dont les
coordonnées sur cet axe sont proches de 1 en valeur absolue. Autre moyen de les
repérer consiste à identifier les contributions significatives des variables, il suffit pour
cela de comparer les valeurs de la colonne Dim.1 de vecteurs propres à la racine de
1
la contribution moyenne × 100 = 28,88%, le signe donnant le sens de la
√12
contribution. On obtient :
Tableau 7 : Contributions des variables à l’axe1
- axe1 + axe1
-dcm (Dépenses de consommation finale des ménages)
34 : Page
-dcp (Dépenses de consommation finale des administrations publiques)
-epb (Épargne brute)
-ebs (Exportations de biens et de services)
-fbcf (Formation brute de capital fixe)
-ibs (Importations de biens et de services)
-prp (Paiements de revenus primaires)
-rnb (revenu national brute)
-vab (Valeur ajoutée brute au coût des facteurs)
Source R, 2017
Figure 19 : Contributions des variables à l’axe 1
Master 2Source
En Méthodes Statistiques Et Econométriques
R, 2017
 Interprétation
Avec une contribution significative (CTR), les points variables explicatifs de l’axe 1 sont
à la fois répertoriées dans la première colonne du tableau précédent et représentés
dans le diagramme en battons de contribution à l’axe 1. En effet, il s’agit celles qui ont
participé pleinement à la formation de la première composante principale. Pour être
encore plus rigoureux et fournir une information fiable, il suffit de lire les critères des
aides à l’interprétation :
En ce termes, toutes les variables recensées ont une corrélation significativement

importante en valeur absolue comprise entre 0.92 à 0.98 (fortement corrélé avec l’axe
35 : Page
1) et donc exprime par ailleurs, une meilleure bonne qualité de représentation ou une
forte contribution relative (Voir annexe cos²) sur cet axe.
En effet, les coordonnées de ces variables sont assez proches de 1. L’angle formé par
les variables avec l’axe 1 voisine la valeur nulle 0. Or cosinus de 0 donne 1 ce qui
explique, tout simplement leur qualité de représentation sur cet axe.
AXE 2 :
Tableau 8 : Contributions des variables à l’axe 2 :
- axe1 + axe1
-pib.h (PIB par habitant)
-iaa (Installations d’assainissement améliorées (% de la population y

ayant accès)
-esp (Espérance de vie à la naissance, total)
Source R, 2017

Figure 20 : Diagramme en barre des contributions des variables à
l’axe 2
36 : Page
 Interprétation
En ce qui concerne pour l’axe 2, les variables étudiés pour la dimension 1 sont par
contre mal représenté sur cet axe. En effet leurs coordonnées sur l’axe 2 sont assez
proche de 0, ce qui veut dire que leurs qualités de représentations sur l’axe 2 est
mauvaise (car coordonné au carré est égal au cosinus au carré sur l’axe).
En revanche, les points variables parlants pour l’axe 2 sont les pib par habitant ;
l’espérance de vie ; et l’installation d’assainissement améliorés comme le montre le
diagramme en bâton des contributions des variables pour l’axe 2. Il s’agit des variables
fortement corrélé et bien représenté sur l’axe 2 (coordonnées assez proche de 1).
Conclusion :
En dernier lieu, en s’intéressant au plan factoriel (axes 1 et 2) qui restitue près de 87%
de l’information ou de l’inertie total. Les points variables les plus captivants sur le plan
sont assez proche du cercle de corrélation et assez loin de l’origine. Le cercle de

corrélation étant colorié de violet au rouge afin d’illustrer l’intensité de contribution de

chaque point sur l’un des axes du plan.
En étudiant leurs qualités de représentations sur ce plan, autrement dit la somme de

cosinus carré des points de deux axes voisine la valeur 1 pour les différentes variables,
ce qui témoigne une meilleure qualité de la représentation des points sur le plan 1 et
2. Nous pouvons en illustrer graphiquement par un diagramme en barre de qualité de
la représentation sur le plan factoriel axe 1 et axe 2 :
Figure 21 : Diagramme en barre de qualité de la représentation
37 : Page
Source R, 2017

3.1.2 Nuage Direct (nuages des points individus)
Figure 22 : Projections des individus sur le plan 1 et 2
38 : Page
Source R, 2017
 Interprétation
De même, les individus contribuant le plus à la formation de l’axe 1 sont ceux dont les
coordonnées sur cet axe sont les plus élevées en valeur absolue. Pour repérer les
contributions significatives, on compare les valeurs de la colonne Dim.1, coordonnées
des individus, à la racine carrée de la première valeur propre √8.39=2.88, le signe
donnant le sens de contribution. On obtient :
Tableau 9 : Contributions des individus à l’axe 1
- axe1 + axe1
-ZAF (Afrique du Sud)
-DZA (Algérie)

-EGY (Égypte)
-NGA (Nigéria
Source R, 2017
Figure 23 : Diagramme en barre des cosinus carré sur l’axe 1
39 : Page
 Interprétation
Le tableau ci-dessus regroupe les points les plus parlants pour l’axe 1 comme l’Afrique
du Sud ; l’Algérie ; l’Egypte ; le Nigeria. Avec une contribution significative à la
formation de l’axe 1, ces individus statistiques ont aussi une qualité de représentation
remarquable sur le graphique du nuage direct.
Ainsi, il est clair que seuls, les individus mieux représentés seront interpréter grâce à
l’identification de contribution relative et absolue. On peut constater sur le graphique
les points coloriés d’orange au bleu avec variation de diamètre de disque afin d’illustrer
l’intensité de la qualité de la représentation de chaque point selon les dimensions.

Sous réserve, d’une bonne représentation, la proximité de deux individus sur un plan
factoriel est synonyme d’individus ayant un comportement similaire, c’est-à-dire ayant
des réponses presque pareilles aux variables.
En ce sens, plusieurs pays se regroupent au centre certain, alors que d’autre se

trouvent très éloigné : ce sont les individus originaux. Parmi ces points deux individus
expriment une forte contribution notamment le Nigeria et l’Afrique du Sud. Il ne s’agit
pas des points atypiques mais ils seront mis dans la catégorie des individus illustratifs
afin d’identifier des éventuels changements.
A travers la représentation de diagramme en barre, nous observons les pays de

l’UEMOA qui sont relativement bien représentés sur l’axe 1 avec un cosinus carré
40 : Page
compris entre 0.50 ; 0.80].
AXE 2 :
Pour repérer les contributions significatives des individus pour l’axe 2, il suffit de
comparer les valeurs de la colonne Dim.2, coordonnées des individus, à la racine
carrée de la deuxième valeur propre √2.04 = 1.42, le signe donnant le sens de
contribution. On obtient :
Tableau 10 Contributions des individus à l’axe 2
- axe1 + axe1
-SYC (Seychelles)
-MUS (Maurice)
-TUN (Tunisie)
-CPV (Cap Vert)
-BWA (Botswana)
Source R, 2017

Figure 24 : Diagramme en barre des cosinus carré des individus

à l’axe 2
41 : Page
 Interprétation
En s’attachant à contributions relatives et absolues des points ainsi que la qualité de

la représentation, les individus originaux ou explicatifs de l’axe 2 sont regroupés dans
le tableau ci-dessus.
Ils sont caractérisés par une coordonnée très élevée en valeur absolue et participent
à la formation de l’axe 2.
Les pays Seychelles ; Maurice ; Botswana ; Tunisie ; …etc. sont aussi bien représenté
sur l’axe 2.

Conclusion :
Enfin, sur le plan factoriel (axes 1 et 2) qui restitue près de 87% de l’information ou de
l’inertie total. Les points individus les plus captivants sur le plan sont assez loin de
l’individu moyen. En étudiant, leurs qualités de représentations sur ce plan, autrement
dit la somme de cosinus carré des points de deux axes. Elles voisinent la valeur 1 pour
les différents individus considérés, ce qui témoigne une meilleure qualité de la
représentation des points sur le plan 1 et 2 comme le montre le graphique ci-dessous :
Figure 25 : Diagramme en barre des cosinus carré des individus

sur le plan 1 et 2
42 : Page
Source R, 2017

3.1.3 Représentation Individus et Variables
Bien qu’elle soit mathématiquement contestable, les logiciels standards fournissent

une représentation graphique dans laquelle est juxtaposée la projection des variables
et des individus :
Figure 26 : graphique juxtaposées variables et individus
Groupe A
43 : Page
Groupe C
Groupe B
Source R, 2017
 Interprétation
L’étude à la fois des individus et variables est rendu possible grâce au relation de
dualité de deux graphes (nuage direct et dual). Les pays qui sont à proximités partage
le même profil en raison de valeurs presque similaires des variables. L’axe 1 oppose
les pays de groupe C à ceux des groupes A et B. Néanmoins, l’axe 2 oppose les pays
des groupes A à ceux de groupe B.

Les variables qui déterminent la croissance économique sont corrélés avec l’axe 1
alors que les déterminants de niveaux de vie sont corrélés avec l'axe 2 notamment pib
par habitant (en parité de pouvoir d’achat) ; l’Esperance de vie et l’accès des
assainissements améliorer.
En termes plus simples, selon l’axe 1, les pays du groupe C (Égypte, et Algérie) avec
le Maroc, l’Afrique du Sud et le Nigéria) sont marquées par une croissance
économique significatives contrairement au pays du groupe A (Somalie ;
Mozambique ; Guinée ; Soudan du Sud ; Sierra Leone) et B (Seychelles ; Maurice ;
Tunisie ; Gabon ; Cap Vert, Botswana et Guinée équatorial).
44 : Page
D’autre part, selon l’axe 2, les pays de groupes A (Somalie ; Mozambique ; Guinée ;
Soudan du Sud ; Sierra Leone) sont caractérisés par un niveau de vie déplorable en
2014 contrairement au pays de groupe B (Seychelles ; Maurice ; Tunisie ; Gabon ; Cap
Vert, Botswana et Guinée équatorial).
4. ETUDES DES VARIABLES ET INDIVIDUS SUPPLEMENTAIRES
Une pratique courante, lorsque l’on procède à une analyse factorielle, est de
considérer des variables ou des individus comme ILLUSTRATIFS (ou
« supplémentaires »), ce qui consiste à ne pas s’en servir pour les calculs des
composantes principales mais à les conserver au chaud pour les placer ensuite parmi
les résultats. Cette opération ne relève pas d’un ostracisme éhonté mais obéit au
contraire à de louables préoccupations.

Figure 27 : Variables illustrtaives sur le plan axe 1 et 2
45 : Page
Source R, 2017
 Interpretation
Les variables quantitatives mise en éléments supplémentaire sont l’importation des

biens et service ; la formation brute en capital fixe et le revenu national brut, trois
variables qui participaient fortement à la formation de l’axe 1. En réalité, rien ne
change considérablement avec ou sans variables supplémentaires. Les résultats
observés sont identiques, autrement dit leurs contributions nettement supérieures à
ceux des autres variables n’influence pas les restes.

Figure 28 : Individus supplementaires sur le plan axe 1 et 2
46 : Page
Source R, 2017
 Interprétation
Les individus mise en supplémentaire sont les pays suivants Djibouti ; Somalie ; Tchad
et l’Erythrée. En effet, ces observations présentaient beaucoup des valeurs
manquantes, la correction par imputation à la médiane a permis leur conservation dans
l’analyse de l’ACP. Malgré l’apurement de jeu de données ces individus statistiques
sont mal représentés sur le plan.

Figure 29 : Habillage des observations par la Variable

qualitative illustrative (qip)
47 : Page
Source R, 2017
 Interprétation
En utilisant l’habillement des modalités de la variable qualitative : Qualité de

l’infrastructure portuaire (qip) sur les 53 pays de l’Afrique (à l’exception de Lybie et
Sahara Occidental), On obtient la représentation graphique ci-dessus :
- Les pays comme l’Afrique Du Sud, le Maroc, La Tunisie privilégient des

infrastructures soutenues et bien développé par rapport aux autres pays.
- Les pays colorés en vert sont ceux qui possèdent des infrastructures
développées, elle englobe plusieurs pays de l’Afrique

- Enfin, les pays avec une mauvaise qualité des infrastructures portuaires
se concentrent au centre.
En général, on peut dire que nous avons trois groupes des pays en matière
d’infrastructures portuaires.
Figure 30 : Habillage des observations par la variable

qualitative illustrative (cpd)
48 : Page
Source R, 2017
 Interprétation
L’étude des observations (ici les 53 pays de l’union africaine) selon le Classement de
la politique sur la dette par l’EPIN (cpd). On observe les individus originaux (assez loin
de l’individu moyen) se caractérisent par un politique élevé sur la gestion de dette (ces

pays ont un profil de croissance économique). Au centre se concentre plusieurs pays,

on risque de mal interpréter leurs profiles sur la politique de la dette.
Figure 31 : Habillage des observations par la Variable

illustrative (cap)
49 : Page
Source R, 2017
 Interprétation
L’étude des observations (ici les 53 pays de l’union africaine) selon Classement de la
qualité de l’administration publique par l’EPIN (cap). On observe les individus originaux
(assez loin de l’individu moyen) qui se caractérisent par une qualité de l’administration
publique élevé à savoir le Nigeria, qui rejoint les pays avec une qualité des
administrations publiques très élevé.
Conclusion :
En résumé comme nous avons déjà étudié le test de Chi Deux entre ces variables,
plus le pays n’est en croissance économique et plus le classement de la politique de
la dette, de la qualité de l’administration publique et la de la qualité des infrastructures
portuaires (pour les pays concernés) sont très améliorés.
II- Analyse en composantes principales focalisées
L’analyse en composante principales focalisé est aussi une autre variante de l’ACP
classique et s’intéresse à expliquer un phénomène observé ou aléatoire dans une
population. Dans notre exemple, on souhaite s’attacher à expliquer le revenu national
50 : Page
brut des pays africains.
1. Cercle de corrélation de l’ACP focalisée
Figure 32 : Representation du cercle de corrélation de L’ACP

Facolisée
Source R, 2017
 INTERPRETATION
L’analyse en composante principale focalisée permet de mettre en lumière les

relations ou les corrélations entre les variables explicatives et la variable à expliquer.
On peut par ailleurs interpréter aussi avec une certaine marge d'erreur les corrélations
entre les variables explicatives, notamment les variables explicatives de revenu
national brute dcp, fbcf, dcm et pib sont proches les uns des autres, elles sont
vraisemblablement corrélées les unes avec les autres. On remarque au passage que
toutes les variables sont à l'intérieur du cercle rouge donc elles sont aussi
significativement associées à la variable à expliquer rnb (revenu national brute.
2. Régression Linéaire Multiple
51 : Page
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.387e+08 6.184e+08 -1.033 0.307129
dcm 9.478e-01 1.732e-02 54.731 < 2e-16 ***
ebs 4.767e-01 1.661e-01 2.870 0.006234 **
fbcf 8.326e-01 1.254e-01 6.639 3.51e-08 ***
dcp 7.619e-01 1.984e-01 3.840 0.000382 ***
ibs -5.405e-01 1.477e-01 -3.661 0.000658 ***
epb 4.315e-01 8.312e-02 5.191 4.86e-06 ***
prp 7.435e-01 4.790e-01 1.552 0.127636
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.658e+09 on 45 degrees of freedom

Multiple R-squared: 0.9994, Adjusted R-squared: 0.9993
F-statistic: 1.004e+04 on 7 and 45 DF, p-value: < 2.2e-16
Source:R, 2017
Dans ce modèle linéaire multiple, on peut voir que les variables significativement
associés au revenu national brut dans l’analyse focalisé expliquent 99,93% de la
variabilité de ce variable, autrement-dit, elles ont un impact significatif sur la variable
endogène (RNB).
Par ailleurs, le test de student affirme que les variables explicatives sont significatives
au seuil de 1% à l’exception de prp. On étudiant la significativité globale du modèle à
l’aide du test de Fisher, on peut affirmer au seuil de risque de 1% que le modèle est
globalement significatif.
En résumé, le nuage dual de l’ACP focalisée ne déforme pas trop la réalité.

E) Classification des individus et variables
I- Classification Ascendante Hiérarchique des

individus
La classification est une technique statistique visant à partitionner une population en
différentes classes ou sous-groupes. La classification hiérarchique ascendante (CAH)
est l’une d’entre elle. On cherche à ce que les individus regroupés au sein d’une même
classe (homogénéité intra classe) soient le plus semblable possible tandis que les
classes soient le plus dissemblables possibles (hétérogénéité interclasse) en calculant
52 : Page
notamment la matrice des distances.
Il existe de nombreux distances mathématiques pour les variables quantitatives

(euclidiennes ; Manhattan ; Ward ; ave,…).
Pour obtenir une partition de la population, il suffit de découper le dendrogramme

obtenu à une certaine hauteur, pour nous aider nous pouvons représenter les sauts
d’inertie du dendrogramme selon le nombre classes retenu
Figure 33 : Saut d’inertie du dendrogramme
Source R, 2017

On voit sur le graphique trois différents saut d’inertie autrement dit 2 classes, 5 et 8
classes représentés ci-dessus respectivement en vert, rouge et bleu.
Figure 34 : Critère BIC Pour le choix de nombre classe
53 : Page
Source R, 2017
 Interprétation
Le nombre optimal de classes d’individus selon le critère Bayésien (BIC) est un

regroupement en cinq groupes d’individus. Alors nous allons tenir compte de cette
information dans le découpage en classes.

Figure 35 : Dendrogrammes des individus
54 : Page
Figure 36 : Dendrogramme des individus
55 : Page
Cluster 4 Cluster 5
Cluster 3
Cluster 1
Cluster 2
Figure 37 : Répartition des groupes des individus sur le plan factoriel
56 : Page
 Interprétation
Le classement des individus en groupes de cinq permet de mieux concevoir la

ressemblance et la dissemblance entre les classes. Plus la branche est deux groupe
sont écartés et plus il existe une différence des profils des pays africains concernant
la croissance économique et la qualité du niveau de vie.
Nous avons cinq profils des pays qui se ressemblent notamment comme le montre la
répartition sur le plan factoriel des classes des individus. Le Nigeria forme un groupe
57 : Page
à lui seul ; l’Afrique avec l’Algérie et l’Égypte se ressemblent. L’Angola et la Maroc
partage presque les mêmes profils et donc constitue une classe. Les 8 pays de
l‘UEMOA se regroupe et forme un grand groupe avec d’autre pays. Les pays comme
Seychelles ; la Tunis ; le Maurice ; Le Gabon ; Le Guinée Equatorial ; le Botswana et
le Cap Vert constitue à leur tour un groupe de pays homogène entre eux.

II- Classifications Ascendante Hiérarchique des

variables
De même, pour les variables, le partitionnement des variables sur la base des
corrélations.
Figure 38 : Dendrogramme des variables
58 : Page
Cluster 1 Cluster 2
Cluster 3
Source R, 2017
 Interprétation
En analyse en composantes principales, nous avions vu que les variables esp ;
pib.h, et iaa étaient bien corrélées avec l’axe 2. Dans cette représentation de
dendrogramme, elles forment une classe de trois variables.
En ce sens, nous pouvons d’avantage étudier la liaison linéaire les plus proche entre
les variables de façon graphique notamment : les variables ‘dcp’ ; ‘ebs’ ;’ibs’
constituent aussi un groupe de variables et sont corrélées négativement avec l’axe 1.
Enfin les variables ‘dcm’ ; ‘rnb’ ; ‘vab’ ; ‘prp’ ; ‘epb’ ; ‘fbcf’ sont fortement corrélés
entre elles. On observe en tous trois classes des variables.
SYNTHESE :
L’analyse statistique univariée nous a été très utile pour observer variable par variable
en leurs caractéristiques de postions et de dispersions. A travers duquel l’on est amené
à centré et réduire nos données avant l’analyse multivariées.
L’essentiel dans l’analyse statistique bivariée dans notre exemple nous a facilité
d’appréhender la notion de l’intensité de liaison linéaire entre les variables
quantitatives et d’autre part entre variables qualitatives. Le coefficient de corrélation,
appuyé avec le test de corrélation permet d’entrevoir la représentation du cercle de
59 : Page
corrélation et la classification ascendante hiérarchique des variables.
On a pu dégager beaucoup d’informations sur les situations économiques de l’Union

Africaine en 2014. Avec l’analyse en composantes principales, nous avons retenu
deux axes avec une restitution d’un pourcentage d’inertie total de 87% (information
assez importante). Les variables et les individus projetés orthogonalement sur ces
axes ont facilité à attribuer un sens aux axes factoriels retenus :
L’axe 1 est caractérisé par les variables de la croissance économique à savoir : le

dépenses de ménages et des administrations publiques ; la formation en brute de
capital fixe (investissement) ; le revenu nationale brute ; la valeur ajouté brutes au cout
des facteurs…etc. Les pays bien représentés sur l’axe 1 ont appuyé le sens donner à
l’axe 1 par les variables, ces pays essentiellement comme l’Afrique du Sud et le
Nigeria. En ce sens l’axe 1 opposait les pays en croissance économique et les pays
en difficultés économique.
En ce qui concerne l’axe 2, les variables de Pib par habitant, l’Esperance de vie et
l’accès de la population à l’assainissement améliorer ont permis de donner une
signification au deuxième axe. En effet leurs coordonnées ; corrélation, contribution et
qualités de représentations sont élevé et assez proche de 1. L’axe 2 détermine en ce
sens la qualité de niveau de vie des pays africains.

En réalité ces deux concepts économiques ne s’accompagnent pas souvent dans

plusieurs pays c’est le cas de l’Afrique du Sud avec malgré une croissance
économique significative, la qualité de niveau de vie dans ce pays n’est pas très
améliorée en 2014. C’est aussi le cas pour l’Egypte ; l’Algérie et le Nigeria.
En revanche, les pays comme Djibouti, Somalie, Souan du Sud sont opposés au
groupes de pays précédents : autrement-dit on signale une difficulté de croissance
économique dû vraisemblablement aux guerres civiles ; au manque des
ressources…etc.
60 : Page
Les individus statistiques au centre du graphique sont considérables, leurs
interprétations risquent d’être erronées ou inopérants. Cependant, les pays comme
Seychelles ; Maurice ; Tunis ; Botswana ; Cap Vert, Congo République Démocratique
sont bien repentes sur l’axe 2. Ils sont caractérisés par un niveau de vie élevé (Pib. H
espérance de vie, accès installation d’assainissement améliorer élevés pour vérifier il
suffit de revoir les informations de jeu de données).
En principe, l’axe 2 oppose les pays en difficulté de croissance économique de l’axe 1

au groupes de pays de qualité de niveaux de vie de l’axe 2 : en ce sens absence de
croissance économique est synonyme et de mauvaise qualité de niveau de vie.
En dernier lieu, l’étude des modalités des variables qualitatives vient en appui les
interprétations des sorties de l’analyse en composantes principales.
En générale les pays avec une qualité infrastructure portuaire développés, un

classement élevé de la politique de la dette et de l’administration publiques sont les
pays qui connaissent une croissance économique et une meilleure qualité de niveau
de vie.

Conclusion :
En général, les études des pays du continent africain ont fait preuve l’existence de
trois profils bien distingue en ce qui se rapporte à la croissance économique de l’union
africaine en 2014.
A l’issue des analyses statistiques réalisées précédemment à savoir les analyses

Statistiques Univariées ; Bivariées ; Multivariées ; les classifications ascendantes
hiérarchiques à la fois des individus et variables ont permis de stratifier (scinder) les
61 : Page
53 pays de l‘Afrique retenus comme suit :
 D’abord les pays en difficultés économiques (cluster 3 : voir figure 36)
 Ensuite, ceux qui connaissent une croissance économique mais sans

amélioration de la qualité de niveau de vie (Clusters 1,2 et 4: voir figure 36).
(Rien n’empêche de regrouper ces clusters en une seule famille, mais le non
prise en compte d’autres phénomènes ou aspect sociodémographique ou
économique pourraient venir faussées le regroupement en une seule famille).
 Et enfin les pays caractérisés par un niveau de vie relativement favorable

(Cluster 5: voir figure 36).
D’autre part, la classification des variables rétablie les informations déjà connus à partir
de la corrélation et des graphiques des corrélations des variables. On peut aussi
regrouper ensemble les deux dernières familles des variables (voir figure 37).

ANNEXE
Figure 39 : représentation juxtaposées des individus et
variables selon le Classement de la politique sur la dette
62 : Page
Source R, 2017

Figure 40 : Qualité de représentations des individus
63 : Page
Source R, 2017
Figure 41 : Représentation des individus illustratifs

Figure 42 : Représentation des individus selon les variables de

la qualité de niveau de vie pib.h, iaa et esp :
64 : Page
Source R, 2017
Figure 43 : Représentation en ellipse des nuages dual et direct

Figure 44 : double représentations des corrélations des

variables
65 : Page
Figure 45 : Dispersion de l’espérance de vie en Afrique

Figure 46 : Dendrogramme circulaire des pays de l’union

africaine
66 : Page
Source R, 2017

Figure 47 : Graphique résidu et valeurs estimés de la régression
67 : Page
Source R, 2017
Figure 48 : Graphique des résidus standardisés
Source R, 2017

Figure 49 : Graphique des résidus standardisés et réduites
68 : Page
Source R, 2017
Figure 50 : Graphique de distance de Cook des résidus

standardisés
Source R, 2017

Tableau 11: Pays membres de l’Union africaine
Country Code Country Name

ZAF Afrique du Sud
DZA Algérie
AGO Angola
BEN Bénin
BWA Botswana
BFA Burkina Faso
BDI Burundi
CMR Cameroun
COM Comores
COD Congo, République démocratique du
COG Congo, République du
69 : Page
CIV Côte d'Ivoire
DJI Djibouti
EGY Égypte, République arabe d’
ERI Érythrée
ETH Éthiopie
GAB Gabon
GMB Gambie
GHA Ghana
GIN Guinée
GNQ Guinée équatoriale
GNB Guinée-Bissau
KEN Kenya
LSO Lesotho
LBR Libéria
MDG Madagascar
MWI Malawi
MLI Mali
MAR Maroc
MUS Maurice
MRT Mauritanie
MOZ Mozambique
NAM Namibie
NER Niger
NGA Nigéria
UGA Ouganda
CAF République centrafricaine
RWA Rwanda
STP Sao Tomé-et-Principe
SEN Sénégal
SYC Seychelles
SLE Sierra Leone

SOM Somalie
SDN Soudan
SSD Soudan du Sud
SWZ Swaziland
TZA Tanzanie
TCD Tchad
TGO Togo
TUN Tunisie
ZMB Zambie
ZWE Zimbabwe
CPV Cabo Verde
70 : Page
Tableau 12: Libellé des variables
Codes Variables
dcm Dépenses de consommation finale des ménages ($ US courants)
Dépenses de consommation finale des administrations publiques ($ US
dcp courants)
epb Épargne brue ($ US courants)
ebs Exportations de biens et de services (BDP, $ US courants)
fbcf Formation brute de capital fixe ($ US courants)
ibs Importations de biens et de services (BDP, $ US courants)
prp Paiements de revenus primaires (BDP, $ US courants)
pib.h PIB par habitant, ($ PPA internationaux courants)
rnb RNB ($ US courants)
vab Valeur ajoutée brute au coût des facteurs ($ US courants)
iaa Installations d’assainissement améliorées (% de la population y ayant accès)
esp Espérance de vie à la naissance, total (années)
Qualité de l’infrastructure portuaire, FEM (1 = extrêmement sous-développée à
qip 7 = bien développée et efficace selon les standards internationaux)
Classement de la qualité de l’administration publique par l’EPIN (1=faible et
cap 6=élevée)
cpd Classement de la politique sur la dette par l’EPIN (1=faible et 6=élevée)

Tableau 13 : Coordonnées des variables
Dim.1 Dim.2
dcm -0.9255150 0.19397287
dcp -0.9352302 -0.03603834
epb -0.9306106 0.09993320
ebs -0.9585881 0.02178162
fbcf -0.9622451 0.04097850
ibs -0.9649853 -0.00403470
prp -0.9529127 0.09548479
pib.h -0.2869807 -0.76081565
rnb -0.9733648 0.15209293
vab -0.9461369 0.16663868
iaa -0.3802459 -0.84638685
71 : Page
esp -0.1908922 -0.79498388
Tableau 14 : Cosinus carrés des variables
PC1 PC2
dcm 0.85657805 0.0376254729
dcp 0.87465544 0.0012987617
epb 0.86603615 0.0099866447
ebs 0.91889107 0.0004744392
fbcf 0.92591559 0.0016792375
ibs 0.93119657 0.0000162788
prp 0.90804263 0.0091173458
pib.h 0.08235789 0.5788404575
rnb 0.94743911 0.0231322607
vab 0.89517505 0.0277684487
iaa 0.14458691 0.7163706948
esp 0.03643984 0.6319993684
Tableau 15 : Vecteurs Propres
PC1 PC2 PC3 PC4

dcm -0.31957442 0.135864479 -0.06063975 -0.37031021
dcp -0.32292900 -0.025242344 0.10332331 0.48613521
epb -0.32133390 0.069996245 0.01772818 -0.30052469
ebs -0.33099433 0.015256510 0.03570439 0.41082392
fbcf -0.33225708 0.028702585 0.09843832 -0.00294647
ibs -0.33320325 -0.002826026 0.09831933 0.34022483
prp -0.32903467 0.066880446 -0.11224248 0.08985713
pib.h -0.09909258 -0.532898361 -0.69221609 -0.01503447
rnb -0.33609666 0.106530505 -0.03556916 -0.22673958
vab -0.32669503 0.116718784 -0.05125382 -0.38258289

iaa -0.13129646 -0.592835021 -0.05880215 -0.02549997
esp -0.06591386 -0.556830823 0.68234151 -0.21203495
Tableau 16 : Coordonnées, cosinus carré et contribution des individus
Coord Dim.1 Dim.2 Dim.1 Dim.2 Dim.1 Dim.2

ZAF -10.54444174 0.251686416 0.9300058673 5.298562e-04 2.501200e+01 5.863725e-02
DZA -7.20673598 -2.171094274 0.8073161109 7.326959e-02 1.168365e+01 4.363263e+00
AGO -3.08649505 -0.004712531 0.6187812380 1.442496e-06 2.143050e+00 2.055713e-05
BEN 1.30436277 0.670100203 0.7541889475 1.990503e-01 3.827348e-01 4.156555e-01
BWA 0.41215028 -1.870901684 0.0369504834 7.613965e-01 3.821311e-02 3.240082e+00
BFA 1.21787861 0.810237285
72 : Page
0.6713072329 2.971240e-01 3.336639e-01 6.076849e-01
BDI 1.45457570 0.389627503 0.6505327086 4.667622e-02 4.759637e-01 1.405249e-01
CMR 0.59294370 0.371528840 0.3282000558 1.288537e-01 7.909119e-02 1.277730e-01
COM 1.20572213 0.072533794 0.7871210835 2.848576e-03 3.270361e-01 4.870066e-03
COD 0.51916066 0.817678961 0.2370501374 5.880338e-01 6.063240e-02 6.188988e-01
COG 1.03857210 0.222416156 0.5591640159 2.564476e-02 2.426468e-01 4.579169e-02
CIV 0.86550997 1.299768417 0.2345451245 5.289495e-01 1.685176e-01 1.563817e+00
DJI 1.13514828 -0.207015436 0.7648846633 2.543878e-02 2.898721e-01 3.966975e-02
EGY -6.79904032 -1.293126877 0.8754820301 3.166899e-02 1.039912e+01 1.547876e+00
ERI 1.08131511 0.391226492 0.5549775605 7.264862e-02 2.630303e-01 1.416806e-01
ETH 0.25161791 0.372630453 0.0400627739 8.786473e-02 1.424244e-02 1.285318e-01
GAB 0.64646382 -1.484655421 0.0957659564 5.050961e-01 9.401338e-02 2.040353e+00
GMB 1.15103253 -0.276715069 0.5325177446 3.077687e-02 2.980413e-01 7.087934e-02
GHA 0.13376686 0.619157385 0.0167311475 3.584518e-01 4.025300e-03 3.548593e-01
GIN 1.29244812 0.858910030 0.6756047309 2.983746e-01 3.757746e-01 6.828878e-01
GNQ 0.32198220 -2.768662084 0.0052012663 3.845787e-01 2.332195e-02 7.095678e+00
GNB 1.35085432 1.021407910 0.6112271198 3.494492e-01 4.105048e-01 9.657227e-01
KEN -0.21886743 0.071315389 0.0447162313 4.747549e-03 1.077615e-02 4.707827e-03
LSO 1.51423490 0.970650252 0.5683178859 2.335234e-01 5.158076e-01 8.721267e-01
LBR 1.47742439 0.722937060 0.7160225117 1.714420e-01 4.910342e-01 4.837879e-01
MDG 1.20108916 0.496739330 0.4890399649 8.364711e-02 3.245277e-01 2.284079e-01
MWI 1.32353016 0.102582331 0.8316971918 4.996233e-03 3.940659e-01 9.740901e-03
MLI 1.19599716 0.890746114 0.6272151672 3.479078e-01 3.217818e-01 7.344494e-01
MAR -2.95546776 -1.929490788 0.5836624810 2.487681e-01 1.964960e+00 3.446192e+00
MUS -0.05876958 -3.552627033 0.0002356624 8.611611e-01 7.769739e-04 1.168297e+01
MRT 1.22043408 -0.185349462 0.9197223546 2.121342e-02 3.350656e-01 3.180070e-02
MOZ 0.98501071 1.051771813 0.4370027910 4.982478e-01 2.182645e-01 1.023993e+00
NAM 0.85334365 -0.514641280 0.5157192625 1.875749e-01 1.638133e-01 2.451677e-01
NER 1.25797723 1.077355772 0.5333219776 3.911670e-01 3.559974e-01 1.074416e+00
NGA -12.48936420 3.695908084 0.8761719776 7.672750e-02 3.508988e+01 1.264435e+01
UGA 0.88004972 0.906298193 0.4643377759 4.924496e-01 1.742271e-01 7.603197e-01

CAF 1.45426867 1.578395032 0.3764799470 4.434901e-01 4.757628e-01 2.306139e+00
RWA 1.13290210 -0.792164077 0.4069590806 1.989740e-01 2.887261e-01 5.808772e-01
STP 1.26564188 -0.305891635 0.6646329720 3.882356e-02 3.603486e-01 8.661422e-02
SEN 0.88044905 -0.490881818 0.4502191910 1.399489e-01 1.743852e-01 2.230529e-01
SYC 0.63679219 -4.313262832 0.0195351693 8.962591e-01 9.122139e-02 1.722130e+01
SLE 1.59242214 1.661413427 0.4189445147 4.560322e-01 5.704501e-01 2.555109e+00
SOM 1.22688609 0.758606409 0.6035798338 2.307593e-01 3.386177e-01 5.327053e-01
SDN 0.06126727 0.341362706 0.0035042768 1.087861e-01 8.444194e-04 1.078664e-01
SSD 1.39187545 1.373592640 0.4691528003 4.569087e-01 4.358148e-01 1.746505e+00
SWZ 1.17784984 -0.377270053 0.4311900885 4.423781e-02 3.120909e-01 1.317524e-01
TZA 0.18773019 0.587262638 0.0242944104 2.377403e-01 7.928106e-03 3.192411e-01
TCD 1.25366213 1.590767873 0.3357109426 5.405279e-01 3.535593e-01 2.342436e+00
TGO 1.49134769 0.970207200 0.6592637284 2.790168e-01 5.003329e-01 8.713307e-01
73 : Page
TUN -0.85258465 -2.903576560 0.0707740700 8.208536e-01 1.635220e-01 7.804060e+00
ZMB 0.42751969 0.034012455 0.5176197120 3.276231e-03 4.111625e-02 1.070853e-03
ZWE 1.05824218 0.377856967 0.7767814593 9.903383e-02 2.519250e-01 1.321627e-01
CPV 1.08831392 -1.986652617 0.1818105595 6.058353e-01 2.664462e-01 3.653406e+00
Tableau 17 : Individus Supplémentaires

Dist Dim.1 cos2 Dim.2 cos2 Dim.3 cos2
DJI | 1.092 | -0.927 0.721 | 0.229 0.044 | 0.202 0.034 |
ERI | 1.369 | -1.023 0.558 | -0.329 0.058 | 0.476 0.121 |
GNQ | 5.187 | 0.298 0.003 | 3.060 0.348 | -3.954 0.581 |
SOM | 1.482 | -1.094 0.545 | -0.764 0.266 | -0.482 0.106 |
TCD | 2.175 | -1.294 0.354 | -1.573 0.523 | -0.742 0.116 |
Tableau 18 : Variables Supplémentaires

Dim.1 ctr cos2 Dim.2 ctr cos2 Dim.3 ctr cos2
dcm | 0.914 14.761 0.835 | -0.260 3.196 0.068 | 0.050 0.599 0.002
dcp | 0.926 15.140 0.857 | -0.033 0.052 0.001 | 0.024 0.141 0.001
epb | 0.919 14.916 0.844 | -0.162 1.247 0.026 | 0.088 1.860 0.008
ebs | 0.952 16.003 0.905 | -0.089 0.374 0.008 | -0.022 0.118 0.000
prp | 0.952 16.033 0.907 | -0.164 1.268 0.027 | -0.100 2.412 0.010
pib.h | 0.424 3.185 0.180 | 0.754 26.848 0.568 | -0.445 47.659 0.198
vab | 0.933 15.390 0.871 | -0.236 2.636 0.056 | 0.066 1.058 0.004
iaa | 0.454 3.644 0.206 | 0.803 30.472 0.645 | -0.012 0.037 0.000
esp | 0.229 0.929 0.053 | 0.847 33.907 0.718 | 0.438 46.115 0.192

Tableau 19 : Variables Continues Supplémentaires
Dim.1 cos2 Dim.2 cos2 Dim.3 cos2

fbcf | 0.946 0.894 | -0.109 0.012 | 0.112 0.013 |
ibs | 0.956 0.914 | -0.061 0.004 | 0.056 0.003 |
rnb | 0.961 0.924 | -0.223 0.050 | 0.042 0.002 |
74 : Page
Tableau 20 : Modalités ces variables qualitatives illustratives
Dist Dim.1 cos2 v.test Dim.2 cos2 v.test Dim.3 cos2 v.test
BD | 1.731 | 1.343 0.602 1.986 | 1.060 0.375 2.562 | -0.071 0.002 -0.387 |
D | 0.598 | -0.484 0.654 -1.649 | -0.326 0.296 -1.816 | -0.003 0.000 -0.036 |
SD | 0.384 | 0.011 0.001 0.016 | -0.148 0.149 -0.358 | 0.079 0.042 0.431 |
E | 0.904 | -0.632 0.488 -0.753 | 0.232 0.066 0.451 | 0.590 0.426 2.593 |
F | 0.967 | -0.369 0.145 -0.717 | -0.880 0.827 -2.795 | 0.060 0.004 0.432 |
M | 0.626 | 0.383 0.374 1.200 | 0.445 0.505 2.280 | -0.194 0.096 -2.239 |
E1 | 1.131 | 0.997 0.776 2.873 | 0.521 0.212 2.454 | -0.117 0.011 -1.245 |
F1 | 1.121 | -1.023 0.833 -1.319 | -0.424 0.143 -0.894 | 0.171 0.023 0.812 |
M1 | 1.213 | -1.055 0.756 -1.149 | -0.555 0.209 -0.988 | -0.021 0.000 -0.086 |
TE | 1.132 | -0.940 0.690 -1.391 | -0.577 0.260 -1.396 | 0.157 0.019 0.857 |

Abd-Basid ADAN

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Abd-Basid ADAN

Uploaded by

Copyright:

Available Formats

Analyse Des Données

Université de Cheik Anta Diop de Dakar

Centre de recherche et de formation pour le développement

Projet D’analyse Des Données

Master II en Méthodes Statistiques et Econométriques (MSE)

Adresse : 45753 Dakar-Fann, Km1 Avenue Cheikh Anta Diop,

Master 2 En Méthodes Statistiques Et Econométriques

Tables des Matières

Liste des tableaux……………………………………………………..…………………………………………………………………………………….…………………..3

A) Description de jeu de donnée ……………………..........…..........…..........…..................…..........…..........…..........…..........…..................7

I- Présentation des variables et des observations ........... ………………………………………………………………...7

B) Etudes Statistiques par variable………………………………………………………………..…11

I- Analyse Statistique des variables quantitatives.……………..…………….……………..11

II- Analyse Statistique des variables qualitatives.……………..…..………….……………..15

C) Etudes Statistiques des liaisons entre deux variables……………………………………….17

I- Analyse Statistique Bivariée..………………………………………………………………17

II- Tests de significativités de liaisons.....……………………………………… ……………22

D) Etudes Statistiques Multidimensionnelles………………………………………………………24

I- Analyse en Composantes Principales …………………………………………....……….24

II- Analyse en Composantes Principales Focalisées….…………………………………….50

E) Classifications des individus et variables……………………………..………………… ..……52

I- Classification Ascendante Hiérarchique des individus…………..…………………...….52

II- Classification Ascendante Hiérarchique des variables………………………..…………58

Master 2 En Méthodes Statistiques Et Econométriques

Listes des tableaux et sigles d’abréviations

Tableau 1 : Eléments de Statistiques Descriptives des Variables

Tableau 2 : Matrice de corrélation de Pearson des variables quantitatives

Tableau 3 : Matrice de corrélation de Kendall des variables quantitatives

Tableau 4 : Matrice de corrélation de Spearman des variables quantitatives

Tableau 5 : Valeurs propres de la diagonalisation de la matrice de corrélation

Tableau 7 : Contributions des variables à l’axe1

Tableau 8 : Contributions des variables à l’axe 2 :

Tableau 9 : Contributions des individus à l’axe 1

Tableau 10 Contributions des individus à l’axe 2

Tableau 11: Pays membres de l’Union africaine

Tableau 12: Libellé des variables

Tableau 13 : Coordonnées des variables

Tableau 14 : Cosinus carrés des variables

Tableau 15 : Vecteur Propres

Tableau 16 : Coordonnées, cosinus carré et contribution des individus

Tableau 17 : Individus Supplémentaires

Tableau 18 : Variables Supplémentaires

Tableau 19 : Variables Continues Supplémentaires

Tableau 20 : Modalités ces variables qualitatives illustratives

⟹ Liste des figures

Figure 29 : Habillage des observations par la Variable qualitative illustrative (qip)

⟹ Liste des sigles et abréviations

Les objectifs futurs de l'Union africaine comportent notamment la création

Master 2 En Méthodes Statistiques Et Econométriques

A) Descriptions de jeu de données

I- Présentation des variables et des observations

Le jeu de données que nous étudions provient de la plate-forme de la banque

II- Nettoyage de jeu des données

1. Données aberrantes (extrême ou atypiques)

Dans ce cas de données issues d’une distribution continue multivariée, on peut

𝑃(𝑟|𝑥𝑜𝑏𝑠 , 𝑥𝑚𝑖𝑠𝑠 ) = 𝑃(𝑟|𝑥𝑜𝑏𝑠 )

Master 2 En Méthodes Statistiques Et Econométriques

- On exige généralement, le recours à des corrections des valeurs manquantes

Figure 1 : Représentation de la part des valeurs manquantes

Source R ; 2017 9 : Page

Master 2 En Méthodes Statistiques Et Econométriques

3. Méthodes d’apurement de la base

3.1. Méthode de suppression

Le scénario de suppression des valeurs manquantes consiste à retirer les variables