You are on page 1of 45

OLAP et SOLAP

Notions avancées de bases de 
données SIG

Yvan Bédard
OLAP
   « Il s’agit d’une catégorie de logiciels axés sur 
l’exploration et l’analyse rapide des données 
selon une approche multidimensionnelle à 
plusieurs niveaux d’agrégation » (Caron, 
1998)
OLAP
 Catégorie de logiciels :
 S’exprime par une grande quantité de produits
logiciels disponibles sur le marché
 Exploration et analyse rapide : 
 OLAP vise à assister l’usager dans son
analyse en lui facilitant l’exploration de ses
données et en lui donnant la possibilité de le
faire rapidement 
Rapidité et facilité
OLAP
 Facilité
 L’usager n’a pas à maîtriser des langages
d’interrogation et des interfaces complexes
 L’usager interroge directement les données, en
interagissant avec celles-ci
 Rapidité
 OLAP exploite une dénormalisation maximale des
données, sous la forme d’une pré-agrégation stockée
 L’usager devient opérationnel en très peu de temps
 L’usager peut se concentrer sur son analyse et 
non sur le processus (les moyens utilisés pour 
l’analyse)
OLAP
 Approche multidimensionnelle :
 Basée sur des thèmes d’analyse (dimensions)
 Plus intuitive
 Plusieurs niveaux d’agrégation : 
 Les données peuvent être groupées à différents
niveaux de granularité (les regroupements sont pré-
calculés, par exemple, le total des ventes pour le mois
dernier calculé à partir de la somme de toutes les
ventes du mois).
 Granularité : niveau de détail des données
emmagasinées dans une base de données. 
Vocabulaire OLAP
Dimension : 
 Une  dimension  peut  être  définie  comme  un  thème,  ou  un  axe 
(attributs),  selon  lequel  les  données  seront  analysées  (en 
fonction de …)
 Ex. Temps, Découpage administratif, Produits 

 Une  dimension  contient  des  membres  organisés  en  hiérarchie, 


chacun des membres appartenant à un niveau hiérarchique (ou 
niveau de granularité) particulier 
 Ex.  Pour  la  dimension  Temps,  les  années,  les  mois  et  les  jours 
peuvent être des exemples de niveaux hiérarchiques.  1998 est un 
exemple de membre du niveau Année 

  
Vocabulaire OLAP

Mesure : 
 Une  mesure  est  un  élément  de  donnée  sur 
lequel  portent  les  analyses,  en  fonction  des 
différentes dimensions  
 Ex.  coût  des  travaux,  nombre  d’accidents,  ventes, 
dépenses

  
Vocabulaire OLAP

Fait : 
 Un  fait  représente  la  valeur  d’une  mesure, 
mesurée  ou  calculée,  selon  un  membre  de 
chacune des  dimensions  (ex.  ce  qui  est recueilli 
par les systèmes transactionnels).  

 Ex. « le coût des travaux en 1995 pour la région 02 est 
250  000  $  »  est  un  fait  qui  exprime  la  valeur  de  la 
mesure « coût des travaux » pour le membre « 1995 » 
du  niveau  « année »  de  la  dimension  «  temps  » et  le 
membre « 02 » du niveau « région » de la dimension   
« découpage administratif ».                             
Vocabulaire OLAP

Cube : 
 Un  ensemble  de  mesures  organisées  selon  un 
ensemble de dimensions (aussi hypercube)
 Ex. Un cube de ventes qui comprend :
 Les dimensions Temps, Produit, Magasin
 La mesure Ventes en $  

  
Cube multidimensionnel
Ce cube multidimensionnel présente les profits
d’entreprises agricoles par propriété, par exploitation et
par année.
Cas 1: visualisation des
profits des propriétés > =
0.05 km2 pour toutes les
exploitations durant les 4
années.

Cas 2: visualisation des


profits des propriétés >=
1.5 km2 pour l’exploitation
de légumes pour l’année
1993.
Composantes OLAP
 L’architecture OLAP consiste en trois services :
Base de données :
 Doit supporter les données agrégées ou résumées
 Peut provenir d’un entrepôt ou d’un marché de données*
 Doit posséder une structure multidimensionnelle (SGDB
multidimensionnel ou relationnel)
Serveur OLAP :
 Gère la structure multidimensionnelle dans le SGBD
 Gère l’accès aux données de la part des usagers
Module client :
 Permet aux usagers de manipuler et d’explorer les données
 Affiche les données sous forme de graphiques statistiques et de
tableaux

 Selon le type de base de données accédé, plusieurs configurations


sont possibles : multidimensionnelle, relationnelle ou hybride
MOLAP
(OLAP Multidimensionnel)
 Les données détaillées de base ainsi que les données 
agrégées de l’entrepôt sont stockées dans une base de 
données multidimensionnelle (souvent appelée cube ou 
hypercube)
 Une base de données multidimensionnelle utilise une 
structure propriétaire au logiciel utilisé (≈ matrice)
 Le serveur MOLAP extrait les données de l’hypercube et 
les présente directement au module client
MOLAP
(OLAP Multidimensionnel)

Base de données Serveur MOLAP Client OLAP


multidimensionnelle
(hypercube)
ROLAP (OLAP Relationnel)
 Les données détaillées de base ainsi que les données 
agrégées de l’entrepôt sont stockées sous forme de tables 
dans une base de données relationnelle 
 La base de données relationnelle doit être structurée 
selon un modèle particulier (étoile, flocon, …)
 Le serveur extrait les données par des requêtes SQL et 
interprète les données selon une vue 
multidimensionnelle avant de les présenter au module 
client
ROLAP (OLAP Relationnel)

Serveur ROLAP
Client OLAP
Base de données
relationnelle Vue
(étoile ou flocon) multidimensionnelle
HOLAP (OLAP Hybride)
 Architecture qui consiste en un croisement des 
architectures MOLAP et ROLAP
 Les données détaillées de base de l’entrepôt sont 
stockées dans une base de données relationnelle et les 
données agrégées sont stockées dans une base de 
données multidimensionnelle
 Le serveur HOLAP accède deux bases de données et les 
présente au module client, selon une vue 
multidimensionnelle dans le cas des données de la BD 
relationnelle
HOLAP (OLAP Hybride)
MOLAP vs ROLAP vs HOLAP

Critère de ROLAP MOLAP HOLAP


comparaison

Stockage des BD relationnelle BD BD relationnelle


données de base multidimensionnelle
(détaillées)

Stockage des BD relationnelle BD BD


agrégations multidimensionnelle multidimensionnelle

Performance des Le moins Le plus performant Performance


requêtes performant moyenne
(habituellement)
Structure multidimensionnelle
Pour une configuration ROLAP ou HOLAP, il est 
nécessaire de simuler une structure 
multidimensionnelle dans un SGBD relationnel à 
l’aide de modèles particuliers qui permettent de 
mieux répondre aux besoins multidimensionnels :
– Modèle en étoile (Star Schema)
– Modèle en flocon (Snowflake Schema)
– Modèle mixte (Mixed Schema)
– Modèle en constellation (Fact Constellation Schema)
Modèle en étoile
 Le schéma en étoile tire son nom de sa configuration:
 Objet central, nommé table des faits
 Connecté à un certain nombre d’objets de manière radiale, 
les tables de dimension  
 La table des faits, comme son nom l’indique, contient 
les faits
 Les tables de dimensions contiennent les attributs 
définissant chacun des membres des dimensions.  
Elles sont dénormalisées.
Modèle en étoile

Un niveau=
1 identifiant
3 niveau=
3 couples (id +nom)

Un niveau=
1 couple (id +nom)
Modèle en étoile

DIMENSION 1 DIMENSION 4

FAITS
DIMENSION 2 DIMENSION 5

Mesures

DIMENSION 3 DIMENSION
N
Modèle en flocon
 Le schéma en flocon est dérivé du schéma 
en étoile où les tables de dimension sont 
normalisées (la table des faits reste 
inchangée)

 Avec ce schéma, chacune des dimensions 
est décomposée selon sa ou ses 
hiérarchie(s)
Modèle en flocon
Modèle en flocon
Modèle mixte
 Il s’agit d’une structure qui résulte de la 
meilleure combinaison des deux types de 
modèles précédents
– Seules quelques dimensions seront normalisées, 
souvent il s’agit des plus grandes tables et celles 
contenant le plus de redondance
Modèle mixte
Modèle en constellation
 Le schéma en constellation est en fait 
composé de plusieurs schémas en étoile qui 
partagent des tables de dimension
Modèle en constellation
Modèle en constellation
Opérations OLAP
Les outils OLAP utilisent des opérateurs particuliers 
afin de « naviguer » dans les cubes 
multidimensionnels :
– Pivoter (pivot, swap) : Permet d’interchanger deux dimensions 
– Forer (drill­down) : Permet de descendre dans la hiérarchie de 
la dimension. Ex. visualiser le nombre d’accidents par mois au lieu 
de par année.
– Remonter (drill­up, roll­up) : Permet de remonter dans la 
hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par 
année au lieu de par mois.
– Forer latéralement (drill­across) : 
– Permet de passer d’une mesure à l’autre.  Ex. visualiser le coût des 
travaux au lieu du nombre d’accidents
– Permet de passer d’un membre de dimension à un autre. Ex. visualiser 
les données de Montréal au lieu de celles de Québec
OLTP vs  OLAP

OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
♦ Priorité à la sécurité et l’intégrité ♦ Priorité à l’analyse et l’exploration
des données. des données
♦ Optimisation du rapport “espace de ♦ Optimisation du temps de réponse
stockage vs. quantité de données” aux requêtes (redondance
(non-redondance des données). encouragée s’il y a gain de
♦ BD mise à jour fréquemment performance)
(transactions). ♦ Gestion de données pré-agrégées,
en mode lecture (mise à jour
contrôlée)
OLTP vs  OLAP
OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
♦ Outil de requête tributaire de la ♦ Absence d’outil de requête i.e.
structure de données (un usager l’usager interagit directement avec
doit connaître la structure de la les données
base de données pour l’interroger
efficacement).
♦ Requêtes principalement du type
♦ Requêtes “non-agrégatives” i.e. “agrégatif” i.e. calculs de totaux,
visitent peu d’enregistrements, variance, maxima et minima, etc…
mais mettent à contribution les
techniques d’indexation pour
retourner un nombre relativement
restreint d’enregistrements
répondant à certains critères.
SOLAP
SOLAP
 Environ 80% des données ont une
composante spatiale qui est souvent
inexploitée
123, rue S Sainte-Foy
t-Jean G1K 7P4
Route 138
Québec
Amérique du Nord

 Besoin de nouveaux outils d’analyse spatio-


temporelle pour exploiter cette composante
SOLAP
 SIG ? : Il est bien connu que les SIG seuls ne présentent
pas l’efficacité requise par les applications analytiques
(langages d’interrogation, interfaces complexes, temps de
traitement longs)
 OLAP ? : L’intérêt d’OLAP pour l’analyse spatio­
temporelle a été démontré [Caron, 1997].  Cependant, 
sans volet cartographique, il est impossible de visualiser 
la composante géométrique des données
 SIG + OLAP ? : Une solution pourrait être de combiner
des technologies spatiales et non-spatiales : SIG et OLAP
SOLAP
 Quelques logiciels combinant des
fonctionnalités SIG et OLAP ont été mis
sur le marché :
 Cognos Visualizer
 ProClarity MapX
 AC OLAP Map
 Ils offrent un sous-ensemble seulement
des fonctionnalités d’un outil SOLAP idéal
SOLAP
SOLAP : Une plate-forme visuelle supportant
l’exploration et l’analyse spatio-temporelle faciles
et rapides des données selon une approche
multidimensionnelle à plusieurs niveaux
d’agrégation via un affichage cartographique,
tabulaire ou en diagramme statistique.
SOLAP
 3 types de dimensions spatiales :
 Descriptive
 Géométrique
 Mixte

 2 types de mesures :
 Descriptive numérique
 Spatiale :
 ensemble de coordonnées
 résultat d’une opération de mesure spatiale ou topologique
 ensemble de pointeurs vers une structure géométrique externe
SOLAP

Dimension spatiale Dimension spatiale Dimension spatiale


descriptive mixte géométrique

Canada Canada

CB Québec NB …

Montréal Québec …

Mesure numérique Mesure spatiale


Ventes en $ L’intersection géometrique d’une
dimension de peuplements forestiers et
d’une dimension de bassins versants
SOLAP
 Plusieurs architectures possibles (SGBDM, SGBDR,
SIG, serveur OLAP, client OLAP, logiciel de visualisation, DAO,
logiciel statistique, …)

 Exemples :
 ICEMSE = Access + SoftMap + VB
 MSSS = SQL Server + JMap + Java
 MTQ routier = SQL Server (Analysis Services) + ProClarity +
Geomedia + VB
SOLAP
Caractéristiques souhaitables :
 Visualisation des données :
 Plusieurs types d’affichage (cartographique, tabulaire, diagrammes
statistiques)
 Gestion flexible des affichages
 Représentation de plusieurs mesures à la fois
 Affichage de données de contexte
 Modification de la sémiologie graphique
 Légende interactive

Exploration des données :
 Opérations d’exploration disponibles dans tous les affichages
 Fonctions d’analyse spatio-temporelle (métriques et topologiques)
 Gestion de la dimension temporelle à l’aide d’une ligne du temps
 Ajout de mesures calculées
 Filtrage sur les membres des dimensions
 Affichage des agrégations significatives seulement
SOLAP
Caractéristiques souhaitables :
 Structure des données :
 Support pour plusieurs dimensions spatiales géométriques à la fois
 Support pour toutes les primitives géométriques et leurs complexes (ISO)
 Support pour la généralisation automatique et la représentation multiple
 Support pour le stockage des données géométriques historiques
 Support pour différentes sources de données
SOLAP
 Des recherches très actives sont en cours
à ce sujet au CRG
 Projets SOLAP en cours :
 Ministère des Transports : transport hors-
norme
 SOLAP 3D
 À moyen terme : SOLAP 3D, temps réel,
sans-fil
Liens intéressants
 Entrepôts de données :
 Data warehouse.com : http://www.datawarehouse.com
 Data warehousing Information Center :
http://www.dwinfocenter.org/
 OLAP :
 OLAP Council : http://www.olapcouncil.org/
 OLAP Report : http://www.olapreport.com/
 Dm Review : http://www.dmreview.com
 OLAP Information : http://www.olapinfo.de/
 SOLAP :
 http://sirs.scg.ulaval.ca/YvanBedard/

You might also like