Professional Documents
Culture Documents
4$
$!
|\/
|
Le [data marketing], cest comme le sexe chez les adolescents : tout le monde en parle, personne ne sait vraiment
comment le faire, tout lemonde pense que tout le monde le fait, donc tout le monde prtend le faire. Et les chiffres
donnent raison Dan Ariely, auteur de cette mtaphore : selon une rcente tude conduite par linstitut Morar, 72 % des
entreprises nexploitent pas les donnes quelles collectent, dboussoles face la complexit technologique, scientifique
et organisationnelle introduite par lafflux massif de donnes sur les consommateurs.
Bible du data marketing, cet ouvrage propose de manire indite une mthode robuste pour exploiter le plein
potentiel de la donne.
Il permettra notamment au marketeur moderne de :
comprendre les mcanismes de collecte, de stockage et de rconciliation des donnes ;
matriser les principaux outils du data marketing (DMP, CRM 360, marketing automation, cosystme
adtech) ;
dmystifier les concepts mathmatiques appliqus au marketing (clustering, scoring, marketing prdictif).
|
|\/
$!
Ingnieur des Ponts et Chausses, Julien Hirth est le co-fondateur de Scibids Technology, solution technologique
4$
Il fut auparavant consultant au sein du cabinet Artefact et a accompagn de nombreuses entreprises dans la dfinition et
la mise en uvre dune stratgie data marketing omnicanale efficace.
Il anime galement un compte Twitter (@JulienHIRTH) commentant les dernires tendances du data marketing : un bon
complment la lecture de cet ouvrage !
Julien Hirth
Le data marketing
La collecte, lanalyse et lexploitation des donnes au cur du
marketing moderne
|
|\/
$!
4$
By
Groupe Eyrolles
61, bd Saint-Germain
75240 Paris Cedex 05
www.editions-eyrolles.com
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou partiellement le prsent ouvrage, sur
quelque support que ce soit, sans autorisation de lditeur ou du Centre franais dexploitation du droit de copie, 20, rue
des Grands-Augustins, 75006 Paris.
Prface
Avant-propos
La digitalisation de nos vies
couple laugmentation de la puissance de calcul
changent le mtier du marketeur
Objectif de ce livre
PRAMBULE
PARTIE A
Collecter et stocker
Autodiagnostic
Chapitre 1 Faire connaissance avec ses donnes
Comment classer ses donnes compte tenu de leur variabilit ?
Les critres de classification utiliss par les data scientists
Les critres de classification utiliss par les statisticiens
Les critres de classification utiliss par les responsables informatiques
Les critres de classification utiliss en publicit
Les critres de classification utiliss par le marketing
Les critres de classification utiliss par les juristes
|
|\/
Quelles donnes occupent le plus de volume ?
$!
Sources
PARTIE B
Autodiagnostic
Chapitre 4 Analyse : la dcouverte de tendances et de schmas dominants
tape 1 Dcouvrir et nettoyer le dataset
tape 2 Dcrire les donnes
Analyser les grandes masses
Analyser les volutions
tape 3 Comparer les donnes
Comparaison de deux moyennes (ou deux pourcentages)
Comparaisons multidimensionnelles
tape 4 tablir une ou plusieurs segmentations
Sources
Chart chooser : quel type de reprsentation choisir pour visualiser les donnes ?
4$
Lchelle
Le titre
Les couleurs
La lgende
Autres astuces
Prsentation des rsultats sur PowerPoint : se concentrer sur lessentiel
Mobiliser et impliquer positivement son audience
Structurer sa prsentation comme une histoire
Vos slides passent-elles le test des cinq secondes ?
Le tableau de bord ne prsente pas des rsultats, il aide la dcision
Sources
PARTIE C
Autodiagnostic
Chapitre 8 Data et publicit
Quappelle-t-on programmatique ?
Il tait une fois la publicit digitale
|
|\/
Le programmatique simpose comme le prochain standard publicitaire
$!
Conclusion
Rponses aux autodiagnostics
Questions partie A Collecter et stocker
Questions partie B Extraire de linformation des donnes
Questions partie C Activer les donnes
Glossaire
Les socits et solutions spcialises dans la data
Cabinets/agences conseils
Agences marketing/publicitaires
Adtech
Martech
Autres
Remerciements
Index
Table des figures
Table des encadrs
|
|\/
$!
4$
By
Prface
campagne pour coller aux plus proches dsirs de leurs clients. Ces contenus sont
4$
pousss par des algorithmes en fonction de multiples paramtres individuels. Netflix le fait
notamment avec ses propres sries. En cas de campagne mal cible, la rponse du
By
diginaute est sans appel : toute publicit intrusive ou non pertinente est immdiatement
sanctionne par linstallation dAd-block. Les taux dinstallation flirtent aujourdhui avec les
30 % en France.
Le fil directeur de cette volution est la donne. Cest cette ressource que certains
chercheurs qualifient d or noir du XXIe sicle, et qui permet aux marques de faire le lien
entre toutes nos identits, physique et digitales. Cest elle qui leur permet de savoir
proposer intelligemment un matelas confortable qui vient dacheter une poussette, ou
encore permet de dtecter trs en avance les signaux faibles , avant-coureurs dune
rsiliation de contrat.
Professionnels et passionns du marketing, pourtant aguerris aux toutes dernires
techniques, nous sommes sans cesse impressionns et devons constamment nous
remettre en question pour suivre au mieux les innovations toujours plus ambitieuses mises
au point par le milieu du data driven-marketing.
Google, dont la mission ultime est dorganiser et de rendre accessible toute linformation
au monde, se donne les moyens de ses ambitions. En achetant, en 2014, la start-up
britannique Deepmind, le gant mise sur les techniques les plus pointues dintelligence
artificielle, sans nul doute pour les appliquer au domaine qui constitue sa premire source
de revenus : la publicit. Deepmind na pas attendu longtemps avant de faire ses preuves
en battant cette anne le champion du monde du jeu, considr comme lun des derniers
bastions o lhumain domine la machine : le jeu de go, longtemps considr comme
impossible matriser par un algorithme (le nombre de combinaisons jouables est plus de
1 050 fois plus grande que les checs : mme une machine surpuissante est loin de
pouvoir calculer tous les coups gagnants). AlphaGO a pourtant russi limpossible et a
vaincu au cours dun match suspense le champion Lee Sedol 4 1.
Microsoft nest pas en reste et a t rcompens par le prix de la data et de la crativit
cette anne Cannes. Lalgorithme de la socit a pass au crible 346 tableaux de
Rembrandt (paisseur des couches de peinture successives, espacement des yeux,
position du nez, forme des visages, etc). Lensemble des caractristiques a ensuite t
reproduit sur une toile indite, imprime en 3D, crant le fascinant Next Rembrandt
sur une toile constitue de plus de 148 millions de pixels. Lillusion est parfaite : les plus
grands experts en histoire de lart ont reconnu quil tait impossible de diffrencier le
nouveau portrait dun portrait de Rembrandt.
Jusquo ira-t-on dans lutilisation de la donne applique au marketing ? Le monde de
demain sera sans aucun doute un monde de marketing individuel ou people based . Le
contenu autognr et absolument unique qui nous sera propos sera probablement
compltement diffrent du contenu de notre voisin. limage de Facebook qui nous
propose autant de versions de son newsfeed quil y a dutilisateurs sur le rseau social,
|
|\/
les contenus pousss par les marques seront compltement adapts et pertinents grce
$!
Vincent LUCIANI
4$
lisez cette introduction, plus de 250 000 tweets ont t changs, plus de deux millions de
By
requtes ont t analyses par Google, plus de trois millions de likes Facebook ont
t attribus, plus de cent heures de nouvelles vidos YouTube ont t charges et plus
de 150 000 vidos Netflix lances ! Au total en moins dune minute de lanne 2015 ont
t cres autant de donnes que toutes celles depuis le dbut de lhumanit jusqu
2003 et 90 % des donnes disponibles dans le monde ont moins de deux ans4 ! Un afflux
massif de donnes qui change compltement le paradigme qui prvalait dans les annes
1980 : avec un volume de donnes traiter par une entreprise qui double tous les dix-huit
mois5, le facteur diffrenciant dune socit aujourdhui ne rside plus tant dans le fait
davoir des donnes que dtre capable de les analyser et de les transformer en
information ! La data est abondante, donc ce qui est utile et rare, cest la capacit
lexploiter et la rendre oprable , assure ainsi Samir Amellal6, Chief Digital Officer de
Publicis.
Justement, tre capable de traiter rapidement et moindre cot les gros volumes
de donnes est le deuxime changement majeur la source de lessor du data
marketing. Alors que les algorithmes statistiques des annes 1970 ntaient pas souvent
applicables ou rentables mettre en place faute de puissance de calcul disposition, leur
mise en production est dsormais possible et profitable. Cette volution tient
principalement quatre phnomnes : la loi de Moore, le calcul distribu, lopen source et
le cloud.
La loi de Moore est une faon savante de dire que la puissance des processeurs double
tous les dix-huit mois depuis linvention de lordinateur !
Le calcul distribu signifie quau lieu de recourir un norme serveur trs onreux pour
raliser un calcul complexe, celui-ci est dcoup en plusieurs sous-calculs plus simples,
raliss par des serveurs plus conventionnels. Comme pour les comptes dentreprise, ces
micro-calculs sont ensuite consolids pour trouver le rsultat du calcul initial.
Lopen source dsigne la gratuit des logiciels construits par des communauts non
lucratives . La plupart des architectures Big Data sont composes de tels logiciels en
libre accs, le plus clbre dentre eux tant Hadoop.
Enfin, le cloud a fait diminuer drastiquement le cot ncessaire au traitement des
donnes7. Sur le modle de lconomie collaborative, il devient possible nimporte quelle
start-up dans un garage de louer en temps rel autant de machines que ncessaire
Google ou Amazon !
|
CHANGENT LE MTIER DU MARKETEUR
|\/
$!
Fini les 4 P 8 si chers aux professeurs et aux livres du XXe sicle ! Au placard les
4$
davantage chang en deux ans que lors des cinquante dernires annes9.
Le digital et les progrs informatiques ont en effet boulevers le parcours dachat du
client. Dun tre passif sduire grand renfort de messages commerciaux, le
consommateur est devenu inform et critique (comparaison des prix et avis
consommateurs en temps rel), mobile et connect (multitudes de points de contact avec
la marque), mfiant et lass (inond de messages commerciaux plus de 300 par jour10).
Une vraie diva insaisissable et exigeante, au parcours dachat de plus en plus complexe et
de moins en moins linaire !
Pour rester comptitif, il devient ds lors ncessaire de centrer le marketing sur le client
et non plus sur le produit11, ce qui signifie concrtement reconnatre le client chaque
point de contact et personnaliser linteraction, la fois par rapport lindividu et son
parcours.
Et pour relever ce dfi, le marketeur moderne a besoin de donnes : des donnes sur
lindividu en tant que tel ( une adolescente de 14 ans ), sur son comportement ( cet
individu est venu trois fois sur le site cette semaine, cest un prospect chaud ), sur ses
centres dintrt La planification mdia et lanalyse stratgique laissent ds lors place
dautres questions au sein des runions entre professionnels du marketing : quelles
donnes peuvent aider augmenter la conversion de ltape une deux dans le parcours
dachat du client ? Comment les collecter ? Que signifie vraiment cette analyse remise par
le statisticien ? La solution imagine est-elle concrtement ralisable ? Comment prouver
lefficacit de son ide ?
Plus scientifique, plus technologique, le marketing moderne se fait aussi plus
cratif : auparavant dpendant du systme dinformation (SI), lapparition doutils en
mode Software as a Service (SAAS)12 libre le potentiel oprationnel du marketing.
Une libert qui a toutefois un prix : le changement dhabitudes de travail et lacquisition de
nouvelles comptences et de nouveaux savoir-faire.
OBJECTIF DE CE LIVRE
La data, cest comme le sexe chez les adolescents : tout le monde en parle, personne
ne sait vraiment comment le faire, tout le monde pense que tout le monde le fait, donc
tout le monde prtend le faire. Cette mtaphore culotte de Dan Ariely, professeur de
psychologie et dconomie comportementale, exprime le flou qui entoure aujourdhui le
phnomne data . Le data marketing reste en effet encore trs obscur pour beaucoup
de directions dentreprises, quasiment magique . Les attentes sont souvent leves, au
niveau du degr de magie mis dans cette nouvelle approche et ces nouvelles
technologies miracles . Bercs la nuit par les promesses de la data ( le bon message
|
|\/
au bon moment la bonne personne ) et heurts le jour par les difficults oprationnelles
$!
tournis. 20 % seulement dentre eux, interrogs lors dune rcente tude de la socit
By
Bizo13, estiment avoir russi prendre le tournant de la data, tandis que 72 % des
entreprises nexploitent pas les donnes quelles collectent selon une tude conduite en
juillet 2015 par linstitut Morar pour le compte du constructeur Purestorage14.
Face ces constats, ce livre a pour vocation daider les directions marketing :
mettre en uvre une stratgie data robuste et industrialiser un ensemble de cas
dusages marketing data driven ;
avoir une vision holistique des donnes disposition et un descriptif des manires de
les collecter, de les stocker et de les rconcilier entre elles ;
approfondir leurs connaissances sur les principaux outils du data marketing (DMP, CRM
360, marketing automation, cosystme adtech) ;
comprendre les bases de la data science applique au marketing (clustering, scoring,
marketing prdictif).
Dans un esprit rsolument pratique et orient projet , de nombreux exemples viennent
illustrer la thorie, dmystifier les buzzwords qui envahissent les confrences et les
discours de certains fournisseurs de solutions en plein data washing et amneront,
nous lesprons, le lecteur de la confusion la clart !
1. Littralement fouille de donnes , le datamining est un processus faisant appel aux techniques statistiques et
mathmatiques permettant dextraire des informations commercialement pertinentes et de modliser des schmas
dinformations cachs au sein de grandes bases de donnes.
2. Traitement mathmatique consistant attribuer un individu une probabilit de comportement futur. Les premiers
modles de scoring ont t mis en place dans les banques dans les annes 1970 afin destimer le risque associ aux
crdits.
3. Lieu physique dans lequel sont regroups les lments concrets (ordinateurs, serveurs, etc.) constituant le systme
dinformation de lentreprise.
4. Les donnes numriques : un enjeu dducation de citoyennet, Journal officiel de la Rpublique franaise, sance du
13 janvier 2015.
5. Bruno Teboul et Jean-Marie Boucher, Le Marketing absolu, ditions Kawa, 2013.
6. Guillaume Serries, Comptences, gouvernance, vision : SAS dtaille les freins du Big Data en France , 5 novembre
2015, zdnet.fr.
7. Le prix du mgaoctet tait estim 300 $ en 1980. Il est estim aujourdhui moins de 0,0002 $ (source : Les donnes
numriques : un enjeu dducation de citoyennet).
8. Produit, Prix, Place, Promotion.
9. Digital Marketing Symposium dAdobe, 2014.
10. Arnaud de Baynast et Jacques Lendrevie, Publicitor, 2014 (8e dition).
11. Passage dune logique product centric une logique client centric .
12. Logiciel mis disposition distance par un fournisseur et accessible par le biais dune URL web. Le logiciel est lou,
au mois ou lusage. Les mises jour sont automatiques.
13. Start-up rachete 175 millions de $ par LinkedIn en 2014.
14. Big Datas Big Failure : the struggles businesses face in accessing the information they need.
|
|\/
$!
4$
By
Prambule
Concevoir son projet Data
Daprs une tude CapGemini1 mene en 2015, seuls 35 % des projets data denvergure
sont qualifis de russites ou de francs succs. Un constat qui nest pas sans rappeler les
dbuts du CRM, dont les projets connaissaient prs de 70 % dchecs 2 !
La cause profonde des checs dans la plupart des projets data nest pas dans le manque
de crativit des applications possibles, ni dans le manque de donnes, ni dans le
manque doutils technologiques, ni mme dans le manque de savoir-faire pour collecter et
analyser les donnes. La cause rside le plus souvent dans la fragilit de la phase
de conception : attentes irralistes, objectif business non prcisment dfini, oubli de
la composante humaine, feuille de route trop superficielle Il faut dire quavec la data, il
|
|\/
est facile de se perdre dans limmensit des possibles et de sengluer dans des projets
$!
Sans apporter une rponse miracle , ce prambule propose un canevas en cinq tapes
By
pour viter la majorit des erreurs de conception et aborder de faon structure un projet
data marketing :
dfinir un objectif business spcifique ;
tablir les critres de succs du projet ;
dcomposer lobjectif en cas dusages ;
tudier la faisabilit, technique et organisationnelle ;
dterminer une feuille de route.
Autrement dit, votre objectif doit tre Spcifique, Mesurable, Atteignable, Ralisable et
Temporellement dfini, ce qui mis bout bout constitue lacronyme SMART, clbre
mthode cre en 1981 par George Duran et toujours massivement utilise en
management, en coaching, en gestion de projet et dans ce prambule dintroduction
la conception dun projet data marketing ! Il sagit dun canevas dcole qui souffre
comme la plupart des frameworks3 de beaucoup dexception, mais qui a le mrite de
poser les bonnes questions trs en amont.
clients au sein du service client ou sur les rseaux sociaux pour identifier des
4$
Figure 1 La data peut tre exploite tous les tages du tunnel marketing
Face au vaste choix des possibles, dterminer prcisment des objectifs spcifiques est
un des plus grands dfis du professionnel du marketing. Les cinq rgles dor ci-dessous
devraient aider le relever.
cas de dmnagement et arrivera la conclusion que lors dun dmnagement, dans 75 % des cas le client rompt
4$
son contrat.
By
Dans la mme veine, mettre en place une Data Management Platform (DMP)8 ou tout
autre outil data marketing nest pas un objectif data. Le vritable objectif business qui
justifie le projet DMP pourra tre, par exemple, rduire mes cots dacquisition digitaux
qui masphyxient .
Exemple de lassurance : une DMP sera un moyen de dtecter les gens qui dmnagent grce des partenariats
data9 avec dautres sites (fournisseurs dnergie, seloger.com).
plus parlant dutiliser une priphrase dcrivant le phnomne. Afin de ne pas nourrir de
4$
cette priphrase de dcrire les diffrents types dattrition pris en compte dans le
primtre : rsiliation dun contrat (mais en laissant dautres en cours), suppression de
lensemble des contrats, radiation contrainte par lassureur lui-mme, etc.
Chaque objectif mettra en jeu des leviers trs diffrents et aboutira, par exemple, la
4$
cration de scnarios e-mails pour driver du trafic, la mise en place dun moteur de
recommandations darticles pour augmenter le nombre de pages vues et au recours un
By
Il est impossible de mener bien un projet et de runir les financements ncessaires sans
tre capable de dcrire quoi ressemblera sa russite et de pouvoir mesurer au fil de
leau les progrs effectus. Dans le cas de lexemple de lassurance visant rduire les
ruptures de contrat en cas de dmnagement, il faudra ainsi tre prpar rpondre
ces quatre questions :
Quand un client dmnage, arrive-t-on finalement mieux le retenir quauparavant ?
Si oui, quelles actions peut-on attribuer cette russite ?
Le modle qui prdit les dmnagements est-il fiable ?
Le cot du projet justifie-t-il les gains ?
Figure 3 Dterminer les indicateurs de performance : une tape cl dun projet data marketing
By
Afin de rquilibrer limportance de chaque canal, il sera souvent plus judicieux de rpartir
4$
le poids dune conversion sur les diffrents points de contact ayant particip in fine cette
conversion. Par exemple, surpondrer le canal qui gnre la premire visite sur le
By
formulaire de souscription est une faon de faire, connue sous le nom de modle en
U . Il existe en ralit un grand nombre de modles, descriptifs ou algorithmiques, et
nous invitons le lecteur se rendre dans la bibliographie de ce prambule pour assouvir
sa soif de connaissance sur ce sujet passionnant.
Figure 4 Modle en U : la premire visite a un poids aussi fort que le dernier clic
ATTRIBUTION OU DDUPLICATION ?
Il existe souvent une confusion entre lattribution marketing et la dduplication des ventes. Il sagit de deux concepts
proches, mais avec des objectifs diffrents :
lattribution marketing tente dvaluer de manire juste le rle de chaque levier marketing dans la conversion afin de
mieux rpartir les budgets marketing ;
la dduplication sappuie sur lanalyse dattribution pour mieux rpartir la rmunration des diffrents apporteurs
daffaires (et viter de payer la commission plusieurs fois !). Par exemple un modle en U permettra de diviser parts
gales la commission entre le blog affinitaire ayant fait dcouvrir le site linternaute et entre le site de couponing
utilis par linternaute avant son achat.
Rsultats observs
|
Na pas dmnag
|\/
A dmnag (+) Total
()
$!
4$
Prdictions
Client prdit comme
nallant pas 1 500 (FN) 450 000 (VN) 451 500
dmnager ()
Figure 5 La matrice de confusion : une faon intuitive de mesurer lefficacit dun algorithme
Remarque : VP, FP, FN et VN sont les terminologies souvent attribues aux valeurs de la
matrice, abrviations de vrais positifs, faux positifs, faux ngatifs et vrais ngatifs.
Cette matrice, invente pendant la Seconde Guerre mondiale pour valuer la pertinence
du modle de prdiction dun bombardier allemand (par rapport la taille de la tache sur
le radar), permet de calculer un grand nombre dindicateurs defficacit.
Parmi les indicateurs les plus frquents16 :
le taux derreur = (FN + FP)/Total = 6 500 /491 500 = 1,3 % ;
la sensibilit = VP /(VP + FN) = 35 000/36 500 = 95,8 % ;
la prcision = VP/(VP+FP) = 35 000/40 000 = 87,5 %.
Un modle parfait aura une sensibilit de 100 % (prdit tous les clients qui vont
dmnager) et une prcision de 100 % (ne fait aucune erreur dans ses prdictions). Dans
la ralit aucun modle natteint ce degr de perfection et il y a souvent une dimension
privilgier selon les impratifs business (ici, au vu des enjeux financiers, il est sans doute
prfrable daugmenter encore la sensibilit quitte perdre en prcision).
tape 2 : valuer le cot du projet de rtention des clients dtects comme allant
dmnager
By
De la thorie
On dsigne communment par cas dusage larticulation des quatre briques suivantes.
Un objectif business : il sagit ici de rappeler lobjectif spcifique auquel doit rpondre le
cas dusage. Cet objectif est soutenu par un constat quantitatif souligne en gnral
|
|\/
galement la cible du cas : les clients qui ont dclar dmnager prochainement, les
$!
Un KPI : chaque cas dusage doit montrer sa pertinence et donc tre suivi par un ou deux
indicateurs.
Le taux de clic dans le-mail et le taux de prise de rendez-vous sont ici des indicateurs pertinents pour le cas dusage
que nous avons construit.
la pratique
cette tape de la conception du projet, une bonne faon de procder est dappliquer le
principe de divergence-convergence cher au design thinking18 et aux innovateurs
de la Silicon Valley.
La phase de divergence consistera en lorganisation dateliers de gnration de cas
dusages, avec les diffrentes parties prenantes au projet. Il est important dans cette
phase de faire fi des contraintes internes (techniques, projets en cours) et de laisser
libre cours son imagination de marketeur. Lobjectif de cette phase est la quantit, pas
la qualit. tablir cette rgle ds le dbut de latelier permettra de librer la crativit,
dencourager les ides audacieuses et dviter des critiques trop prcoces quant la
faisabilit de certains cas dusages. tre concret et visuel aidera galement maintenir
lattention : il est par exemple recommand dutiliser des Post-it de couleur (chaque
couleur reprsentant une brique) qui seront disposs sur un mur blanc. lissue de cette
phase crative, il est ncessaire de prendre le temps de dcrire chaque cas dans une
fiche descriptive au format norm.
La phase de convergence consistera prioriser ces cas dusages. Les critres
dpendent du contexte, mais traditionnellement limpact business estim et le temps de
dploiement sont deux bons filtres. Afin de rendre cette phase de priorisation visuelle, il
est pertinent de reprsenter les cas dusages sur cette matrice deux dimensions :
|
|\/
$!
4$
By
Les cas 2 et 6 rapides mettre en place et fort impact sont les cas prioritaires qui vont
soutenir votre projet et asseoir sa crdibilit.
Les cas 3 et 7 vont donner une vision moyen et long terme votre projet.
Les cas 1 et 4 vont maintenir la dynamique du projet en permettant de faire merger
rgulirement des actions concrtes. Un bon moyen de continuer recevoir des
financements pour les projets plus long terme !
Le cas 5 est tout simplement oublier !
Bon savoir
Cet exercice de gnration de cas dusages est assez technique et il peut tre utile de recourir un cabinet
spcialis ayant lexprience de ce type dateliers. Une liste indicative de cabinets conseils spcialiss en
data marketing figure en annexe.
RALISABLE : QUELLES CONTRAINTES OPRATIONNELLES VONT SE
DRESSER SUR VOTRE CHEMIN ?
Maintenant que le projet est bien dlimit et accompagn dun plan de mesure et de cas
dusages concrets, il va falloir le confronter la ralit du quotidien de lentreprise. Selon
ltude Enjeux data des dcideurs franais19 , 62 % des interrogs affirment ainsi que
les donnes disponibles ne sont pas exploites de manire systmatique et stratgique,
faute de contraintes organisationnelles et oprationnelles. Donnes, outils,
organisation sont tous les trois sources de contraintes anticiper ds la conception du
projet pour en maximiser la faisabilit.
dfaut davoir dsilot les donnes, certaines entreprises ont ainsi fait leffort de
cartographier leurs donnes et dassigner chacune dentre elles un responsable mtier
(la donne telle quelle est vue par le business) et un responsable SI (la donne technique
dans les tables). Ds lors, chaque nouveau projet ne se traduit plus par une chasse aux
donnes : il est beaucoup plus simple et rapide didentifier les donnes cls et les parties
prenantes. Collibra, outil ddi au data management et la data gouvernance, a prouv
avec sa leve de fond de 20 M en septembre 2015 que le sujet tait dimportance ! La
complexit des donnes ayant explos ces dernires annes, il est devenu essentiel pour
les entreprises de trouver et didentifier facilement des donnes [] utiles dans leurs
prises de dcision , a prcis lors de cette leve de fonds le Chief Executive Officer
(CEO) de cette solution prometteuse.
Les outils en place ne permettent pas la ralisation de tous les cas dusages
Les cas dusages incluent certainement des notions de personnalisation de contenu, de
temps rel, de dtection dvnements sur le site ou ailleurs sur le Web Lcosystme
doutils disposition dans lentreprise permet-il de rcuprer toutes les donnes et de les
activer comme imagin dans les cas dusages ? Avant de rpondre cette question,
avez-vous seulement une vision prcise des diffrents outils qui existent dans votre
entreprise et de leurs potentialits ? Il nest en effet pas rare dans les grandes
entreprises que chaque division utilise son propre jeu doutils20, aboutissant un
invraisemblable patchwork dinnombrables fournisseurs de solutions e-mail, mobiles,
rseaux sociaux, etc. Souvent loutil est encore malheureusement le point de dpart des
rflexions autour de la data et du marketing digital, avec pour consquence une
inadquation aux vritables cas dusage business mettre en place.
Afin de valider la conception du projet, ce ne sera pas du temps perdu que de raliser une
cartographie de lensemble des outils dans lentreprise et de les mapper avec les cas
dusages imagins. La demande doutils supplmentaires pour raliser certains cas
dusages prioritaires nen sera que plus convaincante.
Bon savoir
Vous trouverez sur le site de linstitut Gartner une cartographie particulirement convaincante de
lensemble des outils du digital et data marketing prsents sur le march.
SI dtre trop conservatrice et scuritaire. Les discussions entre mtier et juridique sont
galement parfois source de tensions, la prise en compte des contraintes juridiques ayant
naturellement tendance ralentir les projets.
Au-del de lorganisation en tant que telle, un autre frein la transcription de la stratgie
en ralit oprationnelle rside dans le manque de profils mixtes business et
technique qui ont fait le succs des gants du Web. Parmi ces nouveaux mtiers en
plein boom, citons par exemple :
le data scientist : qualifi en 2015 par la Harvard Business Review de mtier le plus
sexy de lanne , le data scientist possde une triple comptence mathmatique
(crer un modle), informatique (monter un cluster, implmenter un modle) et business
(vulgariser et raconter ce que disent les donnes). Mme si sa comptence dans
chacun de ces trois domaines peut tre lgrement infrieure celle dun pur
spcialiste, sa polyvalence en fait un atout trs prcieux pour les entreprises et une
personne rare sur le march ;
le Product Manager a galement un triple savoir-faire, business (vision march et
besoins clients), SI (sait parler des dveloppeurs), User Experience (matrise la
notion de parcours client). Il est le garant du produit et de ses volutions ;
le DevOps : acronyme de dveloppement et oprations , le DevOps est le meilleur
alli du Product Manager. Sensible au produit et la satisfaction client, il rpond au
besoin du mtier de raliser en continu une multitude de petites modifications
techniques pour coller aux exigences du client final, sans entraver la roadmap plus long
terme de la SI ;
le Chief Marketing Technologist (CMT) : dans un cosystme martech de plus
en plus complexe, il est trs difficile pour les entreprises de discerner le vrai du faux et
de choisir les partenaires techniques et diteurs de solution les plus adapts. Capable
la fois de matriser les cas dusages mtiers esprs et de challenger le prestataire
sur le plan technique, le CMT fait le bonheur de plus en plus dentreprises dpasses
par la rapidit du dveloppement des technologies et le camouflage de la ralit sous
les buzzwords du moment ;
le Chief Data Officer (CDO) : de plus en plus rattach lexcutif, le CDO est
traditionnellement en charge de lintgrit de la donne, de lanimation de la
gouvernance de la donne et de lacculturation de lentreprise. Il sagit ici aussi dun
profil rare ayant une bonne connaissance des systmes dinformation, de solides
notions mathmatiques, mais possdant galement une excellente vision business et
des qualits de communication hors pair pour pouvoir mener le changement. Linstitut
dtudes Gartner estime 1 000 le nombre de postes de CDO en 201622,
|
|\/
principalement dans les pays anglo-saxons.
$!
Sans prtendre que la solution tous les problmes de data management se situe dans
4$
le recrutement de ces profils23, identifier et multiplier les profils mixtes dans lentreprise
By
facilitera cependant la ralisation des projets data. Certaines entreprises lont bien
compris et, linstar dAxa, Pernod-Ricard, Engie24 etc., commencent mutualiser leurs
comptences au sein de data lab .
Test & learn, littralement apprendre en marchant , est une mthode visant tester
By
une ide petite chelle, en tirer des conclusions et donc des amliorations avant de
gnraliser le test.
Mthode agile : mthode de dveloppement reposant sur des cycles courts de
dveloppements itratifs appels sprints . Elle soppose aux plus traditionnels cycles
en V qui ncessitent beaucoup de documentation et de spcifications techniques.
Scrum est la mthode agile la plus populaire. Signifiant littralement la mle , le
canevas Scrum sappuie notamment sur de courtes runions matinales pendant
lesquelles les participants au projet indiquent tour tour les tches quils ont effectues la
veille, les difficults rencontres et enfin ce sur quoi ils vont poursuivre leur travail le jour
suivant.
Efficaces quand elles sont bien maitrises, ces mthodes ne sont pas appliquer la
lgre. En particulier attention ne pas se cacher derrire ces buzzwords pour rester
ternellement dans lexprimentation ou changer de cap tout-va !
RETENIR DE CE PRAMBULE
Un projet data marketing ncessite une excellente prparation. En particulier, il est indispensable de :
commencer par un constat chiffr justifiant le projet ;
spcifier lobjectif, en ayant recours au besoin un arbre dquivalence ;
tablir un plan de mesure de la russite du projet ;
constituer une banque de cas dusages en lien avec lobjectif spcifique ;
impliquer trs tt les diffrentes parties prenantes dans lentreprise.
vous de jouer
valuez la maturit data de votre entreprise en remplissant le questionnaire labor par le
CIGREF : http://www.cigref.fr/rapport-cigref-enjeux-business-des-donnees
Synthtisez votre projet data en une page grce au lean canvas amplement utilis par les
start-ups du monde entier : http://bit.ly/1SZKSjL
Appropriez-vous le framework SMART grce ce canevas fourni par Hubspot :
http://offers.hubspot.com/how-to-determine-your-smart-marketing-goals
SOURCES
Pour moins culpabiliser face aux difficults rencontres par votre entreprise pour exploiter ses donnes, deux articles
sans langue de bois :
Big Data + mauvaise mthode = big chec , Abed Ajraou, aot 2015, disponible en ligne sur le blog de decideo.fr ;
Big Data : peu de projets, le plus souvent des checs , Christophe Auffray, janvier 2015, zdnet.fr.
|
|\/
Pour approfondir les problmes organisationnels que cristallise la data, deux articles pdagogiques :
$!
Pourquoi ce dialogue de sourd entre SI et mtiers ? , Pierre Fournier, accessible sur le blog du cabinet Artefact ;
4$
Les projets Big Data rveillent les rivalits dans lentreprise , 21 octobre 2013, La Revue du digital.
Concernant les modles dattribution, le cabinet Converteo propose un livre blanc trs pdagogique :
By
Attribution Management : entre technologie, marketing et statistique, comment appliquer et tirer parti de lattribution,
juillet 2015.
Enfin, quelques tudes de cas dentreprises qui ont russi ( petite ou grande chelle) sappuyer sur la data et qui
auraient mrites dtre dveloppes dans ce livre :
Quand Spontex fait de Twitter le meilleur ami de la mnagre (et du mnager) , novembre 2015, lUsine digitale ;
Comment McCain Foods se prpare au Big Data , Rhida Lookil, dcembre 2015, lUsine digitale ;
Figaro Media lance ses offres Data sous le label FigData , janvier 2014, offremedia.com.
1. Cracking the data conundrum : how successful companies make Big Data operationnal .
2. tude Butler Group, 2002. Ce taux tait estim 47 % en 2009 par Forrester Research.
3. Anglicisme pour designer canevas .
4. Procd dit du look alike audience . Nous reviendrons dessus plus en dtail dans le chapitre 4.
5. Terme anglais frquemment utilis pour dsigner un prospect intress par loffre. Typiquement un internaute qui laisse
ses coordonnes pour tre rappel est un lead .
6. Mots et phrases employs par un consommateur lorsquil sadresse directement une entreprise (service client,
rseaux sociaux, etc.).
7. Perte de clientle, la suite, par exemple, de la rsiliation dun abonnement. Le terme anglais churn est galement
trs souvent utilis.
8. Plateforme technologique facilitant la collecte de donnes anonymes depuis plusieurs sources (navigation web,
campagnes mdia, marketing direct, partenaires), la construction daudiences et lactivation de ces audiences,
principalement sur lcosystme publicitaire.
9. Partenariats dits second party .
10. Terme utilis pour dsigner laffichage de la publicit un endroit donn du site.
11. En ralit, on parle plutt de cot pour 1 000 impressions, dsign par labrviation CPM. Un emplacement publicitaire
est ainsi vendu par exemple 3 CPM .
12. Ces KPI ne sont toutefois pas autosuffisants, car ces pourcentages sont aussi dus toutes les autres causes de
dpart non traites par le projet.
13. Stratgie publicitaire consistant cibler un individu dj pass rcemment sur le site web de lannonceur ou sur
certaines pages spcifiques.
14. Un adulte sur deux ne fait pas la diffrence entre un lien naturel et un lien sponsoris selon une rcente tude de
linstitut Ofcom (Adults use media and attitudes, mai 2016).
15. Cette matrice dpend dun seuil de dcision s : partir de quelle probabilit de dmnagement le client est prdit
comme allant dmnager ? Choisir un seuil 80 ou 90 % changera potentiellement fortement le contenu de la matrice.
16. Le score F1 et la courbe ROC sont galement trs frquemment calculs partir dune matrice de confusion, mais
dpassent le cadre de chapitre (ils servent surtout comparer des modles entre eux, cf. chapitre 7).
17. Exemple inspir par la mthodologie expose par le statisticien Stphane Tuffry dans son cours de data mining
(data.mining.free.fr).
18. Mthode de rsolution de problmes et de cration de concepts ne dans les annes 1950 sous linfluence du
publicitaire amricain Alex Osborn.
19. tude mene conjointement par lagence iProspect et Les Echosmdias en septembre 2015 auprs de 600 dcideurs
franais.
20. Vous entendrez souvent le terme anglais stack doutils, srement hrit du poker, le terme dsignant alors le tapis.
21. Faites le test en demandant diffrentes divisions de lentreprise comment est dfini un client, vous serez surpris des
disparits !
22. Selon le Gartner, 9 grandes entreprises sur 10 auront un Chief Data Officer , Virgile Juan, journaldunet.com, 26
|
janvier 2016.
|\/
23. De la mme faon quil ne suffit pas daccumuler des stars dans une quipe de foot pour gagner la Champions
$!
League !
4$
24. tapes cls pour crer son data lab , Julie Le Bolzen, 9 juin 2016, business.lesechos.fr
By
25. Du marketing intuitif manuel au data marketing automatis, maxime extraite du livre blanc Converteo, 2015.
Partie A
Collecter et stocker
|
|\/
$!
4$
By
AUTODIAGNOSTIC
Avant de lire cwette premire partie consacre la collecte et au stockage des donnes, faites le point sur vos
connaissances (avant et aprs la lecture de la partie) en 10 questions cls !
Question 1 : pouvez-vous citer et expliciter les cinq V dfinissant les Big Data ?
Question 3 : selon vous quel volume de donnes correspond un mois dimpressions display dun grand
groupe ? |
|\/
$!
4$
By
Question 5 : concrtement, comment expliqueriez-vous ce quest un cookie et comment le tracking par cookie
fonctionne ?
Question 7 : pouvez-vous citer deux diffrences majeures entre une infrastructure big data et une
infrastructure traditionnelle ?
Question 8 : comment appelle-t-on lidentifiant publicitaire utilis pour le marketing mobile ?
Question 10 : en une phrase, comment expliqueriez-vous la diffrence entre un CRM 360 et une DMP ?
Rponses p. 256
|
|\/
$!
4$
By
CHAPITRE
1
Faire connaissance avec ses donnes
Digitalisation des activits, volution du parcours client qui est devenu ROPO1 puis
SOLOMO2, mise disposition des donnes des institutions publiques en Open Data
les donnes disponibles dans les entreprises ont bien chang de physionomie en quelques
annes. Cette premire partie de louvrage abordera les principes de collecte, de
stockage et de rconciliation des donnes et sattardera en particulier au chapitre 3 sur
les outils structurants que sont le CRM 360 et la Data Management Platform (DMP) qui
constituent les pierres angulaires de la plupart des projets data. Avant cela, arrtons-nous
lespace dun chapitre pour faire le point sur les diffrentes donnes manipules le plus
frquemment en marketing et leurs caractristiques. Ce grand inventaire sera ralis
|
|\/
laide du clbre canevas des cinq V du Big Data que sont la Variabilit, le Volume, la
$!
Tout comme le botaniste identifie et classe les organismes vivants dans diffrents groupes
selon certaines cls de dtermination3, le marketeur moderne doit aussi tre capable de
distinguer les diffrentes typologies de donnes sa disposition. Mais contrairement la
biologie, ici pas de rgles absolues : chaque mtier sa manire prfre didentifier
et de classer les donnes !
structures . Pour reprendre la mtaphore prcdente, les donnes non structures sont
plutt une caisse de couverts empils les uns sur les autres sur un march le dimanche
By
matin ! Et comme souvent la brocante quand on fouille un peu, ces donnes constituent
une mine dor : elles servent, par exemple, couter la voix du client, identifier des buzz
venir ou anticiper des volutions de fond. Au-del des mots, la photo par exemple
exprime de la faon la plus spontane, sans mdiation, ce que sont les gens, comment ils
vivent, ce quils pensent, ce qui les touche, quels sont leurs choix. Elle permet de
connecter les dcideurs la vraie vie des gens, pour ne pas en tre distancs , explique
Martine Ghnassia4 la tte de lentit InCapsule dIfop. Limage nest plus uniquement un
vecteur de communication, elle met en plus de son sujet une multitude dinformations quil
faut savoir dnicher. Concrtement une photo Facebook de vous en train de boire un
Coca-Cola en dit beaucoup sur votre attirance pour la marque !
Types de donnes Caractristiques Mtaphore associe
Organisation logique
Formats identiques Couverts rangs dans un tiroir
Donnes structures
Facilit de recherche couvert
Apprhendable par un ordinateur
Entassement sans logique
Formats diffrents Couverts entasss dans une caisse
Donnes non structures
Difficult de recherche une brocante
Ncessite un traitement humain
En pratique, pour les entreprises, la grande diffrence entre les deux types est que les
donnes non structures sont difficiles apprhender, requter et analyser. En fait,
traiter des donnes non structures change (presque) tout : les approches
mthodologiques, les outils technologiques, les expertises ncessaires. Manque de
chance avec lexplosion de YouTube, Facebook et autres Pinterest, 80 % des donnes
disponibles sur Terre sont de type non structur5 ! Cette rupture fondamentale dans le
squelette mme des donnes est un des piliers du Big Data et cest souvent cette
distinction que recouvre le terme Variabilit .
|
|\/
Les critres de classification utiliss par les statisticiens
$!
Si vous voquez maintenant le data marketing devant un statisticien, il aura une tendance
4$
Les donnes continues sont des donnes qui peuvent prendre nimporte quelle valeur,
tandis que les donnes discrtes ne peuvent prendre que des valeurs prdtermines
(dans un sous-ensemble fini). Les variables discrtes sont gnralement plus faciles
comprendre dun coup dil.
Le CA est une donne continue tandis que lge est une donne discrte.
Les donnes quantitatives sont des donnes sur lesquelles on peut effectuer des
oprations arithmtiques (addition, division) et qui sont ordonnes (on peut les
comparer par une relation de type suprieur ou infrieur ). Les donnes
catgorielles appeles aussi donnes qualitatives ne sont pas des quantits, mais
peuvent tout de mme quelquefois tre numriques (exemple : le code postal) ou tre
ordonnes (exemple : faible, moyen, fort ). Dans ce dernier cas, on parle de
donnes ordinales qui sont souvent traites comme des donnes discrtes.
Le nombre de produits achet est une donne quantitative tandis que la profession est une donne catgorielle.
Donnes cibles vs donnes explicatives
La donne cible est la donne que lon cherche expliquer (exemple : lachat). Les
donnes explicatives sont les attributs des individus observs (exemples : le sexe,
lge, la frquence des visites).
Donnes brutes vs donnes calcules
Les donnes brutes constituent les donnes originales telles que collectes (exemples :
date de naissance, chiffre daffaires de la commande). Les donnes calcules sont,
comme leur nom lindique, cres a posteriori (indicateurs, ratios, etc.)
Ces classifications sont trs importantes pour les statisticiens, car les mthodes
mathmatiques danalyses de donnes que nous allons voir dans la partie B ne traitent
pas tous les formats de donnes. De ce fait, il est trs frquent de changer de format,
par exemple en binarisant une variable (exemple : lge est transform en deux
donnes binaires enfant et adulte)6.
Les donnes endognes sont les donnes produites par lentreprise. Elles sont stockes
4$
Ce sont tout simplement les donnes qui appartiennent lannonceur, collectes partir
de son site web (donnes de navigation), de son CRM (e-mail, numro de tlphone), de
ses campagnes marketing et mdias (ouvertures de-mails, impressions ou clics sur des
publicits en ligne), etc.
Les second party data
Ce sont les donnes first party dune autre entreprise mises disposition de lannonceur
dans le cadre dun partenariat business. Par exemple, un partenariat classique souvent
observ est celui entre une marque (Nutella, Lactalis, Babolat, etc.) qui na pas de lien
direct avec le consommateur (pas de tickets dachat, trafic sur le site gnralement limit)
avec des distributeurs (Carrefour, Decathlon, etc.). Ces accords ncessitent tout de
mme une certaine data-maturit , rappelle Yseulys Costes7, PDG et cofondatrice
de lagence 1000Mercis.
Les third party data
Ce sont des donnes tierces vendues par des fournisseurs de donnes. En gnral, ce
sont des donnes assez gnriques (sexe, catgories socio-dmo, centres dintrt),
permettant denrichir sa base client (exemple : recollement dune adresse avec un type de
CSP) ou plus frquemment dlargir laudience dune campagne publicitaire (exemple :
cibler les seniors) ou, au contraire, dexclure certaines catgories (exemple : exclusion
des mineurs).
cette classification, les agences marketing ajoutent souvent la distinction entre donnes
offline et donnes online. Les donnes offlines dsignent celles issues des mdias
classiques (points de vente, courriers, tlmarketing), tandis que les donnes online
sont issues des mdias numriques (navigation web, clics e-mail, ouvertures application
mobile)
Ce sont les donnes historiquement utilises par le marketing pour construire des
segments daudience et des persona8 marketing. Ces donnes concernent :
les donnes personnelles : date de naissance, ge, genre, adresse e-mail, code
postal, numro de tlphone
la situation familiale : statut marital, nombre denfants et leur ge
la situation professionnelle : salaire, CSP, horaires de travail
la situation patrimoniale : propritaire/locataire, valeur du logement
la situation gographique : code postale, donnes IRIS9, anciennet ladresse, type
dhabitat
le gomarketing : niveau de concurrence, taux de chmage, taux de pntration du
produit dans la zone dhabitation du client.
Les donnes transactionnelles
Issues principalement des achats, mais aussi par extension des micro-conversions
(inscription newsletter, demande de devis, retour produit,), ces donnes se
dcomposent gnralement selon les axes suivants :
Combien ? montant de la transaction, quantit achete, nombre de produits
diffrents achets, utilisation dun bon de rduction ;
Quand ? date dachat, frquence des transactions, anciennet du client, rcence du
dernier achat, date dchance prvue du contrat souscrit ou du produit achet ;
Quoi : marque du produit, style, catgorie, option garantie, etc. ;
O ? lieux des transactions (agence, site e-commerce, tlphone, etc.) ;
Comment ? mode de paiement, dlai de paiement.
Les donnes comportementales
clientle
4$
Bon savoir
By
Moins utilises que les trois premires catgories, elles sont toutefois de plus en plus
intgres par les marketeurs dans leur rflexion et classification des donnes. Entrent
dans cette catgorie les donnes lies au stock en temps rel, aux objets connects, la
golocalisation, la mto, Nous verrons dans les parties B et C des faons concrtes
dexploiter la donne mto et la donne de golocalisation.
Ce mode de classification est pratique, car ces quatre catgories sont directement
activables pour du marketing relationnel et des relations personnalises par e-mail,
courrier, SMS, en magasin (cf. chapitre 9 consacr au marketing direct).
En parlant de donnes personnelles, connaissez-vous le prix que vaut chacune de vos traces digitales ? Voici
quelques chiffres utiles pour calculer la valeur dun individu extraits de larticle Quelle est votre valeur sur les rseaux
By
350 milliards de posts Facebook chaque anne, 4 milliards dheures de vidos regardes
chaque mois sur YouTube, 400 millions de tweets envoys chaque jour, 200 000
publications sur Instagram par minute Du fait de la digitalisation massive des outils, les
entreprises sont confrontes lexplosion du volume de donnes produites en interne lors
des interactions avec les consommateurs. En guise dordre de grandeur, voici
approximativement le nombre de lignes gnres en base de donnes pour une
campagne publicitaire digitale (on parle de campagne display ) :
stratgies dune campagne display : 100 ;
domaines dune campagne RTB : 10 000 ;
suivi des impressions dune campagne display : 10 000 000 ;
suivi des impressions de toutes les campagnes display dune agence mdia : 10 000
000 000.
Alors quune base de donnes suffit pour traiter quelques campagnes, une plateforme big
data devient absolument ncessaire quand le nombre de campagnes augmente !
cela viennent sajouter toutes les sources de donnes potentielles de lOpen Data
intgrer galement dans le systme dinformation. Au final la plupart des entreprises
aux tats-Unis stockent ainsi 100 000 gigabytes de donnes13. Une paille face aux
2,5 trillions14 de gigabytes de donnes supplmentaires cres chaque jour ! Nous
verrons aux chapitres suivants comment la caractristique volume change du tout au
tout les mthodes de collecte, de stockage et danalyse.
Bon savoir
Ladjectif big de Big Data nest pas quun simple effet de mode. Chaque jour nous pouvons en effet
remplir de data quatre tours Eiffel de disques Blu-ray (soit environ 10 millions de disques) !
La fiabilit des donnes est un enjeu primordial, cest indiscutable. Jai toutefois rencontr des dcideurs tellement
paralyss par linexactitude des donnes (clics frauduleux, robots, cookies effacs) quils rejetaient toute forme de data
|
|\/
marketing. Si vous tes galement anxieux lide de prendre des dcisions sur des donnes la vracit discutable :
$!
tranquillisez-vous ! Une donne fiable 100 % est une chimre : le digital est un univers trop complexe et trop
4$
mouvant ;
exercez votre esprit critique : il est possible de prendre de bonnes dcisions mme avec des donnes imparfaites,
By
figurent sans doute parmi les donnes stratgiques. Dans un autre registre, le guide de
By
lElectronic Business Group (EBG) paru en 2015 donne lexemple de ce voyagiste en ligne
qui aprs avoir collect des donnes tort et travers sest recentr avec succs sur
cinq donnes cls : ville de dpart, destination, dure du voyage, date, budget !
Si vous avez le sentiment que vos donnes sont aujourdhui sous-exploites, mettez un
point dhonneur faire des choix pragmatiques et construire la donne utile, marche
aprs marche. Vos donnes nen auront que plus de valeur.
RETENIR DE CE CHAPITRE
Avoir une vue densemble de ses donnes nest pas une tche aise et il nexiste pas une classification qui
fasse rfrence tant les enjeux des diffrents corps de mtiers sont diffrents. Pour viter de se perdre
dans le labyrinthe des donnes, il est ds lors souvent profitable de se concentrer dans un premier temps
sur la donne utile, den assurer la qualit et laccessibilit et de btir partir de cette fondation des
premiers cas dusages marketing data driven.
vous de jouer
Allez discuter avec vos collgues des diffrentes divisions pour vrifier si leur faon de
segmenter les donnes est proche de celle dcrite dans ce livre !
Renseignez-vous sur le cot que reprsente aujourdhui la gestion de vos donnes (stockes
en interne dans un CRM et/ou une DMP ou stockes en externe dans une agence CRM ou une
agence mdia)
Classez vos donnes sur une chelle de valeur mtier, avec si possible des cas dusages
associs. Cest un excellent exercice pour favoriser des projets step by step matriss
SOURCES
Une vaste littrature et un grand nombre dinfographies abordent les cinq V du Big Data :
Le Big Data au quotidien , infographie de vouchercloud https://www.vouchercloud.fr/ressources/big-data-infographie
The four Vs of Big Data , infographie dIBM http://www.ibmbigdatahub.com/infographic/four-vs-big-data
Concernant les diffrentes classifications voques, ces quelques articles pdagogiques vous permettront dapprofondir
certaines notions cls voques dans ce chapitre :
Quappelle-t-on donnes first, second, third party ? , 2015, Pierre Fournier, partner du cabinet Artefact ;
Quels sont les enjeux de la matrise des donnes structures et non structures ? , interview de Christophe Cousin,
fondateur du cabinet Camp de Base ;
Structure: A Better Way of Thinking about Data , mars 2015, Rachel Shadoan, article do est issue la mtaphore
des couverts ;
Pour approfondir la thmatique de la qualit des donnes :
Qualit des donnes en 2015 : vos donnes sont-elles suffisamment fiables pour tre transformes en insights ?, livre
blanc publi par Experian ;
|
|\/
Data Quality Sucks, Lets Just Get Over It , article plein de bon sens sur le blog dAvinash Kaushik, data evangelist
$!
|
|\/
$!
4$
By
CHAPITRE
2
Bote outils pour passer de datas parpilles
des donnes centralises
lissue de laudit des donnes prsent dans le chapitre prcdent, une des trois
situations suivantes se prsentera ncessairement :
situation 1 : vos donnes sont de mauvaise qualit et vous devez mettre en uvre un
grand plan de nettoyage1. Approfondissez les pistes prsentes au chapitre prcdent
et lisez les quelques techniques de nettoyage de donnes qui seront indiques au
dbut du chapitre 4 ;
situation 2 : vos donnes sont de qualit, relies et accessibles. Bref, vous tes mature
|
|\/
sur le sujet et lenjeu pour vous est dsormais de trouver les bonnes analyses et les
$!
situation 3 : vos bases de donnes sont spares et vous devez mettre en uvre un
By
Une fois les donnes cls identifies, il reste les collecter. Bien quelles soient souvent
entre les mains des dveloppeurs, il est indispensable lheure du data marketing que
chacun comprenne dans les grandes lignes les principales mthodes de collecte de
donnes2.
La mcanique est simple et repose sur le protocole de communication http qui rgit les
changes entre un navigateur web (appel parfois client http ) et un serveur http. Le
cookie nest en effet rien dautre quun paramtre transmis en tte de ces changes.
Considrons le cas banal dun internaute qui se rend sur un site internet, par exemple
lemonde.fr. Le navigateur de linternaute (Chrome, Internet Explorer, Mozilla, Safari, etc.)
appelle le serveur http du site Lemonde pour afficher la page. Le serveur rpond au
navigateur avec le code de la page afficher et lui indique travers la fonction
setcookie() de stocker un cookie pour le domaine lemonde.fr5.
Figure 9 Pose dun cookie par le serveur lors de laffichage dune page
nombreux autres serveurs http appeler, car tout le contenu de la page nest pas
hberg par le serveur du site :
By
de nombreux sites font ainsi appel des Content Delivery Network (CDN),
prestataires louant des serveurs locaux sur lesquels sont stockes les images dun site
web, afin de rduire le temps de chargement. Le navigateur doit donc appeler le
serveur du CDN, qui peut alors poser un cookie ;
la page contient des images de taille un pixel (donc invisibles lil nu) appartenant
des prestataires tels que des rgies publicitaires. Ces pixels forcent le navigateur
appeler le serveur dacteurs publicitaires, par exemple Criteo. Grce cet appel http
du navigateur, Criteo peut enrichir la connaissance quil a sur le cookie transmis en tte
ou bien dposer un cookie dans sa rponse si aucun cookie na t transmis dans
lappel.
Il suffit dinstaller un plug-in navigateur comme Ghostery pour se rendre compte de
limportance de ce phnomne ! (et aussi bloquer cette mcanique grce des
possibilits de blacklisting). Par dfaut, un navigateur comme Safari ne stocke pas les
cookies appartenant des domaines autres que celui du site visit.
Et lhistoire ne sarrte pas l ! En effet dans sa rponse, Criteo pour reprendre cet
exemple peut aussi demander au navigateur dappeler un autre serveur ami qui
naurait pas la chance dtre prsent sur le site afin que celui-ci puisse aussi dposer un
cookie. Cette partie de ping-pong informatique porte le doux nom de piggybacking
(signifiant littralement porter quelquun califourchon ). Il sagit dun procd
fondamental dans lindustrie publicitaire qui permet notamment deux acteurs de
construire une table de matching entre leurs cookies et donc par la suite de senvoyer des
audiences de cookies.
|
|\/
$!
Si lmetteur du cookie est le domaine tel quindiqu dans la barre dadresse du navigateur, on parlera de cookie first party.
Cette typologie de cookie est utilise pour amliorer lexprience utilisateur en se souvenant de son historique, la
manire dun marque-page . La prsence de ces cookies sur le navigateur permet, par exemple, un site de
conserver en mmoire le panier cr par linternaute lors de sa prcdente connexion ou de personnaliser la page
daccueil avec les derniers produits consults. Les supprimer peut donc tre dommageable pour linternaute.
Si lmetteur du cookie est un autre domaine que le site visit, on parle alors de cookie third party. Lobjectif est ici tout
autre : reconstituer le parcours web de linternaute cross sites , offrant ainsi une connaissance approfondie de ses
habitudes de navigation et centres dintrt du moment. Ce type de cookie est notamment utilis des fins publicitaires.
Face cette prolifration de balises sont ns il y a quelques annes les TMS6, Tag
4$
Management Systems, dont le principe est de fournir aux marketeurs un outil de gestion
centralis permettant dajouter, modifier, supprimer nimporte quel tag travers une
By
interface web intuitive. Mais surtout les TMS grent dynamiquement la pose des
balises laide dun moteur de rgles (cf. encadr ci-aprs) optimisant ainsi
considrablement la maintenance du parc de tags et le temps de chargement des pages.
1. Insrez sur toutes les pages du site le bout de code fourni par le TMS. Ce fragment de code va jouer le rle de
container pour tous les autres tags : cest un master tag.
2. Renseignez toutes les balises de tracking dans le TMS.
3. Dfinissez des priorits dans lordre dexcution des balises.
4. tablissez pour chaque balise des rgles pilotant linsertion dynamique dans les containers. Par exemple, vous
pourriez souhaiter dclencher une balise de tracking uniquement sur les pages de remerciement, sur les pages dont
lURL contient lorigine adwords ou bien encore seulement si le formulaire a t rempli au moins moiti. Plus
gnriquement, une rgle sarticule autour dune variable (lie aux pages, aux clics, aux formulaires, lappareil, etc.),
dun oprateur logique (gal, diffrent de, contient) et dune valeur cible.
5. chaque vnement, le TMS va valuer la condition, cest--dire comparer ce qui a t configur la situation en
cours. Cela est effectu de manire asynchrone (i.e chargement en parallle du contenu et des tags).
Aujourdhui, les TMS ont dpass ce rle dutilitaire dans la gestion des tags et simposent
de plus en plus comme la colonne vertbrale de la gestion des donnes qui remontent du
site, en mettant en place ce quon appelle un datalayer. Concrtement le datalayer est un
tableau de variables qui structure la donne autour de chaque vnement, par
exemple en dcrivant la catgorie de la page, le style du produit7, la mthode de
paiement, etc. chaque vnement traqu , ces donnes structures viennent
alimenter le TMS et les applications tierces connectes (outils danalyse, rgies
publicitaires, DMP).
En data marketing les API sont trs utilises et permettent aux diteurs de solutions de
By
sinterfacer avec les diffrents flux dinformations existants. Par exemple, une application
de couponing va interroger par API lERP (Enterprise Resource Planning)8 du client afin
de rcuprer les achats pour lesquels un coupon a t scann. Cest un procd de
collecte qui prsente en effet de nombreux avantages par rapport au transfert de fichiers
CSV9 traditionnel :
industrialisation et automatisation des changes de donnes ;
normalisation des changes : les changes doivent respecter un certain protocole
(forme des requtes, format des rponses, etc.). Les donnes sont ainsi le plus
souvent transmises sous forme dobjets JSON10, plus rarement XML11;
simplicit des changes : grce des mthodes de type REST, POST ou DELETE, il
est facile daccder et de manipuler la donne, aussi simplement quun site web
saffiche quand vous tapez lURL dans votre navigateur !
rapidit : une API bien faite est gnralement prise en main par un dveloppeur en
moins dun quart dheure !
fiabilit des changes : le fournisseur de donnes garde un contrle sur les acteurs qui y
accdent (qui, quand, comment, combien de fois).
Bon savoir
Derrire chaque interface logicielle se cachent des API qui permettent distance de raliser les mmes
oprations que celles effectues manuellement en se connectant linterface. LAPI peut ainsi tre vue
comme une interface logicielle pour informaticiens !
Ces donnes, pour tre exploitables, doivent tre centralises, et donc hberges dans
une base de donnes. ce stade deux philosophies coexistent : la philosophie ETL, qui
structure la donne avant de la stocker ( Extract-Transform-Load , on parle aussi de
modlisation lcriture ), et la philosophie ELT, qui stocke la donne brute avant de la
structurer selon les besoins danalyse ( Extract-Load-Transform , on parle aussi
dinterprtation lecture ). Bien quanecdotique premire vue, cette diffrence de
dmarche permet dintroduire quelques-unes des principales diffrences entre une
architecture SI conventionnelle et une architecture Big Data ! De faon plus pragmatique,
comprendre ces deux philosophies permettra aussi de mieux apprhender certains
buzzwords auxquels une direction marketing ou un comit de direction pourrait tre
confront dans le cadre dun projet data marketing denvergure.
explicit, qui peuvent avoir des relations entre elles par le biais dun ou plusieurs
By
Bon savoir
La cartographie des diffrentes bases de donnes, des donnes qui y sont contenues, des outils qui
dversent dans ces bases et des ponts existants entre chaque base est un livrable classique dun audit de
donnes.
Cette dmarche historique est rde, fiable, parfaite pour des donnes structures qui ne
dpassent pas 100 Go (quelques millions de lignes par BDD), pour des calculs de
complexit moyenne et une rapidit daccs aux donnes qui tolre des longueurs .
|
|\/
$!
4$
By
bases documents : il sagit dune gnralisation des bases cl/valeur puisque ici la
valeur consiste en un document contenant lui mme des paires cl/valeur !
Exemple : MongoDB.
bases orientes colonnes : ces bases stockent les diffrentes colonnes de la table
dans des fichiers distincts, permettant simultanment de rduire le volume de donnes
|
traiter et doptimiser les temps de requtes et la vitesse de calcul (pas de parsing de
|\/
$!
bases de type graphe : ces bases sappuient sur la thorie des graphes et respectent
donc les notions de noeuds et de voisins . Elles sont particulirement adaptes
lorsquil sagit dexploiter les relations entre donnes (rseaux sociaux, moteurs de
recommandation).
Exemple : Neo4j.
Bon savoir
4$
Les deux types de bases peuvent par ailleurs trs bien cohabiter au sein dun mme logiciel. Par exemple,
des donnes sensibles bien identifies pourront tre stockes dans une base de donnes relationnelle
By
tandis que les donnes dont la structure change avec le temps seront mieux exploites au sein dune base
NoSQL.
Une fois les donnes collectes et stockes, le grand dfi est de pouvoir rconcilier les
donnes entre elles. Comme lgamment racont par Experian14 lors dun colloque sur le
data marketing, le marketeur moderne souffre dune crise didentit non pas une crise
avec sa propre identit, mais une crise avec lidentit dun consommateur multicanal qui
narrte pas de changer de device15 et didentifiant. Le mme individu peut en effet
recevoir un coupon papier son domicile, aller sinformer sur Internet depuis son mobile,
partir tester anonymement le produit en magasin et enfin lacheter sur le site e-commerce
avec sa tablette. Quil sagisse daffiner son modle dattribution, de mieux estimer la
pression marketing ou encore de crer une exprience client unifie sans rupture de
canal, reconnatre un consommateur sur lensemble de ses devices et agrger les
donnes autour dun identifiant unique est aujourdhui au cur du data marketing.
Par exemple, les sites de paris sportifs possdent une mine dor de donnes sur leurs
4$
clients dans la mesure o lidentit a t vrifie par lenvoi des papiers officiels et
ladresse vrifie par un code coupon.
By
En magasin enfin, plusieurs mthodes ont t dployes par les retailers pour reconnatre
les visiteurs. La faon historique de procder est didentifier le client lors du passage en
caisse grce sa carte de fidlit. Lidentifiant collect est alors gnralement un e-mail.
Avec lessor du mobile, de nouvelles possibilits de tracking sont apparues : un rseau
Wifi peut par exemple reconnatre de faon anonyme un tlphone identifi de faon
unique par sa Mac address (Media Access Control Address) tandis que des balises
Bluetooth sont galement un moyen dassocier un tlphone un identifiant unique et de
suivre son parcours dans le magasin ainsi que la frquence des visites. Nous reparlerons
plus en dtail au chapitre 10 dun cas particulier de ces capteurs en magasin : le beacon.
Pour une vue densemble, le schma ci-dessous positionne ces diffrents identifiants
selon deux axes : le type didentification (tracking passif ou action utilisateur) et lunicit de
lidentifiant. Exception faite des device id et adresses mac, la relation est linaire : plus
lidentification est forte, plus celle-ci doit tre linitiative de lutilisateur.
|
|\/
Figure 14 De multiples identifiants pour une seule identit
$!
4$
Lavantage de cette mthode est quelle est trs fiable. Linconvnient est que le taux de
rconciliation reste gnralement faible17, moins de sappeler Google ou Facebook qui
bnficient eux dune connexion quasi continue de leurs utilisateurs sur tous les devices.
charge donc pour la marque de multiplier les initiatives afin de rcuprer le-mail chaque
point de contact, par exemple dans le monde offline en mettant en place un portail WiFi en
magasin ou en quipant les vendeurs de tablettes. Dans lunivers online il sagira, par
|
|\/
exemple, de demander une identification pour accder un contenu forte valeur ajoute.
$!
Pour viter de trop dpendre lavenir des gants du Web19 en matire de rconciliation
de donnes, certains acteurs raisonnent non plus en identifiants, mais en appareils et
tentent de rapprocher les diffrents devices dun individu de manire algorithmique.
Conceptuellement, un mobile et une tablette peuvent ainsi tre coupls avec un fort degr
de confiance si on observe que ces deux appareils se connectent au mme rseau et aux
mmes horaires plusieurs fois par semaine, avec qui plus est un comportement de
navigation proche. Ici pas de donnes personnelles, mais une approche purement
statistique base sur une batterie de signaux faibles tels que le systme dexploitation,
la langue de lappareil, le fuseau horaire, la golocalisation, ladresse IP, le navigateur
utilis, les paramtres de connexion, etc. Ce processus probabiliste porte le nom de
fingerprinting . Bien que moins prcise quune approche dterministe et plus complexe
mettre en uvre, cette mthode atteint des taux de rconciliation plus levs, est moins
intrusive pour le client et offre une alternative au monopole des gants du Web.
En guise dexemple, il est possible dutiliser cette approche pour attribuer le
tlchargement dune application mobile une publicit, comme expliqu sur le schma ci-
dessous. Cette faon de faire permet doutrepasser la zone dombre dans le tracking
que constitue lApple Store (puisque aucun tag de tracking nest accept par Apple).
|
|\/
$!
4$
By
offre une fonctionnalit trs similaire avec des taux de rconciliation entre 20 et 25 %.
4$
Enfin pour ceux qui ne souhaitent pas confier leurs donnes ces deux gants et activer
By
tout de mme rapidement leurs donnes offline sur leur rseau de diffusion habituel, ils
peuvent se tourner vers des spcialistes de lonboarding tels que le franais Temelio ou
lamricain LiveRamp21. Adosss un rseau de partenaires comprenant des e-mailers,
des sites ditoriaux ou des e-commerants (et donc aliments rgulirement en
identifiants digitaux), ces acteurs ont constitu dnormes bases de matching et se sont
coupls la plupart des outils de diffusions marketing (DSP, DMP). Il suffit alors pour
lannonceur de raliser un extrait de sa base clients (par exemple, les clients dormants), le
prestataire donboarding se charge de matcher cette base avec la sienne selon les cls
dappariement disponibles (gnralement le-mail, mais aussi le triptyque nom-prnom-
adresse ainsi que le tlphone). En pratique, il est raisonnable de sattendre un taux de
matching entre 20 et 40 %.
Bon savoir
Si le CRM onboarding permet dactiver online des contacts offline, il ne vient pas enrichir la base de
donnes propritaire, car lidentifiant digital est celui du prestataire.
Source : daprs larticle Onboarding : comment relier CRM et DMP de Sarah Lion, paru le 15 mars 2016 sur le blog
du cabinet Artefact.
RETENIR DE CE CHAPITRE
Les mcanismes de tracking utiliss ce jour entranent la situation courante suivante : une mme
personne a un cookie A sur son ordinateur, un IDFA B sur son mobile et un e-mail li son compte client !
Relier ces identifiants entre eux pour construire une vision unifie du consommateur est un des grands
dfis du data marketing.
ce jour deux approches prvalent : lapproche dterministe base sur une mthode du pivot entre les
identifiants et lapproche probabiliste tentant de relier diffrents devices un individu en coutant des
signaux faibles .
Tout un ensemble de prestataires sont apparus autour de cette thmatique, notamment les CRM
onboarders capables de retrouver sur le Web des clients issus de bases de donnes offline.
|
|\/
$!
vous de jouer
4$
Si vous ntes pas dj quip dun Tag Management System (TMS), lancez une
By
consultation tout de suite, il sagit vraiment dun outil structurant qui simplifie la vie du
marketeur digital !
Cartographiez vos donnes et les identifiants utiliss dans chaque base pour dceler des
possibilits de rconciliation dterministes.
Faites un premier Proof of Concept (POC) donboarding en utilisant la fonction custom
audience de Facebook. Il sagit dun quick win (succs rapide) classique.
SOURCES
Pour aller plus loin sur le Tag Management et la datalayer :
Google Tag Manager V2 : le guide francophone le plus complet, Bruno Guyot, mai 2015. Le crateur de lagence
Chablais web dtaille en quatre articles trs accessibles le fonctionnement de Google Tag Manager ;
Unlock the Data Layer: A Non-Developers Guide to Google Tag Manager, Dorcas Alexander, octobre 2013.
Concernant les choix darchitecture et les diffrences entre architecture IT conventionnelle et architecture Big Data, je
recommande la lecture de louvrage Les Bases de donnes NoSQL et le Big Data, Rudy Buchez, Eyrolles, 2015. Il
existe galement sur le web des ressources pertinentes :
Le datalake : outil incontournable dune stratgie data ? , fvrier 2016, Herv Mignot, Chief scientist officer au sein du
cabinet Equancy ;
Classification des systmes de stockage NoSQL , billet prsent sur le blog de la socit Sogilis spcialise en
dveloppement logiciel.
NoSQL : le choix difficile de la bonne base (et comment bien le faire) , Jack Vaughan, lemagit.fr
Comprendre les datalakes, livre blanc du cabinet Converteo, avril 2016.
Enfin pour approfondir vos connaissances sur le CRM onboarding, je ne peux que vous conseiller la lecture de ces deux
articles extrmement pdagogiques :
Onboarding : comment relier CRM et DMP , Sarah Lion, mars 2016, accessible sur le blog du cabinet Artefact et
do est tire la figure 17 ;
CRM Onboarding : enfin la rconciliation des donnes offline/online ? , Caroline Verwaerde, accessible sur le blog
du cabinet Converteo.
9. Comma separated value, format informatique trs utilis pour changer des donnes. Concrtement il sagit dun
simple fichier texte ouvrable dans le bloc-notes et dans lequel les champs sont spars par un dlimiteur spcifique
(virgule ou point-virgule, parfois tabulation selon la convention). De la data brute de chez brut !
By
3
CRM et DMP : deux outils cls pour dompter la
multitude de donnes
Aprs avoir tudi les grands principes de collecte, de stockage et de rconciliation des
donnes, passons dsormais la pratique avec deux outils qui cristallisent lattention des
directions marketing et des budgets martech1 : le CRM (Customer Relationship
Management) et la DMP (Data Management Platform). Deux arbres qui cachent une fort
dappellations et de variantes aussi diffrentes que CRM 360, datamart client, rfrentiel
unique client (RCU), DMP marketing, DMP connecteurs, DMP mdia
Leffervescence saccompagne ds lors dune fantastique confusion, entretenue dessein
|
|\/
ou non2 par les nombreux diteurs du march qui en premire lecture semblent tous
$!
promettre le mme Eden : centraliser les donnes dans une base unique, amliorer la
4$
client Le tout conclu dun sentencieux toucher la bonne personne, au bon moment
avec le bon message , phrase vide aujourdhui de toute substance tant elle a t
utilise pour dcrire peu prs toutes les solutions marketing un tant soit peu data
driven !
Jai de nombreuses reprises pu constater combien certains professionnels du marketing
taient dboussols aprs avoir pass une journe entire dans un salon marketing
essuyer le mme discours chaque stand. Beaucoup mont racont revenir de ces
grands-messes du marketing digital avec plus de questions que de rponses, parmi
lesquelles :
Finalement quelle est la diffrence entre un CRM 360 et une data management
plateform ?
Jai dj trop doutils dans tous les sens comment articuler CRM, DMP, analytics,
voix du client ?
Ai-je vraiment besoin dune DMP ?
Selon quels critres au juste choisir ma plateforme de management de donnes ?
Autant de questions essentielles auxquelles nous tcherons de donner une rponse aussi
claire que possible dans ce chapitre !
LE CRM COLLECTE, STOCKE ET ACTIVE LES DONNES
PERSONNELLES DANS UNE OPTIQUE DE FIDLISATION
dappels et services clients : le principe est de crer une fiche client (identit-
4$
Centraliser toutes les donnes personnelles de ses clients ou prospects dans une base
4$
de donnes unique est prcisment le but dun CRM 360, dsign aussi parfois par le
terme RCU (rfrentiel client unique) ou datamart client, bien que ces dernires
By
Bon savoir
Quand on parle de CRM 360, on parle souvent de donnes structures, dun volume raisonnable (quelques
millions de lignes) et de mise jour de la base en diffre. Rien voir donc avec les caractristiques du Big
Data prsentes au chapitre 2. Data marketing et big data ne sont donc pas ncessairement synonymes !
Le schma ci-dessous rsume dans les grandes lignes le principe de fonctionnement dun
CRM 360. |
|\/
$!
4$
By
Figure 18 Le CRM 360 agrge les donnes personnelles issues de diffrentes sources et alimente les outils
de campagne marketing direct
Contrairement au CRM 360 qui centralise les donnes personnelles, la Data Management
Platform gre des donnes anonymes, savoir principalement des cookies et dans une
moindre mesure des identifiants mobiles (pour rappel : IDFA dans lunivers Apple ;
Advertising Id dans lunivers Android).
Bon savoir
By
La collecte de ces donnes mdia atteint rapidement le milliard de lignes et contrairement au CRM 360, il
est cette fois-ci ncessaire dutiliser une architecture Big Data pour traiter cette volumtrie.
Les campagnes marketing direct (e-mail, SMS) sont galement une source de cookies
privilgie pour la DMP. En effet, en ouvrant un e-mail, le pixel de la DMP se dclenche
lors du chargement des images et un cookie peut alors tre dpos sur le navigateur du
destinataire10. Dans le cadre de campagnes SMS, la cookification seffectue
gnralement lors du clic sur le lien de la campagne et larrive sur une landing page. Le
ciblage de ces campagnes (exemple : campagne adresse aux clients VIP) apporte quant
lui de linformation sur le cookie ainsi dpos.
Lonboarding du CRM via un prestataire type Temelio ou Liveramp (pour rappel,
prestataire qui dispose dune grosse base de matching e-mail-cookie) complte la
panoplie de sourcing en cookies partir des donnes first party.
Outre ces donnes propritaires, il est possible dans la plupart des DMP de complter la
base avec des donnes second party issues de partenaires business (par exemple,
cookifier les visiteurs de seloger.com ou de la rubrique Dmnagement dEDF
constitue un formidable axe dconomie pour un assureur, sachant que le dmnagement
est un facteur fort dans le changement dassureur), ainsi que des donnes third party
achetes des fournisseurs type Exelate ou Acxiom. Nous reviendrons plus prcisment
sur ces deux types de donnes dans le chapitre 8 consacr lachat mdia
programmatique.
En cumulant lensemble de ces sources dans la DMP, il est possible damasser assez
|
|\/
rapidement plusieurs (dizaines de) millions de cookies, chacun dentre eux tant associ
$!
un petit ou trs grand nombre dvnements11 selon le nombre de fois que la DMP a
4$
crois ce cookie sur les diffrentes sources que nous venons dnumrer.
By
Chaque minute, la DMP classe des milliers de cookies dans une vaste
arborescence : la taxonomie
la manire dune machine trier le courrier12, chaque fois quun nouveau cookie entre
dans son escarcelle ou que linformation sur un cookie dj en base est mise jour, la
DMP range ce cookie dans une immense arborescence connue sous le nom de
taxonomie13 . La logique de cette arborescence tout comme les rgles mtiers de
classification14 sont lapprciation de lannonceur, toutefois il est usuel de retrouver
peu de choses prs larborescence du site.
Bon savoir
La taxonomie doit tre maintenue jour et voluer : cest un travail dune grande rigueur, un peu technique
et vite chronophage. Si vous envisagez dinvestir dans une DMP, noubliez pas de prvoir une ressource
pour cette tche primordiale au cur du dispositif !
|
|\/
$!
4$
Ainsi si un individu visite la fiche du produit Pipistrello et la page catgorie des appliques,
son cookie viendra peupler les chemins site luminaire lampes de bureaux Martinelli
Luce Pipistrello et Site luminaire appliques.
New Parents
4$
Kids
AND
ceux qui ressemblent le plus ses meilleurs clients. Le principe gnral est le suivant :
4$
cookification des clients (soit par un pixel sur la page de remerciement, soit par
By
onboarding) ;
enrichissement de ces cookies avec de la third party data, gnralement des donnes
sociodmographiques (sexe, ge, animal de compagnie), plus rarement un historique
de navigation ;
identification dun profil type dacheteur ;
recherche de profils similaires dans la base de cookies de la DMP et attribution
chaque cookie dun score de proximit et dune probabilit de conversion ;
classement des cookies par probabilit de conversion et cration de n tranches de
cookies (gnralement de 100 000 cookies) : la tranche 1 contient les 100 000
cookies les plus proches de la cible, la tranche n les 100 000 les plus loigns.
LA COURBE DE LIFT (OU DUPLIFT)
Si lintrt du look alike tombe sous le sens (dpenser le budget publicitaire sur les cookies qui ont le plus de probabilit de
convertir), derrire cette ide gnrale se cache une grande varit de mthodologies, allant de lalgorithme le plus
basique aux mthodes mathmatiques les plus perfectionnes !
Une bonne faon de comparer les diffrents modles est dobserver la courbe de (up)lift, qui indique pour les premires
tranches de 100 000 cookies le gain de conversion auquel on peut sattendre par rapport une tranche alatoire de 100
000 cookies. Dans le cadre dune stratgie dacquisition pure (i.e en ne sautorisant pas considrer des cookies ayant
dj visit le site), un modle de look alike offrira en gnral un rapport de conversion entre deux et cinq entre la premire
tranche et une tranche alatoire.
|
|\/
$!
4$
By
Figure 22 La courbe de (up)lift permet de mesurer la qualit dun modle look alike
Vendor Selection
Vendor List
myGoogleAdwordsConfiguration
Figure 23 Principe gnral denvoi dune audience Adwords partir dune DMP
Lenvoi daudience en un clic aux outils dactivation est une fonctionnalit cl de la DMP. Il
existe pour cela deux manires de procder : lintgration pixel to server (P2S) et
lintgration server to server (S2S) .
|
Lintgration P2S signifie qu chaque fois que la DMP revoit un cookie du segment
|\/
transmettre, elle demande au navigateur une redirection vers le serveur du partenaire afin
$!
que celui-ci puisse poser son cookie. Au fil de leau, laudience se reconstruit chez le
4$
nombreuses limitations comme le besoin de revoir le cookie que lon souhaite envoyer
(pas de rtroactivit) ou le dlai ncessaire de reconstitution de laudience.
Lintgration S2S est plus avance : pas besoin de revoir le cookie, laudience de la
DMP est directement envoye telle quelle au partenaire. Plus souple, plus rapide, plus
fiable il sagit toutefois dune opration technique plus lourde qui demande la cration et
lentretien dune base de matching et seules les DMP majeures ont pu nouer ce type de
partenariats avec les outils dactivation mdia.
DMP ne pourra donc jamais atteindre ces potentiels clients par cookie ;
4$
un cookie a une dure de vie dpassant rarement 30 jours, souvent de quelques jours
peine : quand la DMP cite 40 millions de cookies en base pour un client, il y a en ralit
By
Ce doit tre le critre de choix numro un. Cela prsuppose davoir imagin et prioris en
amont de lappel doffres un ensemble de cas dusages, ce qui malheureusement est
rarement fait avec la rigueur ncessaire. Pourtant seule la bonne matrise de ses quatre
ou cinq cas dusages cibles permet de poser les bonnes questions aux diffrents diteurs
et de les distinguer, par exemple :
quelle mthode est utilise pour lonboarding CRM et dans combien de temps pouvons-
nous esprer que nos clients dormants seront cookifis ?
pour quels types de clients votre modle de look alike est-il le plus adapt ? Quelle
est la taille minimale de lchantillon fournir pour pouvoir appliquer le modle ?
comment grez-vous les problmatiques de cookie matching avec les diffrents
prestataires avec lesquels vous travaillez ?
Lergonomie
Cest un critre de choix souvent sous-valu. Pourtant, pour tre utilis son plein
|
|\/
potentiel, un outil marketing doit tre user-friendly . Vitesse dexploration de la
$!
taxonomie, affichage temps rel du volume de cookies dans les nuds, logique de
4$
cration des rgles alimentant la taxonomie, simplicit modifier une audience, qualit du
reporting sont, parmi dautres, des lments importants comparer entre les diffrentes
By
La conformit aux principes de la CNIL est un critre de plus en plus important, dans un
contexte de durcissement des lois lchelle europenne. Deux points sont
particulirement examiner :
lopt-out : un internaute peut-il facilement sexclure de laffichage des bannires
publicitaires ? Cette exclusion est-elle automatiquement rpercute sur lensemble des
navigateurs ?
la non-rversibilit du processus danonymisation : il est ncessaire de sassurer qu
partir des cookies de la DMP, il nest pas possible de remonter aux coordonnes de
linternaute.
La qualit du support propos par lditeur
Voici un autre point ne pas ngliger. En effet, mettre en place une DMP engendre une
certaine complexit technique, du fait des nombreux flux normaliser et centraliser. Et
mme une fois en place et utilise au jour le jour, de nombreux soucis techniques ou
oprationnels vont venir gripper la belle mcanique de cration et denvoi daudiences.
Dans ce contexte, un support comptent en France peut, par exemple, apporter un vrai
plus par rapport un support aux USA (dcalage horaire, langue non native).
La roadmap
Bien que non crucial, ce point est important vrifier. Un projet DMP est un projet lourd
sur lequel un annonceur capitalise pendant des annes. Un diteur de solutions instable ou
dont lvolution de son produit DMP ne serait plus au cur de ses priorits est un risque
quil est prfrable de ne pas prendre.
Le cot
Enfin, last but not least , comme disent nos amis anglais, le cot, bien sr ! Mettre en
place une DMP constitue un budget consquent de lordre de quelques centaines de
milliers deuros par an (minimum 50 k de frais dinstallation puis une redevance logicielle
de quelques milliers deuros mensuels minimum, dpendant gnralement du volume de
cookies activs par la DMP et de lachat de donnes tierces), sans compter plusieurs
mois dinvestissement humain. De fait, il est primordial destimer en amont le ROI attendu.
La mthode la plus rigoureuse est de se concentrer sur les quatre ou cinq cas dusages
|
|\/
phares qui seront mis en place grce la DMP et de raliser une analyse de sensibilit
$!
externe. Par exemple, exclure ses clients et ses visiteurs rcurrents dj apptants la
By
Nous voil dj parvenus la fin de la premire partie de cet ouvrage. Avant de continuer
4$
notre voyage vers le datamining et le marketing programmatique, faisons le point sur ces
trois premiers chapitres sous la forme dune feuille de route macroscopique qui
By
sappliquera un grand nombre de situations, sans tre bien entendu une vrit absolue,
chaque annonceur possdant ses propres particularits.
Source : Pierre Fournier, Comment se parlent CRM, DMP et Datalake , Artefact, janvier 2016.
vous de jouer
Accrochez au mur linfographie suivante particulirement didactique :
http://datamanagement-le-blog.com/wp-content/uploads/2015/12/Convergence-DMP
Digital-et-CRM.jpeg
Construisez trois cas dusages rendus possibles par une DMP.
Testez la fonctionnalit look alike audience de Facebook pour effectuer en quelques clics
votre premier look alike !
SOURCES
|
|\/
$!
Concernant la chronologie de lvolution du CRM, elle a t inspire de linfographie ralise par Compare Business
4$
Products : http://www.actionco.fr/Thematique/marketing-outils-de-vente-1022/crm-10100/Breves/L-histoire-du-CRM-en-
image-53877.htm
By
Pour approfondir vos connaissances sur la DMP, le blog du cabinet Artefact (qui a accompagn de nombreux annonceurs
tels que Danone ou Air France dans la mise en place de cet outil) regorge de ressources trs pdagogiques, par
exemple :
Comment se parlent CRM, DMP et Datalake , Pierre Fournier, janvier 2016 do est issu le schma simplifi de ce
quoi peut ressembler un cosystme data cible.
Enfin comprendre ce quest une DMP , Paul Colas, avril 2015.
6 critres avancs pour choisir une DMP , Vincent Luciani, septembre 2015.
Le cabinet Converteo a quant lui publi un livre blanc sur la question, comportant notamment une tentative de
classification des diffrents diteurs de solutions DMP :
Comprendre les Data Management Platforms , Thomas Faivre-Duboz, Pierre-ric Beneteau, Romain Creteur,
Sarah Chenna, juin 2015.
Enfin pour apporter davantage de concret cet examen thorique, vous trouverez des captures dcran de la DMP
Bluekai (un des leaders du march) sur https://docs.oracle.com/cloud/latest/daasmarketing_gs/DSMKT/GUID-901DB32A-
4404-4924-A65D-A178C75C48F5.htm#DSMKT4296
|
|\/
$!
4$
By
AUTODIAGNOSTIC
Marketing et mathmatiques ont une relation ambivalente, entre ignorance et admiration. Ces deux ractions sont des
comportements dangereux quil convient de remplacer par une connaissance des bases mathmatiques qui pntrent de
plus en plus le marketing. Et vous, o en tes-vous dans votre relation la data science ? Faites le test (avant et aprs la
lecture de cette partie) pour le savoir !
|
|\/
$!
Question 6 : pouvez-vous expliquer la diffrence entre les algorithmes de rgression et les algorithmes de
classification ?
Question 8 : en analyse de donnes, comment appelle-t-on une valeur extrme ? Quelle reprsentation
graphique les met particulirement en vidence ?
Question 9 : pouvez-vous citer trois critres pour comparer deux modles prdictifs entre eux ?
Question 10 : que dsigne vulgairement une rgression linaire simple ?
Rponses p. 258
|
|\/
$!
4$
By
CHAPITRE
4
Analyse : la dcouverte de tendances et de
schmas dominants
tre capable de sorganiser dans ses datas et de stocker au fil de leau des datas
uniformises de qualit est dj un grand pas. Toutefois, le travail ne fait que commencer
et rentabiliser les investissements raliss jusquici passe par une phase dintelligence des
donnes : lanalyse, la visualisation et la modlisation.
La bonne nouvelle si vous tes responsable marketing est que vous avez certainement
une quipe en charge de ces analyses de donnes. Cependant, pour pouvoir challenger
leurs propositions et maximiser limpact dans lentreprise dune telle quipe de data
|
|\/
analysts , il est ncessaire de parler la mme langue . cette fin, cette deuxime
$!
partie introduit les bases et les concepts gnraux de lanalyse de donnes et de la data
4$
science mis en uvre pour dcouvrir des informations valeur ajoute dans un jeu de
By
Quon dispose dun simple Excel ou dun logiciel puissant, le point de dpart de toute
analyse de donnes est toujours le mme : un tableau dobservations1. Comme tout
tableau, lanalyste est donc en prsence de lignes et de colonnes.
En ligne sont reprsents les individus observs. En marketing, il sagira gnralement
dun identifiant client, mais un individu peut aussi dans ce contexte dsigner un point de
vente, une machine, etc.
En colonne sont reprsents les attributs (appels aussi variables ) associs chaque
individu : typiquement lge, le sexe, le nombre de jours couls depuis le dernier achat
1 Oui 25 75 F 1 93
2 Non 33 67 F 1 51
Non 27 75 M 0 0
Oui 49 75 F 5 678
K Oui 41 55 M 0 0
Non 31 13 M 4 134
|
10 000 Oui 23 75 F 0 0
|\/
$!
Oui 38 63 F 2 29
4$
Figure 26 Exemple de dataset typique en data marketing : en ligne les clients, en colonne les variables
By
Cette matrice est fondamentale, car cest sur elle que seront appliques les analyses
statistiques et les mthodes mathmatiques dcrites dans les chapitres de cette partie B.
Mais avant den arriver l, deux obstacles se dressent sur le chemin de lanalyste !
Le premier cueil est de sassurer de disposer de la meilleure matrice de donnes
possible. En pratique, les donnes clients sont en effet parpilles dans des dizaines de
matrices diffrentes, chacune apportant son lot dinformations. Un premier gros travail
consiste consolider lensemble de ces donnes dans une matrice unique. Il sagit
gnralement de raliser des jointures entre fichiers, sur la base de cls pivots
(exemple : lidentifiant du client qui se retrouve dans plusieurs fichiers).
Le deuxime obstacle est la qualit des donnes. Rares sont les fichiers nickel
chrome comme dans les livres ! Au contraire, travailler sur des donnes relles apporte
son lot derreurs, en particulier des erreurs syntaxiques (exemple : adresse e-mail sans
@, codes postaux 6 chiffres), des valeurs aberrantes2 (un ge renseign 250 ans)
et des valeurs manquantes. Un travail consquent de nettoyage des donnes est
gnralement prvoir, avec des choix parfois cornliens, notamment sur les valeurs
manquantes particulirement problmatiques3 : ne conserver que les lignes qui ne
comportent aucune donne manquante ? Remplacer la valeur manquante par une valeur
plausible (rgle mtier, moyenne, valeur prdite) ? Pour ceux qui sintressent ces
problmatiques, une rfrence en bibliographie traite des diffrentes mthodes
dimputation (i.e. par quoi remplacer une valeur manquante).
Bien entendu, ces deux obstacles sont de plus en plus handicapants mesure que la taille
de la matrice augmente et que les manipulations effectuer deviennent longues. En guise
dordre de grandeur, en data marketing, il nest pas rare que le dataset dpasse le million
de lignes et des centaines de colonnes !
Bon savoir
Le pr-processing des donnes reprsente en gnral prs de 80 % du temps dune prestation de
datamining. Cest dailleurs ce crneau de la data science qua investi la start-up Dataiku, qui a lev, en
octobre 2016, 14 millions de dollars pour continuer dmocratiser son puissant outil consacr aux tches
de nettoyage de donnes faibles valeurs ajoutes.
Que signifie dcrire les donnes quand on est en prsence de milliers de lignes et de
colonnes ? Cette phase descriptive peut se rsumer en deux types danalyses : analyse
des grandes masses et analyses des grandes tendances (on emploiera en statistique les
termes distribution et volution ). |
|\/
Analyser les grandes masses
$!
4$
donnes de tous les sites peut-tre est-il prfrable dans un premier temps de se
4$
programme de fidlit personnalis sur toute la base client, peut-tre est-il plus judicieux
de se concentrer sur les 20 % de clients qui gnrent 80 % du chiffre daffaires. Et pour
ceux qui se disent ( juste titre) quil y a peut-tre des ppites dans les 20 % restants que
nous aurions tort dvacuer ainsi, rassurez-vous nous verrons dans ltape 3 de lanalyse
une mthode lgante pour identifier ces ppites .
Figure 27 Loi de Pareto : une minorit demplacements publicitaires gnre la majorit du revenu
Le diagramme de Tukey
Le deuxime outil trs pris de lanalyste pour dcrire comment se comporte une variable
est le diagramme de Tukey, plus connu du grand public sous le nom de bote
moustaches . Ces diagrammes rsument en effet peu prs tout ce quil faut savoir sur
la distribution dune variable6, savoir :
sa moyenne, indicateur quil nest sans doute pas ncessaire dexpliciter ici ;
sa mdiane qui pour rappel est la valeur qui spare la srie en deux : 80 est la
mdiane du panier moyen si 50 % des clients ont dpens moins de 80 et 50 % plus
de 80 ;
les extremums, savoir la valeur minimum et la valeur maximum ;
les quartiles quon peut concevoir comme les points de passage 25 % (premier
quartile) et 75 % (troisime quartile)7. Sur lexemple prcdent, 30 est le premier
quartile si 25 % des clients ont dpens moins de 30 et 75 % ont dpens plus de 30
.
Concernant lexemple du site ditorial dactualits et de ses trois axes de croissance, il
serait par exemple judicieux de raliser la bote moustaches du CPM auquel ont t
vendues les impressions publicitaires dun inventaire dfini8.
|
|\/
$!
4$
By
Sur cet exemple, on comprend instantanment que 50 % des impressions publicitaires ont
t vendues plus de 3,8 CPM, le prix de vente maximal atteint tant de 36 CPM.
Trs pratiques pour les distributions continues (i.e. lobservation peut prendre nimporte
quelle valeur dans un intervalle), les quartiles et la bote moustaches sont moins
pratiques manier dans le cas de distributions discrtes dans lesquelles lobservation ne
peut prendre quun ensemble fini de valeurs. Par exemple si le site ditorial sintresse au
ratio du nombre de pages vues par internaute chaque jour, il sera plus pratique de
travailler avec des seuils et de recourir un tableau de frquence.
Le tableau de frquence
1 44,1 %
2 24,2 %
} 81 %
3 12,5 %
4 7,6 %
5 3,8 %
6 2,4 %
7 5,3 %
Le Top/Flop
Enfin dernier canevas danalyse trs simple pour dcrire efficacement une srie de
By
donnes : isoler les valeurs les plus grandes ou les plus petites dans un tableau enrichi
par des lments de contexte. Trs simples raliser ( laide de la fonction rang sur
Excel par exemple), ces Top/Flop plaisent souvent aux directions gnrales, car ils
apportent beaucoup de concret. Pour le PDG du site ditorial, savoir quil a russi
vendre une fois une impression dun inventaire non premium 100 du CPM peut lui faire
prendre davantage conscience du potentiel du Real Time Bidding (RTB mode dachat
despace publicitaire mettant en comptition les annonceurs par le biais dune enchre10)
et de la ncessit dinvestiguer plus en profondeur ce terrain que nimporte quelle
prsentation PowerPoint !
Id Donne golocalisation
Rang Prix vendu (au CPM) Inventaire Mode dachat
Impression fournie
Alors que ces quelques impressions vendues prix dor passeraient inaperues dans une
|
|\/
analyse de Pareto ou mme une bote moustaches (pourtant le maximum y figure, mais
$!
le dcideur y prte moins attention), elles occupent ici une place dterminante. Dans
4$
Bon savoir
Si vous adoptez lanalyse Top/Flop, vrifiez par deux fois que ces extrmes ne sont pas des valeurs
aberrantes. Vous risqueriez autrement de doucher lenthousiasme de vos suprieurs ainsi que votre
crdibilit danalyste en mme temps que vos espoirs daugmentation !
La matrice temporelle
By
La matrice temporelle est un outil danalyse trs pratique pour identifier la prsence de
saisonnalit. Son principe est simple : au lieu de reprsenter le temps en ligne sur
laxe des abscisses, il sagit ici de dcomposer le temps sur deux dimensions, par
exemple les mois en abscisse et les annes en ordonne (cette technique fonctionne bien
sr aussi en considrant les jours en abscisse et les semaines en ordonn, cest le
contexte qui va dicter le bon choix). En considrant un historique de plusieurs annes, la
matrice temporelle du chiffre daffaires gnr par la vente des espaces publicitaires
pourrait par exemple ressembler au schma ci-dessous faisant apparatre distinctement
les pics rcurrents en dcembre et les mois traditionnellement faibles en juillet et fvrier.
Figure 31 La matrice temporelle met en vidence les saisonnalits
exemple conduire au graphique ci-aprs, faisant apparatre des volutions trs diffrentes
4$
Source : daprs une ide originale de Bernard Lebelle, Convaincre avec des graphiques efficaces, Eyrolles, 2012.
Jan. Fv. Mars Avril Mai Juin Juillet Aot Sept. Oct. Nov. Dc.
CPM Moyen 3,1 3,3 2,6 4,4 2,2 2,4 2,9 2,7 3,9 3,8 5,5 7,3
Moyenne 2,8 2,9 3 3,1 3,1 3,2 3,2 3,3 3,4 3,5 3,6 3,6
mobile
Par rapport au suivi brut de la variable dans le temps, la moyenne mobile va dgager la
tendance de fond de lvolution de la variable, ici la progression rgulire du CPM moyen
auquel sont vendues les publicits.
|
|\/
$!
4$
By
Figure 34 La moyenne mobile, une approche pour mesurer les tendances de fond
Nous nous sommes jusqu prsent concentrs sur une seule variable la fois et en avons
tudi sa distribution et son volution dans le temps. Dans cette troisime tape,
intressons-nous simultanment plusieurs variables, travers deux cas dusages
particulirement frquents en data marketing : la comparaison de deux moyennes et la
comparaison multidimensionnelle.
Comparaison de deux moyennes (ou deux pourcentages)
Les femmes gnrent-elles plus de chiffre daffaires que les hommes ? La tranche dge
des 20-30 ans est-elle plus performante que celle des 30-40 ? Ce formulaire dinscription
A convertit-il vraiment mieux que ce formulaire dinscription B ? Ces questions sont
omniprsentes dans une entreprise data driven, que ce soit dans le cadre dune rflexion
de fond sur les cibles marketing ou dans le contexte de lanalyse des rsultats dun test
A/B.
Comment tre certain que la diffrence de performance entre les deux populations
compares est suffisamment importante pour ne pas tre la consquence du hasard ? Il
existe pour rpondre cette question cruciale12 un outil daide la dcision trs pratique
bien que peu connu de la plupart des directions marketing : les tests statistiques dits
du t de Student et du chi-2 . Sans entrer dans la thorie statistique sous-jacente
et notamment les conditions de validit de leur application, le principe de ces tests est
dvaluer la part de hasard qui pourrait expliquer la diffrence constate entre deux
moyennes ou deux pourcentages (cf. encadr ci-dessous).
La probabilit que le hasard puisse expliquer lui tout seul une diffrence au moins aussi importante que celle qui est
|
|\/
observe est appele la p-valeur . Ainsi, une p-valeur de 0,22 signifie quil y a 22 % de chance que la diffrence
$!
observe soit simplement due au hasard. Prendriez-vous une dcision sachant quelle a 22 % de chance de reposer sur
une conclusion alatoire ? Certainement non. Bien que la dcision vous soit toute personnelle, il existe un consensus
4$
certainement un des buts du data marketing. Dautre part, il sagit tout simplement de loutput affich par les logiciels de
statistiques et il est donc prfrable de comprendre ce quil signifie.
Pour mieux apprhender cette notion, considrons un exemple qui illustre lutilisation dun
test statistique en pratique tout en dmontrant merveilleusement comment instaurer une
culture data driven dans son entreprise.
Deux collgues (que nous appellerons Batrice et Alain) se chamaillaient propos de lobjet de la newsletter de la
semaine. Batrice insistait pour faire figurer dans lobjet de le-mail le terme gratuit, Alain trouvait cela trop racoleur. Le
directeur gnral passant ct sarrta et proposa un petit pari : on allait faire un test en envoyant simultanment le-
mail que proposait Batrice 200 personnes de la base dabonns et le-mail que proposait Alain 200 autres
abonns, ces 400 consommateurs tant tirs au hasard dans la base e-mail. Le perdant offrirait une bire au gagnant.
Quelques heures plus tard, les rsultats du test furent les suivants :
Figure 35 Lobjet de la newsletter de Batrice est-il vraiment meilleur que celui choisi par Alain ?
Hourra ! criait Batrice en commenant narguer gentiment Alain. Pas si vite , sinterposa un data scientist que
lhistoire amusait et qui avait t dsign comme arbitre. Peut-tre nest-ce que le fruit du hasard ? Il sortit alors son
PC portable, ouvrit le logiciel de statistiques R , et tapa les lignes suivantes, incomprhensibles pour les profanes
et sexclama : p-valeur de 3,6 %. Au seuil de 5 % le hasard peut tre exclu et je dclare donc Batrice
gagnante !
Lhistoire ne dit pas en revanche si Alain offrit Batrice une bire de la mme couleur
que ses cheveux
|
|\/
$!
Comparaisons multidimensionnelles
4$
Parfois, comparer les variables entre elles dpasse la simple comparaison de deux
By
valeurs et il faut croiser plusieurs donnes pour confrer du sens lanalyse. Par
exemple, imaginons que vous souhaitiez comparer les dpartements entre eux pour
identifier ceux pour lesquels il serait judicieux daccentuer vos actions marketing. Comment
sy prendre ? Le premier rflexe serait peut-tre de reprsenter sur une carte de France
les dpartements avec une couleur diffrente selon le chiffre daffaires (CA) qui y est
gnr. Mais savoir que Paris gnre plus de CA que la Creuse a-t-il vraiment un
quelconque intrt oprationnel ? Il pourrait galement tre tentant dappliquer la
mthodologie prcdente en comparant le chiffre daffaires moyen par client selon les
dpartements. Cependant, le nombre de binmes {CA moyen dpartement i /CA
moyen dpartement j } constituer et analyser rendrait cette approche peu
approprie. De plus, la comparaison des chiffres daffaires moyens par individu nest pas
la seule composante intressante tudier : le nombre de clients par dpartement est
galement un axe de comparaison qui fait sens.
Bon savoir
Cette tude comparative pourrait tre enrichie dune dimension danalyse supplmentaire, savoir le
nombre dhabitants par dpartement. Il suffirait pour cela dintroduire un code couleur reprsentant pour
chaque dpartement le ratio nombre de clients dans le dpartement/nombre dhabitants total dans le
dpartement.
Lorsquun grand nombre de binmes sont comparer selon plusieurs axes danalyse, il
existe un canevas danalyse particulirement adapt : la matrice quatre quadrants. Le
principe est trs simple et seffectue en deux tapes :
projeter le nuage de points selon deux axes danalyse : dans notre exemple, chaque
point de la matrice ci-dessous reprsente un dpartement, identifi par son numro ;
repositionner les axes au niveau des mdianes de chaque srie de donnes.
|
|\/
$!
facilement interprtables. Lexemple ci-dessus a t ralis avec une projection sur les
axes x=nombre de clients et y = valeur moyenne par client . Il apparait assez
distinctement que le quadrant en haut gauche regroupe des dpartements potentiels
quil serait sans doute bon de cibler davantage sur Adwords ou toute autre campagne13.
Une fois les diffrences significatives entre deux typologies de clients observes, il est
naturel de vouloir sparer la base des clients en groupes distincts. Aussi terminons ce
chapitre consacr la comparaison et au croisement des donnes avec un monument du
(data) marketing : la segmentation.
Segmenter ses clients est fondamental pour la russite de lentreprise, peu prs tout un
chacun saccordera sur ce point. Selon quels critres segmenter sa base clients, voil
en revanche une question qui dchane les passions !
Le tableau ci-aprs recense des critres de segmentations classiquement utiliss dans
les directions marketing et digitale et donne une petite ide de ltendue des possibles en
matire de segmentation14.
En dehors du trs grand nombre de segmentations possibles partir dun nombre limit
de critres, ce tableau met galement le doigt sur dautres aspects importants de la
segmentation :
il nest pas difficile de segmenter ses donnes. La plupart du temps, il suffit de
dfinir un seuil sur lune des variables, ce qui est finalement la porte du premier
venu. Quand un diteur de solution marketing parle dans sa brochure de
segmentation fine des donnes clients , cela ne signifie donc en ralit pas grand-
chose en tant que tel ;
les segmentations sont plus ou moins statiques. Alors que le sexe est stable et
que la tranche dge volue trs lentement, les segments bass sur un cycle de vie ou
un comportement sont des tonneaux qui se vident aussi vite quils se remplissent ;
les volumes des diffrents segments peuvent normment varier.
A dj fait une
|
Nombre de Typologies de
|\/
commande 50 %
visites > 5 sur Est rest sur le site produits (bio,
$!
jours etc.)
commandes
By
Processus de
Visiteurs
commande Est entr sur le site A tlcharg la Marques
Revenus & CSP Adwords avec
entam mais par la home page version dessai prfres
longue trane
abandonn
A ajout un
A navigu sur plus A partag un Visite en
Gographie produit sa
de 3 pages article magasin
wish list
Figure 37 Des millions de segmentations sont possibles avec seulement quelques dizaines de critres de
segmentation
hommes et les femmes, le sexe de lindividu apporte sans aucun doute un gain
4$
cette distinction sur le sexe napportera peut-tre pas dinformations pour expliquer le
phnomne du manque de ractivit aux campagnes e-mail. Pour chaque critre de
segmentation propos, il est toujours ncessaire de se demander en quoi ce critre est
impactant par rapport la problmatique16.
Avoir un sens mtier repose sur la capacit du mtier sapproprier la segmentation.
Cette capacit dpend naturellement du degr de maturit de lentreprise en matire de
data marketing. Deux signes indiquent en gnral une bonne appropriation par le mtier
de la segmentation propose : lenvie dinvestiguer davantage les diffrents segments
(quelles sont les autres caractristiques des clients du segment ? Quelles campagnes ont
le meilleur impact sur eux ?) et la facult y apposer un petit nom ( potential lovers ,
par exemple, pour les prospects qui ont visit plus de trois pages ces trente derniers
jours)
tre facilement exploitable par le marketing fait rfrence aux nombres de cas
dusages simples mettre en place grce la segmentation. Une segmentation aussi
basique que vrais prospects/faux prospects (base, par exemple, sur un temps de visite
de plus de cinq secondes) peut dj faire conomiser beaucoup dargent en vitant de
relancer les faux prospects. De mme en excluant les clients rguliers des campagnes
(segmentation clients rguliers/clients one shot ), des conomies substantielles
peuvent tre ralises.
titre dexemple, la clbre segmentation RFM (Rcence-Frquence-Montant) est une
bonne illustration dun dosage efficace de ces diffrents lments :
les notions de rcence, de frquence et de montant sont utiles pour la plupart des
objectifs business ;
bien que non optimale dun point de vue mathmatique, dans la plupart des cas au
moins un de ces trois lments aura un pouvoir discriminant significatif ;
le mtier sapproprie assez aisment ces trois notions. Surtout si RFM est prsent
laide dun schma ;
Le marketing y puise de nombreux cas dusages (exemples : relancer les clients qui ne
sont plus venus sur le site/dans le magasin depuis longtemps ou tre aux petits
soins des clients ayant dpens de gros montants).
|
|\/
$!
4$
By
Selon une logique similaire, une banque pourra ainsi, par exemple, segmenter ses clients
selon les axes {patrimoine ; revenus} :
les clients VIP choyer sont en effet ceux prsentant un patrimoine lev et un revenu
annuel substantiel ;
les jeunes cadres fort potentiel ont gnralement un faible patrimoine mais des
revenus au-dessus de la moyenne.
Figure 40 Segmenter les clients dune banque selon leur pargne et leurs revenus annuels
Cette dmarche atteint toutefois rapidement ses limites et il nest pas toujours simple de
trouver la segmentation optimale quand on traite des centaines de variables ! Patience :
dans quelques pages nous verrons une mthode algorithmique capable de faire un
premier tri automatique.
RETENIR DE CE CHAPITRE
Lanalyse de donnes est un premier niveau de traitement de donnes dont lobjectif principal est de
|
|\/
valider/invalider rapidement des hypothses, laide notamment de canevas trs pratiques que sont la
$!
matrice quatre quadrants, le diagramme de Pareto, la bote moustaches, etc. En particulier, le concept
4$
de p-valeur est fondamental pour dterminer la part de hasard dans la diffrence observe entre deux
moyennes ou deux pourcentages. Toutes ces analyses aboutissent gnralement la proposition
By
vous de jouer
Affichez dans la pice commune le diagramme de Pareto indiquant le poids en chiffre
daffaires des meilleurs clients (top 20 %, top 10, etc.). Dans une entreprise data driven
toute lquipe doit avoir conscience que le CA tient finalement une petite partie de clients
quil faut chouchouter !
Comparez la diffrence de chiffre daffaires entre les hommes et les femmes et vrifiez si
cette diffrence a vraiment un sens statistique ou bien est le fruit du hasard.
Trouvez deux critres de segmentation pertinents pour votre mtier et dcoupez vos clients
en quadrants (sur le modle RFM ou de la banque).
SOURCES
Concernant les donnes manquantes et le nettoyage des donnes :
M. Berchtold A., Imputation des donnes manquantes : comparaison de diffrentes approches , 42e Journes de
statistiques de Marseille, 2010.
Texte disponible en pdf sur le lien suivant : https://hal.inria.fr/inria-00494698/document
Pour approfondir vos connaissances en statistiques dcisionnelles, je ne peux que vous conseiller le blog de Jean Yves
Baudot http://www.jybaudot.fr/ qui met la porte de tous les principaux concepts statistiques utiliss en entreprise.
Enfin, pour transformer vos tudes statistiques en tableau de bord lgant et actionnable, la lecture de louvrage de
Bernard Lebelle Construire un tableau de bord pertinent sous Excel (Eyrolles, 2013) sera dune aide prcieuse.
1. En pratique il faut parfois dj beaucoup deffort pour atteindre ce stade du tableau dobservations !
2. Souvent dsignes par le terme anglais outlier .
3. La plupart des algorithmes fonctionnent mal dans une matrice trous .
4. Pour rappel cot pour mille impressions, modle conomique frquemment utilis dans la publicit digitale. Un
annonceur paiera ainsi 5 du CPM ou 5 CPM.
5. Abrviation de log file, littralement journal de bord, terme informatique dsignant le fichier contenant les
enregistrements squentiels rsultant de la ralisation dun processus informatique.
6. lexception de lcart type qui mesure lhomognit de la population : plus lcart type est petit, plus la population est
homogne.
7. Bien que cela soit plus indigeste, vous lirez aussi parfois que le premier quartile se dfinit comme la mdiane entre le
minimum et la mdiane, et le troisime quartile comme la mdiane entre la mdiane et le maximum.
8. Nombreux tutoriels disponibles sur Internet pour raliser ce type de diagramme dans Excel ou R .
9. On appelle micro-conversion tout acte de conversion autre quun achat (inscription newsletter, tlchargement de la
liste des prix).
10. Nous tudierons en dtail le RTB au chapitre 8.
11. Dcouvert dans lexcellente trilogie de Bernard Lebelle concernant la ralisation de tableaux de bord ultra-performants
voir Sources la fin de ce chapitre. |
12. La diffrence de performance entre deux segments de clients peut entraner un rebasculement des budgets
|\/
marketing.
$!
13. Avant daugmenter le budget marketing pour ces dpartements, il est judicieux de vrifier laide dun test statistique la
4$
significativit de la valeur moyenne dans le dpartement par rapport la valeur moyenne dun client tous dpartements
confondus.
By
14. La formule C = n ! /([n p] ! x p !) o n ! dsigne la factorielle de n permet de calculer de combien de faons on peut
choisir p lments dans un ensemble n lments, soit ici des millions de segmentations possibles.
15. Le chapitre 7 prsentera une mthode pour quantifier le gain dinformation.
16. La question And so what ? ( et alors ? ) est gnralement un trs bon estimateur du gain dinformation apport
par une variable !
CHAPITRE
5
Analyse exploratoire : identifier les liens entre les
donnes
Avec ce chapitre, on quitte le domaine dit des statistiques descriptives pour aborder
celui du datamining (littralement forage des donnes ) et des statistiques dites
exploratoires (le terme analyse factorielle est galement frquemment employ).
Moins pompeusement, il sagit ici didentifier les liens entre les donnes : quelles sont les
variables les plus discriminantes ? Y a-t-il des variables qui fonctionnent ensemble ?
Bien que lanalyse factorielle soit un domaine trs vaste, nous traiterons seulement ici trois
grands classiques du data marketing dont un directeur marketing data friendly devrait
|
|\/
idalement avoir un minimum de notions : la matrice de corrlation, lanalyse en
$!
ENTRE ELLES
Pour comprendre cet outil, considrons un exemple factice. Imaginez que vous tes
responsable dune place de march e-commerce commercialisant quatre types de
produits : produits de jardinage, produits de dcoration, produits pour la cuisine et
produits pour le bricolage. Vous aimeriez augmenter le cross-sell1 entre ces diffrentes
catgories de produits et dans ce contexte souhaitez savoir si pour les clients
jardinage il est prfrable dlargir la dcouverte du catalogue vers le bricolage, la
cuisine ou la dcoration. Le dbat fait en effet rage dans votre socit : 55 % des clients
du jardinage sont des femmes et les prjugs sexistes vont bon train quant au type de
produit recommander !
Un peu de thorie
Souhaitant dpasser les a priori, vous vous intressez au nombre de produits cliqus par
catgorie et par individu. Votre espoir est de constater que les personnes cliquant sur les
produits de jardinage ont galement tendance cliquer sur les produits dune autre
catgorie. Vous vous retrouvez avec le tableau ci-dessous, indiquant pour chaque
identifiant client le nombre de clics dans chaque catgorie du site :
identifiant Jardinage Bricolage Cuisine Dcoration
1 6 6 5 5
2 8 8 8 8
3 6 7 11 9
4 14 14 15 15
5 14 14 12 12
6 11 10 5 7
7 5 7 14 11
8 13 12 8 9
9 9 9 12 12
Consciencieusement, vous avez ralis ltude descriptive des variables avec les
mthodes prsentes au chapitre prcdent et remarqu la grande homognit des
moyennes, des extremums et des carts-types (on laissera le soin au lecteur de calculer
ces valeurs). Bref, pas facile ce stade de conclure ! |
|\/
Comment continuer ltude ? Un lointain souvenir de lyce remonte votre bon souvenir :
$!
le coefficient de corrlation linaire. Pour ceux qui auraient enfoui leurs souvenirs
4$
Figure 42 La rgression linaire simple est lapproximation dun nuage de points par une droite
Figure 43 Relation entre les clics sur la catgorie Bricolage et les clics sur la catgorie Jardinage
La liaison entre les deux catgories peut tre approxime par la droite dquation y =
0,8283x + 1,7522 (obtenue sur Excel en ajoutant une courbe de tendance linaire )
La fonction COEFFICIENT.CORRELATION estime ensuite la qualit de
|
lapproximation, reprsente en mathmatique par la lettre r . Dans notre exemple : r =
|\/
0,973.
$!
4$
Le signe de r indique le sens de la liaison entre les variables : un signe positif traduit
une corrlation positive (i.e quand une variable augmente, lautre aussi), un signe ngatif
une corrlation ngative (i.e. quand une variable augmente, lautre diminue).
La valeur absolue de r indique lintensit de la liaison : plus r est proche de 1 ou -1 (1
et -1 reprsentant les valeurs extrmes possibles du coefficient de corrlation r), plus les
variables sont corrles entre elles. Petite subtilit toutefois : la significativit statistique
de la corrlation dpend du nombre dobservations, comme indiqu dans le tableau ci-
dessous. Remarquez comment la valeur seuil dcrot trs vite avec le nombre
dobservations, un coefficient aussi faible que 0,14 exprime une corrlation dj
statistiquement significative pour un tableau de 200 observations.
n Valeur limite de n Valeur limite de n Valeur limite de
r r r
Ces notions tant tablies, la matrice de corrlation est une table contenant les
coefficients de corrlation entre chaque variable, permettant dvaluer simultanment
la dpendance entre plusieurs variables.
Dans notre exemple, en itrant le processus ralis sur le couple {jardinage-bricolage}
lensemble des couples possibles, la matrice de corrlation prendrait ainsi la forme du
tableau ci-dessous :
Coefficient de
Jardinage Bricolage Cuisine Dcoration
|
corrlation r
|\/
$!
Le principe consiste reprsenter les nuages de points pour lire le signe (pente
ascendante ou descendante) et lire lintensit grce la couleur affecte
automatiquement selon des valeurs seuils paramtrables : ici, en gris fonc, les
corrlations les plus fortes ; en blanc les corrlations les moins significatives. Ce treillis
sobtient trs facilement sur le logiciel de statistiques R en appelant la fonction pairs.
|
|\/
$!
4$
By
Le corrlogramme
Derrire ce nom abscons se cache une reprsentation belle et habile dune matrice de
corrlation.
|
|\/
Figure 47 Le corrlogramme, la faon standard de reprsenter la matrice de corrlation
$!
4$
Les corrlations positives sont affiches en gris et les corrlations ngatives en bleu.
Lintensit de la couleur est proportionnelle aux coefficients de corrlation. Cette
By
reprsentation sobtient trs facilement sur R en chargeant la librairie corrplot et il est bien
sr possible de personnaliser les couleurs sa guise.
Le cercle de corrlations
Cest la mthode la plus approprie pour visualiser un grand nombre de variables. Les
corrlations sinterprtent avec le cosinus de langle entre deux variables3 X1 et X2 :
si les points sont trs proches : cos (angle)=1 donc X1 et X2 sont fortement corrls
positivement. Cest bien le cas des variables jardinage et bricolage et dans une
moindre mesure dcoration et cuisine ;
si angle 90 cos = 0 alors pas de corrlation linaire entre X1 et X2. Cest le cas de
jardinage avec dcoration ou cuisine ;
si les points sont opposs, angle = 180 cos = -1 : X1 et X2 sont trs fortement
corrls ngativement.
Figure 48 Cercle des corrlations
|
|\/
Application pratique : tude des corrlations entre ventes et mto
$!
4$
Il ne fait aucun doute que parmi les variables qui influencent les comportements des
consommateurs, les conditions mto jouent un rle significatif. Plusieurs tudes sur les
By
liens comportement mto ont ainsi t menes par les marques ces dernires annes.
En voici, parmi dautres, trois particulirement instructives et inspirantes relayes par la
presse professionnelle.
Walmart, acteur majeur de la grande distribution qui utilise dj les donnes mto depuis
quelques annes pour anticiper les besoins de merchandising, a franchi un nouveau cap
dans lexploitation des donnes mto en mettant jour des corrlations statistiques pour
le moins inattendues. Nous ne savions pas, par exemple, que les faibles vents avaient
un impact sur la consommation de fruits rouges. Il se trouve quelle est plus leve quand
le vent souffle faiblement et quil fait moins de 25 C4 , raconte le directeur marketing.
Consquence directe de ces tudes, Walmart adapte les affichages physiques et les
publicits digitales dans les rgions o ces conditions existent avec des gains de 18
300 % sur les ventes de ce produit mto-sensible .
PriceMinister, lAmazon franais, sest, lui, intress linfluence de la mto sur ses
ventes croise avec une segmentation par rgion. Ltude indique ainsi que la pluie affecte
assez peu les habitudes dachat sur Internet des Parisiens (+ 2,36 % de CA les jours de
pluie). En revanche, elle affecte nettement plus les Marseillais qui achtent 15 % darticles
supplmentaires et dpensent en moyenne 10 % de plus quand le baromtre est
maussade ! Rsultat : quand de la pluie est prvue dans le sud de la France,
PriceMinister dclenche une campagne e-mail spcifique pour ce segment daudience5.
Easyjet et McDonalds enfin se sont penchs sur linfluence de la chaleur sur les taux
douverture et de clic des e-mails. Le taux douverture des e-mailings Easyjet est ainsi
directement proportionnel laugmentation de la temprature (on peut supposer quen cas
de beau temps, les Franais sont plus inspirs par le voyage) alors que celui de
McDonalds est trs peu influenc6.
illustrer les principales tapes de lACP et livrables que vous pourriez rencontrer si vous
4$
mandatez une socit de data mining ou recrutez des data scientists pour analyser vos
donnes.
By
En data science, il est de trs loin prfrable davoir un fichier de donnes avec beaucoup de lignes (les individus) que
beaucoup de colonnes (les variables, leur nombre constituant la dimension du problme). En fait le nombre
dobservations ncessaires une tude statistique de qualit augmente exponentiellement avec le nombre de colonnes !
Cest ce quon appelle dans le milieu la maldiction de la dimension . Dautres problmes surgissent quand le nombre
de variables est important, notamment sur la stabilit des modles prdictifs que nous verrons au chapitre 7. Enfin, lesprit
humain a du mal interprter plus de trois dimensions et rduire le nombre de dimensions permet donc de donner plus
facilement du sens aux donnes. Au final, lACP, cest votre chef qui voyant votre matrice de donnes vous dit dun ton
premptoire : Il y a trop de colonnes, simplifie-moi tout a !
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4
Standard deviation 5.1701451 3.5800285 0.442765216 0.1002044695
Ce qui peut tre rcrit de faon plus lisible dans un tableau comme celui-ci-dessous :
Figure 49 Tableau des valeurs propres obtenues suite une analyse en composante principale
Linertie indique la quantit dinformation contenue dans chaque axe. On remarque que les
deux premiers axes restituent eux seuls la quasi-totalit de linformation, ce qui permet
de ngliger les deux autres. Par consquent, lespace initial de dimension quatre peut tre
|
rsum efficacement par un espace de dimension deux : lobjectif de conserver le
|\/
$!
maximum de linformation contenue dans les donnes avec un minimum de variables est
4$
atteint.
Reste dsormais interprter dun point de vue mtier ces deux nouvelles mta-
By
Bon savoir
Au lieu de se baser sur linertie cumule, dautres mthodes sont frquemment employes pour dterminer
les axes factoriels :
le principe de Kayser consiste choisir les axes dont la valeur propre est suprieure un ;
le principe du coude consiste tracer le graphique des valeurs propres en fonction des axes (graphique
ci-aprs appel scree plot ) et slectionner les axes se situant avant l boulement des valeurs
propres.
Figure 50 Le scree plot permet de dterminer les axes factoriels selon le principe du coude
Cest ce tableau qui permet de tracer les axes factoriels puis de les interprter.
Avant de tenter une interprtation des axes, remarquons que la configuration des axes
nest pas sans rappeler le cercle des corrlations introduit un peu plus tt : les axes
factoriels sont ni plus ni moins les axes (x, y) du cercle des corrlations (trac en
pointill).
Laxe 2 est facilement interprtable. Laxe oppose en effet, dune part, la cuisine et la
dcoration (corrlations ngatives) et, dautre part, le jardinage et le bricolage
(corrlations positives). Laxe peut donc tre interprt dun point de vue mtier comme un
axe dopposition entre centres dintrt principalement travaux manuels dextrieur et
dcoration dintrieur.
Laxe 1 (axe des x) est en revanche ce stade encore assez obscur. Certes les quatre
variables contribuent ngativement laxe 1, mais ce point est assez difficilement
interprtable. Il va falloir projeter les individus selon les axes8 afin de dcouvrir ce que
peut bien reprsenter cet axe.
|
|\/
$!
Bon savoir
Dans le cas de plusieurs milliers dindividus, le nuage de points serait illisible et il serait impossible de
procder ces regroupements10. La bonne dmarche adopter serait alors de recourir au clustering,
algorithme prsent maintenant.
|
Figure 54 Segmentation et clustering sappuient sur des approches diffrentes
|\/
$!
Sans rentrer dans les dtails algorithmiques qui sortent du cadre de cet ouvrage, les
4$
paragraphes qui suivent abordent quelques notions cls relatives au clustering, afin dtre
By
Bon savoir
|
|\/
$!
En pratique, les deux mthodes dcrites ici sont souvent couples : lapproche non hirarchique fait un
premier tri et la mthode hirarchique aboutit au clustering final.
4$
alors de recourir une mthode non hirarchique (souvent appele centres mobiles
ou k-mean ). Le principe est ici de dfinir lavance un nombre k de clusters obtenir
et de choisir au hasard k individus pour centres. Chaque cluster a donc un centre
arbitraire (tape 1). Les individus restants sont classs dans ces k clusters selon leur
distance au centre. On obtient donc un premier clustering de niveau 0 (tape 2).
Les centres ayant t dfinis au hasard, il est ncessaire de corriger ce clustering de
niveau 0. On dfinit donc k nouveaux centres qui correspondent cette fois-ci aux centres
de gravit G (ou barycentres) des clusters de niveau 0 (tape 3). Comme prcdemment,
les individus sont raffects dans les groupes selon leur distance au centre, pour obtenir
un clustering de niveau 1 (tape 4).
De proche en proche les centres de gravit vont de moins en moins bouger et un tat
dquilibre sera atteint, dfinissant les k clusters recherchs13.
Ces tapes sont illustres sur la figure ci-dessous, avec pour objectif la constitution de
deux clusters (attention, les distances sur le dessin ne correspondent pas aux distances
prises en compte dans la dmarche du clustering).
Figure 56 Constitution de deux clusters avec la mthode non hirarchique
RETENIR DE CE CHAPITRE
Lanalyse exploratoire est un niveau avanc de traitement de donnes cherchant mettre en vidence des
liens entre les donnes. Marques corrles entre elles, segmentations des magasins ou regroupement de
clients statistiquement proches sont autant dapplications rendues possibles par la matrice des
corrlations, lanalyse en composante principale (ACP) et le clustering, trois procds danalyse de
donnes trs frquents en data marketing. |
|\/
$!
vous de jouer
4$
Trouvez deux catgories de votre catalogue statistiquement corrles entre elles et imaginez
By
SOURCES
Pour raliser des matrices de corrlations, des analyses en composantes principales et des clustering sur le logiciel
R , le site http://www.sthda.com (Statistical Tools for High Throughput Data Analysis) regorge de tutoriels trs complets
et pdagogiques.
Les cours duniversit sont galement dexcellentes ressources pour matriser les bases du datamining
Analyse en composantes principales , cole des Ponts Paris Tech, Jean-Franois Delmas et Saad Salam, 2009 ;
Introduction la classification hirarchique , Universit de Lyon, D. Chessel, J. Thioulouse, A.-B. Dufour.
Enfin certains ouvrages de rfrence en data mining satisferont la curiosit des lecteurs plus avancs :
Statistique exploratoire multidimensionnelle, Ludovic Lebart, Marie Piron, Alain Morineau, Dunod, 2006.
Datamining et statistique dcisionnelle, Stphane Tuffry, Technip, 2012.
1. Littralement ventes croises , il sagit dune stratgie marketing consistant proposer au client dautres produits
auxquels il pourrait tre apptant la suite de ses derniers achats.
2. La matrice de corrlation est en effet souvent utilise pour identifier des corrlations entre plusieurs dizaines de
marques : Les clients qui ont achet telle marque seront aussi intresss par telle ou telle autre marque.
3. Attention, on ne peut interprter de cette faon que les variables situes au bord du cercle.
4. Benjamin Adler, La mto dsormais incontournable pour le marketing , Influencia.net, 2015.
5. Source : Serge-Henri Saint-Michel, Ecommerce : la pluie fait vendre , Marketing-professionnel.fr, 17 septembre
2013.
6. Plus de dtails sur cette tude mene par Return Path dans larticle Soleil, pluie, temprature : Quels indicateurs
mto influencent le plus les performances e-mailing paru sur journaldunet.com, 21 juillet 2015.
7. Pour les frus de mathmatiques : les composantes principales sont dtermines en calculant les valeurs propres de
la matrice de corrlation.
8. On parle souvent de projection dans le plan principal .
9. Attention le point 2 se situe proche du centre et est donc mal reprsent par lACP.
10. Cest pourquoi le cas dcole de lACP est ltude des magasins. Contrairement aux clients, il y a en effet rarement
plus de quelques centaines de magasins.
11. Le terme exact est dissimilarit .
12. Le plus souvent la distance euclidienne est satisfaisante.
13. Il existe en ralit de trs nombreuses variantes ce principe gnral.
|
|\/
$!
4$
By
CHAPITRE
6
Data visualisation et data storytelling
du storytelling1 par Barack Obama lors de sa campagne lectorale pour sen persuader.
By
Les pages qui suivent ont pour objectif de donner lanalyste et au manager quelques
bonnes pratiques trs concrtes afin de restituer et partager efficacement le rsultat des
longues journes passes analyser les donnes. Pour ceux qui nauraient pas apprci
les mathmatiques du chapitre prcdent, cest galement loccasion de reprendre un peu
leur souffle !
http://extremepresentation.typepad.com/blog/2015/04/electronic-version-of-the-slide-
chooser-using-prezi-beta-version.html ;
By
Source : daprs une ide originale de Bernard Lebelle, Convaincre avec des graphiques efficaces, Eyrolles, 2012.
Figure 57 Quatre dimensions reprsentes dans ce graphique (CA, PdM, temps, comparaison)
|
|\/
$!
CA 2015 volution
4$
Prouduit A 1317
By
Prouduit B 1277
Prouduit C 1265
Prouduit D 1249
Prouduit E 1304
Source : Bernard Lebelle, Construire un tableau de bord pertinent sous Excel, Eyrolles, 2013.
Figure 58 Les sparklines, ou comment introduire des mini-graphiques dans vos tableaux
Une fois le type de reprsentation choisi, comment construire un graphique qui remplit
vraiment son rle de partage et daide la dcision ? Les options par dfaut des logiciels
sont rarement satisfaisantes et la liste ci-aprs de bonnes pratiques (non exhaustives)
vous aidera dores et dj prendre conscience des amliorations que vous pourrez
adopter dans vos futures constructions graphiques. En data visualisation, le diable est
dans le dtail et en particulier dans les dtails suivants.
Lchelle
Il est primordial dtre respectueux de la ralit et de ne pas fausser linterprtation des
donnes par des proportions mal reprsentes, une graduation inapproprie ou un
graphique tir (Edward Tufte, un des pres fondateurs de la data visualisation dj
mentionn plus haut, parle de coefficient de mensonge pour traduire ce phnomne
malheureusement courant). De mauvaises interprtations donneront lieu de mauvaises
dcisions qui peuvent potentiellement mettre lentreprise en pril. Dans le cas de donnes
dordres de grandeur trs diffrents, une solution consiste les reprsenter sur une
chelle logarithmique ou les normaliser en base 100.
Le titre
lment du graphique souvent nglig, car trop descriptif et redondant avec le graphique
en lui-mme ( volution du panier moyen sur les trois dernires annes ), le titre doit au
contraire faciliter dentre de jeu la comprhension en affirmant le message que vous
souhaitez faire passer et quil faut retenir du graphique : Le panier moyen grossit un
rythme rgulier depuis trois ans. En dessous de ce titre conclusif, vous pouvez
complter par un sous-titre descriptif si ncessaire pour prciser lunivers tudi.
Les couleurs
|
|\/
$!
Le choix des couleurs ne doit pas tre fait au hasard et il faut au contraire en exploiter la
4$
donnes estimes. La couleur peut galement tre utilise pour transcrire des
informations disjointes ou ordonnes (la couleur entrant alors dans un systme de
classification). Afin de ne pas transformer votre graphique en arc en ciel, il est prfrable
de suivre une palette de couleurs harmonieuse, comme celles proposes par les logiciels
Adobe Kuler ou ColorBrewer.
La lgende
Encore un lment souvent bcl en suivant les options par dfaut ! En effet, une lgende
en bas ou sur le ct entranera des allers-retours visuels inutiles pour le lecteur. Il est
prfrable de la positionner en haut (de la sorte, le lecteur simprgne de la lgende avant
de voir le graphique) ou encore, mieux, directement dans le graphique ct de llment
indexer (comme une tiquette). Ce dernier conseil est particulirement utile pour les
graphiques dvolution superposant plusieurs courbes. Enfin, sous le graphique doit tre
indique la source des donnes afin de crdibiliser le travail danalyse.
Autres astuces
Outre les erreurs dj mentionnes, on veillera liminer au maximum toute fioriture
visuelle ; par exemple, un quadrillage par dfaut qui ne favorise en rien linterprtation des
donnes, mais diminue le ratio quantit dencr/quantit de donnes. Par ailleurs, le
nombre de sries de donnes ne doit pas perturber la lisibilit du graphique : il est
prfrable de ne pas dpasser trois ou quatre sries de donnes. Enfin, lusage de la 3D
est rarement un bon choix, le volume ainsi introduit entrane des erreurs dvaluation des
valeurs, car le cerveau humain interprte moins bien les volumes que les reprsentations
planes.
Au final, toutes ces bonnes pratiques combines entre elles devraient raccourcir le temps
dassimilation du graphique et de la prise de dcision.
Voici les principaux avantages cits par les personnes interviewes dans une tude mene par le cabinet IDG Research
et relayes par le logiciel de statistiques SAS dans le livre blanc Quatre raisons pour lesquelles vous ne pouvez plus vous
passer de la visualisation des donnes.
77 % : optimisation du processus de prise de dcision.
43 % : rapidit et fiabilit des analyses ad hoc.
41 % : davantage de collaboration et de partage des informations.
36 % : davantage de fonctionnalits en self-service pour les utilisateurs finaux.
34 % : augmentation du retour sur investissement. |
20 % : gain de temps.
|\/
15 % : moins de pression sur le dpartement informatique.
$!
4$
Vous serez souvent amen prsenter vos rsultats sur un PowerPoint. Quelques
conseils simposent afin de ne pas rduire nant les efforts danalyse en communiquant
maladroitement vos rsultats.
pourront poser ensuite les questions qui leur brlent les lvres.
4$
By
actions menes : Nous avons la chance dasseoir un CA rgulier qui assurera notre
4$
concurrence , etc.
En suivant ce schma de narration, vous vhiculerez un message simple comprendre,
mmoriser et rsumer aux autres collaborateurs.
Bon savoir
Une prsentation de data marketing na pas vraiment pour objet les donnes en tant que telles ou les
analyses qui ont t effectues. Le sujet principal se situe plutt dans le sens confr ces donnes et aux
actions et dcisions qui peuvent en dcouler.
des tableaux de bord. Bien que de nombreux ouvrages aient dj trait la question, la
plupart des tableaux de bords rencontrs sur le march sont constitus dun assemblage
By
|
|\/
$!
4$
By
RETENIR DE CE CHAPITRE
Le soin apport la restitution des rsultats des analyses est au moins aussi important que la qualit des
analyses menes. La rgle dor est de recourir la communication pyramidale : il ne sagit pas dans la
restitution de relater tous les mandres du raisonnement, mais daller droit la conclusion et de la soutenir
par les faits saillants. Ce principe est appliquer aussi bien pour les graphiques que pour les slides dun
PowerPoint, notamment laide de titres conclusifs.
vous de jouer
Prenez votre dernier rapport de campagne et remplacez linvitable camembert ou
histogramme par un autre graphique plus riche, en vous aidant des chart choosers.
Amliorez un graphique de votre prochaine prsentation avec les bonnes pratiques voques
dans ce chapitre.
Considrez une thmatique importante pour votre activit et synthtisez-en les enjeux dans
une fiche mmo quatre quadrants.
SOURCES
Si vous souhaitez approfondir la thorie sous-jacente aux bonnes pratiques de data visualisation, je vous recommande la
lecture des deux ouvrages ci-dessous :
Convaincre avec des graphiques efficaces, Bernard Lebelle, 2012, Eyrolles, 2012.
The Wall Street Journal. Guide to Information Graphics, Dona Wong, W. W. Norton & Company, 2014.
Pour une approche plus pragmatique, le site http://www.hello-data.co liste un grand nombre doutils fort utiles pour raliser
des visualisations graphiques pertinentes. |
|\/
Pour devenir un maestro des prsentations PowerPoint et autres restitutions, je vous invite dcouvrir :
$!
Lart des prsentations PowerPoint : de la ralisation technique la performance oratoire, Bernard Lebelle, Eyrolles,
4$
2011.
HBR Guide to Persuasive Presentations, Nancy Duarte, octobre 2012
By
1. Mthode de communication base sur une structure narrative du discours, la manire dun rcit.
2. Pour qualifier cette approche, Edward Tufte, dans son ouvrage The Visual Display of Quantitative Information (2001),
sappuie sur le ratio quantit dencre/quantit de donnes !
3. Sans parler des illusions doptique cres par linterprtation daires ou pire lusage de la 3D.
4. Bernard Lebelle, Convaincre avec des graphiques efficaces, Eyrolles, 2012.
5. Structure Your Presentation like a Story , Nancy Duarte, article paru le 31 octobre 2012 sur le site de la Harvard
Business Review (hbr.org).
6. En revanche, le tableau de bord interactif est bien pratique en mobilit ou pour un suivi temps rel.
CHAPITRE
7
Le marketing prdictif
Anticiper le futur est le rve de tous les marketeurs. Historiquement, les marketeurs ont
toujours analys les performances des campagnes passes afin de comprendre a
posteriori certains phnomnes ou bien ont ralis des panels afin de prdire la
raction des consommateurs. lheure du digital, la prdiction comportementale
prend une tout autre ralit : celle des modles mathmatiques capables de
calculer en temps rel la probabilit de ralisation dun vnement.
Si les termes marketing prdictifs et machine learning1 (littralement apprentissage
automatique ) sont devenus courants et trs la mode dans la presse et les vnements
|
spcialiss, les concepts mathmatiques sous-jacents restent pourtant obscurs pour la
|\/
plupart des professionnels du marketing digital, laissant la place au meilleur comme au
$!
ce chapitre qui clt la deuxime partie consacre aux techniques de base de la data
By
Le cas des hypermarchs Target, dvoil au grand jour en 2012 par le New York Times, illustre souvent la puissance du
marketing prdictif. Un client en colre demande voir le directeur de sa grande surface habituelle : Ma fille na que 16
ans et vous envoyez des pubs pour berceaux. Vous voulez la pousser tomber enceinte ou quoi ? Quelques jours
aprs, le pre apprend que sa fille est effectivement enceinte. Le supermarch, sous limpulsion du data scientist Andrew
Pole avait labor un modle de scoring probabiliste partir de 25 produits que les femmes nouvellement enceintes
avaient tendance commander. Cest ainsi que Target avait dtermin, quelques jours prs, quel stade de grossesse
la jeune fille se trouvait. Avant que son propre pre ne le sache !
Esprons pour cette jeune fille quelle ne devienne pas cliente de Visa et paye ses factures en retard. La clbre carte
bancaire a en effet a remarqu que les couples ayant ce comportement avaient tendance divorcer plus que la
moyenne
Figure 60 Trois variables descriptives du consommateur : laquelle apporte le plus dinformations sur la
probabilit dachat ?
4$
By
|
Figure 61 Lentropie est un moyen de dterminer les bons critres de choix dans un arbre de dcision
|\/
$!
4$
souvent cres. Nous avons dj vu lutilit dun tel procd au chapitre 5 dans le cadre
de lanalyse en composantes principales (pour rappel : cration de variables dites
factorielles permettant de rduire la dimension du problme). Plus simplement, la
cration dindicateurs pertinents (maxima, moyennes), le calcul de ratios (exemple : le prix
au m2 peut tre une variable plus significative que les variables prix et surface prises
sparment), linstauration de seuils (exemple : cration dune variable enfant partir de
la variable ge) ou encore la binarisation dune variable (exemple : transformer des dates
en une variable binaire rcent/ancien) sont des pratiques courantes en analyse prdictive.
Ce procd porte mme un nom : on parle de feature engineering
Parfois, il ny a mme pas de variables initiales du tout et toutes les variables du problme
sont cres par un algorithme ! Cest notamment le cas des problmes de sequence
mining qui consistent identifier des motifs rcurrents avant la ralisation dun
vnement : les squences identifies deviennent les variables du problme. Ce procd
est par exemple trs utilis en e-commerce afin didentifier des chemins de navigation qui
mnent la conversion (ou non).
|
|\/
$!
4$
By
production.
4$
By
Ces concepts tant noncs, intressons-nous prsent aux deux grandes catgories de
modles prdictifs que vous serez susceptible de rencontrer sur le march7 :
les modles dits de rgression prdisent les valeurs dune variable cible partir
dune ou de plusieurs variables. Le cas dcole est la prdiction du prix dun
appartement par rapport la surface, le quartier et lanciennet de limmeuble ;
les modles dits de classification prdisent un tat (typiquement sain/malade
dans le domaine de la sant ou clients qui vont renouveler ou non leur abonnement
en ce qui concerne le marketing).
Bon savoir
Ces deux modles appartiennent au monde des algorithmes superviss, par opposition aux algorithmes non
superviss dans lesquels les valeurs de sortie (prix, tat) ne sont pas connues (exemple : les algorithmes
de clustering tudis au chapitre 5).
Attaquons tout de suite avec deux exemples, le premier pdagogique, le second plus li
aux problmatiques marketing dune entreprise.
|
|\/
$!
4$
By
Diana Virgo, mathmaticienne de la Loudan Academy of Science de Virginie fit un jour une
drle dexprience pour expliquer le pouvoir des mathmatiques son auditoire. Elle
apporta un seau de criquets, un petit radiateur et posa la question suivante : Les
criquets chanteront-ils plus ou chanteront-ils moins si jaugmente la temprature ? Et
lexprience commena : pour chaque nouvelle temprature, lauditoire estima le volume
sonore des gazouillis . Trs vite un ensemble de donnes (temprature, gazouillis) fut
collect et la courbe da la figure prcdente put tre trace.
Comme on pouvait sy attendre, plus le radiateur est chaud et plus les criquets sagitent,
et il est mme possible grce lquation de la droite8 de prvoir le volume sonore des
criquets pour chaque degr supplmentaire : le point gris de la courbe de coordonnes
(100,78) est une prdiction ! Et lensemble de lexprience est la (formidable) faon dont
cette professeure de mathmatiques a introduit la notion de fonction ses lves de 3e
Morale de cette histoire9 : prdire nimplique pas ncessairement mettre en place un
modle mathmatique complexe. La fonction affine apprise au collge est par dfinition un
modle de prdiction !
Paris 197 39 13 97
Strasbourg 134 36 7 36
Figure 65 Trois types de variables sont collects sur les magasins pour prdire le chiffre daffaires au m2
Le premier rflexe serait ici de tracer les graphiques liant le chiffre daffaires/an/superficie
chacune des trois autres variables afin dtudier lexistence dune relation linaire.
Laissons cela titre dexercice au lecteur, sans doute impatient dappliquer le thorme
du criquet .
Mais comment modliser en une seule quation linfluence de toutes ces variables ? Cest
prcisment cette question que rpond la rgression linaire multivarie11. Cet
algorithme trs utilis en data marketing12 pondre chacune des variables dans un
modle de la forme :
Y = aX1 + bX2 + cX3 + cste + erreur
Y dsigne la variable prdire, ici le chiffre daffaires annuel au m2 ;
X1, X2 et X3 sont les variables explicatives, ici lge moyen de la population dans la
zone de chalandise, le nombre de magasins concurrents dans un rayon de 400 m et la
distance au premier parking ;
a, b et c sont appels les coefficients de pondration et correspondent linfluence
des variables dans la prdiction ;
le terme derreur qualifie lapproximation du modle.
Tous les outils statistiques volus permettent de modliser en quelques clics un problme
par une rgression linaire multivarie.
Par exemple, avec le logiciel de statistiques R , lutilisation de la fonction lm donne13
pour notre problme dimplmentation de magasin les coefficients de pondration
suivants :
Coefficients: |
|\/
Estimate
$!
(Intercept) 177.4711
4$
Age 15.3152
By
Concurrence 35.5738
Dist.parking 5.1521
Culturellement, le marketing a toujours cherch comprendre par le biais dtudes ou de panels pourquoi un
consommateur adopte tel ou tel comportement et comment le reproduire. Le marketing prdictif induit une transformation
en profondeur de notre rapport linformation. En effet les modles prdictifs tels que la rgression ici prsente peuvent
indiquer le poids de chaque variable dans la prdiction du rsultat, mais ne renseignent en aucun cas sur des relations de
cause effet ! Par exemple, une rgression peut indiquer un lien vident entre le CA dun magasin et la pluviomtrie, mais
ne signifie en rien que la pluie est lorigine des ventes ou inversement ! Dautres exemples comiques, mais instructifs de
cette diffrence entre corrlation et causalit sont disponibles ladresse
suivante :http://www.cndp.fr/entrepot/themadoc/probabilites/reperes/causalite-et-correlation.html
Bon savoir
Si vous ntes pas un adepte des rgressions, commencez par slectionner des variables mtiers dans le
but de mesurer leur influence. Cette dmarche vitera des conclusions errones fondes sur des
interprtations biaises des coefficients de pondration.
1 Non 22 1 7
2 Oui 28 1 1
3 Oui 26 0 0
4 Oui 35 1 1
5 Non 35 0 8
6 Non 29 0 3
7 Non 54 0 4
|
|\/
8 Non 20 3 2
$!
4$
9 Oui 27 0 11
10 Oui 34 1 0
By
Figure 67 Trois types de variables collectes sur les clients pour prdire une ventuelle rsiliation (base
dapprentissage)
La variable prdire est renouvellement du contrat , les autres variables sont les
variables explicatives. Contrairement aux exemples prcdents, la variable prdire est
cette fois-ci non plus une valeur continue, mais une valeur binaire, do le recours un
algorithme de classification.
Comme prcdemment, un premier niveau de prdiction14 peut tre obtenu rapidement
laide cette fois-ci dun algorithme appel rgression logistique multivarie . Le principe
est assez similaire la rgression linaire, savoir modliser le problme par une
quation qui est cette fois-ci du type :
Log (p/[1-p]) = aX1+bX2 +cX3 +cste + erreur
p est la probabilit que renouvellement = oui (soit ici daprs le tableau de donnes p =
50 %) ;
X1, X2, X3 sont les variables explicatives, ici lge du client, le nombre de personnes
assures dans sa famille et le nombre de visites des pages conditions gnrales ;
a, b, c sont appels les coefficients de pondration et correspondent linfluence
des variables dans la prdiction ;
le terme derreur qualifie lapproximation du modle.
Tout comme pour la rgression linaire, tous les outils statistiques volus permettent
deffectuer simplement des rgressions logistiques. Par exemple, avec le logiciel de
statistiques R , lutilisation de la fonction glm donne pour ce problme de churn les
coefficients de pondration suivants :
Coefficients:
Estimate
(Intercept) 1.73441
Age 0.03952
memberF 1.85636
Visites 2.7404
c = 2,74 ;
4$
cste = 1, 73.
By
Le scoring reprsente le cur de lactivit data mining dans le monde de lentreprise. Il sagit de classer un individu dans
lun des groupes dfinis a priori (exemple : bon payeurs/mauvais payeurs) et ce au vu de certaines caractristiques de cet
individu. N au milieu du XXe sicle dans les banques pour valuer le risque de dfaillance dun crditeur, le scoring sest
rpandu depuis dans lensemble des secteurs dactivit en rponse trois types de problmatiques :
le score dapptence estime la probabilit pour un client dtre intress par un produit ou un service donn. Il est par
exemple trs utilis en BtoB afin de prioriser des listes dappels des commerciaux et de concentrer le phoning sur les
clients les plus susceptibles de rpondre favorablement (lead scoring) ;
le score de risque estime la probabilit dun client de rencontrer un incident de paiement ou de remboursement. Il est
galement utilis en e-commerce pour identifier les tentatives de fraude dont le montant total reprsenterait tout de mme
en 2015 deux milliards deuros, soit 4 % du march !
le score dattrition (ou churn) est la probabilit pour un client de quitter lentreprise. Il est particulirement utilis dans les
marchs en vase clos tels que la tlphonie, les assurances ou lnergie.
Supposons que vous soyez responsable des ventes en ligne de chaudires. Eu gard
4$
limportance de lachat, la majorit des clients utilisent le tchat en ligne au moins une fois
By
dans le tunnel de conversion. Vous souhaitez pouvoir tre alert en temps rel des
discussions peu prometteuses afin de pouvoir intervenir et sauver la vente. cette fin,
vous aimeriez tre capable de classer les conversations en deux catgories : les
conversations problme et les conversations sans problme. Autrement dit, vous
souhaiteriez pouvoir calculer la probabilit dtre en situation difficile connaissant le
contenu de lchange men jusque-l avec loprateur.
Comme de coutume, vous disposez dune base dhistorique appele base
dapprentissage , remplie par loprateur de tchat aprs chaque change avec un
internaute.
Id internaute A achet ? Linternaute se Linternaute Linternaute se renseigne sur
renseigne sur la mentionne un linstallation de la chaudire
garantie concurrent
partir de cette base, il est lgitime de se poser la question suivante : faut-il dclencher
une alerte lorsque la conversation contient la fois des expressions cls lies la
garantie et la rfrence des concurrents ? Autrement dit la probabilit dun achat
est-elle haute ou faible ds lors que la conversation tourne autour de la garantie et des
concurrents ?
Le calcul dune probabilit sachant que est le domaine de prdilection de lalgorithme
|
de Naive Bayes selon lequel :
|\/
$!
Bon savoir
Par souci de simplicit, nous avons prsent ici uniquement des classifications binaires OUI/NON. Mais les
algorithmes de classification sont galement utiliss pour dautres types de prdiction multiclasses , par
exemple prvoir quels produits parmi une slection ont le plus de probabilit dtre achets : ce sont des
algorithmes souvent utiliss dans les nombreux moteurs de recommandation prsents sur le march.
RETENIR DE CE CHAPITRE |
|\/
Le marketing prdictif sappuie sur deux types dalgorithmes : les algorithmes de rgression et les
$!
algorithmes de classification. Les premiers servent prdire une valeur, par exemple le chiffre daffaires
4$
dun nouveau magasin ou la valeur dun client sur son cycle de vie. Les seconds servent prdire un tat
(par exemple acheteur/non acheteur, allant dmnager/nallant pas dmnager, etc.) et sont la base des
By
modles de scoring. Les rgressions linaires, rgressions logistiques et arbres de dcision sont les
algorithmes prdictifs les plus frquemment utiliss en data marketing.
vous de jouer
Prdisez le CA des prochains mois laide dune rgression linaire (astuce : crer une
variable binaire saisonnalit haute/faible).
Crez une base dapprentissage des clics sur la newsletter et pondrez les diffrents critres
dcrivant un abonn laide dune rgression linaire multivarie.
Crez une base dapprentissage sur les mots cls taps dans le moteur de recherche interne
de votre site e-commerce et identifiez grce Naive Bayes des mots cls annonciateurs de
conversions.
SOURCES
Ce chapitre sur le marketing prdictif clt la deuxime partie de cet ouvrage consacr lanalyse des donnes. Pour aller
plus loin, dcouvrir de nouvelles applications et approfondir la thorie du data mining et du machine learning sans pour
autant tre confront trop de technicit, la lecture des deux ouvrages ci-dessous est vivement conseille :
Data science : fondamentaux et tudes de cas, E. Biernat et M. Lutz, Eyrolles, 2015, do est notamment adapt
lexemple de Naive Bayes ;
Big Data et Machine Learning Manuel du data scientist, Pirmin Lemberger, Dunod, 2015.
1. Branche de lintelligence artificielle. Les algorithmes de machine learning donnent lordinateur la capacit dapprendre
par lexprience, sans pour autant avoir t explicitement programm pour cela, par exemple quand un ordinateur apprend
jouer au Go ou reconnatre le contenu dune image.
2. La quasi-totalit des banques utilise lanalyse prdictive depuis les annes 1970 pour prvoir si un emprunteur sera un
bon ou un mauvais payeur et agir en consquence.
3. Pour rappel, le logarithme nprien appris au lyce correspond au logarithme en base e, o e est le nombre dEuler
valant environ 2,718.
4. Algorithme reprsentant un ensemble de dcisions sous la forme graphique dun arbre.
5. Lerreur moyenne absolue (MAE), le coefficient de dtermination R2, le F1 score sont dautres mthodes trs
utilises et non dtailles ici. Leur principe repose sur une estimation de lerreur entre ralit et prdictions et une simple
ligne de commande dans un logiciel de statistiques avances permet en gnral dobtenir ce score. Le choix de la
mthode dpend du type dalgorithme valuer et plusieurs mthodes sont souvent utilises simultanment.
6. Concours de data science rendus clbres il y a quelques annes par la dotation de 1 M$ propos par Netflix dans le
cadre de loptimisation de son moteur de recommandation.
7. La distinction nest pas exclusive : il existe plthore dalgorithmes (Random Forrest, Gradient Boosting, SVM, etc.) qui
peuvent satisfaire aux deux types de problmes. Dun niveau avanc, ils sont rservs aux spcialistes du domaine et ne
sont pas abords dans cet ouvrage.
8. Cf la rgression linaire simple introduite dans le chapitre 5 propos des corrlations entre variables. Pour rappel R2
est le carr du coefficient de corrlation et exprime la qualit de lapproximation (ici excellente).
9. Tire de lexcellent ouvrage de Chip Heath and Dan Heath, Made to stick : why some ideas survive and other die,
Random House, 2007.
|
|\/
10. Cette problmatique porte souvent le nom de gomarketing
$!
11. La rgression linaire est un cas particulier de rgression multivarie. Il en existe plein dautres, en particulier la
rgression polynomiale de la forme Y= cste + aX + bX2 + cX3
4$
12. Pour prdire des valeurs (frais de livraisons dun nouveau produit, part daudience dune nouvelle mission) mais aussi
By
mesurer linfluence de variables (pondration de linfluence de diffrents composants dune publicit, explication de la
chute dappels tlphoniques).
13. Aprs normalisation des variables, technique dhomognisation qui ne sera pas dveloppe ici.
14. partir de ce niveau 0 est ensuite dploy tout un arsenal doptimisations du modle : feature engineering, test de
nouveaux algorithmes, meilleur paramtrage, etc.
15. Thorme trs simple driv de la dfinition des probabilits conditionnelles enseignes au lyce.
16. Deux variables sont dites indpendantes si elles nont aucune influence lune sur lautre. Par exemple, la valeur
dun premier lancer de ds na aucune influence sur la valeur du second lancer de ds. En probabilit, A et B sont
indpendantes quivaut crire P (A|B)=P (A). De plus P (A, B|C) = P (A|C)P (B|C).
Partie C
|
|\/
$!
4$
By
AUTODIAGNOSTIC
La data est lun des sujets de proccupation phares des entreprises. Si la donne est perue comme digne dintrt ,
son utilisation dans les stratgies marketing ne semble pas encore une vidence pour la plupart des entreprises. Et vous,
au-del des phrases valises, connaissez-vous les diffrents champs dapplication de la data dans le marketing de tous
les jours ? Faites ce petit test (avant et aprs la lecture de la partie) pour mieux cerner votre maturit sur les possibilits
dexploitation offertes par la data !
Question 1 : quel pourcentage de publicit display est diffus sans tre jamais vu ?
Question 3 : quels sont les trois avantages qui ont permis lessor du Real Time Bidding ?
|
|\/
$!
Question 4 : que signifient les abrviations DSP et SSP et quels sont leurs rles respectifs ?
4$
By
Question 5 : comment expliqueriez-vous la diffrence entre marketing one to one et marketing one to
few ?
Question 6 : selon vous, quelle est la premire vertu de lutilisation de la data dans le marketing ?
Rponses p. 260
|
|\/
$!
4$
By
CHAPITRE
8
Data et publicit
Constamment exposs des bannires publicitaires les poussant acheter les derniers
produits quils ont vus sur le net, les consommateurs ont compris que leurs donnes de
navigation taient utilises des fins publicitaires et imaginent de plus en plus les agences
marketing comme des machineries volues permettant de transformer ces data en
messages publicitaires personnaliss.
Il nest dailleurs plus ncessaire de parler un professionnel du marketing pour
rencontrer un interlocuteur comprenant les mots retargeting et publicit cible au
cookie . La data sest en effet impose comme un sujet central en matire de publicit,
avec comme figure de proue des articles de presse ou des confrences qui relayent sans
|
|\/
discontinuer le mme credo : Le bon message la bonne personne au bon moment.
$!
4$
Il faisait donc sens de commencer cette dernire partie lie lexploitation concrte des
donnes par un chapitre sur le rle et les enjeux de la data dans la publicit digitale
By
QUAPPELLE-T-ON PROGRAMMATIQUE ?
Source : Happy Birthday, Digital Advertising, Frank dAngelo, 26 octobre 2009 sur adage.com.
|
Figure 70 La premire bannire publicitaire rencontra un franc succs !
|\/
$!
Reproduisant les us et coutumes de lachat media offline (tl, radio), les diffusions des
4$
site ditorial et lannonceur (ventuellement reprsent par son agence), sur la base dun
CPM (cot pour 1000 impressions). Technologiquement la mcanique est plutt simple et
repose sur ladserver :
Ladserver publisher assure la gestion des espaces publicitaires du site ditorial, et
notamment quel espace est vendu quel annonceur .
Ladserver annonceur affiche la publicit de lannonceur et traque la performance des
campagnes (impressions, clics, conversions).
Figure 71 Fonctionnement de la publicit la fin des annes 1990
|
|\/
Figure 72 Criteo est le premier sintresser lindividu derrire lcran
$!
4$
Les achats aux enchres constituent ce quon appelle le RTB, abrviation de Real Time
Bidding (enchre en temps rel). Le RTB reprsentait en 2015 dans le monde 81 % de
lachat mdia programmatique3 et se subdivise en deux types denchres :
les enchres ouvertes (open auction) adresses lensemble des acheteurs du march
(jusqu plusieurs centaines en concurrence) ;
les enchres sur invitation (private auction) adresses uniquement une slection
dacheteurs au sein de places de march prives (private marketplaces), en
contrepartie dun engagement payer un prix premium.
La diffrence entre ces deux modes denchres rside dans linventaire mis en jeu : tandis
que les diteurs ne voient pas dinconvnient mettre aux enchres ouvertes leurs
invendus (inventaire qualifi parfois dindirect ), ils sont plus frileux en ce qui concerne
leurs inventaires premium (qualifi parfois dinventaire direct ). En 2012 se sont ainsi
dvelopps les private marketplaces permettant aux diteurs de tester ce que le RTB
pouvait apporter leur inventaire premium, tout en matrisant les deux sujets importants
leurs yeux : la matrise des prix via linstauration dun floor price (i.e. prix plancher en
de duquel les acheteurs ne peuvent enchrir) et le contrle de la qualit des bannires
diffuses via la slection des acheteurs.
Du ct acheteur, la mise en comptition des espaces peut faire planer le risque de
perdre finalement en visibilit sur les emplacements premium par rapport des accords
exclusifs qui taient auparavant signs avec les diteurs. Surtout, lachat programmatique
pose la question de la brand safety : comment sassurer que la bannire nest pas
diffuse sur un site qui porte atteinte la marque quand linventaire sur lequel on enchrit
est uniquement dtermin par un numro anonyme ? Ces interrogations ont donn
naissance deux nouveaux types dachats taux fixe : le programmatique garanti
(inventaire rserv pour un annonceur) et les preferred deals (inventaire non rserv,
|
|\/
mais une priorit de droit de regard ou first look ). Bien que minoritaires au sein du
$!
Nol,moment cl pour les annonceurs qui doivent assurer tout prix leur diffusion sur
By
simultanment les enjeux des deux parties grce la prise en compte de lindividu derrire
lordinateur et non plus seulement de lemplacement :
By
Cette automatisation est cratrice de valeur. Plutt que de passer du temps faire du
|
|\/
mdia planning et signer des contrats, les annonceurs peuvent automatiser ces tches et
$!
ainsi passer plus de temps rflchir leur stratgie et la crativit de leurs publicits.
4$
De leur ct, les publishers sont moins sollicits pour administrer leurs ventes despaces.
Ils ont donc plus de temps pour crer du contenu forte valeur ajoute et attirer les
By
Exemple 2 : un assureur particulirement frapp par le dsabonnement de ses clients souhaite rduire ce
phnomne appel churn . Une tude de datamining a t mene pour identifier dans la base clients les clients les
plus risque, chaque client recevant un score entre 0 et 100 selon son niveau de risque. Ces clients risque ont t
associs des cookies 10 et constituent laudience cibler. Schmatiquement la plateforme denchres va dcider :
de ne pas enchrir pour un cookie qui nest pas dans laudience cible. Aucune publicit de lannonceur nest
affiche ;
de ne pas enchrir pour un cookie dont le score est compris entre 0 et 20. Aucune publicit de lannonceur nest
affiche ;
denchrir 1,5 CPM pour un cookie ayant un score compris entre 30 et 50. Lenchre est perdue ;
denchrir 30 CPM pour un cookie avec un score compris entre 80 et 100. Lenchre est gagne : la publicit
haut risque saffiche.
Attention, ces exemples thoriques nont pas pour objectif de simuler une dcision
denchres telle quelle a rellement lieu, mais simplement ce stade de comprendre la
philosophie. En particulier, remarquons que dans la plupart des agences mdia et
plateformes denchres on raisonne en segment de cookies inclus/exclus et non pas
directement par lindividu. Ainsi, on pourra traiter de la mme manire tous les individus
ayant visit il y a moins dune heure un produit phare (= inclusion) sans pour autant lavoir
achet (= exclusion).
Surtout ces exemples illustrent une des ides fondamentales qui se cache derrire le
|
|\/
RTB : acheter une audience et non plus seulement acheter un inventaire. Le
$!
|
|\/
$!
4$
By
Figure 76 Le panorama des acteurs de la publicit digitale donne mal la tte plus dun annonceur !
passer les ordres dachat sur les ad-exchanges, en rponse une bid request. Il sagit
dune tche trs complexe techniquement qui ncessite une infrastructure colossale
dans la mesure o une grosse DSP traite plus dun million de bid requests par seconde
11 ! Autour dun principe technologique commun, chaque DSP a dvelopp un
positionnement propre, privilgiant par exemple la culture technique en tant trs ouvert
et fortement customisable via API (exemple : Appnexus, Mediamath) ou au
contraire la culture agence en dveloppant la facilit dusage (exemple : The Trade
Desk). Les formats adressables sont galement varis selon les DSP : certaines se
spcialisent dans un format (Netadge DSP purement mobile, Tubemogul DSP purement
vido) tandis que dautres affichent leur exhaustivit en termes de formats publicitaires
(One by AOL, Mediamath) ;
les data providers (exemple : Exelate, Acxiom) et les DMP (exemple : Bluekai, Adobe
Audience Manager), fournissent aux DSP des audiences cibler (exemple : les
seniors pour un data provider, les visiteurs du site ayant parcouru les pages
dmnagement pour une DMP annonceur) ou au contraire des audiences exclure
(exemple : les mineurs pour un data provider, les clients pour une DMP
annonceur). Il est noter quil sagit ici de briques technologiques facultatives,
contrairement aux prcdentes.
Enfin des agences spcialises accompagnent les annonceurs et les diteurs dans cet
cosystme complexe :
les rgies publicitaires aident les diteurs montiser leurs inventaires publicitaires.
Ils essayent de faire la part des choses entre ventes de gr gr et ventes en RTB,
afin de profiter du potentiel de ce dernier sans pour autant cannibaliser les inventaires
premiums ;
les trading desks achtent pour le compte des annonceurs et rendent compte des
performances mesures. Ces trading desks peuvent tre indpendants (exemple :
Tradelab, Gamned) ou intgrs au sein dune agence mdia (exemple : Amnet est le
trading desk de lagence Dentsu Aegis, GroupM est le trading desk de WPP, Affiperf
celui dHavas, etc.). La plupart utilisent les mmes plateformes dachat, quelques-uns
ont toutefois dvelopp des technologies propres, par exemple pour obtenir une
meilleure granularit dans les enchres. On distingue galement dans ce panorama les
trading desks purement mobiles (Adotmob, Yanco, Adnow). Au total, plusieurs
dizaines de trading desks12 se partagent les centaines de millions deuros de budgets
allous annuellement au programmatique par les annonceurs franais.
Notons que ces spcialistes de lachat mdia sont facultatifs et que certains annonceurs
comme eBay, Netflix, Procter&Gamble aux tats-Unis ou Air France dans lHexagone ont
fait le choix dinternaliser les comptences et oprent dsormais directement les
|
campagnes mdias en interne.
|\/
$!
Le schma ci-dessous rsume (de faon un peu simplifie13) cette chane de valeur et les
4$
la lumire des pages prcdentes, il est facile de comprendre que plus lacheteur a
dinformations sur linternaute, mieux il peut enchrir en connaissance de cause et
proposer un montant lev. Par consquent plus lditeur peut fournir au march de la
donne sur ses visiteurs, mieux il peut valoriser son inventaire.
Dans son tude Global Trends 2015 , lad exchange mobile Smaatoo indique ainsi
quune bid request (pour rappel : mise aux enchres) comprenant la valeur ge et
genre se vend en moyenne 385 % plus cher que le prix moyen pay pour une bid
request et que celles comprenant la donne de golocalisation se vendent en moyenne
238 % plus cher14.
|
|\/
$!
4$
By
|
|\/
$!
4$
By
Figure 78 Extrait dune bid request mobile telle que la reoivent les DSP
conversion sur le produit abandonn. Il nest pas rare quun trading desk gre plus dune
4$
Ils sappellent Exelate, Weborama ou encore Acxiom et font partie des plus gros
fournisseurs de donnes du march ( data providers ). Concrtement, ces socits
spcialises collectent les traces laisses par les consommateurs au cours de leur
parcours sur un rseau de sites et dapplications partenaires16. Ces datas constituent les
third party data (dj introduites au chapitre 1)
Par exemple si un utilisateur recherche un htel en Italie sur booking.com puis des billets davion pour Florence sur
Opodo, les cookies dposs par ces data providers seront rapidement associs au segment intention dachat
voyage Italie . Ce segment, synchronis rgulirement sur la plupart des DSP du march, pourra ensuite tre
utilis profit par un trading desk oprant pour un client voyagiste.
Concrtement les segments daudience fournis par les data providers et mis disposition
des acheteurs mdia sarticulent gnralement en trois familles :
Segments sociodmographiques :
Niveau de revenu lev
Nouveaux parents
Adolescents ,
etc.
Centres dintrt :
danse
sports-tennis
peinture et dessin
etc.
Intentions dachat :
crdit pour appartement |
intentionniste voiture
|\/
$!
intentionniste voyage
4$
etc.
By
Trs facilement accessibles (il suffit de cocher sur le DSP ou la DMP les catgories
pertinentes pour la stratgie mdia mise en uvre, moyennant quelques euros CPM),
trs sduisantes sur le papier, la third party data a connu un vritable engouement au
dmarrage du RTB, auprs des investisseurs et des annonceurs toujours avides de
nouvelles pistes dacquisition de clients.
Toutefois, en dpit dune thorie sduisante, la pratique a montr quelques limites : en
ralit peu de campagnes arrivent rentabiliser lachat de cette audience par un
gain de performance suffisamment lev. En dehors du cot lev de lachat de ces
donnes third17, la qualit alatoire des donnes est galement frquemment voque
par les acheteurs pour expliquer la frquente absence de rentabilit.
La question de la vracit et de la valeur de la donne a t aborde au dbut de ce
livre18 et prend en effet tout son sens dans le contexte publicitaire. Dans son excellent
article Comment utiliser la Data pour amliorer lefficacit publicitaire ? Guillaume
Pobeda de la 3W Rgie19 dtaille de faon trs pdagogique les principaux cueils
auxquels prter attention :
le mode de collecte : dterministe ? probabiliste ? dclaratif ? Dans le cas de
donnes relatives au sexe homme/femme, les segments peuvent par exemple tre
constitus aussi bien de donnes dclaratives (formulaires dinscription avec case
cocher) que dextrapolations relatives la navigation (vous avez visit le site de la
Redoute rayon lingerie vous tes donc probablement une femme). Avec ces exemples
en tte, on imagine trs bien que la fiabilit de la donne est directement dpendante
de la faon dont elle a t collecte et retraite ;
la rcence : lge de la data est un critre essentiel, car la donne est une denre
prissable. Par exemple, dans le cas dun produit dont le cycle de vente20 est infrieur
30 jours, les donnes datant de plusieurs mois apportent extrmement peu
dinformations sur la relle intention dachat de linternaute vis ;
la fracheur : une des caractristiques de la third party data est quelle est accessible
par tout le monde. Aussi, un segment qui a t sollicit de nombreuses reprises au
cours des derniers jours par diffrents acheteurs noffrira pas un aussi bon niveau de
rendement.
Le vritable problme sous-jacent ces exemples est le reach minimum (i.e. volume) que
doivent assurer les fournisseurs de donnes : un segment qui ne permet de toucher que
quelques milliers dinternautes a en effet peu dintrt pratique pour un annonceur, car
quelle que soit la qualit de ce segment, limpact final sur le chiffre daffaires sera trop
faible pour justifier leffort dune campagne spcifique. Il est donc tentant pour les
fournisseurs de donnes de gonfler le volume apparent des segments en neffaant
|
|\/
pas les informations primes ou en baissant le niveau dexigence sur leur fiabilit. titre
$!
dexemple, en France, le nombre de dmnagements slve trois millions par an, soit
4$
environ 250 000 par mois. Quid dun segment qui regroupe plusieurs millions de
By
Pour rappel21, la first-party data est la donne qui appartient lannonceur, collecte
directement par ses soins sur ses actifs : la navigation sur le site web, le remplissage de
formulaires, les donnes issues des campagnes e-mailing ou display (bannires vues ou
cliques) ou encore les donnes CRM (data onboarding). Contrairement aux third party
data tudies prcdemment, il sagit dune donne gratuite et trs qualitative.
Comment ces datas propritaires peuvent-elles tre valorises en pratique dans la
publicit ? Lunivers des possibles est vaste, mais concrtement quatre cas dusages se
distinguent quand on cherche exploiter ses propres donnes en publicit :
lexclusion daudience est un cas dusage majeur qui pourrait se traduire par :
Arrtez de payer des impressions pour rien ! Par exemple dans le cas de figure
dune campagne dacquisition pure dont la performance serait mesure au nombre de
nouveaux clients gnrs, afficher la publicit auprs dinternautes dj client de la
|
|\/
marque est un contresens ! Les campagnes programmatiques ont trs vite prouv
$!
quelles obtenaient les mmes performances quune campagne classique, mais avec un
4$
linclusion daudience consiste cibler une audience prcise, par exemple des
adhrents devenus inactifs ou dormants227, des internautes ayant visit plus de trois
reprises la boutique en ligne en une semaine ou encore des internautes identifis
comme tant des futurs dserteurs 23. Le ROI incrmental des stratgies dinclusion
est plus complexe mesurer que pour les exclusions. Une bonne approche consiste
isoler les 20 % daudiences cibles qui gnrent 80 % des conversions ;
le reciblage plus connu sous le nom de retargeting consiste crer une campagne
programmatique ciblant les visiteurs du site nayant pas encore accompli un objectif
prdfini, par exemple le remplissage dun formulaire ;
le ciblage ou pr-targeting rpond un enjeu crucial des annonceurs : comment
cibler de nouveaux prospects inconnus de la marque ? Les donnes first party peuvent
apporter une rponse par le biais des modles look alike24 ciblant des jumeaux
statistiques de ses meilleurs clients.
En conclusion la donne first est stratgique pour lannonceur : gnralement de
bonne qualit, gratuite, relativement facilement accessible. Cependant tous les
annonceurs ne sont pas forcment gaux devant la first-party data : certains
croulent sous la donne (oprateurs de tlphonie) alors que dautres (Produits de
Grande Consommation) en ont trs peu, car ils nont pas de lien direct avec le
consommateur prcise Pierre Fournier, partner du cabinet Artefact dans son article A
quoi correspondent first party, second party et third party data ? .
La data second party constitue une rponse cette problmatique.
Les audiences obtenues partir des donnes second party
Pour rappel, la second-party data dsigne la data collecte par un partenaire business
(annonceur ou publisher) qui a accept de la partager (gratuitement ou non) avec
lannonceur dans le cadre dun partenariat. Par exemple les partenariats avec les diteurs
dune thmatique (Caradisiac pour les voitures, Marmiton pour la cuisine) sont des
partenariats frquents et un formidable acclrateur pour les annonceurs ayant peu de
donnes first party (Mercedes, Danone).
Bon savoir
Bien que trs pertinente, la donne second party ne constitue pas pour autant la rponse absolue aux
problmatiques dacquisition. Dune part, elle reste en effet une donne a priori ; dautre part, en
labsence de DMP, elle est plus difficilement rcuprable et actionnable que les donnes first party et bien
entendu third party (sans compter la partie contractuelle).
Nouer un partenariat avec un site e-commerce est galement une option considrer. Les
visiteurs de ces sites constituent en effet une audience engage (visiter un site e-
|
commerce traduit une dmarche de consommation) et perptuellement renouvele (rares
|\/
$!
sont les sites e-commerces avec un taux de nouveaux visiteurs quotidien infrieur
4$
50 %).
By
Enfin les partenariats entre acteurs partageant des problmatiques communes sont
galement source de valeur ajoute, par exemple des partenariats entre acteurs affects
par les dmnagements : fournisseurs nergtiques, oprateurs tlphoniques,
assurances, etc.
Ces diffrents partenariats permettent au final de construire des segments daudience
pertinents.
Les audiences issues des campagnes mdia
Pour les annonceurs ne souhaitant pas acheter de la donne third party pour les raisons
voques et ne possdant pas de DMP permettant une activation facile des donnes first
et second party, il est toujours possible de raliser des campagnes partir des
gigantesques volumes de donnes que possdent le trading desk mandat et la DSP
utilise, via le tracking des campagnes et des vnements sur site.
Le trading desk peut ainsi crer et cibler des segments aliments en temps rel
(exemple : visiteur dune page produit < 2 heures) ou en diffr (la plupart des DSP du
march fournissent ainsi aux utilisateurs de leurs plateformes des logs levels data ,
donnes trs granulaires et trs riches gnres chaque impression et chaque
vnement sur site25), tout en bnficiant de la capacit des DSP ddupliquer les
audiences en cross device ( savoir reconnatre le mme individu derrire plusieurs
identifiants26).
De plus certaines DSP proposent galement des audiences exclusives. Ainsi la DSP
Doubleclick bid manager (DBM) met disposition gratuitement les critres de ciblage
Google tandis que la DSP mobile Adotmob propose des audiences bases sur les
habitudes de dplacement (archivage des bid requests comprenant les
longitudes/latitudes du mobinaute)
Bon savoir
Except les donnes CRM et les donnes second party, les DSP possdent donc de base une grande partie
des donnes contenues dans une DMP (navigation sur site et donnes mdia) et cest pourquoi certaines
DSP proposent galement un service DMP performant !
Y a-t-il des heures de la journe ou des jours de la semaine plus propices que
dautres la diffusion de la campagne ? (ciblage temporel ou en anglais hour/day
parting). Il est par exemple facile de constater quune campagne pour un acteur de la
restauration a de meilleures performances entre 19 et 21 heures ;
Y a-t-il des zones gographiques (pays, rgion, ville, code postal,) dans lesquelles
la campagne performe davantage ?
Combien de fois faut-il rpter un message pour atteindre la performance optimale
des campagnes et viter la lassitude de linternaute ? Ce paramtrage fondamental du
nombre dexpositions maximal est connu sous le terme de capping (littralement
plafonnement )
Y a-t-il une diffrence de performance selon les navigateurs ou systmes
dexploitation utiliss par les internautes ?
Quel est limpact de la rcence/frquence de la publicit sur les performances ? Par
exemple est-il prfrable dattendre cinq minutes, quinze minutes ou une heure avant de
tenter une nouvelle exposition ?
Lajustement de ces paramtres constitue la stratgie dachat (buying strategy). Il nest
pas rare de paramtrer dans la DSP une centaine de stratgies diffrentes afin de couvrir
une large palette de situations et dadapter le montant de lenchre chacune dentre
elles.
Cest ainsi quon pourra enchrir plus haut Paris quen province ou le week-end quen
semaine, aprs avoir observ linfluence de ces diffrentes variables sur la performance.
Il est toutefois difficile en pratique de croiser un grand nombre de dimensions, sous peine
de rapidement se retrouver avec plusieurs dizaines de milliers de stratgies grer et
des problmes la fois oprationnels (staffing, perte de visibilit et de contrle) et
technologiques (des stratgies trop granulaires ne sont pas autorises sur toutes les
plateformes et sont sujettes du bruit statistique).
Toutefois, au vu de lenjeu majeur en matire de performance, de nombreuses innovations
voient le jour dans ce domaine (cf. encadr ci-dessous) et une enchre diffrente pour un
internaute de Paris un mercredi 18 heures utilisant Chrome et ayant dj t expos
trois fois la publicit, et pour un internaute de Marseille un dimanche 11 heures utilisant
Explorer et nayant vu la pub quune seule fois sera peut-tre bientt un standard du
march !
Pour beaucoup de spcialistes, lautomatisation des achats a atteint le stade de la maturit et une nouvelle rvolution se
prpare : lachat programmable pilot par des algorithmes modifiables loisir. La philosophie gnrale est ici de
|
redonner les moyens aux annonceurs et agences les plus innovants et mrs de se diffrencier de la concurrence en
|\/
sappropriant les fonctionnalits avances des plateformes DSP, au-del de linterface commune tous, via des API
$!
ouvertes.
4$
Un des leaders du mouvement, Appnexus, a ainsi ouvert en juin 2015 lAppnexus Programmable Bidder (APB) permettant
aux data scientists des trading desks et des annonceurs daccder une granularit sans prcdent en intgrant au cur
By
des enchres leur propre modle de dcision (bidder) sous forme dun arbre dcisionnel permettant dagir avec prcision
sur chacune des centaines de millions de configurations denchres possibles. Au vu du potentiel de cette innovation de
rupture, gageons quen 2017 la bataille fera rage pour savoir quel acteur de lcosystme parviendra construire larbre
de dcision augmentant le plus les performances !
|
|\/
$!
4$
Figure 80 Piloter la stratgie dachat par le machine learning : la rvolution permise par les DSP
programmables
By
|
|\/
$!
4$
By
Un cran plus loin que le DCO, linnovation se tourne aujourdhui vers la personnalisation de lordre daffichage des
bannires. Au lieu de personnaliser dynamiquement le contenu dune bannire, plusieurs bannires sont cres insistant
chacune sur un aspect du produit (prix, service, marque, etc.) et visant des typologies de clients diffrentes. Le
squenage de ces bannires est ensuite adapt chaque internaute selon sa raction aux publicits.
Source : tat des lieux du programmatique en France : rsultats baromtre 2015 , Quantcast/EBG
Lintrt majeur du programmatique est dacheter une audience et non plus uniquement un
contexte. Il convient donc dans le reporting de segmenter les populations auprs
desquelles les publicits ont t diffuses et surtout dassigner des objectifs diffrents
selon chaque population ! A minima le reporting de performance devrait tre segment
selon quatre populations.
Les parfaits inconnus
Ce sont les individus qui nont jamais visit le site web et qui constituent la cible des
campagnes dites de prospection ou dacquisition. Dans ce type de campagne, le suivi
seffectuera par des indicateurs traduisant le nombre de nouvelles visites (clic direct sur
une bannire ou visite spontane quelques jours aprs31), mais aussi lengagement de ces
visites (taux de rebond, nombre de pages vues, visites dune page importante, etc.) ou
auprs de la publicit (taux de compltion vido, temps dexposition, etc.). De plus le
calcul de la performance intgrera un modle dattribution valorisant le first click au
dtriment du last click. Il faudra toutefois sattendre un cot par acquisition (CPA)
lev32 ;
Les prospects
Ce sont les individus qui ont visit le site dernirement et qui sont spcifiquement recibls
par un message publicitaire adquat (retargeting ou remarketing). Un intrt plus ou
moins fort ayant dj t manifest par linternaute, les bannires de retargeting ont
gnralement pour objectif de clore la vente. Une mesure au post click avec attribution au
last click peut ici tre envisage, mme si traditionnellement 24 heures de post view sont
admis. Lobjectif de CPA devra naturellement tre bien plus faible que celui de la
prospection.
Les clients
Le programmatique a galement un intrt pour les clients, quils soient acheteurs rcents
(favoriser le rachat immdiat dun produit complmentaire) ou clients endormis qui ne
rpondent plus sur les autres canaux (e-mailing, courrier). Le clic est souvent ici une
mesure trompeuse et il convient dadapter les indicateurs lobjectif prcis attendu de ces
campagnes.
Les robots
Payer laffichage dune publicit un robot nest pas nouveau (il y a toujours eu des robots
qui parcourent les sites web), mais le phnomne sest accentu avec le programmatique
et le dveloppement de la fraude33. Les publicits achetes via le programmatique
auraient ainsi 55 % de chances en plus dtre dlivres de faux utilisateurs34. Une partie
non ngligeable des clics sur une bannire est frauduleuse ou non dsire et il est donc
|
|\/
ncessaire de mesurer lengagement des visites pour carter ces clics parasites ,
$!
RETENIR DE CE CHAPITRE
4$
Lachat mdia programmatique change le paradigme de la publicit digitale : dsormais lannonceur achte
By
une audience et non plus uniquement un emplacement. Selon la place du curseur entre ces deux
philosophies dachat, on peut parler de campagnes la performance (lapanage du RTB) ou de campagnes
de branding (programmatique one to one).
Dans tous les cas, la donne optimise lachat mdia en agissant sur tous les fronts de la publicit digitale :
le ciblage, le niveau denchre et la personnalisation du message. Chaque levier fait toutefois appel des
procds bien distincts, allant de lachat de donnes pr-packages la mise en place dalgorithmes
volus de machine learning.
vous de jouer
Vous ne savez toujours pas par o commencer ? Rendez-vous sur lexcellente infographie
anime http://www.marketingmag.ca/microsite/programmatic-landscape/ pour vous guider
tape par tape dans le labyrinthe du programmatique.
Dfinissez deux cas dusages simples (par exemple prospection pure et retargeting
formulaire abandonn) et mettez en concurrence diffrents trading desks (indpendant,
agence, techno DSP propritaire). Un budget de 10 25k par trading desk est raisonnable
pour une campagne test.
Pour les agences ou annonceurs novices , un accompagnement expert semble tre le
meilleur moyen daborder avec succs le virage du RTB.
SOURCES
Le programmatique est un sujet tendance qui gnre une vaste littrature sur le Net, apportant souvent plus de
confusion que de clart. Quelques sites font toutefois rfrence et apportent des rponses prcises et complmentaires,
par exemple :
Ad-exchange.fr et programmatique-marketing.fr traitent de toute lactualit autour de la publicit programmatique ;
Adexchanger.com propose de nombreux articles de fonds et dbats dides (en anglais) ;
Adopsinsider.com dcortique le fonctionnement technique du programmatique (en anglais, pour lecteurs avertis).
Par ailleurs, linteractive Advertising Bureau (IAB), le Syndicat des rgies internet (SRI) et lUdecam (Union des entreprises
de conseil et achat mdia) sont des organisations professionnelles regroupant les principaux acteurs de la publicit
digitale et dlivrant rgulirement des contenus de qualit, tels que :
Comment mesurer lefficacit de la publicit sur Internet synthtise les diffrents indicateurs de mesure de la
performance (tude ralise par PriceWaterhouseCoopers) ;
LObservatoire annuel de le-pub dcortique le march et son volution.
Dans le mme mouvement, les acteurs du march publient rgulirement des livres blancs pdagogiques :
Le CTR une mesure trompeuse, Comscore, 2014 ;
Real Time Bidding comprendre sa complexit, connatre ses limites, cabinet Converteo, janvier 2015 ;
Le RTB pour les dbutants, Tradelab ;
Programmatique et RTB, vers un mdia planning individualis, agence ESV digital, mars 2015 ;
Le marketing programmatique : 30 cas pratiques, EBG (Electronic Business Group).
Enfin pour ceux qui souhaitent approfondir leur connaissance sur les plateformes denchres (DSP) et leurs spcificits,
|
|\/
je vous recommande :
$!
les benchmarks raliss par le cabinet Forrester dont un rsum dune quinzaine de pages est accessible en libre-
4$
les enregistrements vido des Summit Optimizer organiss par Appnexus. En particulier lenregistrement vido du
Summit qui sest droul Londres en juin 2016 (https://www.youtube.com/watch?v=CIbVvG-K_aQ&feature=youtube)
expose les possibilits offertes par lAppnexus Programmable Bidder et ltat de lart en matire de stratgie denchre.
DSP denchrir sur des inventaires valus comme peu qualitatifs ou frauduleux.
4$
9
Marketing direct : du mass marketing au
marketing one to one
Depuis que le marketing existe, le mdia planning traditionnel consiste promouvoir des
messages suivant une notion temporelle, les diffrents leviers et messages tant rpartis
tout au long de lanne croisant une logique de temps fort (Pques, Nol, les
vacances, etc.) avec une logique fil rouge (la newsletter hebdomadaire, le catalogue
trimestriel, etc.). Ce modle organise les leviers de manire complmentaire, mais ne
garantit pas que lindividu cibl un moment dfini a t rellement touch par le mdia
diffus en amont. Les diffrents leviers sont donc isols les uns des autres, en dpit dune
apparente synchronisation globale , rsume Thibault Finas de lagence digitale ESV dans
le livre blanc Programmatique : vers un media planning individualis.
La collecte massive de donnes et lvolution technologique des outils de gestion de
campagnes ont rendu possible la rsolution de ce problme et proposent un tout autre
paradigme : au lieu de prsenter au mme moment le mme message tout le monde
(prospects en phase de rflexion comme clients rguliers), il est dsormais possible
daccompagner le consommateur dans son cycle de vie, avec un message adapt son
avance dans le tunnel de conversion. Ainsi un nouvel inscrit au service pourra recevoir
une srie de contenus informatifs (vidos, tutoriels, etc.) au sein dun Welcome Pack
conu pour lemmener la conversion tandis quun client dormant recevra une superbe
offre promotionnelle pour le rveiller. la manire de vases communicants, le
consommateur volue dun stade un autre, et reoit chaque niveau des contenus
spcifiques prvus en amont par les quipes marketing : cest le marketing
automation . Grce lautomatisation des messages lis certains dclencheurs, la
marque peut instaurer un dialogue volutif avec le consommateur en adoptant une
communication qui passe progressivement du branding la commercialisation.
|
|\/
MEETIC, PAS FLEUR BLEUE !
$!
4$
Quand on parle de marketing automation, Meetic est une des socits les plus rgulirement cites en exemple, avec des
campagnes types imagines pour plus de 30 parcours clients, ce qui reprsente au total en 2015 plus de 40 000 phrases
By
types 1 ! Ds 2009, le leader de la rencontre avait ainsi mis en place la scnarisation marketing suivante :
dans un premier temps, le site offrait aux internautes une priode dvaluation gratuite dun mois ;
une fois linscription ralise par linternaute, celui-ci recevait un mail de bienvenue ;
ensuite, J+6, lentreprise envoyait un e-mail ces abonns les invitant complter leur profil ;
quelques jours de la fin de validit de loffre gratuite, il rexpdiait un dernier courrier davertissement leur signalant
que leur offre arrivait la date dexpiration. Ce dernier courrier incitait donc les abonns souscrire la version payante
du site.
Avec une telle campagne, Meetic prtendait lpoque dans une confrence organise par le-mailer Nolane
(nouvellement Adobe Campaign) avoir augment son taux de transformation de 10 points !
Cinq typologies de trigger dans votre bote outils pour automatiser le marketing
Mais comment ce processus de communication personnalise peut-il tre mis en place ?
Passer dun marketing de temps fort un marketing continu a t rendu possible par ce
quon appelle le trigger2 marketing , savoir le dclenchement automatique dactions
en fonction dvnements prdfinis lavance. Ces vnements sont gnralement de
cinq types, coupls ou non une notion de dure.
Les vnements lis au comportement du consommateur
Ils incluent typiquement les pages vues, les clics, les ouvertures de-mails, etc. Ce sont
les vnements les plus riches en matire de crativit marketing.
Exemples de scnarios possibles
Un internaute visite pour la troisime fois le site en moins de sept jours. Une fentre de dialogue apparat et un
conseiller propose de laide ou des conseils.
Un mobinaute a tlcharg une application mobile, mais cinq jours aprs na toujours pas utilis lune des
fonctionnalits principales. Il reoit une notification mobile pour linciter utiliser cette fonctionnalit.
Ils regroupent des moments forts tels que linscription un essai gratuit, la cration dun
compte, le contact avec le support clientle, la participation un jeu-concours, la
rinitialisation dun mot de passe et bien sur lachat. Souvent le parent pauvre du
marketing digital, ces messages transactionnels nen restent pas moins dexcellentes
occasions dentamer une conversation de qualit avec le consommateur. En effet, les e-
mails transactionnels sont ouverts deux fois plus (taux douverture de 45 % contre 20 %)
et gnrent un taux de clic trois fois suprieurs (10 % contre 3,2 %) que les e-mails non
transactionnels3 !
Exemples damliorations possibles dans les e-mails transactionnels
Lorsquil sagit dun achat, particulirement dans le cas dun produit cher ou dun achat complexe, ajoutez des liens
vers des vidos de dmonstration, la FAQ ou un forum dutilisateurs.
Suggrer une vente croise ou toute autre micro-conversion. Par exemple capturez de nouveaux inscrits la
newsletter si la personne recevant le mail transactionnel na pas encore donn son opt-in.
|
|\/
Les vnements connus lavance
$!
vie du client (nombre de jours depuis le premier achat) et certains moments forts
By
comme la date danniversaire. Cette typologie de trigger est un bon compromis entre
mediaplanning traditionnel centr sur le moment et mdiaplanning moderne centr sur le
consommateur.
Exemples de scnarios observs sur le march
Un fabricant dordinateurs programme un message automatique dextension de garantie 11 mois aprs lachat, puis
lorsque lordinateur dpasse quatre ans, propose une offre complte de renouvellement.
Une animalerie en ligne alerte le client par e-mail et par SMS quand le stock de croquettes achet arrive thoriquement
son terme et lincite ainsi refaire son stock avant rupture !
Ce sont galement des dclencheurs privilgis. On pensera notamment au cap des 1000
points sur le compte fidlit, au nombre simultan de clients en magasins et surtout
lvolution dun scoring client signalant par exemple un risque devenu lev dattrition4.
Aux tats-Unis, la start-up Madkuku a combin de manire originale data science et trigger marketing en proposant
aux entreprises ayant un modle conomique freemium 5 un scoring dapptence la version payante et une
valeur prdite des futurs clients. Ces scores sont rinjects dans le systme dinformation de lentreprise et ds quun
seuil de probabilit ou de valeur est franchi pour un individu, une action commerciale se dclenche (e-mailing, appel
tlphonique), augmentant ainsi fortement la conversion dun simple utilisateur de la version gratuite en client factur.
Pour les annonceurs dj matures sur le sujet du trigger marketing (cest--dire qui ont
radiographi finement le parcours client et dfini au moins un scnario par point de
contact), il sagit de dpasser la mcanique base uniquement sur lvnement . En
effet laction dclenche par le trigger peut de plus tre personnalise en fonction du
statut ou du segment dun client. Quelques exemples concrets pour se convaincre de
lintrt du croisement de la logique trigger avec la logique profil .
Personnalisation dynamique du contenu dun e-mail : le principe consiste rendre
certaines parties de le-mail personnalisables selon un ensemble de rgles. Dans le cas
dun constructeur automobile qui souhaite prsenter ses clientes femmes une photo
dune femme en train de conduire, loutil de gestion de campagne va vrifier dans la base
de donnes le critre sexe du destinataire et slectionner automatiquement la photo A
ou la photo B pour remplir le bloc image6. Ce principe de personnalisation dynamique
permet galement de caractriser la slection produits : le moteur de recommandation,
influenc ou non par des rgles business (produits liquider, produits plus fortes
marges, etc.), indique au routeur e-mail le meilleur produit afficher pour ce
destinataire.
Personnalisation des notifications en tenant compte des centres dintrt : par
|
|\/
exemple un magazine sportif pourra notifier ses lecteurs chaque lundi matin les rsultats
$!
lecteur. Dans le mme ordre dide, un magazine de presse peut prvenir le lecteur quand
By
Bon savoir
Malgr lintrt vident de la personnalisation et de lunivers des possibles en la matire (moment, contenu,
cible), noubliez pas pour autant de garder quelques campagnes fils rouges adresses tout le monde
afin dviter le syndrome de Panurge dcrit dans la prface.
Ainsi mene, une telle tude permettra de naviguer entre le trop plein et le trop peu, deux
cueils bien connus en communication.
suprieur que si lobjet avait t publicitaire. Attention donc aux objets volontairement
ambigus pour faire augmenter le taux douverture, il est prfrable de jouer franc-jeu.
Outre la transparence de lobjet, le contrat win-win avec le consommateur inclut
galement un rappel clair au destinataire de la raison pour laquelle il reoit ce
message.
Enfin, adaptez votre procdure de dsabonnement : au lieu dune option binaire
oui/non, laissez le consommateur choisir sa frquence denvoi et renseigner ses centres
dintrt et son canal de contact de prdilection9. En laissant au client le sentiment de
contrler la situation, vous viterez un grand nombre de dsabonnements !
Si le concept de trigger est trs large et peut impacter lensemble des canaux de
communication (jusquau vendeur en magasin alert par lentre dun client VIP en
magasin !), le-mailing reste le canal historique et privilgi du trigger marketing. Le
spcialiste du marketing one to one Probance recommande ainsi sur son blog cinq
campagnes e-mail trigger-driven incontournables lheure du data marketing.
La relance de panier abandonn
Prs de trois clients sur quatre abandonnent leur panier en cours de route et les relancer
est un mode opratoire logique. Mais attention ne pas jouer le commerant en
manque de clients en agressant le consommateur deux heures aprs avec un coupon
promotionnel ! Cette stratgie peu subtile risque dexasprer la plupart et de ne sduire
que les radins malins abandonnant volontairement leurs paniers afin douvrir la vanne
aux bons de rduction. Afin de maximiser la conversion, il est prfrable de mettre en
place un vritable scnario sattaquant aux origines du problme. Par exemple :
pour les internautes effrays par les frais de livraison, une stratgie adquate
consisterait leur signaler la livraison gratuite au-del dun certain montant de
dpenses supplmentaires ;
pour les internautes encore en phase de rflexion, proposer un comparatif de prix par
rapport la concurrence peut tre une stratgie gagnante.
La campagne post-navigation
La visite engage sur le site web est galement un acte fort sur lequel il est possible de
capitaliser plusieurs semaines, par exemple en :
envoyant un argumentaire de vente sur lun des produits qui a t consult (texte
|
|\/
spcifique, vido, avis clients) ;
$!
La campagne de bienvenue
Elle peut sappliquer aux nouveaux clients qui viennent dacheter ou aux nouveaux
membres qui nont pas encore converti. Il sagit ici principalement denvoyer une srie de
contenus informatifs utiles (extrait de FAQ, avis utilisateurs, conseils dentretien, etc.) pour
renforcer le lien de confiance avec le nouveau client. Chez lopticien GrandVision France,
le Welcome Pack stale ainsi sur douze mois ! La meilleure campagne est celle
invitant le client, six mois aprs lachat, se rendre au point de vente de la marque pour
faire vrifier sa monture10.
La campagne post-sell
Un grand nombre de clients attendent moins dun mois pour faire un rachat. Il est donc
important de pouvoir mettre en place des rgles de relance, qui sarticuleront
principalement autour du programme de fidlit, de promotions spciales et de
recommandations produits.
RETENIR DE CE CHAPITRE
La personnalisation est au cur du data marketing. Le concept peut toutefois prendre plusieurs formes,
les trois plus rpandues tant le marketing automation, la recommandation produits et ladaptation de la
pression marketing. La premire personnalise le moment de linteraction, en dclenchant des scnarios
suite des stimuli dtermins. La seconde personnalise le contenu du message, en ladaptant selon un
ensemble de donnes sociodmographiques et comportementales connues sur le destinataire. La dernire
personnalise les canaux de contact et la frquence des contacts.
vous de jouer
Dressez le cycle de vie de votre client et imaginez comment tre prsent toutes les tapes
du parcours client (exemple : je rve je compare jachte, etc.) grce des triggers bien
choisis.
Identifiez vos trois campagnes e-mail et SMS qui ont fait le plus de dgts en matire de
dsabonnement. |
|\/
Demandez tous vos collaborateurs et meilleurs clients ce quils aimeraient trouver dans le
$!
Welcome Pack . Btissez partir de ces retours une srie de cinq e-mails avec du
4$
SOURCES
propos du concept du trigger, larticle Le trigger marketing cest quoi ? , Emmanuel Ulman, 2009, publi sur Le Lab
by vente-privee consulting est trs pdagogique. Le site regorge par ailleurs de nombreux articles pertinents.
Pour approfondir lensemble de ce chapitre, le livre blanc Marketing relationnel et personnalisation cocrit par lEBG et par
lditeur de solutions data marketing Actito est une excellente lecture, avec de nombreux conseils pratiques.
10
Data et commerce physique : la rvolution
apporte par le mobile et les objets connects
Jusqu prsent louvrage a prsent comment utiliser la donne pour cibler la bonne
personne (segmentation, cration daudience par look alike modeling, mthodes de
scoring), au bon moment (trigger marketing) avec le bon message (moteurs de
recommandation, DCO). Il reste une dimension explorer pour boucler la chane de
valeur de la data et clore cet ouvrage ddi au data marketing : la dimension apporte
par la donne de golocalisation permettant dintervenir au bon endroit .
Encore rserve il y pas peu des usages militaires ou de la surveillance (convois,
|
|\/
entrepts), la golocalisation sest dveloppe depuis quelques annes auprs du grand
$!
public : selon le baromtre du marketing mobile de 2014 (ralis par la MMA avec
4$
De nombreuses tudes font tat de limportance grandissante du mobile dans nos vies.
En 1982 il y avait 4,6 milliards de personnes dans le monde et pas un seul tlphone cellulaire. En 2013, il y a 7 milliards
de personnes sur la plante et 6 milliards dabonnements mobiles.
25 % de la population mondiale utilise un smartphone, 60 % en France.
80 minutes est le temps moyen pass sur un mobile par jour pour un individu.
Pour de nombreux annonceurs, la part du mobile dans les visites, les conversions, et le chiffre daffaires a ainsi cr
drastiquement au cours des dernires annes et par voie de consquence le budget marketing digital consacr au mobile
ne cesse de grimper.
La notion de golocalisation est un terme qui se banalise aujourdhui, avec une perte de
repres : dun ct la moindre application mobile dveloppe dans son garage inclut cette
fameuse golocalisation , et de lautre ct les plus grandes marques engagent des
projets coteux grand renfort de consultants afin dinclure la golocalisation dans leur
arsenal marketing. La ralit est que derrire le terme golocalisation se cache un
vaste ensemble de technologies et dusages. En particulier voici quelques questions cls
se poser avant daborder un projet de golocalisation.
Enfin la golocalisation outdoor pourra peut-tre bientt sappuyer sur le rseau LoRa,
By
Trs en vogue de par leur simplicit dusage, elles font depuis 2014 lobjet de nombreux
projets exprimentaux : Darty aurait ainsi dploy dj plus de 200 beacons et Monoprix
quip 22 magasins. Le cabinet dtudes Business Insider prdit ainsi plus de trois
millions de beacons en activit en 2018 rien que dans le secteur du retail. En 2015, dj
plus de 40 fabricants de botiers et 50 fournisseurs de plateformes techniques et
|
|\/
marketing ddies avaient investi ce tout jeune march ! Malgr cette effervescence, leur
$!
fonctionnement nest cependant pas toujours bien assimil (cf. encadr ci-dessous).
4$
Il existe beaucoup de confusion et de mythes autour des possibilits du beacon. En ralit la cinmatique est assez
simple :
1. Le beacon signale sa prsence un rythme rgulier. En ralit un beacon ne fait qumettre son nom, plus
prcisment un UUID et deux numros didentification (Major, Minor) ! En particulier un beacon nenvoie pas de
notifications et un beacon nest pas un Big Brother qui enregistre le passage des clients, deux ides reues
frquentes.
2. Le signal est capt par une application mobile associe. Parasite dune application pralablement installe et
de lactivation du Bluetooth, un beacon ne permet donc pas de toucher nimporte qui nimporte quand.
3. Le signal est traduit en action par un logiciel. Le beacon nest rien sans lintelligence logicielle ajoute
lapplication mobile ! La rencontre de lapplication mobile avec le signal du beacon agit comme un trigger et dclenche
un scnario pralablement enregistr dans la plateforme logicielle destination des marketeurs. Il sagit gnralement
de notifications, mais les possibilits sont en ralit plus nombreuses : rveil de lapplication en veille, affichage dune
URL, rcompense au bout du dixime passage
La technologie LIFI
Elle repose sur la transmission dinformations par la lumire : les clairages LED utilisent
en effet des ampoules qui sallument et steignent plusieurs millions de fois par seconde
et ces variations (trop rapides pour tre visibles lil nu) sont utilises pour coder des
informations, comme avec le morse, ou le langage binaire utilis en informatique. Cher,
mais trs prcis, cest le choix fait par Carrefour en 2015 pour son hypermarch de Lille,
la lumire ainsi route par le systme tant capte par la camra du smartphone et
dcrypte par une application dun nouveau genre. Les fournisseurs Lucibel et Philips,
mais aussi la start-up Oledcomm ont investi ce march prometteur.
Le Wifi
Il fonctionne de manire similaire aux antennes GSM : le rattachement une borne dont la
position est connue coupl la force du signal permet de situer lindividu dans lespace.
En France, Insiteo et Pole Star sont les deux socits principalement positionnes sur ce
crneau.
Les ultrasons
usine gaz . Daprs mon exprience du domaine et les annonces rcentes, dtaillons
ci-dessous cinq scnarios de dploiement les plus prometteurs.
Dans un autre registre, de plus en plus de muses comme celui de la Tulipe aux Pays-
Bas, la galerie Sakura Paris ou la maison de Rubens Anvers guident le visiteur et
apportent des explications sur les uvres par le biais du couple {beacon + application du
muse}. Il est dsormais probable dans un avenir proche de voir fleurir ce type
dapplications verticales pour tous les lieux ferms drainant du public (salons
professionnels, concerts, stades, etc.).
magazines brsiliens un bracelet connect (grce un nearable, cf. encadr), reli une
4$
Il est dsormais trs facile de rendre nimporte quel objet connect grce aux nearables , ces petits autocollants
invents par la socit Estimote, un des tous premiers fabricants de beacon. Il suffit de placer lautocollant sur lobjet de
votre choix pour quil puisse communiquer avec une application ddie, y compris sur le temps quil fait grce son
capteur de temprature. Et alors comme par magie un livre dans un magasin pourra automatiquement vous donner les
avis laisss sur celui-ci tandis quune bouteille de vin rouge vous enverra une notification lorsquelle sera bonne
temprature
Les possibilits quoffre un nearable sont vraiment trs vastes et devraient ravir les agences de communication !
ordinateur peuvent en effet tre coupls si lon observe par exemple quils se
4$
connectent aux mmes rseaux Wifi et aux mmes heures plusieurs fois par semaine.
By
Bon savoir
By
Bon savoir
Lapplication Unibail permettant de trouver ses amis dans un centre commercial est un modle du genre.
En dautres termes, encore plus que pour le tracking par cookies, les consommateurs
ont besoin dtre convaincus de la valeur ajoute dont ils vont bnficier en
change de leur acceptation dtre localiss. Cette proposition de valeur peut tre
intrinsque au produit (65 % acceptent la golocalisation issue dune application de mto
tandis que seuls 16 % acceptent la golocalisation en provenance dune application de
news ) ou provenir de coupons promotionnels, de contenus exclusifs Dans tous les
cas, tout projet de golocalisation veillera inclure une composante crative forte quant
la dfinition des scnarios dusage ainsi quun plan de communication bien pens.
quil existe des mthodes thoriques, le suivi continu dun consommateur ou dun objet
4$
le stockage des donnes de golocalisation est un vrai sujet, car il demande une
scurit sans faille, ainsi quun savoir-faire en analyses de donnes afin dexploiter
pleinement lhistorique de dplacements ;
rares sont les tests qui se droulent 100 % comme prvu ! Des
dysfonctionnements lis la limitation de certains systmes dexploitation, la
frquence dmission ou des interfrences sont invitables et une phase de rodage
est souvent ncessaire. Par exemple un test avec un beacon permet rapidement de se
rendre compte que de nombreux lments peuvent perturber le signal Bluetooth (type
de matriaux, prsence dautres signaux sur la mme frquence, nombre de
personnes).
Cas dusage 4 : recibler un visiteur magasin ayant stationn plus dune minute
4$
dans le rayon consacr au tennis. laide de petits botiers Bluetooth&WiFi, des start-
ups comme Fidzup ou TapValue dtectent chaque jour que tel IDFA a stationn dans tel
By
rayon . Un pool dIDFA avec ce comportement est alors constitu pour tre ensuite cibl
via les adexchanges mobiles.
RETENIR DE CE CHAPITRE
Le mobile est le nouveau terrain de jeu du data marketing, notamment grce sa capacit golocaliser le
consommateur en mouvement. Dduire des profils consommateurs sur la base dun historique de
dplacements, retargeter les visiteurs dun magasin ou dclencher une publicit selon lemplacement de
lindividu sont des cas dusages de plus en plus frquents.
vous de jouer
Rflchissez aux nouveaux services que vous pouvez offrir vos consommateurs en
intgrant un module de golocalisation avanc dans votre application mobile.
Investissez 100 dans un kit de beacons livr avec lapplication mobile et la plateforme
marketing et offrez-vous des notifications sur votre tlphone le matin quand vous arrivez au
bureau.
Gocodez votre base dadresses et affichez vos clients sur une carte laide dune des
nombreuses API de gocodage gratuites disponibles sur le Net.
SOURCES
Si la golocalisation est un sujet qui vous intresse, je vous conseille la lecture du livre de Muriel Glatin et Maike Studthoff
La Golocalisation, nouvelle arme des marketeurs aux ditions Kawa. Bien quun peu ancien (2012), ce livre reste encore
une rfrence dans le domaine.
La presse spcialise inonde rgulirement les professionnels du marketing dinformations propos des perspectives
offertes par la golocalisation et les articles ci-dessous complteront idalement la lecture de ce chapitre :
Le b.a.-ba du marketing golocalis rvl par Placecast , septembre 2012, Anne Bezanon, lepetitweb.fr ;
Golocalisation : la nouvelle boussole du marketing , juin 2015, Floriane Salgues, emarketing.fr ;
Beacons, 22 utilisations hors magasin connatre avant 2015 , dcembre 2014, Simon Fevry, siecledigital.fr ;
Le LiFi progresse : ce que vous devez savoir pour en parler clairement , novembre 2015, Simon Fevry,
siecledigital.fr ;
7 ralits sur les possibilits du beacon , fvrier 2015, sur le blog de la socit easy-beacon ;
6 Ides reues propos des beacons, livre blanc publi en dcembre 2014 par la socit Efficiens.
1. La golocalisation, nouvelle arme des marketeurs , Muriel Glatin et Maike Strudthoff, ditions Kawa, 2012
2. Plus prcisment demand par lapplication mobile loprateur systme selon un ensemble de rgles.
3. Technologie permettant de relier des appareils entre eux sans liaison filaire sur une porte de quelques dizaines de
mtres.
4. Branch dans la prise diagnostique , lOBD permet daccder toutes sortes dinformations en interrogeant les
calculateurs lectroniques de la voiture.
|
|\/
5. Plus prcisment de millions dIDFA anonymes.
$!
7. Transformation dune adresse postale en coordonnes (x,y) interprtables sur une carte.
8. Article Golocalisation : la nouvelle boussole du marketing paru dans emarketing.fr en juin 2015.
By
9. Muriel Glatin et Maike Strudhoff, La Golocalisation : nouvelle arme des marketeurs, ditions Kawa, 2012.
10. Gnralement un pusher de position associ une plateforme de scnarisation.
11. Source : Valentin Blanchot, Avec les nearables Estimote veut connecter tous les objets , Sicle Digital, septembre
2014.
12. Reprsentation graphique sous forme dun nuancier de couleur de donnes statistiques telles que des temps de
passage, des dplacements, etc.
13. Ici interprt comme le pourcentage des visiteurs du magasin qui repartent immdiatement .
14. Terme anglais dsignant un modle, une structure, un motif.
15. Leader de la golocalisation par bornes Wifi avec une base de 250 millions de points daccs WiFi dans le monde
couvrant ainsi 70 % de la population aux tats-Unis, au Canada, en Europe de lOuest ainsi quen Asie.
16. Cdric Belmont, Golocalisation des objets et des personnes : de lusage dpend la technologie retenue , 9 juin
2015.
Conclusion
Demain, la valeur dune voiture ne sera plus sa carrosserie, mais sa capacit gnrer
des donnes et traiter de linformation en mobilit.
Demain la data sera le premier actif de lentreprise, mme devant la marque.
Demain la donne sera utilise tous les tages de lentreprise pour quantifier des
intuitions, rduire des risques, optimiser des processus devenus trop complexes pour un
tre humain.
Demain la publicit ne sera plus vcue comme du harclement, mais comme un service.
Demain le Big Data (grosses donnes) sera un terme dsuet tant les objets
connects auront envahi le monde et la nouvelle problmatique sera celle du Huge
Data (immenses donnes).
Demain ce livre sera interactif et vous pourrez choisir en temps rel votre conclusion,
comme dans les missions de tlralit, entre les diverses propositions ci-aprs :
|
|\/
rsumer les avantages exploiter la donne : la plus grande valeur de la donne
$!
En esprant que ce livre aura rpondu vos questions sur lensemble de la chane de
valeur de la donne.
Bien amicalement
PS : aucun constat data ne prouve que ce format de conclusion original tait une bonne
ide. Nhsitez pas laisser vos commentaires sur Amazon. Je minterdirai de vous
adresser une publicit digitale cible sur la base des donnes collectes dans votre
commentaire !
RPONSES AUX AUTODIAGNOSTICS
Question 3 : selon vous quel volume de donnes correspond un mois dimpressions display dun grand
groupe ?
By
Question 7 : pouvez-vous citer deux diffrences majeures entre une infrastructure big data et une
infrastructure traditionnelle ?
Les deux paradigmes technologiques permettant les traitements big data sont la mise en rseau des machines (clusters)
et le morcellement des traitements (calculs distribus).
Question 10 : en une phrase, comment expliqueriez-vous la diffrence entre un CRM 360 et une DMP ?
Le CRM 360 collecte et stocke tout ce qui a trait aux donnes personnelles (achats, service client, navigations logues)
dans une optique de fidlisation tandis que la DMP collecte et stocke des donnes anonymes (gnralement autour dun
cookie) dans une optique principalement dacquisition (visiteurs non convertis, audiences look alike, exclusion daudience).
grande frquence de visites), alors que dans le clustering les groupes ne sont pas connus lavance et dtermins
4$
automatiquement.
By
Question 6 : pouvez-vous expliquer la diffrence entre les algorithmes de rgression et les algorithmes de
classification ?
Les algorithmes de rgression sont utiliss pour prdire une valeur (exemple : un CA), tandis que les algorithmes de
classification servent classer les individus (exemple : les crditeurs risque).
Question 8 : en analyse de donnes, comment appelle-t-on une valeur extrme ? Quelle reprsentation
graphique les met particulirement en vidence ?
Une valeur extrme est appele un outlier. La bote moustaches permet de les reprer en un coup dil !
Question 9 : quels sont les trois critres permettant dvaluer la pertinence dun modle prdictif ?
La qualit des prdictions, la capacit gnraliser sur un nouveau jeu de donnes et la facilit dimplmentation sont
trois critres cls dans lvaluation de la pertinence dun modle prdictif.
Question 2 : quel est en France la part des campagnes display effectues en programmatique ?
Selon la 15e dition de lObservatoire de lePub du Syndicat des rgies internet (SRI) publie en janvier 2016, le
programmatique reprsente en France 40 % de lachat mdia display, soit un march de 423 M. Le march volue
toutefois trs vite et les analystes prvoient 550 M et 50 % du display pour lanne 2016.
Question 3 : que signifie RTB ? Quels sont les trois avantages qui ont permis lessor de ce mode dachat
mdia ?
|
|\/
RTB signifie Real time Bidding , savoir lachat despace publicitaire en temps rel via des enchres. Leffet dchelle,
$!
lautomatisation et lachat dune audience et non plus seulement dun contexte de diffusion sont les trois forces principales
4$
du RTB.
By
Question 4 : que signifient les abrviations DSP et SSP et quels sont leurs rles respectifs ?
La DSP (Demand Side Platform) est la brique logicielle qui permet aux acheteurs de se connecter la bourse dachats et
de paramtrer les modalits dachat.
La SSP (Supply Side Platform) est la brique logicielle qui permet aux diteurs de mettre en vente leur inventaire en bourse
et doptimiser le prix de vente.
Question 5 : comment expliqueriez-vous la diffrence entre marketing one to one et marketing one to
few ?
Le marketing one to few est une approche froid base sur des segments daudience pralablement enregistrs
tandis que le marketing one to one est une approche chaude et mcanique (modification dynamique du produit
propos, action/raction par rapport un vnement)
Question 6 : selon vous, quelle est la premire vertu de lutilisation de la data dans le marketing ?
Contrairement ce quon peut souvent lire, la valeur premire de la data dans le marketing est dans lconomie, pas
ncessairement dans la croissance du chiffre daffaires. Ces conomies sont atteintes par des stratgies dexclusion
(produits dj achets, clients rguliers exclus des campagnes Adwords) et par lautomatisation de tches faible
valeur ajoute (exemple : merchandising automatique, scnarios e-mails).
Question 10 : quels sont les quatre prrequis ncessaires la mise en place dun scnario marketing bas sur
le beacon ?
Pour notifier un client proche dun beacon, il faut la runion de quatre prrequis : le client doit avoir tlcharg lapplication
mobile de la marque, avoir donn son optin la golocalisation et aux notifications et enfin avoir le Bluetooth allum.
|
|\/
$!
4$
By
Glossaire
Avec plus de 100 mots expliqus, ce glossaire du digital et data marketing se veut une aide la
lecture, mais galement une rfrence consulter ds quun terme vous chappe !
AB testing : stratgie consistant proposer la version A dune page, dun formulaire, dune
bannire, etc. 50 % des individus exposs et la version B aux 50 % restant. Lobjectif est de
dterminer la version la plus performante.
ACP : abrviation d Analyse en Composante Principale , transformation mathmatique visant
rduire la dimension de lespace danalyse en perdant le moins dinformation possible.
Adexchange : place de march virtuelle o se rencontrent loffre (SSP) et la demande (DSP) et
o soprent les transactions publicitaires, via un systme denchres.
Adserver (ct annonceur) : plateforme technologique permettant laffichage de la publicit.
Ladserver assure galement le rle de suivi de campagnes (impressions, clics, conversions).
Adserver (ct publisher) : plateforme technologique assurant la gestion de linventaire
|
|\/
publicitaire (quel espace est vendu quel annonceur).
$!
Adwords : programme publicitaire lanc en 2000 par Google, Adwords se matrialise lors de la
recherche dun mot cl dans le moteur de recherche par des liens sponsoriss au-dessus des
rsultats naturels.
Algorithmes de classification : catgorie dalgorithmes dont le but est de prdire
lappartenance dun individu un groupe donn (exemple : prdire les personnes qui vont
dmnager).
Algorithmes de rgression : catgorie dalgorithmes dont le but est de prdire une valeur
(exemple : prdire la lifetime value dun individu).
API : abrviation d Application Programming Interface , les API sont des interfaces de
programmation qui permettent deux logiciels de communiquer entre eux et de sinterconnecter.
Arbre de dcision ( decision tree ) : algorithme majeur de la data science, larbre de
dcision repose schmatiquement sur la multiplication de tests sur les valeurs de diverses
variables en vue de dterminer le chemin optimal vers un objectif fix. Sa structure arborescente
le rend lisible par un tre humain ; en consquence, il est gnralement apprci des
commanditaires.
Attribution : lattribution marketing tente dvaluer de manire juste le rle de chaque levier
marketing dans la conversion afin de mieux rpartir les budgets marketing. La mtaphore du but
au football (qui nest pas le rsultat du seul buteur) est souvent employe pour expliquer la
philosophie derrire lattribution.
Beacon : petite balise Bluetooth permettant la golocalisation dun tlphone dans un rayon de
quelques dizaines de mtres, condition toutefois que celui-ci dispose dune application mobile
rceptrice du signal et que lantenne Bluetooth du tlphone soit allume.
Bid request : appel enchres transmise par la SSP aux DSP. Une bid request contient de
nombreux lments caractrisant lemplacement publicitaire commercialis et qualifiant
linternaute pour qui la publicit sera affiche.
Blacklist : liste noire dinventaires tablie par le trader mdia. Seuls les inventaires non cits
dans cette liste sont autoriss pour de laffichage publicitaire.
Bluetooth : technologie permettant de relier des appareils entre eux sans liaison filaire sur une
porte de quelques dizaines de mtres.
Calcul distribu : mthode de calcul dont le principe est de rpartir le calcul par morceaux sur
plusieurs machines. Cette mthode au cur du Big Data permet de raliser de gros calculs
mathmatiques trs rapidement. (Voir aussi MapReduce .)
Capping : procd consistant limiter le nombre dimpressions publicitaires maximales par
cookie sur une priode donne. |
|\/
Chief Digital Officer : nouveau mtier traduit parfois par directeur de la stratgie digitale , le
$!
mtier est amen disparatre au fur et mesure que les entreprises parviennent intgrer le
digital dans leur mtier historique.
By
Chief Data Officer : nouveau mtier traduit parfois par directeur de la stratgie data , le Chief
Data Officer est responsable de la transformation data de lentreprise. Il est idalement capable
dapprhender aussi bien les enjeux mtier que les enjeux systme dinformation de la
data.
Churn : terme anglais dsignant la perte de clients ou dabonns. Le mot franais quivalent pour
dcrire ce phnomne est l attrition .
Clustering : classification automatique des individus dans des groupes distincts, construits de
faon minimiser la distance entre individus au sein de chaque groupe et maximiser la distance
entre groupes.
Cookie : fichier texte dpos sur le navigateur dun internaute comportant un identifiant unique, le
nom de domaine de lmetteur et une date dexpiration. Pass en paramtre des appels http du
navigateur vers le serveur web, le cookie permet un site web de reconnatre le terminal et de
prendre une dcision en consquence.
Cookie matching : technique de rconciliation des identifiants des cookies dun systme
lautre. Tous les principaux acteurs publicitaires possdent des tables de correspondance entre
leurs cookies et les cookies des autres acteurs.
Conversion : la conversion dsigne la ralisation dun vnement objectif. Il sagit gnralement
de lachat, mais le remplissage dun formulaire de contact ou le tlchargement dun livre blanc
peuvent aussi tre des conversions (on parle parfois de micro-conversion).
Conversion (tunnel de) : concept central du digital marketing, le tunnel de conversion
correspond lensemble des tapes prcdant la conversion. chaque tape correspond des
pertes (la mtaphore du seau deau trou est frquemment employe).
Corrlation : deux variables sont dites corrles lorsque les variations de lune
(croissance/dcroissance) sont dpendantes des variations de lautre.
Couponing : stratgie marketing base sur le bon de rduction.
CPA : cot par acquisition, indicateur frquent en publicit pour valuer le retour sur
investissement dune campagne.
CPC : cot par clic, indicateur frquent en publicit pour valuer le retour sur investissement
dune campagne.
CPM : cot pour mille impressions, modle conomique frquemment utilis dans la publicit
digitale. Un annonceur paiera ainsi 5 du CPM ou 5 CPM.
CRM : abrviation de Customer Relationship Management , le CRM dsigne la base de donnes
clients, comprenant les informations personnelles (adresse, e-mail, tlphone) et lhistorique
des achats.
|
|\/
CRM 360 : plateforme technologique facilitant la collecte de donnes personnelles depuis
$!
plusieurs sources (call center, navigation logue web ou mobile, marketing direct, etc.) et
4$
Datawarehouse : entrept de donnes stockant tout ou partie des donnes issues des bases de
donnes oprationnelles. Le rle du datawarehouse est double : dlester les bases de
By
mobile. tant stocke dans une carte rseau, on parle parfois d adresse physique . Les
4$
adresses Mac sont utilises dans beaucoup de technologies rseau, notamment le Wifi.
By
sollicitations commerciales.
Piggybacking : littralement porter califourchon , le piggybacking est un procd consistant
By
pour un outil A non tagu sur un site web tout de mme dposer un cookie sur le navigateur dun
internaute en profitant du fait quun outil B partenaire soit lui-mme tagu sur le site.
Pixel : image de 1px 1px invisible lil nu, le pixel est une mthode de tracking trs usite. (Voir
aussi Tag .)
Prdictif : on dsigne par marketing prdictif la discipline visant anticiper le comportement
dun consommateur, grce la modlisation mathmatique de celui-ci. On distingue gnralement
la prdiction dune valeur (voir Rgression ) et la prdiction dun tat (voir
Classification ).
Private marketplace : fonction disponible au sein des adexchanges permettant un site ditorial
de slectionner les acheteurs pouvant participer aux enchres.
Programmatique : le terme recouvre lensemble des oprations marketing automatises. Le
terme est surtout utilis en publicit o il dsigne les transactions publicitaires opres de
manire automatise et lunit. Lachat programmatique peut tre ralis aux enchres (RTB) ou
prix fixe. Il peut par ailleurs tre non garanti ou garanti.
R : logiciel de statistiques avances open source, trs utilis dans le milieu de la data science.
RCU : abrviation de Rfrentiel Client Unique , le RCU est souvent assimil au CRM 360.
Reach : terme anglais dsignant le volume dindividus atteignables pou une campagne donne.
Rebond (taux de) : cet indicateur exprime le pourcentage de visiteurs dun site internet qui
repartent immdiatement . Il se calcule en faisant le rapport entre le nombre total de visites et
le nombre de visites une page.
Recommandation (moteur de) : outil permettant de personnaliser la slection de produits
proposs selon les caractristiques de lindividu (souvent son historique dachat et de
navigation). Le moteur de recommandation peut influencer laffichage des produits sur le site, le
contenu dun e-mail, le contenu dune bannire publicitaire, etc.
Retargeting : stratgie publicitaire consistant cibler un individu dj pass rcemment sur le
site web de lannonceur ou sur certaines pages spcifiques.
ROI : acronyme de Return On Investissement , le ROI ou retour sur investissement dune action
marketing mesure la rentabilit de cette action.
RTB : labrviation de Real Time Bidding dsigne le proccessus de vente aux enchres en
temps rel de linventaire publicitaire en ligne. Les sites ditoriaux proposent ce dernier via une
SSP (Supply Side Platform). Les annonceurs enchrissent via une DSP (Demand Side Platform)
opre par un trading desk. Loffre et la demande se rencontrent au sein dune bourse appele
adexchange . |
Scoring : traitement mathmatique consistant attribuer un individu une probabilit de
|\/
comportement futur. Les premiers modles de scoring ont t mis en place dans les banques dans
$!
4$
pendant lesquelles les participants au projet indiquent tour tour les tches quils ont effectues
la veille, les difficults rencontres et enfin les travaux quils effectueront dans la journe.
SDK : abrviation de Software Development Kit , un SDK est un ensemble doutils daide la
programmation. Il contient en particulier du code prcrit organis sous forme de librairies, de la
documentation, un mulateur de test, etc.
Search : la publicit search dsigne les annonces Adwords qui saffichent au-dessus des
rsultats du moteur de recherche.
Second party data : donnes issues de partenariats directs, par exemple les cookies issus de la
navigation dinternautes sur le site web du partenaire.
Segmentation : regroupement dindividus selon des critres dfinis en amont (sexe, ge,
frquence dachat, types de produits achets)
Spark : version volue de calcul distribu. (Voir aussi MapReduce .)
SQL : abrviation de Structured Query Language , langage informatique permettant dexcuter
des requtes dans une base de donnes structure. Par extension, SQL dsigne les bases de
donnes adaptes au langage SQL, encore appeles bases de donnes relationnelles .
SSP : abrviation de Supply Side Platform , la SSP est une plateforme technologique permettant
un site ditorial de mettre en bourse son inventaire display et doptimiser la valeur de son
inventaire.
Tag : le tag de tracking est un extrait de code insr dans le code html dune page web qui a pour
vocation dappeler un serveur web lorsquil est dclench (on dit que le tag est brl ). Par
ce procd, le tag permet au serveur de dposer un cookie dans le navigateur de linternaute et de
collecter de la donne sur un cookie.
Taggage (plan de) : document dcrivant spcifiquement les endroits o sont poss les tags de
tracking et la nomenclature associe.
Taxonomie : arborescence servant classer les cookies dans une DMP.
Third party data : donnes collectes, segmentes et mises disposition par un prestataire
externe (data provider). La facturation slve en gnral quelques euros le CPM.
TMS : abrviation de Tag Management System , le TMS est un outil simplifiant
considrablement la gestion des tags sur un site web en les encapsulant dans un master tag.
Trading desk : socit spcialise dans lachat despaces publicitaires display, vendus en mode
programmatique. Le trading desk sappuie sur une (ou plusieurs) plateformes DSP open source
ou propritaire.
Trigger : littralement gchette , le trigger est un vnement dclenchant une action marketing.
|
|\/
Par exemple, le nombre de visites par semaine sur le site internet sera considr comme un
$!
trigger si, au bout de la troisime visite, un pop-up invitant discuter avec un conseiller se
4$
dclenche.
By
Visibilit (indicateur de) : une impression publicitaire est dite visible lorsquau moins 50 %
de sa surface a t affiche pendant au moins 1 seconde (norme IAB).
Whitelist : liste blanche dinventaires tablie par le trader mdia. Seuls les inventaires cits
dans cette liste sont autoriss pour de laffichage publicitaire. (Voir aussi Blacklist .)
Yield Management : processus doptimisation des prix plancher afin de maximiser la rentabilit
des revenus publicitaires des diteurs.
Les socits et solutions spcialises dans la
data
CABINETS/AGENCES CONSEILS
spcialis dans les mdias en ligne et le divertissement (le groupe possde notamment
4$
AGENCES MARKETING/PUBLICITAIRES
Quelles soient historiques ou nouvellement cres autour des dernires technologies data
marketing, ces agences sauront vous accompagner dans la mise en uvre de vos
campagnes de marketing direct et publicitaires.
1000Mercis est un pionnier du data marketing et une agence reconnue en CRM, DMP et
RTB.
Adnow est un trading desk mobile spcialis dans le drive to store. La socit a
notamment lev 1,2 million deuros en 2015.
Adotmob est un trading desk mobile agissant autour dune solution DSP propritaire. La
socit a lev 1 million deuros en 2015.
Affiperf est le trading desk de lagence Havas.
AOD est le trading desk de lagence Publicis (restructuration en cours).
Criteo est spcialise dans le reciblage publicitaire (retargeting), Criteo est considre
comme une des entreprises majeurs du march de la publicit digitale dans le monde
depuis sa cotation au Nasdaq en 2013.
Gamned est un trading desk indpendant, notamment bien implant en Suisse et au
Brsil. Il a appartenu un temps au groupe Makazi.
TabMo (trading desk et DSP mobile) se diffrencie notamment par des formats
publicitaires trs innovants, exploitant tout le potentiel du canal mobile.
Tradelab est un des principaux trading desks indpendants franais.
Yanco est le trading desk mobile du groupe S4M spcialis dans le tracking mobile.
ADTECH
La publicit est en pleine mutation technologique et les acteurs ci-dessous y sont pour
quelque chose !
Acxiom, expert de la donne, de lanalytique et des marketing services, est un des
principaux fournisseurs de donnes third party.
|
|\/
$!
Adobe Audience Manager est la DMP dAdobe et reprsente une des DMP leaders du
4$
march.
By
Bluekai fut une des premires DMP leader du march. Elle a depuis t rachete par
Oracle.
Databerries est une jeune start-up spcialise dans la donne de golocalisation et dans
le ciblage marketing sur mobile. La socit labore sur demande des segments
daudience bass sur les habitudes de dplacements (exemple : les individus qui se
rendent dans les magasins Carrefour ou Auchan), achte de lespace mdia pour ces
individus et mesure lincrment de visites en magasin. Databerries a lev 1,7 million
deuros en dcembre 2015.
Doubleclick est une solution adtech de Google. La suite est notamment compose de
Doubleclick Bid Manager (DSP) et Doubleclick Campaign Manager (adserver).
Exelate est un des plus gros fournisseurs de donnes du march. La socit a t
rachete par linstitut dtudes marketing Nielsen en 2015.
Makazi est un des diteurs majeurs de Data Management Platform (DMP) en mode
SaaS.
Mediamath est une des principales DSP du march.
Netadge est une des principales DSP mobile du march
Sizmek est un des adservers principaux du march, anciennement Mediamind.
Smartadserver est un des adservers principaux du march, lanc par Aufeminin.com en
2001.
TapValue est une solution de tracking en magasin et de publicit mobile (retargeting des
visiteurs magasins, geofencing autour des points de vente).
Tubemogul est une DSP spcialise dans lachat vido
Weborama est une solution DMP se caractrisant par une large offre third party
propritaire et la possibilit de raliser galement ladserving des publicits.
MARTECH
Les CRM et routeurs e-mails ont bien volu depuis les annes 2000 : linstar de la
publicit, le marketing direct sest technologis et la concurrence est rude entre
diteurs !
Actito est un diteur de solutions proposant une plateforme de marketing relationnel
permettant notamment la mise en uvre de scnarios trigger marketing volus.
Eloqua est une solution de-mailing et de marketing automation rachete par Oracle.
|
|\/
$!
Exact Target est une solution de-mailing et de marketing automation rachete par
4$
Marketo est une solution de marketing automation, adapte galement aux PME.
Neolane est une solution de-mailing et de marketing automation, devenue en juin 2013
Adobe Campaign, transaction estime 600 millions de dollars.
Probance est un des nombreux diteurs de plateforme de marketing automation.
Salesforce est lditeur de logiciel leader sur le march du CRM et de la relation client
depuis sa cration en 1999.
Selligent est une socit ditrice de solutions de marketing relationnel, notamment un
CRM 360.
Splio est un acteur majeur du secteur du routage e-mail et de la gestion de la relation
client.
AUTRES
Data science, data quality, data onboarding, data visualisation le panorama des
technologies de la data est large et dpasse la simple segmentation adtech/martech !
Dataiku est un diteur de logiciels facilitant le nettoyage des donnes et le travail des
data scientists.
Experian est un acteur mondial dans le traitement de linformation ; Experian propose
notamment des solutions de gestion de la qualit des donnes.
S4M est une solution de mesure de campagnes publicitaires menes sur mobile.
Temelio est un des principaux CRM onboarder du march.
|
|\/
$!
4$
By
Remerciements
Merci du fond du cur Cindy Dorkenoo, auteur de Stratgie Digitale, sans qui ce livre
naurait jamais vu le jour. Un grand merci aussi lodie Bourdon, ditrice chez Eyrolles,
qui a soutenu ce projet avec enthousiasme et ma accord toute sa confiance pour la
rdaction de ce livre.
Une immense reconnaissance mon papa pour sa relecture pointilleuse et son regard
novice qui ma forc tendre vers toujours plus de pdagogie et de clart. Plus
gnralement merci tous les relecteurs, David, Rmi et Jrme en tte, pour leurs
remarques claires.
Jadresse galement de chaleureux remerciements tous mes anciens collgues et
notamment les consultants dArtefact dont le contact quotidien ma pouss vers toujours
plus dexcellence. La prface rdige par Vincent Luciani, fondateur du cabinet, nest
quune illustration de vos nombreux talents.
Caroline, ma conjointe depuis quatre annes, tu mrites amplement ta place dans ces
|
|\/
remerciements tant tu supportes avec beaucoup de patience mon stakhanovisme et mon
$!
acharnement.
4$
Enfin, merci toutes les personnes qui me sont chres et mapportent chaque jour
By
lnergie ncessaire la ralisation de mes projets. Je nai pas la place pour tous les
citer, mais ce livre leur appartient.
Index
A
ACP 143, 145, 147, 259, 263
Actito 91, 234, 277
Acxiom 83, 200, 204, 250, 257, 276
Adgear 199
Adnow 200, 250
Adobe 278
Adobe Audience Manager 200
Adotmob 200, 209, 241, 250
adserver 188, 197, 199, 213, 263
adtech 21, 92
Advertising Id 57, 78, 101, 267
|
|\/
Adwords 24, 70, 83, 99, 128, 193, 261, 263
$!
Affiperf 200
4$
Akio 89
algorithmes de classification 111, 176, 179, 181, 259
By
B
Babolat 54, 250
Barclays 245
beacon 79, 185, 237-238, 243, 245, 247, 249, 251, 262
bid request 194-195, 199, 210, 241, 250
Bizo 20
blacklist 210
Bluekai 96, 200
bluetooth 79, 237, 241, 247, 249-250, 262, 264
Bouygues Telecom 237
Bulmers 240
C
calcul distribu 18, 273
Campaign Manager 199
Camp de Base 63, 91, 275
capping 210, 213
Caradisiac 208
Carrefour 54, 238, 243, 276
Catalina 243
Chief Data Officer 41, 60, 264
Chief Digital Officer 18
Chief Marketing Technologist 40
Chrome 211
churn 28, 177-178, 196
clustering 21, 110, 135, 147-152, 172, 258
Coca-Cola 51
Coheris 89
conversion 19, 24, 26, 31-32, 70, 98, 119, 169, 203, 218, 222, 224, 226, 232, 265
Converteo 275
cookie 46-47, 57, 66, 70, 78, 80-82, 84, 92-95, 101-102, 116, 187, 195-196, 257, 264-265, 267, 271
cookie matching 101
|
|\/
corrlation 135-136, 138-141, 149, 152
$!
CPM 28, 116, 118, 120-121, 123-124, 188, 205, 218, 266, 274
Criteo 68, 190, 276
CRM 17, 21, 23, 38, 47, 49, 53, 62, 80, 82-85, 87-95, 101-102, 105-107, 207, 257, 269-272
CRM 360 21, 47, 49, 87, 90-92, 105-106, 257, 266, 270, 272
cross device 101, 209, 271
cross-sell 135
custom audience 83, 85
D
Danone 107, 208
Darty 199, 237
Databerries 240, 249, 276
Dataiku 115, 278
data lab 41
datalake 47, 75, 85, 100, 106, 257, 266
datalayer 46, 71, 85, 256, 267
datamining 17, 75, 105-106, 152
data scientist 40, 50, 126, 182, 267
dataset 113-115, 267
datawarehouse 47, 75, 257, 266-267
DBM 203
DCO 212-213, 235, 263, 267
Decathlon 54
Deepmind 14
Deveryware 277
device Id 257
Dimelo 89
display 24, 31, 46, 99, 105, 184, 195, 199, 207, 225, 241, 256, 260, 268, 273-274
DMP 21, 26, 47, 49, 62, 71, 82, 84-85, 87-88, 92-108, 195, 200, 205, 209, 256-257, 263, 268, 274, 276
Dolist 226
donnes non structures 50-51, 106, 256, 268
donnes structures 50, 63, 71, 74, 91, 256, 267-268
Doubleclick 199, 209, 277
drive to store 268
DSP 84, 101, 103, 184, 199-200, 202-205, 209, 212, 219, 241, 250, 256, 260, 263-264, 268, 272, 274
E
Easyjet 142
EDF 93
Eloqua 89, 91
ELT 73, 268
Eptica 89
ERP 72
Estimote 245
ETL 73, 268
Euclid Analytics 246
|
|\/
Exact Target 91
$!
F
Faberg 245
Facebook 14, 17, 31-32, 50-51, 56-58, 70, 81, 83, 85, 107, 199, 247
feature engineering 111, 169, 259
Fidzup 239, 250
fingerprinting 81
first party data 53-54, 70, 93, 204, 208, 256
floor price 191
Flos 94
G
GAFA 81, 269
Galerie Sakura 243
Gamned 200, 276
Gmail 15, 81, 93
Google 14-15, 17, 19, 32, 58, 63, 70, 72, 77-78, 81, 83, 85, 92, 99, 162, 199, 209, 217
gouvernance 38, 41, 255
GrandVision 233
H
Hadoop 18, 266, 269, 271
Hardis Group 248
I
Iconeme 243
IDFA 57, 78, 80, 84, 92, 101, 241, 249-250, 257, 267
Insiteo 239
Instagram 58, 83
IP 78, 81, 269
J
JC Decaux 241
K
Key Bank 254
L
Lactalis 54
La Franaise des Jeux 241
Lemonde.fr 67, 199
lifetime value 263, 270 |
LinkedIn 20, 106, 225
|\/
LiveRamp 83
$!
Lucibel 238
By
M
Mac address 79
machine learning 165
Madkuku 225
Maisons du monde 241
Makazi 276-277
MapReduce 264, 269-270, 273
marketing automation 21, 222, 277
Marketo 91
Marmiton 208
martech 40, 87
Martinelli Luce 94-95
matrice de confusion 33
McDonalds 142
Mediamath 200, 203, 209
Meetic 222-223
Mercedes 208
Microsoft 14
MongoDB 271
Monoprix 238, 243
moteur de recommandation 227, 272
muse de la Tulipe 243
MVP 42, 271
Mytraffic 241
N
Neolane 89
Nestl 225
Netadge 200, 241, 277
Netflix 13, 17, 170, 201
Nielsen 207
Nivea 244
NoSQL 85, 271
Notico Shopping 243
Nutella 54
O
O2 240
Oledcomm 238
onboarding 82-85, 93, 97, 101-102, 105, 207
open data 53
Oracle 276-277
Orange 199, 237
|
|\/
P
$!
persona 55
4$
Philips 238
By
piggybacking 271
Pinterest 51, 106
Placecast 240, 251
Pole Star 239
PriceMinister 142
Probance 91, 232
programmatique 24, 93, 105, 184, 187, 190-193, 197, 201, 203, 206, 208, 214, 216-217, 219-220, 243, 250, 260, 272, 274
Publicis 18, 91
Publicis ETO 91, 275
Purestorage 20
R
RCU 65, 87, 90, 272
reach 104, 206, 247
RetailMeNot 243
retargeting 190, 208, 216
RLSA 70
ROI 25, 34-35, 104, 207, 214, 272
RTB 120, 191, 193-197, 200-201, 203, 205, 215, 219-220, 260, 272
S
S4M 276, 278
Saatchi & Saatchi 245
Sage 89
Salesforce 89, 277-278
Sarenza 31-32
scoring 17, 21, 42, 179, 225, 235, 273
scrum 43
SDK 101, 273
second party data 53-54, 204, 208-209, 256
Selligent 91, 278
Sephora 239-240
Shopadvisor 243
Siebel 89
Sizmek 199, 213
Smartadserver 199
SNCF 72
Spark 273
Splio 91, 278
Spontex 44
SQL 73
SSP 184, 199, 260, 263-264, 268-269, 272-273
T
TabMo 241
|
|\/
Tactads 209
$!
TapValue 250
Target 166
By
V
visibilit 38, 191, 215-216, 218, 244
Vivaki 200
W
Walmart 142
Weborama 204
whitelist 210
Y
Yanco 200, 250
Yelp 72
Yoplait 199
YouTube 15, 17, 51, 58, 199
|
|\/
$!
4$
By
Table des figures
Figure 1 La data peut tre exploite tous les tages du tunnel marketing
Figure 2 Larbre dquivalence, un moyen puissant de rendre un objectif spcifique
Figure 3 Dterminer les indicateurs de performance : une tape cl dun projet data marketing
Figure 4 Modle en U : la premire visite a un poids aussi fort que le dernier clic
Figure 5 La matrice de confusion : une faon intuitive de mesurer lefficacit dun algorithme
Figure 6 Matrice de priorisation des cas dusages
Figure 7 Les 5 V du Big Data
Figure 8 Diffrence entre donnes structures et non structures
Figure 9 Pose dun cookie par le serveur lors de laffichage dune page
Figure 10 Personnalisation dune page web grce au cookie
|
Figure 11 Pose dun cookie par un tiers
|\/
$!
Figure 40 Segmenter les clients dune banque selon leur pargne et leurs revenus annuels
4$
Figure 42 La rgression linaire simple est lapproximation dun nuage de points par une droite
Figure 43 Relation entre les clics sur la catgorie bricolage et les clics sur la catgorie
jardinage
Figure 44 La significativit du coefficient de corrlation dpend du nombre dobservations
Figure 45 Matrice de corrlation entre quatre catgories de produits
Figure 46 Le treillis matriciel, une faon efficace de reprsenter la matrice de corrlation
Figure 47 Le corrlogramme, la faon standard de reprsenter la matrice de corrlation
Figure 48 Cercle des corrlations trac avec le logiciel R
Figure 49 Tableau des valeurs propres obtenues suite une analyse en composante principale
Figure 50 Le scree plot permet de dterminer les axes factoriels selon le principe du coude
Figure 51 Corrlation des anciennes variables avec les axes factoriels
Figure 52 Les axes factoriels se dduisent des 4 axes initiaux
Figure 53 Reprsentation des individus dans le plan factoriel
Figure 54 Segmentation et clustering sappuient sur des approches diffrentes
Figure 55 Le dendogramme, livrable classique dune analyse de clustering
Figure 56 Constitution de deux clusters avec la mthode non hirarchique
Figure 57 Quatre dimensions reprsentes dans ce graphique (CA, PdM, temps, comparaison)
Figure 58 Les sparklines, ou comment introduire des mini-graphiques dans vos tableaux
Figure 59 Tableau de bord quatre quadrants
Figure 60 Trois variables descriptives du consommateur : laquelle apporte le plus
dinformations sur la probabilit dachat ?
Figure 61 Lentropie est un moyen de dterminer les bons critres de choix dans un arbre de
dcision
Figure 62 Comparaison de diffrents modles sur une courbe ROC
Figure 63 Mthodologie derrire la conception dun algorithme prdictif
Figure 64 Prdiction du volume sonore des criquets selon la temprature
Figure 65 Trois types de variables sont collects sur les magasins pour prdire le chiffre
daffaires au m2
Figure 66 Rsultat de la rgression linaire multivarie avec le logiciel R
|
|\/
Figure 67 Trois types de variables collectes sur les clients pour prdire une ventuelle
$!
|
|\/
$!
4$
By
Table des encadrs
Attribution ou dduplication ?
Combien valent vos donnes personnelles ?
Dont worry, be happy
Cookie first party et cookie third party
Gestion dynamique des tags par un TMS en 5 tapes
La courbe de Lift (ou duplift)
La p-valeur, notion cl des statistiques
Problmes poss par les espaces de grande dimension
Les avantages de la visualisation des donnes : la parole aux utilisateurs
Un exemple de prdiction marketing qui a fait le tour du monde
Prdiction nest pas causalit !
Le scoring : une valuation par une note entre 0 et 1 de la probabilit dappartenance une classe
Du marketing programmatique au marketing programmable
|
|\/
Journey Optimizer
$!
4$
@ebookEyrolles
EbooksEyrolles
|
|\/
$!
4$
@Eyrolles
Eyrolles