You are on page 1of 8

TD 2 : les intrts et les dangers des outils prdictifs : les algorithmes et le big data en question

Ce TD de mthodologie sinscrit dans une srie de 3 TD portant sur le bon usage des outils
statistiques.
Le premier TD portait sur la distinction entre corrlation et causalit
Ce TD sinterroge sur lutilisation des algorithmes et du big data
Le TD 1 dconomie explicite la dmarche de modlisation de lconomiste

Objectifs :

Distinguer prdiction et prvision


Matriser les notions de big data et dalgorithme
Sinterroger sur llaboration des modles prdictifs , sur leur utilisation et leurs
consquences

Dmarche de classe inverse :

Etape 1 : en amont du TD

Documents introductifs : regardez les trois vidos dposes sur le pearltrees

Vido 1 : Big data : donnes, donnes, donnez-moi


Questions :
1. Quest ce que le big data
En anglais volume massif de donnes ou mga-donnes
Runion de donnes personnelles issues dune masse dindividus stockes sur des outils
numriques

2. Que permet le big data


- Prvoir les comportements risque ou positifs
- Prdire certains comportements
Lobjectif est de maximiser la stratgie des agents : obtenir le plus de profit pour les entreprises,
gagner les lections pour un parti

3. Les entreprises les obtiennent-elles gratuitement ?


Les individus les produisent partir de leurs outils connects de manire volontaire. Les
entreprises peuvent alors les utiliser gratuitement_____________________________
4. Les individus sont-ils spolis de leurs informations personnelles ?
Non car ils ont toujours la possibilit de les utiliser ; oui, car ces informations sont utilises par
dautres dune manire inconnue de lindividu
5. Quels en sont les enjeux : donnez des exemples le dmontrant ?
- Linformation assure le pouvoir : ceux qui possdent toutes ces donnes pourraient manipuler
les individus : un parti politique pour se faire lire ne prsenterait que des mesures souhaites
par les citoyens
- Un contrle fort des individus : les entreprises dassurance pourraient ne plus assurer les
fumeurs

Vido 2 : distinction entre prvision et prdiction


Questions : compltez le tableau suivant :

Distinction entre Prvision Prdiction


Type de modle mis en uvre Modle mathmatique Dterministe
probabiliste Modle mathmatique : loi
Probabilit mathmatique
Possibilit Relation causale

Niveau de risque derreurs fort faible


Niveau de cot lev Plus faible
Quantit de donnes collecter importante rduite
Dfinition Dterminer une probabilit de Loi mathmatique qui permet
survenue dun vnement en avec certitude danticiper un
fonction de la masse des comportement ou un
vnements passs vnement
Donnez au moins deux Rsultat des lections Mares
exemples Prix dun appartement

Vido 3 : Peut on anticiper les vnements ?


Questions
1. A partir de lexemple du film minority report expliquez ce quest un faux positif .
Lalgorithme a prdit que Tom Cruise allait commettre un crime : il est donc positif, alors quen
ralit il ne va pas en commettre : cest faux
2. Le film minority report est-il un film danticipation ? Justifiez votre rponse
En utilisant les donnes du big data, les endroits les plus dangereux et criminognes sont mis en
vidence. Lutilisation dalgorithmes est dj utilis aux EU et en Allemane pour rpartir les forces
policires et les distribuer dans les endroits et moments les plus criminognes. En Allemagne, le
systme prdit 85% les cambriolages.
3. En quoi les algorithmes big data sont-ils spcifiques au systme judiciaire US aujourdhui ?
Spcificit du systme judiciaire amricaine : au-del du doute raisonnable . Celui qui accuse
peut utiliser toutes les preuves possibles : lutilisation dalgorithmes est alors possible. On peut
utiliser alors comme preuve des probabilits
4. Existe-t-il un bon seuil pour avoir une prvision fiable ?
Non , car il y a deux risques :

- Un seuil faible peu coteux, mais qui risque de crer alors de nombreux faux positifs. Lalerte
est alors trs frquente et inutile

- Un seuil fort coteux : il rduit le risque derreurs, mais il est trs intrusif dans la vie prive
des individus et peut entrer en contradiction avec les principes dmocratiques. Il y a aussi le
risque de ne pas alerter en cas de ncessit
5. Montrez que les algorithmes issus du big data amliorent lefficacit de la prise de dcision
en rduisant le cot
Ces algorithmes sont bass sur un grand nombre de donnes et permettent de prvoir o la
probabilit forte dun incident peut avoir lieu. Il suffit alors de se concentrer sur ces zones : cela
rduit limportance de la tche
6. Quel sont les risques que comportent ces algorithmes bass sur le big data ?
Agir avant lvnement rduit la libert individuelle et le libre-arbitre : lindividu ne peut
choisir librement, car les consquences de ces actes sont prvisibles et intgres dans un
algorithme. Si ces actes sont considrs comme ngatifs par la socit, il en sera empch

Etape 2 : En prsentiel
Document 1 :
Avec les big data, les algorithmes et lanalyse prdictive individualise, notre socit est aujourdhui
confronte un bouleversement : prvisibilit collective, mais hasard individuel. Un tat amricain et
ses juges, confronts des phnomnes de rcidive, savent que, parmi les mille inculps non
diplms, pauvres, jeunes peine et sans enfants dont-ils doivent fixer la peine, la moiti rcidivera ;
mais que, parmi les cent inculps diplms, aiss, dge moyen et pres de famille qui leur sont
dfrs, seuls 20 % rcidiveront. Du point de vue de la socit, ces donnes agrges sont
dterministes et on peut considrer comme socialement efficace dans un contexte de surpopulation
carcrale, de condamner moins lourdement la seconde catgorie de population. Si les donnes sont
aujourdhui considres comme le nouvel or noir, cest donc juste titre : les donnes permettent
effectivement aux entreprises et aux socits daffiner la connaissance de la masse des individus
auxquels elles sont confrontes. Ces technologies sont donc bien prdictives. Les donnes offrent ainsi
la cl du comportement futur des clients, des citoyens ou des justiciables : leur utilisation permet
dorienter les investissements publics et privs et de gagner en efficacit conomique et sociale. Pour
le plus grand bonheur de tous, par exemple, celui de cet assur qui bnficie dun tarif et dun service
personnalis, adapt son risque, son tat de sant et son style de vie. Cest dj le cas en Afrique
du Sud, par exemple, o lassureur sant Discovery connat un dveloppement foudroyant en adaptant
le tarif de chacun et les conseils prodigus en fonction des donnes dactivit fournies par un bracelet
connect et des donnes dalimentation fournies par les cartes de fidlit des supermarchs.
Source :

Questions :
1. Ces donnes collectes sont-elles considres comme prdictives ?

Ces donnes qui servaient amliorer la prvisibilit sont devenues aujourdhui grce
lamlioration de la collecte et de lanalyse sont devenues prdictives au niveau collectif. Elles
permettent danticiper la survenance dvnements collectifs, mais elles ne permettent en aucun
cas une prdiction individuelle
2. En quoi les donnes tires du big data sont-elles utiles pour la collectivit ?

Rduction des cots conomiques: lemprisonnement est moindre, ils y a besoin de moins de
dpenses carcrales
Et rduction du cot social : la prison peut augmenter le risque de rcidive
3. En quoi peuvent-elles aussi augmenter le bien-tre des individus ?

Rduction des cots dassurance et une aide adapte au cas personnel


Document 2 :
Lanne dernire, la socit amricaine IBM et lagence de la dlinquance juvnile de Floride ont
annonc leur collaboration. Lagence utilise depuis un logiciel conu par IBM qui permet de prvoir la
rcidive des mineurs dlinquants.
En fonction dun certain nombre de paramtres comme lge, lenvironnement familial, le casier
judiciaire ou les frquentations , il fait office d aide la dcision pour lofficier de probation, en
fonction du risque de rcidive. Ainsi, ladministration peut orienter plus efficacement les adolescents
vers les meilleurs programmes de rhabilitation , prcise IBM. Joint par Rue89, Mark Greenwald,
charg de la recherche au sein de lagence, prcise : Nous ne disposons pas danalyse individuelle.
Nous ne savons pas qui va faire quoi, on ne peut pas dire : Tiens, cet enfant va rcidiver. Cela na
rien voir avec Minority Report.Nous avons seulement une analyse de donnes qui nous donne des
tendances gnrales pour un groupe de plusieurs milliers dadolescents, afin de nous aider valuer
les risques et mieux comprendre ce qui motive la dlinquance.
Mark Greenwald y voit un autre avantage : Beaucoup dadministrations amricaines, y compris la
ntre, font face de svres coupes budgtaires. Ce systme nous permet de mieux allouer nos
ressources.
Source : Martin Untersinger, aux Etats-Unis, la police prvoie les crimes par ordinateur. Publi le 13
novembre 2011
Questions :
4. Quels sont les buts recherchs par lagence de la dlinquance juvnile de Floride ?
- Aide la dcision : trouver le meilleur programme adapt ladolescent
- Rduire le cot essentiel en priode de coupes budgtaires
5. Pourquoi un scnario la minority report nest-il pas craindre selon les concepteurs de ce
programme ?
Cest une analyse globale des tendances, mais chaque adolescent est considr comme un individu.
Les donnes ne sont pas utilises pour prdire le potentiel criminel ou non de ladolescent.

Document 3 :
Lanalyse des donnes ne sarrte pas l. A New York, Edmonton, Minneapolis, Los Angeles,
Memphis ou Santa Cruz, la police utilise des logiciels pour prdire le lieu et la date dun crime... avant
quil ne soit commis.
La ville de Santa Cruz a mis en pratique depuis le 1er juillet un algorithme dvelopp Los Angeles
par un mathmaticien de 29 ans, bas sur les formules utilises pour tudier les tremblements de terre
et leurs rpliques.L aussi, lalgorithme digre de grands amas de donnes sur la criminalit, et
fournit aux policiers des tendances, des probabilits, des intervalles temporels et des zones
gographiques o les crimes ont une forte probabilit dtre commis.
Le programme, qui tourne sur un banal ordinateur, est dune simplicit dsarmante et utilise des outils
grand public, notamment Google Maps, pour afficher les donnes et les informations calcules. Les
patrouilles utilisent ces cartes pour renforcer leur prsence dans les zones dsignes.Contact par
Rue89, Zach Friend, de la police de Santa Cruz, est satisfait de lefficacit du programme : Nous
avons fait un premier bilan aprs trois mois : nous avons assist une baisse de 17% des crimes sur
lesquels nous nous concentrons (vols de voiture, cambriolages). Le journaliste amricain Joel N.
Shurkin expliquait il y a quelques semaines sur TPM que lalgorithme avait vu juste sur 40% des
crimes quil tait cens prvoir.
Pour Zach Friend, les logiciels prdictifs constituent une vraie amlioration : A Memphis, cest encore
IBM qui sest associ la police et au dpartement de criminologie de lUniversit, ds lanne 2005.
Et cela semble faire ses preuves. Linstitut dtude Nucleus a conclu lt dernier que la police de
Memphis avait assist une rduction des crimes de 15,8%, sans augmentation parallle du nombre
dofficiers et tout en tendant son champ daction . Contact par Rue89, Christophe Herman, de la
division logiciel dIBM nous donne quelques dtails sur le fonctionnement de ce logiciel. Ce dernier
traite de grands amas de donnes (mains courantes, plaintes...), et de nombreux paramtres (mto,
vnements sportifs...) : Toutes les informations atterrissent dans des bases de donnes qui ne sont
pas forcment connectes entre elles. On peut, par exemple, sapercevoir que dans le secteur de la gare
entre 22 heures et 23 heures il y a une recrudescence de situations anormales. On dcouvrira peut-tre
quil y a un groupe de pickpockets qui opre. Lanalyse prdictive permet de dtecter un facteur
anormal ou une corrlation qui aurait chapp la police.
Lenjeu est fort pour IBM, qui a beaucoup mis sur lanalyse prdictive : prs de 12 milliards de
dollars dont lachat de deux socits (SPSS pour 1,2 milliard de dollars en 2009 en et Cognos pour 5
milliards en 2007).
Le crime, une affaire trop complexe pour tre prdite ? Ce nest pas lavis de Jeff Brantingham, un
anthropologiste de luniversit de Los Angeles qui y a supervis le projet de police prdictive, qui
expliquait au Los Angeles Times : Les dtracteurs du projet veulent vous faire croire que les
humains sont trop complexes et trop alatoires. Ce nest pas le cas. Un crime, cest de la physique.
Lide de prvoir les crimes avant quils ne surviennent semble faire son chemin, du moins dans les
administrations amricaines. Ds 2010, Charlie Beck, le chef de la police de Los Angeles, dclarait :
Alors que la police a peu peu repouss le crime, nous cherchons ce qui peut nous amener au niveau
suprieur. Je pense sincrement que cest la police prdictive.
Aux Etats-Unis comme en Europe, crise oblige, les forces de lordre voient leurs effectifs et leurs
moyens dcrotre, alors que la dlinquance ne montre aucun signe de faiblesse. Les logiciels
constituent un bon moyen de rationaliser les effectifs. Mme si la faible ampleur de la police
prdictive ne peut pas prtendre pallier cette contraction du personnel, on en est pas si loin. Pour Scott
Dickson, analyste pour la police du Texas et blogueur : Cela revient moins cher de prvenir un
crime que de le rsoudre : cest a la vraie promesse [de ces programmes, ndlr]. Evidemment ces
pratiques ne vont pas sans poser des questions thiques, et certains craignent que des individus soient
inquits avant davoir commis une quelconque infraction. Zach Friend balaie ces inquitudes : Ce
programme prdit les lieux, pas les gens. Il produit des cartes par jour, de 150 m par 150 m. Cela ne
concerne pas directement des gens, cela permet simplement de dployer des policiers.
Source : Martin Untersinger, aux Etats-Unis, la police prvoie les crimes par ordinateur. Publi le 13
novembre 2011
Questions :
6. Quel est le but du logiciel mis en uvre par la police de Santa Cruz
Rduire la criminalit en empchant les crimes de se produire grce un algorithme qui prdit les
zones et les priodes risque
7. Prsenter le modle sur lequel sappuie la police
Ce modle est bas sur lide que le crime est prvisible et non alatoire. Lalgorithme mlange
un grand nombre de donnes jusque-l non relies : des donnes policires (mains courantes,
plaintes...), et de nombreux paramtres (mto, vnements sportifs. ON peut alors mettre en
vidence des corrlations : dans le secteur de la gare entre 22 heures et 23 heures il y a une
recrudescence de situations anormales
8. Quels rsultats sont obtenus ? Baisse de la criminalit
9. Quels seraient les buts ultimes de ces algorithmes big data ?
Empcher les crimes : cela coterait moins cher

Document 4 :
En avril dernier, le juge en chef John G.Roberts rendait visite lInstitut Polytechnique de Rensselaer.
Dans le cadre de cette visite, la prsidente de luniversit, Shirley Ann Jackson, lui a pos une
question pour le moins tonnante, qui nest pas sans rappeler le film Minority Report : serez-
vous un jour en mesure de prdire le futur ? . Si cette question peut surprendre, la rponse de
Roberts est encore plus insolite : ce jour est dj arriv , a rpondu le juge en chef.
travers cette rponse, Roberts faisait certainement rfrence au cas de Eric L. Loomis, un homme
du Wisconsin condamn six ans de prison partir du verdict dun logiciel. Le programme en
question est lalgorithme Compas, dvelopp par lentreprise prive Northpointe Inc. Le logiciel sert
valuer le risque de rcidive dun criminel, en se basant sur une srie de graphiques. Le rapport gnr
par Compas laissait prsager un risque lev de rcidive et de violence, et donc une menace pour la
socit.
Compas : un algorithme tenu secret par lentreprise qui le dveloppe
Face cette sentence, M Loomis a fait appel, affirmant que ses droits ont t viols par lusage de cet
algorithme quil na pas t en mesure de consulter lui-mme. En effet, lentreprise qui dtient
Compas considre que son algorithme est un secret commercial. Ni la justice ni les accuss ne sont
donc autoriss examiner la formule mathmatique utilise.
En mars dernier, la justice a finalement accept dtudier sa demande en rclamant lavis du
gouvernement fdral.
Source : Compas : un homme condamn six ans de prison par un algorithme in www.lebigdata.
Questions :
10. Sur quelles bases a t condamn mr Loomis ? sur la base dun algorithme qui considrait
que son risque de rcidive tait lev
11. Quel principe juridique cela remet-il en cause ?
La dfense doit pouvoir analyser et vrifier llment qui accuse le prvenu. Or comme le logiciel
Compas relve dune entreprise prive, celle-ci ne veut pas dvoiler son algorithme : cest un secret
commercial, relevant du brevet.

Document 5 :
Lquipe dinvestigation du site amricain ProPublica a dmontr quun logiciel de prdiction de la
rcidive, trs utilis dans lunivers carcral amricain, a tendance dfavoriser les condamns noirs.
Pour apprcier lefficacit de lalgorithme en question, ProPublica a compar le parcours de
10 000 personnes arrtes dans le comt de Broward, en Floride, aux prvisions que lalgorithme avait
ralises lors de leur dtention, en 2013 et 2014.
Les journalistes amricains ont compt le nombre danciens accuss qui avaient effectivement t
arrts une nouvelle fois, lors des deux annes qui ont suivi. Les rsultats, nombreux, mettent
nettement en vidence un biais ethnique :
Les personnes noires sont plus souvent considres comme tant hautement susceptibles de
rcidiver, sans que ce soit suivi de faits (44,9 % des Afro-amricains classs dans cette
catgorie nont pas commis dautres crimes, contre 23,5 % de personnes blanches).

Les personnes blanches, linverse, sont considres moins risques quelles ne devraient
ltre (47,7 % de personnes blanches classs dans cette catgorie ont rcidiv, contre 28 % de
personnes noires).
Les personnes noires ont deux fois plus de chance dtre considres, tort, comme
potentielles rcidivistes violentes.
Les personnes blanches rcidivistes et accuses de crimes violents par le pass ont 63% plus
de chances de se voir attribuer, tort, un faible risque de rcidive violente, par rapport un
criminel noir au mme profil.
Dans le logiciel de Northpointe, les 137 questions utilises pour dterminer si un prvenu est un
potentiel rcidiviste expliquent en partie pourquoi les Afro-Amricains se retrouvent dsavantags.
Lalgorithme a en effet tendance criminaliser certains traits sociaux, plus communs chez les Afro-
Amricains aux tats-Unis, comme le chmage, la pauvret et le fait davoir des membres de sa
famille qui ont fait de la prison.(.) l
Source : Etats-Unis : un algorithme qui prdit les rcidives lse les Noirs. Article rdig par Andra
Fradin. Publi le 24 mai 2016 in tempsreel.nouvelobs.com
Questions :
12. En ralit le logiciel compas obtient-il les rsultats esprs ?
Il fait de nombreuses erreurs : il surestime la rcidive chez les noirs, et la sous-estime chez les blancs
13. En quoi est-il biais ?
Il considre comme criminogne certains faits sociaux plus frquents chez les noirs que chez les blancs :
chmage, pauvret. Les donnes transmises au logiciel ne sont pas neutre : il y a des prnotions sur les
critres de la rcidive

Document 6 :
Cette capacit prdictive est fascinante. Elle nous blouit et nous aveugle. Elle nous fait oublier que
ces technologies ne sont pas prdictives. Du moins pas si on considre le point de vue de lindividu, du
consommateur ou du justiciable. Comme celui de la particule quantique, le comportement de chaque
individu reste fondamentalement alatoire. Mon voisin rcidivera ou non, selon quil aura trouv ou
non un CDD et que le vigile aura ou non la tte tourne au moment opportun. Jaurai un cancer ou
non, en fonction de mille paramtres encore inconnus. Du point de vue de lindividu, ces technologies
ne sont donc pas prdictives. Et ainsi, paradoxalement, ces outils ne permettent pas une approche
personnalise. Au contraire, les technologies statistiques sont la ngation mme de lindividu, ici
rduit une case : Blanc, Col bleu, 50 ans, au chmage, individu anonyme plac lintersection de
ces caractristiques, votre taux de rcidive est de X %. Vous ntes plus une personne doue de
volont, vivant dans un contexte, dot dune identit propre ( ipsit ), humain interagissant avec
une socit humaine et un juge humain : vous tes un grain statistique lisse, dlimit, pes, calibr,
lavenir pes par un logiciel.
Deux objectifs lgitimes pour une socit, lefficacit et la justice, deviennent ainsi frontalement
antagonistes. Allger les peines de ceux dont la socit sait, ayant fait des catgories homognes,
quils rcidiveront moins, cest indubitablement faire preuve defficacit. Mais pour lindividu dont
le futur nest pas crit, cest faire preuve dinjustice. La prvisibilit collective permet lefficacit, son
application au hasard individuel est injuste.
Source :

Questions :
14. Est-il possible de pouvoir anticiper le comportement dun individu ? Pourquoi ?
Il est impossible danticiper le comportement dun individu :
- Part de hasard
- De nombreux variables indpendantes jouent sur le comportement. On ne peut toutes les
prendre en compte
- Lindividu a une marge de libert, il a une identit et une volont propre

15. En quoi cela remet-il en cause au moins en partie lanalyse prdictive ?


On peut mettre en avant les caractristiques des personnes qui vont avoir tel ou tel comportement,
mais on ne peut prvoir exactement qui adoptera ce comportement
16. Expliquez la phrase souligne.
Utiliser ces modles de prvision est efficace au niveau collectif : cela permet de rduire les dpenses
demprisonnement. Mais au niveau individuel, cest injuste : une personne, car elle a certaines
caractristiques sera envoye en prison, alors quelle ne rcidiverait pas.

Document 7 :
Si les rsultats des nouvelles technologies statistiques sont tant valoriss, cest galement en raison des
mthodes sous-jacentes : combinaisons dalgorithmes et de mesures, elles seraient neutres et
objectives, mettant ainsi distance notre arbitraire et nos prjugs. Las, sous les oripeaux de la puret
scientifique le squelette est humain. Un algorithme qui, en dpit des apparences de neutralit, forge le
paysage dans lequel nous voluons et a donc un impact direct sur nos comportements et notre socit.
(..) Les algorithmes faonnent donc le monde dans lequel nous voluons et sont donc tout sauf neutres
sur nos comportements. Qui plus est, ils vhiculent des valeurs. Ainsi, Google et ses rankings
valorisent la recherche dinformations et de conseils, l o Twitter et ses tweets valorisent lautorit
descendante et o Facebook et ses likes valorisent le plbiscite.
Le choix de lalgorithme ne relve donc pas, en dpit des apparences, dune dimension technique,
mais dune vision et dune ambition socitale. Abandonner ce choix des informaticiens, croire en
une optimalit mathmatique et leur dlguer le soin de latteindre, cest donc abdiquer, par
inconscience ou par facilit, nos choix de socit. En pratique, ces experts informaticiens sont
galement inconscients de la dimension politique de leurs choix techniques. Il ne sagit donc pas dune
dlgation de pouvoir des experts, mais dune volatilisation de ce pouvoir : le choix du cap est
transfr du pilote un barreur aveugle, vers le hasard. En dautres termes, ce que le recours ces
outils fait disparatre, ce nest pas larbitraire, mais larbitrage.
Source :

Questions :
1. Les algorithmes sont-ils neutres ?
Les algorithmes paraissent neutres, car ils ont bass sur la science et les mathmatiques. En ralit, ils
ne le sont pas : Ces algorithmes vhiculent des valeurs : Google et ses rankings valorisent la
recherche dinformations et de conseils, l o Twitter et ses tweets valorisent lautorit descendante et
o Facebook et ses likes valorisent le plbiscite.

2. Quels sont les effets des algorithmes ?


Ils influencent le monde dans lequel on vit : quand les algorithmes considrent que les noirs nt un plus
fort taux de rcidive que les blancs, ils influencent la manire dont sont perues les individus
3. Expliquez la phrase souligne .
Quand aujourdhui, on utilise des algorithmes, lobjectif est de trouver la meilleure solution :
loptimum social. Lutilisation de la science et des maths permettraient donc de latteindre sans
difficults. Comme ces algorithmes ne sont pas neutres, cela signifierait que les choix de valeurs, de
modles de comportement sont donns aux informaticiens.
4. Quelles en seraient les consquences ?
Le problme est que les informaticiens ne sont pas conscients des consquences politiques et
sociales de leur choix technique. Ces choix seraient alors pris au hasard : il ny aurait pas de
rflexion collective et de choix rflchi de la part de la population

You might also like