Introducere in Statistica

Universitatea Bucureşti
Facultatea de Filosofie
CUPRINS
Introducere şi concepte de bază.................................................................................................................. 3

Capitolul 1 .................................................................................................................................................. 8
Descrierea variabilelor................................................................................................................................ 8
Capitolul 2 ................................................................................................................................................ 23
Distribuţii de probabilitate........................................................................................................................ 23
Capitolul 3 ................................................................................................................................................ 32
Eşantionarea. Distribuţia de eşantionare. Intervale de încredere .............................................................. 32
Capitolul 4 ................................................................................................................................................ 45
Proceduri de eşantionare........................................................................................................................... 45
STATISTICĂ Capitolul 5 ................................................................................................................................................ 54
Testarea ipotezelor statistice. Teste de semnificaţie ................................................................................. 54
Capitolul 6 ................................................................................................................................................ 62
Asocierea variabilelor calitative ............................................................................................................... 62
Capitolul 7 ................................................................................................................................................ 69
Studiul relaţiilor între variabile cantitative ............................................................................................... 69
Coord. - Lector drd. Lucian Pop Anexa 1. Distribuţia normală normată (standard) .................................................................................... 87
Anexa 2. Valorile critice ale lui t pentru aria de sub curbă aflată la dreapta valorii. ................................ 89
Introducere, Cap. 1, 2, 6 - Lucian Pop
Anexa 3. Valorile critice ale lui χ2 ........................................................................................................... 91
Cap 3, 5 - Lucian Pop, Cosmin Marian
Cap 4 - Asist. Cosmin Marian
Cap 7 - Lector dr. Gabriel Badescu
2001
Introducere şi concepte de bază provocare a statisticii o constituie exact acest proces de inferenţă (generalizare) de la
Deseori, în viaţa de zi cu zi, folosim sau auzim expresii cum ar fi: "statisticile datele de eşantion la populaţie.
arată că …", "o statistică simplă sugereaza că …" etc.. De multe ori, oamenii asociază
statistica cu o simplă "colecţie" de numere. Totuşi, statistica reprezintă mult mai mult Exemplul I.1 Primarul unui oraş doreşte înfiinţarea unor noi locuri de joacă pentru copii.
decât atât, ea dezvoltându-se ca o metodă ştiinţifică de analiză larg utilizată în multe Pentru acest lucru însă, ar mai avea nevoie de fonduri suplimentare, pe care se gândeşte
domenii. În ştiinţele sociale, rolul ei a devenit din ce în ce mai important cu deosebire în să le obţină prin introducerea unei noi taxe. Totuşi, pentru că alegerile se apropie,
ultimii 30-40 de ani. Şi în acest domeniu, ca şi în multe altele, colectarea, organizarea şi primarul ar dori să ştie în ce măsură populaţia cu drept de vot a oraşului consideră ca
analiza informaţiei sunt "instrumente" deosebit de utile. Tehnicile de culegere a legitimă introducerea acestei noi taxe. În acest caz, populaţia vizată este constituită deci
informaţiei sunt variate, de la cercetări pe bază de chestionar sau interviuri telefonice la din toate persoanele în vârstă de peste 18 ani din respectivul oraş. Deoarece este practic
experimente. Informaţiile astfel culese poartă numele generic de "date" şi se referă în imposibil ca primarul să discute cu fiecare alegător în parte, el va efectua (cu ajutorul
general la măsurarea unor atribute sau caracteristici ale "subiecţilor" analizaţi. Măsurarea unei firme specializate) un sondaj de opinie pe un eşantion de - să zicem - 500 de
este efectuată prin clasificarea "observaţiilor" (subiecţilor) conform unor reguli specifice persoane. Rezultatele sondajului arată că 55% din persoanele investigate sunt în favoarea
(de exemplu, măsurarea vârstei constă în clasificarea indivizilor în funcţie de numărul de introducerii acestei taxe. Totuşi acest rezultat nu reprezintă "adevărata" valoare a
ani de la naştere). procentului din populaţia cu drept de vot care este dispusă să susţină iniţiativa primarului.
În general, statistica în ştiinţele sociale se preocupă de trei mari aspecte: a) modul Pentru a afla "adevăratul" procent din populaţie, primarul (respectiv cei care au efectuat
în care datele sunt culese, sau mai exact modul în care se face selecţia observaţiilor care sondajul şi analizează datele) va trebui sa apeleze la inferenţa statistică.
urmează sa fie analizate, b) descrierea acestor date şi c) explicarea şi/sau predicţia unor
fenomene studiate. Înainte însă de a trece la tratarea pe larg a acestor aspecte este nevoie Este momentul acum să introducem două noi concepte, şi anume acelea de
de introducerea unor concepte de bază, precum şi a câtorva distincţii. Una dintre acestea, parametrii şi respectiv statistici la nivel de eşantion.
şi cea mai importantă poate, este aceea între statistica pur descriptivă şi statistica Caracteristicile populaţiei despre care facem ineferenţe pe baza eşantionului se
inferenţială. Practic, aceasta din urmă constituie "nucleul dur" al statisticii. Pentru a numesc parametrii. Caracteristicile eşantionului pe baza cărora inferăm se numesc pur
înţelege distincţia mai sus amintită, e nevoie însă mai întâi de clarificarea conceptelor de şi simplu statistici. În exemplul de mai sus, 55% reprezintă o statistică descriptivă,
populaţie (statistică) şi eşantion. deoarece ea descrie sintetic o caracteristică a eşantionului. Cele mai multe studii sunt însă
Termenul de populaţie are o semnificaţie aparte în statistică. Populaţia statistică interesate în aflarea parametrilor, care în general sunt necunoscuţi (exemple: Câţi săraci
reprezintă mulţimea tuturor obiectelor sau indivizilor care prezintă interes pentru studiu. exista în România? Care este procentul din populaţie de susţinători ai unui partid? etc.).
De exemplu, dacă cineva doreşte sa studieze problema neparticipării şcolare, atunci Eşantioanele şi statisticile descriptive sunt utile în măsura în care ele pot oferi informaţii
populaţia va consta din totalitatea copiilor de vârstă şcolară din România. Dacă însă despre parametrii de interes. Statistica inferenţială este aceea care permite obţinerea unei
obiectul studiului este gradul de poluare a localitaţilor urbane, atunci populaţia va consta masuri a acurateţei statisticilor folosite pentru estimarea valorii parametrilor. În
din toate oraşele României. În statistică aşadar, când ne referim la populaţie avem în consecinţă, atunci când întreaga populaţie este cuprinsă într-un studiu, statistica
minte mulţimea unitaţilor de analiză, indiferent ce reprezintă acestea (şcoli, oraşe, inferenţială nu este necesară.
întreprinderi, ţări, oameni sau chiar procese, fenomene şi acţiuni).
Un eşantion nu este nimic altceva decât un subset sau o submulţime a populaţiei În final ne vom opri asupra unei ultime noţiuni deosebit de importante pentru
analizate. Extragerea unui eşantion din populaţie este utilă şi chiar necesară în condiţiile studiul statisticii, şi anume asupra variabilelor. Vom defini variabila ca fiind orice
în care resursele (financiare, de timp etc.) de care dispun iniţiatorii studiului nu sunt caracteristică a membrilor unei populaţii sau unui eşantion care variază (în respectiva
suficiente pentru a asigura investigarea întregii populaţii. Să ne imaginăm că cineva ar populaţie/eşantion). Astfel, culoarea părului indivizilor dintr-o populaţie este o variabilă
dori să studieze problema sărăciei în România. În absenţa unui eşantion, respectivul în măsura în care indivizii care compun respectiva populaţie au păr de culori diferite.
cercetător ar fi pus în situaţia de a investiga peste 7 milioane de gospodării, ceea ce ar Dacă toţi indivizii ar fi blonzi, să zicem, atunci culoarea părului ar fi constantă în
duce la costuri financiare imense şi la o extindere extraordinară a timpului rezervat respectiva populaţie. Cu cât o caracteristică are o variaţie mai mare, cu atît respectiva
culegerii de informaţii. În acelaşi timp, un subset din populaţia analizată, extras conform populaţie este mai eterogenă şi, invers, cu cât o caracteristică dată are o variaţie mai
unei scheme de eşantionare riguroase, poate furniza toată informaţia necesară la un nivel mică, cu atât respectiva populaţie va fi mai omogenă, din perspectiva respectivei
de acurateţe foarte ridicat. caracteristici. În exemplul de mai sus, valorile posibile ale variabilei "culoarea părului" ar
Putem acum clarifica distincţia dintre statistica descriptivă şi cea inferenţială: în fi "brunet", "blond", "roşcat" etc.. Fiecare individ (statistic) poate lua o singură valoare
timp ce metodele statistice descriptive constă în descrierea sintetică a informaţiei pentru o variabilă..
cuprinse într-un set de date, metodele statistice inferenţiale constă în acele tehnici şi Variabilele pot fi clasificate în funcţie de multe criterii. Una din distincţiile
proceduri folosite pentru a face generalizări despre caracteristicile unei populaţii, pe importante este aceea dintre variabile discrete şi variabile continue. Atât variabilele
baza informaţiilor culese de la un eşantion extras din acea populaţie. Practic marea discrete cât şi variabilele continue pot lua o infinitate de valori. Diferenţa dintre ele
constă în faptul că în timp ce în cazul variabilelor continue între două valori succesive ale 3. Măsurarea la nivel de interval, oferă în plus faţa de nivel anterior (cel ordinal) şi
variabilei pot exista o infinitate de valori, în cazul variabilelor discrete acest lucru nu se informaţie referitoare la distanţa dintre valorile scalei şi este caracterizată de existenţa
întâmplă. Un exemplu de variabilă continuă este înălţimea clădirilor unui oraş masurată unor intervale egale. Totuşi, la acest nivel de măsurare nu există un zero absolut, ci
în metri, iar un exemplu de variabilă discretă îl reprezintă veniturile indivizilor dintr-o mai degrabă unul convenţional. Exemple de astfel de scale de măsurare sunt
populaţie, măsurate în lei. În cazul primei variabile, între doua valori succesive ale temperatura masurată în grade Celsius (intervalele dintre valori sunt egale, dar
acesteia (de exemplu 5 şi 6 m) există o infinitate de alte valori deoarece metrii se punctul 0 este convenţional ales ca fiind temperatura la care apa ingheaţă),
subdivid în centimetri, apoi în milimetri etc., în cazul veniturilor acest lucru nu mai este coeficientul de inteligenţă - IQ - (daca două persoane au scoruri de 100 şi respectiv
posibil, între 5 lei şi 6 lei nemaiexistând subdiviziuni. 150, putem spune ca diferenţa dintre cei doi este de 50 de puncte, dar nu putem spune
Nivelul de măsurare al variabilelor este un alt criteriu de clasificare a acestora, că cel de-al doilea este cu 1/2 mai inteligent decât primul sau că scorul 0 semnifică
de o mare importanţă pentru studiul statisticii. Putem distinge între patru niveluri de absenţa inteligenţei).
măsurare (nominal, ordinal, de interval şi de raport), în funcţie de trei criterii: 4. Măsurarea la nivel de raport include toate caracteristicile nivelurilor anterioare
a) posibilitatea de a ordona valorile variabilei, (ordonare şi intervale egale), plus existenţa unei "origini" sau zero absolut. Acest
b) egalitatea intervalelor dintre valorile variabilei (sau altfel spus existenţa unei unităţi lucru permite formularea unor afirmaţii în termeni de proporţii (raporturi) între valori.
de măsură), De exemplu, vitezele de raspuns a doi subiecţi la un acelaşi stimul pot fi comparate în
c) existenţa unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut". termeni de "timpul de răspuns a fost de două ori mai mare" etc.. Exemple de variabile
masurate la acest nivel sunt vârsta, greutatea, înălţimea, distanţa, numărul de copii din
Tabelul I.1 - Niveluri de masurare a variabilelor gospodărie etc.
a) ordonare b) unitate de masură c) zero absolut
Corecta identificare a nivelului de măsurare utilizat este foarte importantă în alegerea
Nominal nu nu nu
Ordinal da nu nu procedurilor satistice de analiză. După cum se poate observa din descrierea de mai sus,
De interval da da nu pentru fiecare nivel exista operaţii matematice permise şi operaţii interzise. Astfel, la
De raport da da da primul nivel, cel nominal nu sunt permise nici ordonarea, nici adunarea/scăderea şi nici
înmulţirea/împărţirea. La nivelul ordinal este permisă numai ordonarea, la cel de interval
1. Nivelul de măsurare nominal presupune clasificarea unor atribute, caracteristici, sunt permise în plus şi operaţiile de adunare/scădere, iar la ultimul nivel, cel de raport
fenomene etc. în categorii care trebuie să fie distincte, mutual exclusive şi exhaustive. sunt permise toate operaţiile.
Acest tip de variabile (respectiv scalele folosite în măsurare) indică numai faptul că În funcţie de nivelul de măsurare, vom vorbi despre variabile măsurate la nivel
exista o diferenţă calitativă între categoriile studiate, nu şi magnitudinea acestei nominal, variabile măsurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale,
diferenţe. La limită, putem privi aceste variabile ca pe nişte tipologii. Câteva exemple ordinale, de interval şi de raport. Reducând cele patru clase la două, putem vorbi de
de variabile măsurate la nivel nominal sunt: statutul ocupaţional al indivizilor variabile calitative (nivelurile nominal şi ordinal) şi variabile cantitative (interval şi
(agricultor, salariat, mic întreprinzator, şomer etc.), religia (ortodox, romano-catolic, raport). Datorita caracterului "ierarhic" şi cumulativ al nivelurilor de măsurare (de la
greco-catolic etc.) apartenenţa etnică (român, maghiar, rrom etc.), mediul de rezidenţă multe restricţii către nici o restricţie în ceea ce priveşte operaţiile permise, sau de la
(rural, urban) ş.a.m.d.. Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte "calitativ" la "cantitativ"), vom putea întotdeauna trata o variabilă aflată la un nivel
cuvinte nu există o ierarhie (decât eventual conform unor criterii extrinseci) şi în "superior" de măsurare ca şi cum ar fi fost măsurată la un nivel "inferior". De exemplu,
consecinţă problema "distanţei" sau a intervalelor dintre valori nici nu poate fi pusă. vârsta masurata în ani de viaţă va putea oricând fi tratată ca o variabilă ordinală, dacă îi
Cu atât mai puţin putem discuta despre existenţa unui "zero absolut" (exemplu: grupăm valorile (sub 20, 21-30, 31-50, peste 50). Niciodată însă nu vom putea trata o
fiecare individ are un statut ocupaţional sau aparţine unei etnii, sau altfel spus absenţa variabilă aflată la un nivel "inferior" ca pe una aflată "mai sus" în ierarhie. (Câteodată,
caracteristicilor "statut ocupaţional" sau "apartenenţă etnică" este imposibilă). cercetătorii fac excepţie de la această regulă, tratând variabilele ordinale ca şi cum ar fi
2. Nivelul de masurare ordinal implică nu numai clasificarea elementelor în categorii ci măsurate la nivel de interval. Totuşi, o dată cu dezvoltarea unor noi tehnici de analiză,
şi posibilitatea ordonării acestora de la minim la maxim (existenţa tranzitivităţii: dacă dedicate special nivelelor de măsurare "calitativă", aceste practici devin din ce în ce mai
a>b şi b>c, atunci a>c). Totuşi, la acest nivel de măsurare nu este oferită nici o rare.)
informaţie cu privire la "distanţa" dintre valorile scalei de măsură. Cu alte cuvinte,
diferenţa dintre prima valoare şi cea de-a doua poate fi diferită de diferenţa dintre a Înainte de a încheia această scurtă introducere, ar mai fi necesare câteva cuvinte
patra şi a cincea. Exemple de variabile măsurate la nivel ordinal sunt calificativele despre utilizarea calculatoarelor în analiza statistică. Aplicaţiile sau programele pentru
şcolare (cu valorile "insuficient", "suficient", "bine" şi "foarte bine"), satisfacţia faţă computer care pot fi utilizate sunt foarte numeroase, ele variind în funcţie de
de anumite aspecte (cu valorile "foarte nesatisfăcut", "nesatisfăcut", "satisfăcut", complexitatea analizelor pe care le pot efectua şi în funcţie de uşurinţa în utilizare (sau
"foarte satisfăcut") etc.. altfel spus în funcţie de cât sunt de "prietenoase" cu utilizatorul). Pentru utilizatorii de
Microsoft Office©, unul dintre cele mai la îndemână instrumente este MS Excel©, care
poate efectua o serie de analize statistice - mai ales descriptive, fiind însă mai puţin Capitolul 1
"dotat" la capitolul statistică inferenţială (totuşi există module care îi pot îmbunătăţi
performanţa în această privinţă). Dintre programele "dedicate" analizelor statistice, cel Descrierea variabilelor
mai răspândit la noi în ţară pare a fi SPSS, datorită interfeţei foarte prietenoase şi deci
uşurinţei în utilizare. O altă variantă, mai puţin răspândită dar care are avantajul de a fi
complet gratuită şi prietenoasă este VISTA ( http://www.visualstats.org ). Dezavantajul De obicei, după colectarea datelor printr-o cercetare (fie ea de tip recensământ -
acesteia constă în viteza relativ redusă de lucru cu baze de date voluminoase (mai mult de adică prin investigarea întregii populaţii, fie de tip sondaj - adică prin investigarea unui
o mie de cazuri). eşantion), informaţia este organizată într-o bază de date care de cele mai multe ori are
forma unui tabel în care pe rânduri sunt aşezate observaţiile (unităţile de analiză sau
indivizii statistici), iar pe coloane variabilele (de obicei prima variabilă fiind un
Bibliografie recomandată: "identificator" al subiecţilor):
• Clocotici V., Stan, A., Statistică aplicată în psihologie, Polirom, 2000

- capitolele 1-8 Tabelul 1.1: Baza de date conţinând indicatori demografici în mediul rural, la nivel de comune, 1998
• Rotariu Traian (coordonator), Metode statistice aplicate în ştiinţele sociale, Polirom, codul denumirea localităţii
populaţia (număr număr număr numar număr ………
1999 localităţii de locuitori) naşteri decese sosiţi plecaţi
-capitolele 1-8 1071 CIUGUD 2463 26 34 65 22 ………
• Sandu, Dumitru, Statistică în ştiinţele sociale , Universitatea Bucureşti, 1992 2130 ALBAC 2259 31 30 4 45 ………
- capitolele 1, 2, 3, 6, 7 2309 ALMASU MARE 1873 21 35 13 20 ………
2381 ARIESENI 1940 24 24 3 20 ………
2577 AVRAM IANCU 2083 19 35 18 28 ………
2988 BERGHIN 2048 23 45 44 24 ………
3039 BISTRA 5385 57 74 33 84 ………
3397 BLANDIANA 1160 6 24 22 10 ………
3459 BUCIUM 2009 13 31 23 22 ………
3761 CENADE 1048 11 11 4 14 ………
3805 CERGAU 1756 26 34 22 25 ………
3958 CETATEA DE BALTA 3468 57 48 4 63 ………
4008 CIURULEASA 1463 18 18 10 29 ………
4106 CALNIC 3078 52 54 75 28 ………
. . . . . . . ………
. . . . . . . ………
. . . . . . . ………
2.1 Tabele de frecvenţe şi grafice

Prezentarea informaţiei conţinute într-o bază de date se face de obicei sintetic,
deoarece simpla listare a datelor "brute", primare - observaţie cu observaţie - nu poate
oferi de cele mai multe ori o imagine de ansamblu a situaţiei analizate. Cel mai simplu
mod de prezentare/descriere îl reprezintă tabelele de frecvenţe, sau mai bine zis
distribuţia frecvenţelor. Distribuţia de frecvenţe este o listă a valorilor (categoriilor)
posibile ale unei variabile, însoţite de numărul de observaţii care iau respectivele valori
(care se află în fiecare din respectivele categorii). În cazul variabilelor continue sau al
celor discrete cu un număr mare de valori, se recurge mai întâi la o "grupare" a datelor în
mai puţine categorii (exemplu: comune sub 1000 de locuitori, între 1001 şi 2000
locuitori, între 2001 şi 3000, 3001-4000 etc.). Tabelul 1.2 prezintă o distribuţie de
frecvenţe a numarului de locuitori în comună, pentru comunele din România. Cu ajutorul
acestui tabel vom introduce două noţiuni noi, şi anume acelea de frecvenţe relative orizontală sunt reprezentate valorile variabilei analizate. Totuşi, cele două tipuri de
respectiv frecvenţe cumulate (respectiv distribuţie cumulativă). Prima coloană a grafice sunt utilizate diferenţiat: histograma este recomandată numai în cazul variabilelor
tabelului conţine valorile variabilei "număr de locuitori", grupate în categorii. Cea de-a măsurate la nivel de interval sau de raport, în timp ce diagrama-bară se foloseşte de
doua coloană conţine frecvenţele de apariţie ale acestor valori, sau cu alte cuvinte preferinţă pentru variabile nominale şi ordinale. Această diferenţă provine din modul lor
numărul de observaţii (în cazul nostru comunele) aflate în fiecare categorie. Putem deci de construcţie:
observa ca în 1998 în România existau 54 de comune cu 1000 sau mai puţini locuitori, - în cazul histogramei, fiecare bară nu reprezintă o singură valoare a variabilei ci un
379 de comune cu 1001-2000 locuitori ş.a.m.d.. Ce-a de-a treia coloană a tabelului interval de valori. În
conţine frecvenţele relative, adică ponderea sau proporţia observaţiilor din fiecare Graficul 1.1 Histograma distanţelor de la centrul comunei până la consecinţă, lăţimea barei
categorie în totalul observaţiilor. Putem afirma pe baza acestei informaţii ca în România cel mai apropiat oraş cu peste 30 de mii de locuitori variază odată cu mărimea
comunele cu mai puţin de o mie de locuitori reprezintă 2,01% din totalul comunelor, în 400 intervalului, aceasta din urmă
timp ce ponderea comunelor cu 1001-2000 locuitori este de 14,11% ş.a.m.d.. fiind stabilită de către
cercetător. Valorile de pe axa
Tabelul 1.2 Distribuţia de frecvenţe a numărului de locuitori în comună, pentru comunele României
300
orizontală a graficului
reprezintă centrele acestor
Numarul de frecvenţa (absolută) frecvenţa relativă frecvenţa relativă intervale. Histograma este
locuitori în comună (%) cumulată (%) 200
recomandată în cazul
1000 sau mai puţini 54 2,01 2,01 variabilelor "cantitative"
Frecvente absolute
1001-2000 379 14,11 16,12 tocmai pentru faptul că acest
2001-3000 651 24,24 40,36 100
tip de variabile fie sunt
3001-4000 602 22,41 62,77
4001-5000 391 14,56 77,33
continue, fie au un număr
5001-6000 267 9,94 87,27 foarte mare de valori chiar dacă
0
6001-7000 145 5,40 92,67 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140
sunt discrete. Stabilirea
7001-8000 87 3,24 95,90 5 15 25 35 45 55 65 75 85 95 105 115 125 135 mărimii intervalelor nu este o
peste 8000 110 4,10 100 Distanta (km) pina la cel mai apropiat oras cu peste 30000 de locuitori sarcină uşoară: intervale prea
Total 2686 100 mari (adică bare puţine) pot
duce la pierderea de informaţie, în timp ce intervale prea mici (adică un număr prea mare
de bare) poate ascunde regularităţile distribuţiei.
Formula de calcul a frecvenţelor relative este
- în cazul diagramei-bară, fiecare bară corespunde unei singure valori (categorii) a
n n
fri = i , sau fri = i × 100 , dacă dorim să o exprimăm în procente variabilei. În plus, pentru a
N N Graficul 1.2 Diagrama bară - distribuţia stării civile a capului de evidenţia faptul că datele nu
unde: gospodărie într-un eşantion de 32200 de gospodării
sunt continue, barele nu sunt
- fri este frecvenţa relativă a categoriei (valorii variabilei) i 100
lipite între ele, ca în cazul
- ni este frecvenţa absolută a categoriei i (numarul de cazuri sau observaţii care histogramei.
aparţin respectivei categorii) 80
- N este numărul total de observaţii
Cea de-a patra coloană a tabelului conţine distribuţia cumulativă a frecvenţelor 60
relative, şi reprezintă suma dintre frecvenţa relativă a respectivei categorii şi frecvenţele

relative ale categoriilor inferioare. Informaţia oferită de frecvenţele cumulate este foarte 40
Frecvente relative
importantă, deoarece ea permite enunţarea unor afirmaţii cum ar fi: "în 1998, comunele
cu o populaţie sub 3001 locuitori reprezentau 40,36% din totalul comunelor din 20
România". Este de la sine înţeles că a calcula frecvenţe cumulate pentru variabile
nominale nu are nici un sens, din moment ce valorile acestui tip de variabile nu pot fi 0
ordonate. casatorit(a) divortat(a) necasatorit(a)
Reprezentarea grafică a unui tabel de frecvenţe se face de obicei cu ajutorul unei uniune consensuala vaduv(a)
histograme (Graficul 1.1) sau a unei diagrame-bară (Graficul 1.2). În cazul ambelor tipuri Starea civila a capului gospodariei
de grafice, pe axa verticală sunt reprezentate frecvenţele (absolute sau relative) iar pe axa
bimodală este o distribuţie cu două "vârfuri" (Graficul 1.3).
2.2 Tendinţa centrală, variaţia şi forma distribuţiei

În general, o descriere completă a unei variabile se face urmărind trei • Mediana este acea valoare a unei variabile care împarte seria ordonată de date în
caracteristici ale acesteia: două părţi egale, astfel încât 50% din observaţii se vor situa deasupra valorii
a) tendinţa centrală (sau centrul distribuţei) - adică valoarea "tipică" a acelei variabile mediane iar 50% dedesubtul ei.
b) variaţia variabilei - ca indicator al gradului de "împraştiere" a datelor Să luăm de exemplu notele pe care 7 studenţi le primesc la examenul de statistică (după
c) forma distribuţiei ce le-am ordonat în prealabil de la minim la maxim): 5, 5, 6, 8, 9, 9, 10. Mediana acestei
serii de date este 8, deoarece ea divide seria de date în două parţi egale: 3 dintre studenţi
(observaţii) au note mai mici decât 8 şi trei dintre ei au note mai mari. Nota 8 este exact
2.2.1 Indicatori (măsuri) ai tendinţei centrale la "mijlocul" seriei de date (după ordonare). Este important de reţinut că ceea ce conteaza
pentru stabilirea medianei este numărul de observaţii pe care se face analiza, şi nu
Pentru a descrie centrul unei distribuţii, sau tendinţa centrala a unei variabile, numărul de valori ale variabilei.
există mai multe măsuri. În aceasta secţiune vor fi discutate cele mai des utilizate: modul, Calculul medianei este relativ simplu atunci când avem de-a face cu un număr
mediana şi media. mic şi impar de observaţii. Lucrurile se complică puţin atunci când numărul de observaţii
este par, sau dacă numărul de observaţii e foarte mare şi e nevoie să apelăm la tabele de
• Modul este definit ca fiind valoarea cu frecvenţa cea mai mare a unei distribuţii. frecvenţe. Lucrurile se complică şi mai mult dacă datele de care dispunem sunt date
Altfel spus, modul este acea valoare a variabilei care apare cel mai des într-un grupate în intervale, ca în Tabelul 1.2.
eşantion sau într-o populaţie. În cazul în care avem de-a face cu un număr par de observaţii nu va mai exista o
Termenul derivă din francezul "mode", adică modă. În cazul distribuţiei variabilei "starea singură valoare la mijlocul seriei de date, ci vom avea două valori. În această situaţie,
civilă a capului gospodăriei" reprezentată în Graficul 1.2, modul este valoarea mediana se află la mijlocul "distanţei" dintre aceste valori, sau cu alte cuvinte, este media
"căsatorit(ă)" (cu frecvenţa relativă 80%). De cele mai multe ori, pentru a simplifica lor. Să presupunem că am dori sa calculăm mediana pentru o serie de 8 studenţi, deci un
lucrul cu datele, valorilor variabilelor nominale li se acordă convenţional coduri număr par de observaţii. După ordonare, datele arată astfel: 5, 5, 6, 7, 8, 9, 9, 10. La
numerice. De exemplu, pentru datele din Graficul 1.2, putem acorda codul 1 pentru mijlocul seriei se află valorile 7 şi 8. Mediana va fi deci 7,5.
valoarea "căsatorit(ă)", codul 2 pentru valoarea "uniune consensuală", codul 3 pentru Pentru situaţiile în care suntem nevoiţi să calculăm mediana pe baza datelor
valoarea "divorţat(ă)" etc.. Chiar dacă aceste coduri sunt numerice, ele trebuie privite ca oferite de un tabel de frecvenţe,
nişte simple simboluri convenţionale. Utilizarea lor nu înseamnă că valorile pot fi vom utiliza frecvenţele Tabelul 1.3 Distribuţia notelor pentru 80 de studenţi
ordonate sau că intervalele dintre valori sunt egale. În cazul în care valorile variabilei cumulate, şi vom căuta acea Nota Frecvenţe Frecvenţe Frecvenţe relative
"stare civilă" ar fi fost codificate ca mai sus, modul ar fi fost valoarea (codul) 1. valoare a variabilei sub care se absolute relative (%) cumulate (%)
Pentru datele din Tabelul 1.2, care prezintă date grupate în intervale, vom vorbi află 50% din cazuri. Pentru 3 2 2,5 2,5
despre un interval modal - şi anume categoria "2001-3000 locuitori", deoarece aceasta datele din Tabelul 1.3, 28,75% 4 4 5 7,5
este "valoarea" (de fapt intervalul de valori) cu frecvenţa cea mai mare (651). din observaţii iau valoarea 6 5 7 8,75 16,25
Grafic, modul este valoarea variabilei căreia îi corespunde "vârful" distribuţiei. sau o valoare mai mică, 6 10 12,5 28,75
Deşi simplu de obţinut, modul Graficul 1.3 Distribuţie bimodală - histograma variabilei 46,25% iau valoarea 7 sau mai 7 14 17,5 46,25
8 23 28,75 75
nu este întotdeauna cea mai bună "nivel de educaţie", pentru angajaţii unei bănci puţin, iar 75% iau valoarea 8
9 14 17,5 92,5
măsură a tendinţei centrale, deoarece 200
sau o valoare mai mică. 10 6 7,5 100
de multe ori depinde de gruparea Rezultă de aici că nota Total 80 100
arbitrară a datelor (de exemplu, pentru mediană nu poate fi 7 sau altă
datele din Tabelul 1.2 am fi obţinut un notă mai mică (deoarece numai 46,25% dintre studenţi iau nota 7 sau mai puţin).
alt mod dacă datele ar fi fost altfel Mediana va fi în consecinţă 8, deoarece, chiar dacă avem un număr par de observaţii,
grupate). De asemenea, nu rareori se ambele valori care se găsesc la mijlocul seriei de date sunt egale cu 8.
întâlnesc distribuţii bimodale, în care 100
În cazul în care avem de-a face cu un tabel de frecvenţe care conţine date grupate
există două valori diferite ale variabilei în intervale de valori (aşa cum este Tabelul 1.2), valoarea medianei poate fi calculată cu
frecvente absolute
care apar cu o aceeaşi "cea mai mare" ajutorul formulei:

frecvenţă. Grafic, o distribuţie
0
8 10 12 14 16 18 20 22
Numar de ani de scoala

N "persoanele aparţinând primei decile" etc. Aceste expresii se referă însă la observaţiile
− nc care iau valori cuprinse între anumite percentile (quantile) şi nu la valorile variabilei.
Me = l + 2 ×L
n
unde:
- Me este mediana,
- l este limita inferioară a intervalului care conţine mediana • Media este probabil cea mai importantă şi totodată cea mai populară măsură a
- N este numărul total de observaţii tendinţei centrale a unei distribuţii. Ea se calculează ca sumă a tuturor valorilor
- nc este frecvenţa absolută cumulată a tuturor categoriilor care preced intervalul observate ale seriei de date împărţită la numărul de observaţii:
care conţine mediana (adică numărul de observaţii care iau valori mai mici decât
N
l)
- n este frecvenţa intervalului care conţine mediana x + x 2 + x3 + ....... + x N ∑x i
- L este lărgimea sau mărimea intervalului care conţine mediana X = 1 = i =1
N N
Exemplu de calcul al medianei pe baza datelor din Tabelul 1.2: unde:
Din tabel reiese ca mediana este conţinută în intervalul 3001-4000 locuitori, deoarece
X este media
frecvenţele relative cumulate ale categoriilor precedente sunt mai mici de 50%, iar xi reprezintă valoarea variabilei pe care o ia observaţia i
frecvenţa cumulată a intervalului 3001-4000 este aproximativ 63%. Limita inferioară a N este numărul total de observaţii
acestui interval este deci l = 3001. Observaţia căreia îi corespunde mediana (numită şi Σ (sigma) este simbolul folosit pentru a indica o sumă
individ median) este observaţia care se află exact la mijlocul seriei ordonate de date, cu
alte cuvinte este observaţia N/2, în cazul nostru observaţia cu numărul 1343. Dacă De exemplu, pentru cei 7 studenţi de mai sus, cu notele 5, 5, 6, 8, 9, 9, 10, suma notelor
scădem din acest număr numărul total de observaţii care au valori mai mici decât 3001, este 52, numărul total de observaţii este 7, iar media va fi 52 împărţit la 7, adică 7,43.
obţinem 1343 - 1084 = 259, unde 1084 = 54 + 379 + 651 este valoarea lui nc din formula
medianei (obţinut prin cumularea frecvenţelor categoriilor precedente intervalului care În cazul în care media trebuie calculată pe baza unui tabel de frecvenţe, formula devine:
conţine mediana). Cu alte cuvinte, observaţia căreia îi corespunde mediana este cea de-a
259-a observaţie din categoria "3001-4000 locuitori", categorie care apare cu frecvenţa n k
= 602. Am putea acum să ne întrebăm: dacă la 602 comune corespunde o creştere a ∑f j xj
numărului de locuitori cu L=1000 (de la 3001 la 4000), atunci la 259 de comune cât va X =
j =1
corespunde? Răspunsul e dat de regula de trei simplă, conţinută oarecum şi în formula N

259
medianei: × 1000 = 430,2 . Cu alte cuvinte, mediana este egala cu 3001 + 430 = 3431 unde:
602
locuitori. k este numărul de categorii (valori) ale variabilei
fj reprezintă frecvenţa de apariţie a categoriei j
Mediana este un caz special de măsură a localizării. Măsurile localizării sunt de obicei xj este valoarea categoriei j
cunoscute sub numele de percentile sau quantile. Pentru cazul general, numim percentila N este numărul total de observaţii
p acea valoare sub care se află p% din cazuri şi deasupra căreia se află (100-p)% din
cazuri. De exemplu, mediana este percentila 50. Cele mai cunoscute măsuri ale localizării De exemplu, pentru datele din Tabelul 1.3, media este:
sunt quartilele, quintilele şi decilele. Quartilele sunt acele valori ale seriei de date care o
împart în patru părţi egale, quintilele sunt valorile care o împart în cinci părţi egale, iar 2 × 3 + 4 × 4 + 7 × 5 + 10 × 6 + 14 × 7 + 23 × 8 + 14 × 9 + 6 × 10
X= = 7,31
decilele în 10. Sub quartila 1 se află 25% din cazuri, iar deasupra ei 75%. Sub quartila 2 80
se afla 50% din cazuri, de unde reiese ca această quartilă este chiar mediana. În sfârşit,
sub quartila 3 se află 75% din cazuri, iar deasupra ei se află 25% din cazuri (observaţii). Pentru cazurile în care media trebuie calculată pentru date grupate în intervale, ca în
Din această scurtă prezentare reiese că există numai 3 quartile (Q1, Q2 şi Q3), deoarece Tabelul 1.2, se aplică formula de mai sus, considerându-se ca "valori ale variabilei"
pentru a împărţi o serie de date în m părţi egale sunt suficiente m-1 valori. În statistică centrele de interval. Exemplu: pentru categoria "1001-2000 locuitori", centrul de interval
quartilele, decilele etc. se referă la valori ale variabilei. Totuşi, în ştiinţele sociale sunt este (1001 + 2000) / 2 = 1500,5. Bineînţeles că, pentru un astfel de exemplu, la finalul
folosite destul de des expresii cum ar fi "decila 10 de venituri", "cea mai săracă quintilă", calculelor media se va rotunji, deoarece atunci când vorbim despre populaţia unei
comune nu o putem exprima decât în numere întregi. Atunci când avem de-a face cu date
grupate în intervale, probleme pot apărea la calculul centrului de interval pentru prima şi de gospodării cu valori foarte mari ale consumului per capita, valori care "trag" media
respectiv ultima categorie: în Tabelul 1.2, categoriile "1000 sau mai puţini locuitori", spre dreapta (sau cu alte cuvinte conduc către o valoare mai ridicată a acesteia în raport
respectiv "peste 8000 de locuitori". Dacă se întîmplă ca valoarea minimă şi respectiv cea cu mediana).
maximă a seriei de date să fie cunoscute, atunci nu există practic nici o problemă. Dacă În concluzie, putem afirma că modul nu e Graficul 1.5 Alungirea (oblicitatea)
aceste valori nu sunt cunoscute, rămâne la latitudinea cercetătorului să decidă ce valori o măsură foarte adecvată a centrului unei distribuţiilor
urmează să atribuie respectivelor centre de interval. distribuţii. El este util mai ales atunci când avem
de-a face cu variabile măsurate la nivel nominal,
Când folosim una sau alta dintre măsurile tendinţei centrale? dar şi în cazurile în care distribuţiile studiate sunt
Decizia de a utiliza una sau alta dintre măsurile tendinţei centrale este strâns bi- sau multi-modale. Mediana este indicată mai
legată în primul rând de nivelul de măsurare a variabilelor. Aşa cum ne putem da seama, ales în cazurile în care dorim identificarea
modul poate fi utilizat pentru toate cele patru niveluri de măsurare. Mediana însă nu "valorilor tipice" ale unor distribuţii asimetrice
poate fi utilizată decât pentru nivelele care permit o ordonare prealabilă a datelor, adică (vezi Graficul 1.5, b şi c), care au valori extreme.
numai pentru variabilele ordinale, de interval şi de raport. În ceea ce priveşte media, Media, pe de altă parte, prezintă marele avantaj
aceasta poate fi calculată numai pentru variabilele masurate la ultimele două nivele, de a lua în calcul toate valorile unei serii de date.
adică cel de interval şi respectiv cel de raport, deoarece în cazul celorlalte nivele Aceasta este unul din motivele pentru care ea
operaţiile de adunare/scădere a valorilor variabilelor nu sunt permise. continuă să fie cea mai utilizată măsură a (a) modul, mediana şi media coincid (se
Un alt element important pentru a decide ce măsură a tendinţei centrale merită tendinţei centrale. În plus ea mai are şi alte suprapun)
folosită este existenţa observaţiilor care au valori extreme. De fapt acest aspect este în proprietăţi utile, care vor fi discutate în capitolele
strânsă legatură cu forma distribuţiei. următoare.
Să considerăm de exemplu distribuţia consumului per capita al gospodăriilor, aşa
cum este ea reprezentată în Graficul 1.4. Media acestei distribuţii este 103087 lei iar Poziţiile relative ale modului, medianei şi mediei
mediana este 87354 lei lei (valorile sunt exprimate în preţuri 1995). În ceea ce priveşte Graficul 1.5(a) prezintă o distribuţie
modul, valoarea exactă a acestuia nu are sens să fie calculată deoarece există relativ simetrică, în care modul, mediana şi media
puţine situaţii în care mai multe gospodării au exact aceeaşi valoare a consumului per coincid, adică au practic aceeaşi valoare. Ce se
capita. Putem însă vorbi despre un interval modal, care se află undeva în jur de 72000 lei. întâmplă în cazul distribuţiilor asimetrice? De
exemplu, Graficul 1.5 (b) prezintă o distribuţie a
Graficul 1.4 Distributia consumului per capita al gospodăriilor
Dacă dorim să aflăm valoarea cărei parte din dreapta este alungită. Pentru a
1400000
"tipică" a consumului per capita găsi mediana, va trebui să ne deplasăm la dreapta (b) mediana se află la dreapta modului iar
într-o gospodărie pentru o "vârfului" distribuţiei, adică a modului, cu câteva media se află la dreapta medianei
1200000
distribuţie ca cea din Graficul observaţii. Mediana se va afla deci la dreapta
1.4, este mai indicat să utilizăm modului. Mai mult decât atât, datorită influenţei
mediana, deoarece modul de exercitate de cazurile aflate la extrema dreaptă a
1000000
calcul al acesteia este mai distribuţiei, valoarea medie va fi şi mai mare

800000
apropiat în acest caz de ceea ce decât valoarea mediană, aşa cum am văzut de
600000
înţelegem noi în mod obişnuit altfel şi în exemplul distribuţiei consumului
prin "centrul distribuţiei": 50% gospodăriilor. Putem deci trage concluzia că faţă
400000
dintre cazuri dedesubt şi 50% de mod, mediana se va găsi în direcţia alungirii
frecvente absolute
deasupra. Mediana are avantajul distribuţiei, iar media se va găsi în aceeaşi

200000 de a nu fi influenţată de valorile direcţie, chiar mai departe decât mediana.
"extreme" ale seriei de date. (c) mediana se află la stânga modului iar
0 Media seriei de date reprezentate media se află la stânga medianei
în Graficul 1.4 este mai mare
83
25
41 0
58 67
75 3
91 0
10 7
12 33
14 00
15 67
17 33
19 000
20 67
22 33
24 00
25 67
27 33
29 00
30 67
32 333
34 00
35 67
37 33
39 00
40 67
42 33
44 00
45 67
47 333
49 00
33
00
6
33
00
66
83
50
16
83
5
16
83
50
16
83
50
16
8
50
16
83
50
16
83
50
16
8
50
consumul per capita al gospodariilor (lei), in 1995

decât mediana tocmai datorită
existenţei unui număr relativ mic
• O altă măsură, mult mai răspândită, este varianţa variabilei. Varianţa (sau dispersia)
se defineşte ca fiind media aritmetică a pătratelor abaterilor individuale de la medie:
1
2.2.2 Măsuri ale variaţiei Varianta = ∑ ( xi − X ) 2
N
Măsurile tendinţei centrale sunt esenţiale pentru descrierea unei caracteristici a Din motive teoretice care nu vor fi expuse în acest manual, pentru calcularea varianţei
unui eşantion sau a unei populaţii, însă ele nu sunt suficiente. Pentru descrierea completă la nivel de eşantion se foloseşte formula:
a unei variabile este foarte important să ştim deasemenea şi cât de "împrăştiate" sunt 1
valorile acesteia în jurul tendinţei centrale sau, cu alte cuvinte, cât de omogenă respectiv s2 =
N −1
∑ ( xi − X ) 2 ,
eterogenă este populaţia (eşantionul) studiată în raport cu o anumită caracteristică. Să
iar pentru date grupate în tabele de frecvenţe (ca în Tabelul 1.3):
luăm ca exemplu performanţa la o anumită materie a unei grupe de 80 studenţi, măsurată
1
cu note de la 1 la 10 (datele sunt prezentate în Tabelul 1.3). Nota medie a respectivei
grupe este 7,31. Această informaţie însă pare a fi insuficientă pentru a ne putea pronunţa
s2 =
N −1
∑ (x j − X )2 f j
asupra performanţei respectivei grupe. Întrebarea pe care ne-o punem în mod natural este: unde:
cât de omogenă este respectiva grupă în ceea ce priveşte performanţa şcolară? xj este valoarea variabilei pe care o ia grupa j
fj este frecvenţa absolută de apariţie a lui xj
• Un prim răspuns la această întrebare îl putem da prin simpla examinare a intervalului
în care sunt cuprinse notele respectivilor studenţi, sau mai bine zis prin calcularea • Deoarece varianţa, datorită ridicării la pătrat, este destul de dificil de interpretat, cea
amplitudinii variabilei. Amplitudinea unei variabile este diferenţa dintre valoarea mai utilizată măsură a variaţiei unei variabile, pentru scopuri descriptive, este
maximă şi valoarea minimă a acelei variabile. Pentru exemplul nostru, amplitudinea abaterea standard, definită ca radical de ordinul doi (rădăcină pătrată) din varianţă:
este 10 - 3 = 7 puncte. Deci, cei 80 de studenţi sunt distribuiţi de-a lungul unui s = s2
interval de şapte puncte.
• O măsură a variaţiei mai rafinată decât amplitudinea o reprezintă abaterea Din formula abaterii standard reiese clar că abaterea standard va fi cu atât mai
interquartilă, care se calculează ca diferenţă între quartila 3 şi quartila 1. Abaterea mare cu cât valorile pe care le iau observaţiile se abat mai mult de la medie. Să
interquartilă măsoară împrăştierea celor 50% din observaţii aflate la mijlocul considerăm de exemplu notele la o materie a două grupe mici de elevi, ambele serii de
distribuţiei. Ea are practic aceleaşi avantaje pe care le are şi mediana ca măsură a date având media 6 şi amplitudinea 8:
tendinţei centrale, şi anume nu este influenţată de existenţa cazurilor extreme.
• De cele mai multe ori suntem însă interesaţi să folosim o măsură a variaţiei unei Grupa 1: 2, 4, 6, 6, 8, 10
variabile care să includă toate observaţiile, nu numai două dintre ele ca în cazul Grupa 2: 2, 2, 5, 7, 10, 10
amplitudinii şi abaterii interquartile. În plus, suntem interesaţi să examinăm variaţia
în raport cu o măsură a tendinţei centrale. De obicei, măsurile care satisfac aceste Întrebarea pe care ne-o putem pune este: cât de omogene sunt cele două grupe?
două cerinţe sunt bazate pe abaterile observaţiilor de la medie. Abaterea de la medie Calculul abaterilor standard arată că în prima grupă s1 = 2,8, iar în a doua s2 = 3,6. Este
a unei observaţii este diferenţa dintre valoarea pe care o ia respectiva observaţie şi clar deci că prima grupă e mai omogenă decât a doua, în care variabilitatea performanţei
media variabilei ( xi − X ).Una din proprietăţile mediei este însă aceea că suma e mai mare.
n În exemplul de mai sus am comparat două grupe de subiecţi din punct de vedere
tuturor abaterilor individuale de la medie este egală cu 0: ∑ (x i − X ) = 0 (sau cu alte al omogenităţii pentru o aceeaşi caracteristică. Însă atunci când trebuie analizăm
i =1
omogenitatea unei singure populaţii sau a unui eşantion apar întrebari al căror răspuns e
cuvinte, abaterile pozitive se vor anula cu cele negative). În consecinţă, pentru a mai dificil de dat: "cum interpretăm magnitudinea abaterii standard?", "când putem spune
obţine o măsură a variaţiei la nivelul întregului eşantion sau a întregii populaţii că avem o abatere standard mică sau una mare?", "cum putem compara omogenitatea
trebuie utilizată fie suma valorilor absolute ale abaterilor individuale de la medie, fie unei populaţii pentru două variabile diferite?". Practic, răspunsul la prima întrebare
suma pătratelor acestor abateri. depinde în mare măsură şi de alte caracteristici ale distribuţiei. Pentru un anumit tip de
• Abaterea medie absolută este definită ca medie aritmetică a abaterilor individuale distribuţii interpretarea magnitudinii abaterii standard este mai uşoară, şi acest lucru va fi
absolute (ignorând semnul acestora) de la media variabilei: tratat în Capitolul 2 al acestui manual. În cazul celorlalte două întrebări un răspuns
1 satisfăcător poate fi dat cu ajutorul unei alte măsuri, numite coeficient de variaţie,
AMA = ∑ xi − X
N calculat ca raport între abaterea standard şi media unei varibile:
s valorile ratei şomajului în judeţul Brăila pentru anii 1995 şi 1997, precum şi mediile şi
CV = abaterile standard ale ratelor şomajului pe judeţe în anii menţionaţi. Dacă ne vom uita la
X
evoluţia şomajului numai pentru judeţul analizat, vom sesiza o creştere considerabilă a
Prin modul de calcul, coeficientul de variaţie are avantajul de a fi o măsură ratei şomajului, fără să putem spune nimic însă despre evoluţia acesteia în raport cu
adimensională (fără unitate de măsură), deoarece unitatea de măsură a abaterii standard evoluţia celorlate judeţe. Standardizarea celor doua variabile (rata şomajului în 1995,
este aceeaşi cu cea a mediei. În consecinţă, el este foarte util în compararea variaţiei a respectiv rata şomajului în 1997) ar putea să ne ofere informaţii în plus. Standardizarea
două variabile măsurate pe aceaşi populaţie/eşantion. Putem astfel trage concluzii de valorilor unei variabile X se face după formula:
tipul: "populaţia A este mai eterogenă în privinţa caracteristicii X decât în privinţa
caracteristicii Y", concluzii imposibil de formulat numai cu ajutorul abaterii standard xi − X
zi =
deoarece abaterea standard este o măsură dimensională şi deci nu putem compara "mere s
cu pere" (de exemplu abaterea standard a performanţei şcolare cu abaterea standard a unde:
veniturilor familiei). Prin modul său de calcul coeficientul de variaţie indică practic cât la zi este valoarea pe care o ia observaţia i după transformarea variabilei
sută din medie corespunde unei abateri standard, ceea ce face mai uşor de evaluat gradul xi este valoarea pe care o ia observaţia i pentru variabila X
de omogenitate a populaţiei studiate. O populaţie cu o abatere standard egală sau mai X este media variabilei X
mare decât media poate fi considerată în cele mai multe cazuri o populaţie eterogenă, în s este abaterea standard a variabilei X
timp ce o populaţie a cărei abatere standard reprezintă 0,3 (30%) din medie poate fi
considerată o populaţie relativ omogenă. Este important însă de reţinut faptul că acest Rezultatul acestei transformări va fi o nouă variabilă Z care va avea întotdeauna media
coeficient nu poate fi calculat decât în cazul variabilelor măsurate la nivel de raport, egala cu 0 şi abaterea standard egală cu 1, datorita formulei de calcul. Practic, putem
deoarece în cazul variabilelor nominale şi ordinale abaterea standard nu poate fi spune că unitatea de măsură a noii variabile Z este chiar abaterea standard a variabilei X.
calculată, iar în cazul variabilelor măsurate la nivel de interval media este una Scorurile z ne vor informa asupra distanţei la care se gaseşte o observaţie faţă de media
convenţională, ceea ce face posibilă transformarea variabilei prin adunarea unei constante seriei de date, distanţă măsurată în abateri standard ale variabilei originale X. Este
la valorile acesteia, fără ca semnificaţia valorilor variabilei să se modifice O astfel de important de reţinut faptul că această transformare nu modifică în nici un caz forma
transformare ar lăsa nemodificată abaterea standard (lucru care poate fi demonstrat distribuţiei variabilei. Dacă aplicăm formula de mai sus pe datele din exemplul nostru
matematic) însă ar modifica media variabilei. Ori aceasta înseamnă că pentru aceeaşi vom obţine valorile standardizate ale ratelor şomajului în 1995 şi 1997 din judeţul Brăila:
caracteristică am putea calcula coeficienţi de variaţie diferiţi ca valoare.
zs95B = 0,32 şi respectiv zs97B = 1,49
2.3 Transformarea unei variabile cu ajutorul scorului z
De aici rezultă că în 1995 judeţul Brăla se găsea la numai 0,32 abateri standard faţă de
În practica analizei de date se întâmplă de multe ori să dorim să comparăm două media şomajului pe judeţe, iar în 1997 şomajul în respectivul judeţ era cu 1,49 abateri
observaţii între ele, pentru o aceeaşi variabilă, din punct de vedere al distanţei lor faţă de standard mai mare decât media, ceea ce poate fi interpretat ca o înrăutaţire semnificativă
medie. Dar acest tip de informaţie asupra poziţiei relative a unor observaţii nu oferă a poziţiei relative a acestui judeţ în privinţa ocupării forţei de muncă.
întotdeauna o informaţie mulţumitoare. Cercetătorul poate fi interesat să evalueze
magnitudinea distanţei dintre valoarea pe care o ia o observaţie şi medie în raport cu 2.4 Variabile dihotomice
distanţa medie în eşantion. Cu alte cuvinte, el se poate întreba: cât de mare este abaterea
de la medie a unei (unor) observaţii în raport cu abaterea medie observată în populaţie? În ultima secţiune a acestui capitol ne vom ocupa de un tip mai special de
De asemenea, se poate întâmpla să dorim să comparăm poziţia relativă a aceleiaşi variabile, şi anume variabilele dihotomice sau binare, adică variabile care au două valori
observaţii faţă de mediile a două variabile. În acest caz însă, unităţile de măsură şi posibile. Exemple de astfel de variabile sunt intenţia de a fi prezent la vot (da/nu),
magnitudinea valorilor variabilelor ne pot împiedica să facem o comparaţie cu sens. O succesul sau eşecul unui program de dezvoltare etc. Acest tip de variabile sunt deosebit
soluţie a acestor probleme este de utile în practica analizelor statistice deoarece, la limită, ele pot fi considerate ca fiind
Tabelul 1.4 transformarea sau standardizarea măsurate la nivel de raport. Dacă vom codifica valorile unei astfel de variabile cu 0
Judeţul Total judeţe variabilelor cu ajutorul scorului z. respectiv 1 vom obţine o variabilă care practic măsoară prezenţa sau absenţa
Brăila Medie Abatere Să presupunem că ne
standard
caracteristicii studiate (intenţia de a se prezenta la vot, succesul programului de
interesează să aflăm ce s-a dezvoltare etc.). Ele vor avea deci un 0 absolut (absenţa caracteristicii) şi o unitate de
Rata în şomajului 1995 10.8 9.705 3.384
Rata şomajului în 1997 13.5 9.088 2.960
întâmplat cu rata şomajului în măsură (prezenţa caracteristicii). În aceste condiţii ne putem întreba cum se calculează
judeţul Brăila în perioada 1995 - media şi respectiv abaterea standard ale acestor variabile.
1997. În Tabelul 1.4 sunt prezentate
Dacă luăm ca punct de plecare formula de calcul a mediei pentru date grupate 4. Valorile variabilei ocupatie, intr-un grup de 5 1. media egala cu 3,2
prezentată în secţiunea 2.2, atunci vom avea: persoane, sunt: 1, 3, 3, 4, 5. Tendinta centrala in 2. mod egal cu 3
acest grup, pentru variabila ocupatie, poate fi 3. mod egal cu 2
k descrisa prin: 4. mediana egala cu 3
∑f
j =1
j xj
f 0 × 0 + f1 × 1 f 1 5. nici una dintre acestea
X = = = = p,
N N N
unde f0 este frecvenţa absolută de apariţie a lui 0, iar f1 este frecvenţa absolută de apariţie
a lui 1. Cu alte cuvinte, media unei variabile dihotomice este chiar frecvenţa relativă de
apariţie a valorii 1 (numărul de observaţii care iau valoarea 1 împărţit la numărul total de
observaţii ale seriei de date), adică frecvenţa relativă (notată aici cu p) a cazurilor în care
caracteristica studiată este prezentă. Dacă analiza este efectuată pe o populaţie şi nu pe un
eşantion, atunci vom spune că media unei variabile dihotomice este chiar probabilitatea
de apariţie a caracteristicii studiate (aceasta însă numai în cazul în care respectiva
variabilă este codificată 0/1).
Similar cu demonstraţia în cazul mediei, se poate arăta ca formula abaterii
standard pentru o variabilă dihotomică este:
s= p (1 − p ) ,
unde p este frecvenţa relativă a prezenţei caracteristicii studiate.
Exerciţii şi probleme
1. Veniturile gospodăriilor locuitorilor ţării Alfa, care cuprinde 87 de milioane de

gospodării, sunt distribuite în jurul unei valori medii de 27000 Alfa-lei şi o mediană de
22000 Alfa-lei.
a. Ce se poate spune despre simetria distribuţiei veniturilor?

b. Care este venitul întregii ţări (toate cele 87 de milioane de gospodării)?
Pentru următoarele întrebări, să se încercuiască varianta corectă /variantele corecte:
2. Decila 5 este o masura a: 1. tendintei centrale

2. variatiei
3. formei distributiei
4. nici una dintre acestea
3. Valoarea sub care se afla 50% dintre cazurile seriei 1. media

de date ordonate de la minim la maxim este: 2. quartila 2
3. modul
4. abaterea standard
5. nici una dintre acestea
rezultate mult mai complex. Să considerăm de exemplu un experiment care constă din
Capitolul 2 aruncarea repetată de trei ori a unei fise colorate cu albastru pe o parte şi cu galben pe
cealaltă. Un rezultat posibil al acestui experiment ar fi AGA, adica albastru, galben,
Distribuţii de probabilitate albastru (culoarea feţei cu care fisa cade în sus). Care este probabilitatea acestui rezultat?
Teoretic, ar trebui să repetăm acest experiment de milioane şi milioane de ori şi să
calculăm frecvenţa relativă de apariţie a respectivului rezultat. Mai simplu ar fi însă să
recurgem la un experiment mental. Care sunt rezultatele posibile ale acestui experiment?
2.1 Probabilitate: noţiuni introductive Iată o listare a lor: AAA, AAG, AGA, AGG, GAA, GAG, GGA şi GGG, adică 8
rezultate. Să presupunem că fiecare faţă a fisei are aceeaşi probabilitate de apariţie;
Cel mai simplu şi mai des întâlnit exemplu pentru o definire intuitivă a noţiunii de aceasta înseamnă că fiecare din rezultatele menţionate va avea aceeaşi probabilitate, adică
probabilitate este aruncarea zarului, care stă de altfel la baza teoriei probabilităţilor, cel 1/8. Deci, probabilitatea rezultatului AGA este 1/8. Putem fi însă interesaţi de un subset
puţin din punct de vedere istoric. Ce s-ar întâmpla dacă am arunca un zar (ne-trucat) de al setului complet de rezultate, sau cu alte cuvinte de un anumit eveniment, cum ar fi "cel
50 de ori? Dar daca l-am arunca de numai 10 ori? Dar dacă l-am arunca de câteva puţin de doua ori galben". Acest eveniment este format din subsetul de 4 rezultate {AGG,
milioane de ori? Cum ar arăta distribuţia frecvenţelor relative pentru fiecare din cele trei GAG, GGA, GGG}. Care este probabilitatea acestui eveniment? Răspunsul intuitiv şi
cazuri de mai sus? Deoarece zarul nu este trucat, ne aşteptăm ca fiecare din cele 6 feţe ale corect este 4/8. Cu alte cuvinte, probabilitatea unui eveniment este suma probabilităţilor
sale să aibă aceeaşi "probabilitate" de a cădea în sus la fiecare aruncare. Cu alte cuvinte, rezultatelor incluse în acel eveniment.
"întâmplarea" va hotărî care faţă va ieşi "câştigătoare". În acest caz, am putea simula
aruncarea zarului cu ajutorul unui tabel cu numere aleatoare, luând în considerare numai • Evenimente combinate
numerele de la 1 la 6. Să vedem cum arată frecvenţele relative (de data aceasta nu le vom Să presupunem acum că ne interesează probabilitatea de apariţie a următoarei
mai exprima în procente, ci le vom calcula simplu ca f/n, adica frecvenţa absolută (de combinaţii: "mai puţin de două ori galben sau toate de aceeaşi culoare". Să notăm cu J
apariţie a unei feţe a zarului) împarţită la numărul total de aruncări. În acest caz putem evenimentul "mai puţin de două ori galben" şi cu H evenimentul "toate de aceeaşi
privi fiecare aruncare ca pe o observaţie, iar numărul total de aruncări ca pe mărimea culoare". Evenimentul J include rezultatele {AAA, AAG, AGA, GAA}, iar evenimentul
eşantionului. H include rezultatele {GGG, AAA}. Evenimentul "J sau H", care ne intereseaza pe noi va
include deci rezultatele {AAA, AAG, AGA, GAA, GGG} şi va avea probabilitatea 5/8,
Tabelul 2.1 Distribuţia frecvenţelor relative ale valorilor unui zar, pentru eşantioane de mărime diferită deoarece avem 5 rezultate din 8, iar rezultatele în exemplul nostru au probabilităţi egale
(număr de aruncări) (1/8). Putem deci defini evenimentul "J sau H" ca fiind acel subset de rezultate care sunt
Frecvenţe relative f/n, unde n este numărul de aruncări cu zarul incluse fie în J, fie în H, fie în amândouă. Similar, vom defini evenimentul "J şi H" ca
Număr de puncte n = 10 n = 50 n=∞ fiind acel subset de rezultate care se găsesc atât în J cât şi în H (în cazul nostru e vorba
1 0,10 0,22 1/6 = 0,167 de {AAA}, deci probabilitatea lui "J şi H" este 1/8). Conform exemplului de mai sus, am
2 0 0,12 1/6 = 0,167
putea scrie:
3 0,10 0,14 1/6 = 0,167
4 0,20 0,14 1/6 = 0,167
5 0,30 0,14 1/6 = 0,167 Pr(J sau H) = Pr(J) + Pr(H) - Pr(J şi H),
6 0,30 0,24 1/6 = 0,167
1,00 1,00 1,00 deoarece în exemplul de mai sus nu am numărat de două ori rezultatul {AAA}, ci numai
o dată. Cu alte cuvinte, scăderea probabilităţii lui "J şi H" a fost facută tocmai pentru a
elimina dubla numărare a unor rezultate. În cazul în care avem de-a face cu două
În tabelul de mai sus observăm un un fenomen la care de altfel ne aşteptam: cu cât evenimente, să zicem I şi K, mutual exclusive, adică Pr(I şi K) = 0, atunci
creşte numărul de aruncări, cu atât frecvenţele relative se apropie de egalitate - şi aceasta
deoarece, aşa cum am mai spus, dacă un zar e "cinstit" atunci fiecare faţă a sa are aceeaşi Pr(I sau K) = Pr(I) + Pr(K)
"şansă" de apariţie. Dacă numărul de aruncări este mic, frecvenţele relative fluctuează
puternic. Pe măsură însă ce numărul de aruncări (sau altfel spus mărimea eşantionului)
• Probabilităţi condiţionate
creşte ele vor tinde către o valoare pe care o numim probabilitate. Desigur, dacă zarul ar
Să presupunem acum că în timpul celor 3 aruncări (deci pe parcursul
fi fost trucat, nu am mai fi putut "ghici" că probabilitatea de apariţie a unei feţe este 1/6,
experimentului) se ştie că a apărut evenimentul J (mai puţin de două apariţii ale feţei
ci ar fi trebuit să estimăm probabilitatea printr-un număr de aruncări care să tindă catre
galbene pe parcursul celor trei aruncări ale fisei). Care este probabilitatea ca H să se
infinit.
întâmple? - adică la toate aruncările să apară aceeaşi culoare. Cu alte cuvinte, dacă ar fi să
Putem considera aruncarea cu zarul din exemplul de mai sus ca pe un experiment
ne imaginăm foarte multe repetiţii ale experimentului şi să luam în considerare numai
cu 6 rezultate (cele 6 feţe ale zarului). De obicei însă, un "experiment" are un set de
acele cazuri în care apare J, cât de des va apărea H? În termeni de probabilităţi, aceasta a) Pr (S) = 0,078 + 0,072 = 0,15, sau cu alte cuvinte, rata şomajului în respectivul oraş
înseamnă că dorim să aflăm probabilitatea lui H condiţionată de J, notată cu Pr(H|J). este de 15%. La acelaşi rezultat am fi ajuns şi dacă am fi calculat probabilitatea de a fi
Să presupunem că repetăm experimentul de 100 de milioane de ori. Cum şomer împărţind numărul total de şomeri (15600 + 14400) la totalul populaţiei de
probabilitatea de apariţie a lui J este de 4/8, aceasta înseamnă ca J apare de 50 de vârstă activă (200000).
milioane de ori. Pe de altă parte, din cele patru rezultate incluse în J, numai unul este Pr( S si F ) 0,078
inclus şi în H, şi anume {AAA}, care are probabilitatea 1/8, deci apare de 12,5 milioane b) Pr( S F ) = = = 0,15
Pr( F ) 0,52
de ori. Deducem de aici că H apare de 12,5 milioane de ori din 50 de milioane, sau altfel
spus Pr(H|J) = 12,5/50 = 1/4 = 0,25. Să încercăm acum să scriem forma generală a unei Deoarece probabilitatea calculată la punctul a) este egală cu probabilitatea calculată la
probabilităţi condiţionate: punctul b), putem spune ca probabilitatea de a fi şomer (S) nu este afectată de faptul că o
persoană este femeie (F). Acest tip de independenţă, definită în termeni de probabilităţi,
Pr( J si H ) se numeşte independenţă statistică. Putem acum să dăm definiţia exactă a independenţei:
Pr( H J ) =
Pr( J )
L se numeşte independent statistic de M dacă Pr(L|M) = Pr(L).
De aici putem deduce că:
Consecinţa acestei definiţii este foarte importantă: de aici rezultă că dacă avem doua
Pr(J şi H) = Pr(J)Pr(H|J) evenimente independente J şi H, atunci:
Pr(J şi H) = Pr(J)Pr(H|J) = Pr(J)Pr(H).

• Independenţă
Mai mult decât atât, dacă H este independent de J, atunci şi J trebuie să fie
În statistică independenţa este un concept foarte precis, care se defineşte cu independent de H.
ajutorul probabilităţilor. Vom ilustra aceasta cu ajutorul unui exemplu. Într-un oraş
situaţia ocupării populaţiei de vârstă activă (200.000 de persoane) arată ca în tabelele
prezentate în Exemplul 2.1. Primul tabel (a) 2.2 Variabile aleatoare
reprezintă numărul de indivizi şomeri, Exemplul 2.1 Este şomajul dependent de
sexul indivizilor?
respectiv ocupaţi, în funcţie de sex. Cel de-al • Cazul variabilelor discrete
doilea tabel (b) reprezintă probabilităţile de (a) Frecvenţe absolute Să ne imaginăm acum că dorim să analizăm populaţia familiilor cu trei copii, şi
apariţie pentru fiecare din cele 4 situaţii şomeri ocupaţi suntem interesaţi de numărul de fete pe care o astfel de familie l-ar putea avea. Putem să
posibile: a fi femeie şi a fi şomer - Pr (F şi S), femei 15600 88400 considerăm o familie cu trei copii ca pe un experiment oarecum similar cu cel din
a fi bărbat şi a fi şomer - Pr(B şi S) etc. Suma bărbaţi 14400 81600 secţiunea precedentă: într-o familie care îşi planifică să aibă trei copii, rezultatele posibile
probabilităţilor din cele 4 celule ale tabelului sunt: băiat, băiat, băiat (BBB), băiat, băiat, fată (BBF) etc. Într-o astfel de familie
(b) Probabilităţi
este egală cu 1 (orice probabilitate variază şomeri ocupaţi
numărul de fete poate fi 0, 1, 2 sau 3. Dacă Tabelul 2.2
între 0 şi 1). Probabilităţile din fiecare celulă femei 0.078 0.442 probabilitatea de a se naşte o fată este egală cu r Pr(r)
au fost calculate dupa formula fi/n, unde fi este bărbaţi 0.072 0.408 probabilitatea de a se naşte un băiat, atunci BBB 0,166
frecvenţa absolută a unei celule (de exemplu fiecare din rezultatele posibile are aceeaşi BBF 0,136
numărul de femei şomere) iar n este totalul probabilitate 1/8. Să complicăm puţin lucrurile şi BFB 0,136
populaţiei de vârstă activă (în exemplul nostru 200.000). Să încercăm acum să răspundem să presupunem că probabilitatea de a se naşte o BFF 0,111
FBB 0,136
la întrebarile: fată este de 0,45, iar probabilitatea de a se naşte FBF 0,111
a) Care este probabilitatea ca o persoană extrasă la întâmplare din populaţia de un băiat este 0,55. Aceasta înseamnă ca FFB 0,111
vârstă activă să fie şomer - Pr(S)? probabilitatea ca primul copil să fie o fată este de FFF 0,091
b) Care este probabilitatea ca o persoană să fie şomer, atunci când este femeie - 0,45, iar probabilitatea ca al doilea copil să fie o Notă: totalul nu este exact egal cu 1 datorită
Pr(S|F)? fată este 0,45. De unde deducem ca probabilitatea rotunjirilor
ca primii doi copii să fie fete este egală cu 0,45
Iată şi soluţiile: din 0,45, adică 0,45 x 0,45 = 0,202. Tot astfel putem calcula şi probabilitatea ca toţi trei
copiii să fie fete, adică Pr(FFF) = 0,45 x 0,45 x 0,45 = 0,091. În Tabelul 2.2 sunt
prezentate probabilităţile de apariţie ale rezultatelor acestui experiment. Revenind la
problema de la începutul secţiunii - numărul de fete pe care o familie cu trei copii îl poate din respectiva populaţie să aibă 1,7 m este de 0,2.
avea - trebuie să obţinem distribuţia de Începând cu această secţiune vom face o distincţie clară între statisticile calculate la
probabilităţi a variabilei aleatoare "număr de Tabelul 2.3 Distribuţia variabilei nivel de eşantion şi parametrii, adică valorile din populaţie. Astfel, vom vorbi depre
aleatoare X = număr de fete
fete" (notată cu X). Tabelul 2.3 prezintă această x p(x)
probabilitate (notată cu π) numai atunci când ne referim la populaţii, şi despre frecvenţe
distribuţie. Probabilitatea ca o familie să nu aibă 0 0,166 relative (notate cu p sau fr) atunci când ne refeim la eşantioane.
nici o fată este Pr(BBB) = 0,166; probabilitatea 1 0,408
ca o familie să aibă o singură fată este Pr(BBF) + 2 0,334 Este important de reţinut faptul că întotdeauna notăm statisticile la nivel de eşantion
Pr(BFB) + Pr(FBB) = 0,136*3 = 0,408 ş.a.m.d. 3 0,091 cu litere latine ( x , s, p etc.) iar parametrii (valorile în populaţie)cu litere greceşti (µ, σ,
O variabilă discretă aleatoare este deci acea Notă: totalul nu este exact egal cu 1 datorită
rotunjirilor
π etc.)
variabilă X care ia diferite valori x cu
probabilităţi specificate de distribuţia sa de Orice distribuţie de probabilitate (sau distribuţie în populaţie) poate fi caracterizată cu
probabilitate p(x). ajutorul cîtorva parametrii cum ar fi cei care descriu media acelei distribuţii - notată cu µ
şi abaterea ei standard - notată cu σ. În studiul statisticii pot fi întâlnite multe tipuri sau
• Cazul variabilelor continue familii de distribuţii de probabilitate ale căror formule matematice sunt folosite pentru a
Figura 3.1 De la frecvenţe relative la
Pentru o variabilă continuă există un continuum densitatea de probabilitate calcula probabilităţi. Multe dintre aceste familii de distribuţii sunt deosebit de utile
de valori posibile. În capitolul 1, Graficul 1.1, deoarece ele oferă aproximări bune ale unor distribuţii des întâlnite în lumea reală. Altele
am reprezentat histograma distanţelor de la sunt deosebit de utile pentru statistica inferenţială. În secţiunea următoare ne vom ocupa
centrul comunei până la cel mai apropiat oraş de un astfel de tip de distribuţie.
cu peste 30de mii de locuitori, folosindu-ne de
intervale de valori. Să ne imaginăm acum că
luăm o variabilă continuă aleatoare şi o • Distribuţia normală
reprezentăm ca în Figura 3.1(a), astfel încât În cazul multor variabile aleatorii distribuţia de probabilitate are o formă specifică,
suma ariilor tuturor barelor histogramei să fie simetrică, în formă de clopot, şi cu anumite proprietăţi particulare, care vor fi prezentate
egală cu 1 (100%). Un astfel de grafic se mai jos. Acest tip de distribuţie se numeşte distribuţie normală şi este reprezentată în
numeşte densitate a frecvenţelor relative. Dacă Figura 3.2 (împreună cu formula matematică, care este însă fără importanţă pentru
numărul de observţii este foarte mare, obiectivele acestui curs). De fapt este vorba despre o familie de distribuţii, caracterizată
(a)
frecvenţele relative vor tinde către probabilitate de parametrii µ şi σ (medie şi abatere standard). Principala proprietate a acestei familii de
şi, în acelaşi timp, vom putea utiliza intervale distribuţii este aceea că pentru orice număr constant z, probabilitatea concentrată la
din ce în ce mai mici, adică bare din ce în ce dreapta lui µ + zσ este aceeaşi
mai înguste. În Figura 3.1(c) se poate vedea Figura 3.2 Distribuţia normală a unei variabile pentru toate distribuţiile
cum densitatea frecvenţelor relative normale. Datorită faptului ca
aproximează o curbă, cea a lui p(x), pe care o distribuţia este simetrică,
vom numi de acum înainte distribuţie de probabilitatea concentrată la
probabilitate. Ariile de sub curbă reprezintă dreapta lui µ + zσ este egală cu
probabilităţi, iar aria totală este egală cu 1 probabilitatea concentrată la
(deoarece probabilitatea variază între 0 şi 1, iar stânga lui µ - zσ. Cu alte cuvinte
suma tuturor probabilităţilor este egală cu 1). aria de sub curbă aflată la
dreapta lui µ + zσ este egală cu
Distribuţia în populaţie a unei variabile nu este (b) aria aflată la stânga lui µ - zσ.
nimic altceva decât distribuţia de probabilitate Când z = 1,96 (adică
a valorilor pe care o observaţe extrasă la aproximativ 2), aria cuprinsă
întâmplare din acea populaţie le poate lua între µ - zσ şi µ + zσ este egală cu 0,95. Când z = 1 (ca în Figura 3.2) aria cuprinsă între µ
pentru respectiva variabilă. De exemplu, dacă - zσ şi µ + zσ este egală cu aproximativ 0,68. Mai mult, în cazul distribuţiei normale
într-o populaţie frecvenţa relativă a persoanelor aproape toată aria de sub curbă este cuprinsă între între µ - 3σ şi µ + 3σ (z=3). Acest gen
cu o înalţime de 1,7 metri este 20%, atunci de informaţie este foarte util: să presupunem că scorurile unor elevi ai unei clase, notaţi
probabilitatea ca un individ extras la întâmplare pe o scală de la 0 la 100, sunt normal distribuite în jurul mediei 60, cu o abatere standard
(c)
de 5 puncte. Aceasta înseamnă că 68% dintre elevi au note între 55 şi 65, iar 95% dintre doar notaţiile folosite pentru medie şi abatere standard). Deci, ceea ce am făcut nu este
ei au note între aproximativ 50 şi aproximativ 70. Sau, mai corect spus, probabilitatea ca practic nimic altceva decât standardizarea cu scorul z a valorii 70. Nu ne mai rămâne
un elev extras la întâmplare din respectiva grupă să aibă un scor între 50 şi 70 este de acum decât să cautăm în tabel aria cuprinsă între 0 şi z. Tabelul este organizat în felul
0,95. Dacă notele elevilor nu a fi avut o distribuţie normală, ci ar fi avut, să zicem, o următor: la capetele de rând (în stânga) se găsesc valorile care corespund unităţilor şi
distribuţie alungită spe stânga, probabilitatea ca un elev să aibă un scor cuprins între primei zecimale ale lui z; la capetele de coloană (sus) se găsesc valorile care corespund
anumite limite ar fi fost extrem de dificil de calculat (practic ar fi trebuit calculată aria de celei de-a doua zecimale ale lui z. De exemplu, dacă vom căuta valoarea 1,96, va trebui
sub curbă dacă respectiva distribuţie nu ar fi putut fi aproximată de nici o formă să căutăm rândul cu valoarea 1,9 şi coloana cu valoarea 0,06 (adunate, aceste două valori
funcţională cunoscută). dau exact 1,96). La intersecţia rândului "1,9" cu coloana "0,06" vom găsi valoarea
Aşa cum am mai arătat, în realitate există o familie de distribuţii normale, fiecare 0,4750, care este exact aria cuprinsă între 0 şi z = 1,96, sau altfel spus probabilitatea ca o
caracterizată de o medie µ şi o abatere standard σ. De exemplu, greutăţile locuitorilor observaţie să ia o valoare cuprinsă între µ şi µ + 1,96σ (adică între medie şi 1,96 abateri
unui oraş ipotetic se distribuie normal cu media 56 kg şi abaterea standard 18 kg; standard).
înălţimile copiilor dintr-o şcoală se distribuie normal cu media 1,5 m şi abaterea standard Să ne întoarcem acum la exemplul nostru şi să calculăm aria cuprinsă între 0 şi z = 2.
10 cm etc.. Proprietăţile distribuţiei normale ne permit ca pentru fiecare din aceste În tabel, la intersecţia rândului 2,0 şi a coloanei 0,00 se gaseşte valoarea 0,4772. Aceasta
variabile să găsim exact probabilitatea ca un anumit individ să aibă o greutate mai mare este probabilitatea ca un elev ales la întîmplare să obţină un scor între 60 şi 70. Pe noi
de, să zicem, 64 de kg sau o înălţime cuprinsă între 1,45 m şi 1,57 m. Acest lucru se poate însă ne interesează care este probabilitatea ca
face cu ajutorul unor tabele care conţin ariile dintre µ şi µ + zσ pentru diferite valori ale Figura 3.4 Probabilitatea ca un elev ales la un elev să obţină un scor mai mare de 70,
lui z1. Deoarece proprietăţile distribuţiei normale sunt aceleaşi indiferent de valoarea întâmplare să obţină un scor mai mare de 70 adică aria din dreapta lui z = 2. Pentru a o
mediei şi abaterii standard, se apelează la un caz special al distribuţiei normale, şi anume obţine va trebui să efectuăm scăderea 0,5 -
la distribuţia normală normată sau standard. Aceasta este o distribuţie normală cu media 0,4772, ceea ce are ca rezultat 0,0228. Dacă
0 şi abaterea standard 1. În Anexa 1 a acestui manual este prezentat un tabel cu ajutorul am fi interesaţi să aflăm şi probabilitatea ca un
căruia pot fi calculate ariile dintre µ şi µ + zσ pentru Figura 3.3 Aria dintre 0 şi z elev să obţină un scor mai mic decât 50 (adică
diferite valori ale lui z, în cazul distribuţiei normale 60 - 10) nu am avea nevoie de nici un calcul
normate. Deoarece în acest caz µ = 0 iar σ = 1, tabelul suplimentar, deoarece datorită simetriei
conţine practic aria cuprinsă între 0 şi z (vezi Figura 3.3). distribuţiei aria aflată la stânga lui z = -2 este
Această arie este practic aceeaşi cu aria cuprinsă între µ şi (a) distribuţia normală, cazul general egală cu aria aflată la dreapta lui z = 2.
µ + zσ în cazul oricărei distribuţii normale (cazul general). Să încercăm acum să recapitulăm cu
În continuare este ilustrată modalitatea de folosire a ajutorul unui alt exemplu algoritmul de calcul
tabelului (Anexa 1), pe care îl vom numi de acum încolo al unei probabilităţi cu ajutorul tabelului z.
pentru convenienţă "tabel z": Exemplul 2.1
Să ne întoarcem la exemplul de mai sus şi să calculăm probabilitatea ca un elev să Să presupunem că înălţimile copiilor dintr-
obţină un scor mai mare decât 70. Pentru aceasta este nevoie să calculăm aria aflată la o şcoală se distribuie normal cu media 1,5 m
dreapta valorii 70. Tabelul nostru oferă însă valoarea ariei aflate între valorile µ şi µ + zσ. şi abaterea standard 10 cm. Care este
Cum distribuţia normală este simetrică, aceasta înseamnă ca aria aflată la dreapta mediei probabilitatea ca copil extras la întâmplare să
(b) distribuţia normală normată
este egală cu jumătate din aria totala aflată sub curbă, adică cu 0,5 (deoarece aria totală a aibă o înăţime cuprinsă între 1,3 m şi 1,4 m?
unei distribuţii de probabilitate este întotdeauna 1). Pentru a afla aria aflată la dreapta lui Pentru a răspunde, să convertim mai întâi cele două valori (1,3 m şi respectiv1,4 m) în
70, va trebui să căutam în tabel aria cuprinsă între medie (60) şi 70, şi apoi să scădem scoruri z, pentru a măsura distanţa lor faţă de medie în abateri standard. Practic, această
această arie din 0,5 (adică din toată aria aflată la dreapta mediei). Pentru a afla aria convertire înseamnă o transformare a distribuţiei normale iniţiale (cu media µ = 150 cm şi
cuprinsă între 60 (adică µ) şi 70 (µ + zσ) adică , va trebui să aflăm valoarea lui z: abaterea standard σ = 10 cm) într-o distribuţie normală normată (cu media 0 şi abaterea
standard 1).
70 − µ 70 − 60 z130 = ( 130 - 150)/10 = -2
µ + zσ = 70, de unde z = = =2 z140 = (140 - 150)/10 = -1
σ 5
(calculele de mai sus au fost făcute in cm)
Dacă ne uităm atent la expresia utilizată mai sus pentru calcularea lui z vom vedea că Trebuie deci să găsim aria de sub curba distribuţiei normale normate cuprinsă între -2
este practic aceeaşi cu formula scorului z prezentată în Capitolul 1 (ceea ce diferă sunt şi -1. Aria cuprinsă între -2 şi 0 este egală cu aria cuprinsă între 0 şi 2, şi conform
tabelului z are valoarea 0,4772. În acelaşi mod găsim şi aria dintre -1 şi 0, care este egală
1
Unele manuale prezintă tabele aria din dreapta lui µ + zσ, însă algoritmul de calcul al probabilităţilor este cu 0,3413. Cum pe noi ne interesează aria dintre -2 şi -1, vom efectua scăderea 0,4772 -
este acelaşi.
0,3413= 0,1359. Deci, probabilitatea ca un elev selectat la întâmplare să aibă între 1,3 şi
1,4 metri înălţime este de aproximativ 0,14. Capitolul 3
Dacă notăm înalţimea cu X, atunci afirmaţia de mai sus se scrie:
Pr(1,3<X<1,4) = 0,1359 Eşantionarea. Distribuţia de eşantionare. Intervale de încredere
Înainte de a încheia acest capitol este necesar să atragem atenţia asupra faptului că, 3.1 Cercetări selective: de la populaţie la eşantion
deoarece probabilităţile pe care le putem calcula cu ajutorul distribuţiei normale
reprezintă de fapt arii, este practic lipsit de sens să încercăm să calculăm Pr(X), pur şi Cine va câştiga alegerile prezidenţiale sau parlamentare? Sunt femeile o
simplu - de exemplu Pr(1,3) - deoarece aceasta ar însemna să încercăm să calculăm aria minoritate defavorizată în societăţile moderne? O politică publică sau o decizie
unei drepte. administrativă produce modificări ale comportamentelor indivizilor vizaţi de acea politică
publică sau de acea decizie? Cine este pentru şi cine este împotriva introducerii unor noi
măsuri fiscale? Cât de populară este măsura luată de autorităţile dintr-o anumită unitate
Exerciţii şi probleme administrativă de a construi o nouă zonă industrială? Toate aceste întrebări au în comun o
caracteristică importantă şi anume: se referă la populaţii atât de largi încât este practic
1. Să presupunem că A şi B sunt două evenimente independente, cu Pr(A) = 0,6 şi Pr(B) imposibil de obţinut informaţii cu privire la toate elementele care le compun. Cu situaţii
= 0,2. Care este: asemanătoare - imposibilitatea cuprinderii tuturor elementelor care compun un întreg - se
a. Pr (A|B)? confruntă şi medicul care face analize de sânge şi care nu poate extrage tot sângele aflat
b. Pr ( A şi B)? în organismul unui pacient pentru a îl supune unei investigaţii în laborator, cei care fac
c. Pr (A sau B)? analize ale unor elemente din mediul natural pentru a stabili nivelul de poluare, sau
cercetătorul din ştiintele naturale care taie un exemplar dintr-o specie de plante în scopul
2. O anchetă naţională asupra cuplurilor arată că 30% din neveste urmăreau un anumit efectuării unor analize în laborator.
program de televiziune şi la fel 50% dintre bărbaţi. Mai mult, dacă nevestele se uitau la Atât în aceste situaţii, cât şi în multe altele de acest fel, problema care se pune este
televizor probabilitatea ca şi bărbaţii să urmărească programul creştea cu 60%. Pentru un aceea de a culege informaţiile necesare pentru a analiza temele avute în vedere doar de la
cuplu aleator ales care este probabilitatea ca: o parte din indivizii care compun o populaţie şi nu de la întreaga populaţie. Din punct de
vedere tehnic, grupul sau mulţimea de indivizi care constituie obiectul de studiu sau de
a. Ambii să se uite la televizor? interes al cercetătorului la un moment dat este denumit populaţie, iar grupul mai mic de
b. Cel puţin unul să se uite la televizor? indivizi de la care sunt culese informaţiile necesare cercetării este denumit eşantion.
c. Nici unul să nu se uite la televizor? “Setul de operaţii cu ajutorul cărora, din ansamblul populaţiei vizate de cercetare, se
d. Dacă soţul se uită la televizor, să se uite şi soţia? extrage o parte, numită eşantion, parte ce va fi supusă nemijlocit investigaţiei”2 este
desemnat ca fiind operaţia de eşantionare.
3. Dacă X are valori normal distribuite în jurul unei medii de 16 şi cu o abatere standard Decizia de a culege datele necesare unei cercetări de la un eşantion sau de la o
de 5 să se calculeze: populaţie depinde de o serie de aspecte practice. Astfel, în unele situaţii, dacă timpul,
a. Pr (X>20) resursele financiare şi umane nu constituie o problemă sau dacă populaţia ţintă nu este
b. Pr (20<X<25) foarte numeroasă, atunci este multe mai avantajoasă culegerea datelor de la toţi indivizii
c. Pr (X<10) care compun o populaţie vizată; în felul acesta se obţine o imagine exactă a problematicii
d. Pr (12<X<24) investigate. În alte situaţii există o serie de constrângeri care îl impiedică pe cercetător să
ajungă la toţi indivizii care compun o populaţie, aceste constrângeri se referă în primul
4. Timpul necesar completării unui test şcolar s-a dovedit a fi distribuit normal, în jurul rând la timp, resursele financiare şi umane aflate la dispoziţie, dispersarea georgrafică a
unei medii de 110 minute şi având o abatere standard de 20 de minute. populaţiei care urmează a fi cercetată, iar soluţia cea mai la îndemână pentru a culege
a. Care este proporţia studenţilor care termină testul în două ore (120 de minute)? informaţiile necesare constă selectarea unui eşantion şi investigarea indivizilor care îl
b. Când ar trebui terminat testul pentru a permite exact unui procent de 90% dintre compun. Din acest punct de vedere am putea spune ca eşantionarea este un compromis
studenţi să termine testul? datorat insuficienţei resurselor. Nu întotdeauna este însă vorba numai de imposibilitatea
fizică de a culege informaţii de la toţi membrii unei populaţii – neajuns care în unele
situaţii poate fi depăşit – ci şi de o lipsă de eficienţă practică – spre exemplu, în cazul
cercetătorului din ştiinţele naturale, care, dacă ar tăia toate exemplarele unei specii de
2
Traian Rotariu, Petre Iluţ, Ancheta sociologică şi sondajul de opinie, Ed. Polirom, Iaşi, 1997, p.122.
plante pentru a le analiza în laborator ar determina dispariţia speciei respective. Pe de altă Pentru a exemplifica, să luam cazul unei unei caracteristici X ale unei populaţii de
parte, concentrând resursele existente doar pentru analiza unei părţi dintr-un întreg se pot mărime N = 100.000. În populaţie, caracteristica X va avea media µ, abaterea standard σ,
obţine rezultate mai bune decât analizând întregul, mai ales atunci când acest întreg este şi o anumită formă a distribuţiei. Să presupunem acum că extragem un eşantion de
format din mulţi indivizi a căror investigare implică utilizarea unui personal auxiliar marime n = 10 din respectiva populaţie. În acest eşantion, caracteristica va avea media
numeros care datorită lipsei de specializare poate genera erori mai grave decât dacă ar fi X 1 , abaterea standard s1 şi, de asemenea, o anumită formă a distribuţiei, foarte probabil
analizată o parte din acel întreg utilizând un personal specializat. diferită de cea din populaţie. Dacă vom mai extrage un eşantion de mărime n = 10, vom
obţine o altă medie, X 2 , o altă abatere standard, s2, şi probabil şi o altă formă a
3.2 Valori măsurate pe populaţie şi pe eşantion. Distribuţia de eşantionare
distribuţiei. Dacă vom extrage toate eşantioanele posibile de marime n = 10 din populaţia
Vom începe discuţia despre eşantioane cu cel mai simplu tip de eşantionare, şi de mărime N = 100.000, vom obţine tot atâtea medii de eşantion câte eşantioane am
anume cu eşantionarea simplă aleatoare. Metoda sau metodele de a realiza practic un extras. Distribuţia acestor medii se numeşte distribuţie
Figura 3.1 Distribuţii ale mediilor unor
astfel de eşantion vor fi discutate pe larg într-o secţiune ulterioară a acestui capitol. Ceea de eşantionare a mediei şi dacă mărimea eşantionului eşantioane aleatorii de mărime n = 30
ce ne interesează în acest moment este numai principiul de selecţie a indivizilor, specific este suficient de mare, atunci distribuţia de
acestui tip de eşantionare. Să ne imaginăm că fiecarui individ care aparţine populaţiei de eşantionare este întotdeauna normală, chiar dacă
interes (fie ea o populaţie de persoane, organizaţii etc.) îi atribuim convenţional un valorile caracteristicii iniţiale sunt sau nu normal
identificator, adică un cod unic. Să presupunem acum că notăm fiecare identificator pe o distribuite în populatia vizată. Mai trebuie precizat că
bilă şi introducem într-o urnă uriaşă toate bilele corespunzătoare indivizilor care un eşantion de marime n = 20 este de obicei suficient
alcătuiesc repectiva populaţie. Bilele au toate aceleaşi dimensiuni. Pentru a extrage un de mare pentru ca cele afirmate mai sus să fie
eşantion de indivizi nu avem nimic altceva de făcut decât să extragem un număr de bile la adevărate. În Figura 3.1 sunt reprezentate distribuţiile
întâmplare, egal cu mărimea dorită a eşantionului. Probabililitatea de a extrage un individ de frecvenţe ale mediilor unor eşantioane aleatorii de (a) 3 eşantioane
este egală cu 1/N, unde N este numărul total de bile din urnă. Ceea ce este important este mărime n = 30, extrase din aceeaşi populaţie, pentru o
ca după fiecare extragere să introducem bila înapoi în urnă, astfel încât probabilitatea de caracteristică oarecare. În situaţia (a), avem mediile
extragere a fiecărui individ să fie aceeaşi. De exemplu, dacă nu vom introduce prima bilă primelor trei eşantioane extrase, câte o medie pentru
extrasă înapoi în urnă, probabilitatea celei de-a doua bile de a fi extrasă nu va fi 1/N ci fiecare eşantion (observăm 3 bare de aceeaşi înălţime,
1/(N-1). Cu alte cuvinte, extragerile nu vor fi independente (vezi Capitolul 2). Un ceea ce înseamnă că cele trei eşantioane au medii
eşantion simplu aleator este deci un eşantion ale cărui n observaţii sunt independente. diferite). În situaţia (b) observăm că distribuţia
Să presupunem că am extras un eşantion simplu aleator de mărime n dintr-o frecvenţelor relative ale celor 120 de medii de
populaţie de mărime N. Întrebarea care se ridică în mod firesc este: câtă încredere putem eşantion începe să se apropie uşor de o distribuţie
avea în rezultatele obţinute dat fiind că eşantionul extras la un moment dat este doar unul normală, iar în situaţia (c), în care am extras 1100 de (b) 120 de eşantioane
din multele eşantioane care pot fi extrase dintr-o populaţie? Spre exemplu, să eşantioane, histograma frecvenţelor relative ale
presupunem că extragem aleator un eşantion format din 25 de elevi dintr-o şcoală cărora mediilor aproximează foarte bine o distribuţie
le aplicăm un test de inteligenţă. Să mai presupunem că media coeficientului de normală. Dacă am fi continuat experimentul şi am fi
inteligenţă al tuturor elevilor din şcoală este µ = 132 şi abaterea standard σ = 12. Care extras toate eşantioanele posibile de mărime n = 30
este probabilitatea ca eşantionul extras de noi să nu aproximeze bine situaţia reală? din respectiva populaţie am fi obţinut o distribuţie de
Eşantionul de 25 de elevi este evident doar unul din eşantioanele care ar fi putut fi extrase probabilitate - şi anume distribuţia de eşantionare a
şi prin urmare şi media obţinută la nivel de eşantion este doar una din mediile posibile. mediei, cu toate proprietăţile unei distribuţii normale.
Ne putem gândi la mediile tuturor eşantioanelor posibile ca la o variabilă. Mai clar spus, Să ne întoarcem însă la problema noastră cu
media eşantionului nostru este doar una dintre valorile posibile ale distribuţiei de medii media coeficientului de inteligenţă al elevilor: care e (c ) 1100 de eşantioane
care ar putea fi obţinută extrăgând multe eşantioane formate din câte 25 de elevi ai şcolii probabilitatea ca eşantionul extras de noi să aibă o
respective. Problema este: cât de mare e probabilitatea ca media calculată în eşantionul medie mult diferită de media în populaţie? Şi ca să luăm un exemplu concret, ne putem
extras de noi să nu aproximeze bine media din populaţie? întreba: care e probabilitatea ca eşantionul nostru să aibă o medie egală cu 127 sau chir
Pentru a răspunde la această întrebare trebuie să facem mai întâi o distincţie clară mai mică decât atât?
între trei tipuri de distribuţii: distribuţia unei variabile într-un eşantion de mărime n, Pentru a rezolva această problemă trebuie să apelăm la o teoremă, numită
distribuţia aceleiaşi variabile în populaţie şi distribuţia mediilor tuturor eşantioanelor Teorema limită centrală, care afirmă că distribuţia de eşantionare a mediei, în cazul
posibile de mărime n, numită şi distribuţia de eşantionare a mediei. eşantioanelor simple aleatorii, este o distribuţie normală a cărei medie este chiar media
din populaţie, µ, şi a cărei abatere standard, numită eroare standard, este egală cu să obţinem un eşantion cu o medie de 127, dintr-o populaţie cu media 132 şi abaterea
σ (unde σ este abaterea standard din populaţie iar n este mărimea eşantionului). standard 12 este de aproximativ 2%.
n
• Cazul proporţiilor
Să încercăm acum o mică sinteză a celor prezentate mai sus: mediile unei
caracteristici măsurate pe multe eşantioane pot fi privite ca formând o nouă variabilă Aşa cum am amintit deja în Capitolul 1 când am discutat cazul variabilelor
pentru care vom putea calcula evident o medie dihotomice, proporţiile (sau frecvenţele relative) calculate pentru o variabilă binară nu
Figura 3.2 Distribuţia de eşantionare a mediei şi o abatere standard. În cazul în care sunt nimic altceva decât media acelei variabile. Proporţia calculată într-un eşantion (pe
eşantioanele extrase sunt simple aleatorii, cu care o vom nota cu P) nu este nimic altceva decât o estimare a proporţiei din populaţie
reintroducerea elementului extras în populaţie (notată cu π). Ca şi în cazul mediei ( X ), şi P fluctuează de la eşantion la eşantion, iar
(acordând deci o şansă egală fiecărui element
distribuţia proporţiilor calculate pentru toate eşantioanele posibile de mărime n este de
de a fi extras), această nouă variabilă este
asemenea una normală. Prin analogie cu distribuţia de eşantionare a mediei, vom spune
normal distribuită. Mai mult, valoarea medie a
că proporţiile calculate în eşantion fluctuează în jurul proporţiei din populaţie π, cu o
noii variabile (media mediilor măsurate pe
eşantioanele extrase din populaţia vizată) este eroare standard e = π (1 − π ) / n (deoarece abaterea standard pentru proporţii este
egală cu media din populaţie a caracteristicii egală cu π (1 − π ) ).
vizate, iar abaterea standard a acestei noi
Pentru a ilustra cazul proporţiilor, să presupunem că în România 60% din
variabile este egală cu valoarea din populatie a
electorat votează cu partide de stânga şi 40% votează cu partide de dreapta. Care e
X1 µ X2 abaterii standard a variabilei urmărite,
probabilitatea ca un eşantion simplu aleator de mărime n = 100 să conţină o minoritate de
împărţită la rădăcina pătrată din mărimea
votanţi cu stânga? Cu alte cuvinte, care e probabilitatea să obţinem un eşantion de o sută
eşantionului. Abaterea standard a noii variabile este denumită eroare standard (e):
de persoane care ne-ar conduce către o concluzie greşită în ce priveşte orientarea politică
σ a electoratului?
e= Să trecem la rezolvarea problemei: Mai întâi, vom asuma că o minoritate de
n
votanţi cu stânga înseamnă că mai puţin de 50% din persoanele cuprinse în eşantion
votează cu stânga. Apoi, trebuie să calculăm eroarea standard, e.
Dacă aşa stau lucrurile, înseamnă că datele problemei noastre arată acum astfel:
avem o distribuţie de eşantionare a mediei, care este normală, cu media µ = 132 şi
e= π (1 − π ) / n = 0,6 × 0,4 / 100 ≈ 0,05
abaterea standard (numită eroare standard) σ =12/5 = 2,4. Deci răspunsul la
n
problema noastră se reduce la a calcula aria care se află la stânga lui 127 de sub o curbă Având în vedere faptul că suntem interesaţi de votanţii cu stânga, π = 0,6
normală caracterizată de µ şi e, calcule cu care suntem deja familiarizaţi din Capitolul 2:
z50% = z0,50 = (P - π)/e = (0,5 - 0,6)/0,05 = -2,00
Calculăm mai întâi scorul z pentru 127. Să vedem însă mai întâi cum arată
formula pentru zi în condiţiile în care acum observaţiile sunt medii de eşantion, media Deci, Pr(P<0,50) = Pr(z<-2,00) = 0,023
distribuţiei este media caracteristicii în populaţie, iar abaterea standard a distribuţiei este
eroarea standard: Cu ale cuvinte, probabilitatea de a trage concluzii greşite pe baza eşantionului este
de aproximativ 2%.
Xi − µ Xi − µ
zi = =
e σ n
3.3 Intervale de încredere
În cazul nostru deci, z127 = (127 - 132)/2,4 = -5/2,4 = -2,08. În secţiunea anterioară am răspuns la întrebarea: care e probabilitatea ca un
Să calculăm acum probabilitatea de apariţie a unei valori egale sau mai mici decât eşantion simplu aleator să ofere rezultate depărtate de valorile observate în populaţie. În
-2,08, cu ajutorului tabelului z. Aceasta se reduce la a calcula probabilitatea de apariţie a practică însă, de cele mai multe ori, situaţiile cu care avem de-a face şi întrebările la care
unei valori mai mari decât 2,08, de unde Pr( X <120) = Pr(z<-2,08) = 0,019. Deci, şansa trebuie să raspundem sunt de altă natură: de obicei, cercetătorul sau analistul nu cunoaşte
valoarea reală, din populaţie, a parametrului, ci încearcă să o estimeze. Pentru a ilustra o
astfel de situaţie să luăm un exemplu similar cu cel din secţiunea precedentă Să
presupunem că un cercetător doreşte să estimeze nivelul de inteligenţă al elevilor unei Aceasta nu înseamnă că µ nu mai e o constantă - parametrul căutat de noi în
şcoli. Pentru aceasta el extrage aleator un eşantion format din 25 de elevi cărora le aplică populaţie. Expresia de mai sus nu este nimic altceva decât o "propoziţie" probabilistă
un test de inteligenţă şi obţine o valoare medie a coeficientului de inteligenţă de 131. despre variabila aleatoare X . Media în populaţie nu variază. Întorcându-ne la exemplul
Bazându-se pe acest rezultat, ce poate el spune despre nivelul de inteligenţă al elevilor
nostru pivitor la estimarea coeficientului de inteligenţă, să presupunem că în paralel cu
şcolii respective? Eşantionul de 25 de elevi este evident doar unul din eşantioanele care ar
cercetarea prin eşantion a fost efectuată şi o testare pe toată populaţia de elevi din şcoala
fi putut fi extrase, şi prin urmare şi media de 131 obţinută la nivel de eşantion este doar
respectivă. Rezultatul a fost o medie a coeficientului de inteligenţă de 132, şi o abatere
una din mediile posibile. Mai clar spus, 131 este doar una dintre mediile din distribuţia de
standard de 12. Cercetătorului nostru nu i s-a comunicat însă decât abaterea standard, aşa
medii care ar putea fi obţinută extrăgând multe eşantioane formate din 25 de elevi ai
că el a fost în continuare nevoit să estimeze media în populaţie pe baza valorii obţinute în
şcolii respective. Se pune deci următoarea problemă: care este valoarea medie a
eşantion. În consecinţă, el va lua expresia de mai sus, şi, după calcularea erorii standard
coeficientului de inteligenţă pentru întreaga populaţie de elevi vizată? - valoare evident
(e=2,4) va scrie:
necunoscută pentru cercetător, altfel ce rost ar mai fi avut să facă cercetarea!
Este destul de evident că dacă
Pr(131- 1,96 x 2,4 < µ < 131 + 1,96 x 2,4) = 0,95, adică
dorim să facem o inferenţă despre µ pe Figura 3.3 Aria de sub curba distribuţiei de eşantionare
Pr(126,3 < µ < 135,7) = 0,95
baza lui X , şi dacă vrem să putem avea
încredere că această inferenţă este corectă, În final deci, cercetătorul va afirma "cu un nivel de încredere" de 95% că media în
nu putem pretinde că µ = X . Pare mult populaţie, µ, se găseşte în intervalul 126 - 136. Acest interval se numeşte interval de
încredere.
mai rezonabil să acceptăm că există o
Să presupunem acum că, aşa cum e şi firesc de altfel, cercetătorul nu e foarte
oarecare eroare de eşantionare cu ajutorul
mulţumit de precizia estimării sale. El ar dori să facă o afirmaţie mai "exactă" în sensul
căreia sa construim o estimare de interval,
unui interval mai restrâns. Cum poate el să facă acest lucru? Să ne mai uităm o dată la
sau, mai bine zis, un interval de încredere:
propoziţia probabilistă prezentată anterior, însă de data aceasta o vom scrie în forma sa
generală:
µ = X ± o eroare de eşantionare
Pr( X - zp/2e < µ < X + zp/2e) = n.i.
Cât de mare ar trebui să fie însă această
eroare? Răspunsul depinde bineînţeles de
unde n.i. este nivelul de încredere iar zp/2 este valoarea din tabelul z corespunzătoare
distribuţia de eşantionare a lui X , sau mai respectivului nivel de încredere.
bine zis de măsura în care acesta fluctuează în jurul mediei din populaţie (Figura 3.3). În condiţiile în care cercetătorul doreşte să obţină un interval de încredere mai mic
Să ne aducem puţin aminte de prezentarea distribuţiei normale făcută în Capitolul (mai restrâns), el nu poate face acest lucru decât printr-un compromis, şi anume reducând
2: acolo am afirmat că pentru orice distribuţie normală aria de sub curbă aflată între µ - valoarea absolută a lui z, sau altfel spus, reducând nivelul de încredere. Deoarece
1,96σ şi µ + 1,96σ este întotdeauna 0,95 (vezi şi tabelul z). În cazul distribuţiei de cercetătorul nu poate modifica nici X nici eroarea standard decât prin efectuarea unei
eşantionare, care este de asemenea o distribuţie normală, vom spune deci că aria de sub
alte cercetări, lui nu îi rămâne decât să îşi aleagă un nivel de încredere mai mic decât
curbă cuprinsă între µ - 1,96e şi µ + 1,96e (unde e este eroarea standard) este egală de
95%, ceea ce va duce la o micşorare a intervalului. De exemplu, dacă cercetătorul se
asemenea cu 0,95, de vreme ce eroarea standard este abaterea standard a distribuţiei de
mulţumeşte cu un nivel de încredere de 68% - căruia îi corespunde z0,34 = 1 (vezi tabelul z
eşantionare. Altfel spus, expresia
din Anexa 1), atunci el va putea spune că, pentru un nivel de încredere de 68%, µ va fi
cuprins între 131 - 2,4 şi 131 + 2,4, adică între 128,6 şi 133,4.
Pr(µ - 1,96e < X < µ + 1,96e) = 0,95 Concluzia acestui scurt exerciţiu este că estimarea constituie întotdeauna un
compromis între "exactitatea" şi "siguranţa" afirmaţiei pe care dorim să o facem despre
este adevărată pentru orice distribuţie de eşantionare. În cuvinte, probabilitatea ca media parametrul în cauză. Mai riguros spus, dacă vom încerca să creştem nivelul de încredere
unui eşantion simplu aleator de mărime n să se găsească între valorile µ - 1,96e şi µ + al estimării, mărind astfel "siguranţa", va trebui să creştem şi intervalul de încredere,
1,96e, este egală cu 0,95 (Figura 3.3). Inegalităţile din paranteza expresiei de mai sus pot pierzând astfel din "exactitate". Şi invers, dacă dorim să micşorăm intervalul de
fi rezolvate pentru µ, obţinându-se astfel expresia echivalentă: încredere, vom fi nevoiţi să reducem şi nivelul de încredere al estimării.
Este totuşi legitim să ne întrebăm cum putem obţine estimări cât mai "sigure" şi
Pr( X - 1,96e < µ < X + 1,96e) = 0,95 cât mai "exacte"? Răspunsul nu este foarte greu de dat: prin mărirea volumului
eşantionului. Acest răspuns decurge firesc din formula erorii standard:
Să actualizăm acum formulele şi expresiile utilizate în estimare, înlocuind pe σ cu s şi
σ respectiv pe z cu t:
e=
n
s
e' = ; unde e' este eroarea standard estimată.
n
de unde reiese clar că cu cât vom avea un eşantion mai mare cu atât vom avea o eroare
standard mai mică, şi deci intervale de încredere mai mici, pentru acelaşi nivel de Pr( X - t(1-p)/2e' < µ < X + t(1-p)/2e' = n.i.
încredere.
3.4 Cazul eşantioanelor mici. De la z la t ceea ce este totuna cu a spune că µ = X ± t(1-p)/2e'), pentru un anumit n.i.
În ultimul exemplu din secţiunea anterioară am presupus, destul de nerealist, că

cercetătorul nostru, care nu avea cum să măsoare abaterea standard în populaţie, σ, 3.5 Reprezentativitatea eşantioanelor: a alege câţiva pentru a îi reprezenta pe toţi.
reuşeşte să obţină valoarea acesteia datorită unei coincidenţe fericite. În lumea reală astfel
de coincidenţe sunt practic absente, iar cercetătorul, dacă doreşte într-adevăr să obţină o Un eşantion bun este într-o oarecare măsură o versiune în miniatură a unei
estimare a lui µ, va trebui să calculeze eroarea standard şi deci va fi obligat să înlocuiască populaţii, un model al unei populaţii. Caracteristica cea mai importantă a unui eşantion
σ cu o estimare a ei. După cum e şi foarte intuitiv, cea mai bună estimare pentru σ este s, bun este dat de reprezentativitatea acestuia. Un eşantion este considerat reprezentativ
adică abaterea standard în eşantion. Dar utilizarea lui s introduce o sursă adiţională de pentru populaţia din care este extras dacă “caracteristici importante sunt distribuite
posibile distorsiuni sau erori, mai ales dacă eşantionul este mic (sub 120 de cazuri). similar în amândouă grupurile”3 sau mai clar spus, un eşantion trebuie să reproducă
Pentru a nu risca distorsiuni în ceea ce priveşte nivelul de încredere, va trebui să caracteristici importante ale populaţiei din care este extras. Aceste caracteristici
recurgem la o lărgire a intervalului. Aceasta se face prin înlocuirea valorii z utilizate în importante pot fi: vârsta, nivelul de educaţie, mediul de reşedinţă, sexul, venitul, etc. Aşa
secţiunea anterioară cu o valoare mai mare, t, care provine dintr-o distribuţie similară cu cum am vazut în secţiunile anterioare, un eşantion nu va reproduce niciodată cu exactitate
z, numită distribuţia t a lui Student, sau Student (t). Practic, marea diferenţă dintre toate caracteristicile unei populaţii, iar această lipsă de exactitate implică:
distribuţia z şi distribuţia t este faptul că aceasta din urmă ia în calcul şi ceea ce se
cheamă "grade de libertate". Acestea, foarte intuitiv spus, reprezintă numărul de elemente • existenţa unei erori de eşantionare numită şi eroare limită de sondaj şi care
de informaţie independente, necesare pentru definirea unui sistem. In cazul discutat de este exact produsul dintre valoarea lui t şi eroarea standard (∆ = te)
noi acum, aceste elemente sunt indivizii din care se compune eşantionul. Deoarece între • existenţa unui nivel de încredere, notat mai sus cu n.i., care este dependent de
observaţiile din eşantion există o relaţie de dependenţă, care este media, numărul de valoarea lui t.
grade de libertate va fi n-1. Să revenim la diferenţele dintre z şi t: acestea sunt practic
sesizabile numai în cazul eşantioanelor mici (mai mici de 120), adică pentru un număr Reprezentativitatea unui eşantion este exprimată cantitativ de cele două valori ∆ şi
mic de grade de libertate. Pentru peste 120 de grade de libertate, distribuţia t este foarte n.i, valori care sunt determinate una de cealaltă. Un eşantion este cu atât mai
similară cu z. Pentru sub 120 de grade de libertate (notate de acum înainte g.l.), valorile t reprezentativ cu cât eroarea pe care o facem este mai mică iar nivelul de încredere este
sunt mai mari decât valorile z, pentru a compensa, aşa cum arătam mai sus, înlocuirea lui mai mare.
σ cu s în formula erorii standard. Tabelul t este prezentat în Anexa 2. Deoarece citirea se Orice eşantion aleator reproduce mai mult sau mai puţin caracteristici ale
face în funcţie de numărul de grade de libertate, care se găsesc la capetele rândurilor (în populaţiei din care este extras, motiv pentru care nu există eşantioane nereprezentative, ci
stânga), organizarea şi modul de citire ale unui tabel t sunt complet diferite faţă de cele doar eşantioane mai mult sau mai puţin reprezentative pentru o populaţie în funcţie de
ale tabelului z. În tabelul t din Anexa 2 coloanele sunt definite de ariile de sub curbă măsura în care caracteristici ale populaţiei respective sunt regăsite şi în aceste eşantioane.
aflate la dreapta valorii t, iar în celule, la intersecţia dintre gradele de libertate şi nivelele Mai mult, unele caracteristici pot fi mai bine reproduse de un eşantion iar altele mai puţin
de probabilitate (arii) se găsesc valorile lui t. Astfel, pentru un eşantion de 10 persoane şi bine, ceea ce înseamnă ca reprezentativitatea unui eşantion este diferită în funcţie de
un nivel de încredere de 95% va trebui să căutam valoarea lui t la intersecţia dintre rândul caracteristica care este avută în vedere. Cu alte cuvinte, un eşantion nu este reprezentativ
cu 9 grade de libertate şi aria egala cu 0,025, deoarece 0,95 = 1 - 2 x 0,025 (sau, în în general, ci are o anumită reprezentativitate în raport cu o anumită caracteristică şi o
cuvinte, pentru a obţine nivelul de 0,95 trebuie să eliminăm 0,05 din ambele cozi ale altă reprezentativitate în raport cu o altă caracteristică.
distribuţiei, adică câte 0,025 din fiecare coadă - şi din stânga şi din dreapta). Pe ultima Gradul de reprezentativitate a unui eşantion depinde de trei factori importanti -
linie a tabelului se poate observa că atunci când numărul de grade de libertate tinde către eterogenitatea sau omogenitatea caracteristicilor populaţiei din care este extras, de
infinit, valorile t sunt egale cu valorile z pentru acelaşi număr de g.l. mărimea eşantionului şi de procedura de eşantionare.
3
Arlene Fink, How to Sample in Surveys, Sage Publications, Thousands Oaks, London, New York, 1995, p.1.
Cum am spus deja, reprezentativitatea unui eşantion este dată de capacitatea În ceea ce priveşte procedura de eşantionare, aceasta influenţează atât gradul de
acestuia de a reproduce o serie de caracterisitici existente în populaţie. Dacă o reprezentativitate al unui eşantion cât şi posibilitatea exprimării numerice a acesteia. Din
caracteristică este mai omogen distribuită într-o populaţie un acelaşi eşantion va fi mai punct de vedere tehnic – matematic, calcularea reprezentativităţii unui eşantion este
reprezentativ pentru acea caracteristică decât pentru o altă caracteristică care este posibilă numai în cazul eşantioanelor probabiliste sau aleatoare. Un eşantion probabilist
distribuită mai eterogen în aceeaşi populaţie. Sau altfel spus, pentru a obţine o aceeaşi este acel eşantion pentru care fiecare element din populaţia vizată are o şansă calculabilă
reprezentativitate, pentru o caracteristică în raport cu care populaţia este mai omogenă şi non-nulă de a fi selectat în eşantion. Posibilitatea calcularii probabilităţii ca un element
este nevoie de un eşantion de mărime mai mică decât pentru o caracteristică în raport cu din populaţie să fie selectat în eşantion permite calcularea unei marje de eroare (∆) şi a
care populaţia este mai eterogenă. unui nivel de încredere (n.i.) prin care să fie exprimată cantitativ reprezentativitatea
Mărimea eşantionului se referă la numărul de elemente care îl compun şi care eşantionului. În cazul eşantioanelor neprobabiliste, cele pentru care şansa unui element al
trebuie investigate pentru a obţine rezultate cât mai precise. Intuitiv, un eşantion este cu populaţiei de a face parte din eşantion nu este cunoscută, nu poate fi calculat gradul de
atât mai reprezentativ cu cât cuprinde mai multe elemente din populaţia vizată, în felul reprezentativitate şi prin urmare nici nu se poate vorbi de reprezentativitatea lor.
acesta obţinându-se o reproducere mai bună a acesteia. Dar creşterea nivelul de
reprezentativitate nu este direct proporţională cu creşterea numărului de elemente din • O ultimă provocare: cât de mare trebuie să fie un eşantion?
populaţia vizată care sunt incluse în eşantion, adică nu avem o relaţie lineară între cele
două componente; dimpotrivă această relaţie poate fi reprezentată sub forma unei curbe În practică, aceasta este una din primele întrebări pe care şi le pune orice cercetător
asemănătoare celei din figura de mai jos (Figura 3.4). Astfel, dacă modificăm mărimea sau analist înainte de a se lansa într-un sondaj. Aşa cum am mai menţionat, mărimea
eşantionului cu o cantitate K de elemente, iar eşantionul cuprinde iniţial un număr mic de eşantionului nu este dependentă de mărimea populaţiei. Stabilirea mărimii unui eşantion
elemente, modificarea gradului de reprezentativitate este mai mare decât dacă modificăm se face de obicei în funcţie de resursele avute la dispoziţie (timp, bani, resurse umane
mărimea eşantionului cu aceeaşi cantitate K de elemente dar eşantionul este compus etc.) şi de nivelul de reprezentativitate pe care cercetătorul doreşte să îl atingă. Deducem
iniţial dintr-un număr mare de elemente. de aici că mărimea eşantionului se va stabili în funcţie de nivelul de încredere pe care
care dorim să îl atingem şi de marja de eroare sau nivelul erorii limită de sondaj pe care
Figura 3.4 Relaţia dintre reprezentativitate şi mărimea eşantionului.
suntem dispuşi să le acceptăm. De obicei, aceste decizii se iau plecând de la ipoteza unei
populaţii cu grad maxim de eterogenitate pe câteva caracteristici. Ipoteza eterogenităţii
maxime este o precauţie pe care cercetătorul trebuie să şi-o ia; este un fel de a se aştepta
"la ce e mai rău". În cazurile în care abaterile standard în populaţie ale caracteristicilor de
interes sunt cunoscute, se poate pleca de la acestea. În această secţiune, vom exemplifica
cu ajutorul unei caracteristici dihotomice, pentru simplitatea calculelor:
Eterogenitatea maximă pentru o caracteristică dihotomică este atinsă atunci când
distribuţia respectivei caracteristici în populaţie este omogenă, adică 50% - 50%.
Mărimea eşantionului poate fi extrasă din formula erorii standard:
σ
e=
n
sau, în cazul variabilelor dihotomice,
Mărimea eşantionului este indepedentă de mărimea populaţiei din care este e= π (1 − π ) / n

extras. Un eşantion de o anumită mărime şi constituit după aceleaşi proceduri are aceelaşi
grad de reprezentativitate şi atunci când este extras din populaţia unei ţări şi atunci când
este extras din populaţia unui oraş. Consecinţa faptului că reprezentativitatea unui de unde,
eşantion nu depinde de mărimea populaţiei din care este extras este aceea că acesta are un
anumit grad de reprezentativitate pentru întreaga populaţie, dar subeşantioanele în care se n = π (1 − π ) / e 2
împarte şi care respectă proporţia diferitelor segmente ale populaţiei nu mai au acelaşi
grad de reprezentativitate pentru aceste segmente ca şi eşantionul iniţial (pe total dar ∆ = te, de unde rezultă că e = ∆/t
populaţie).
deci n = π (1 − π ) × t 2 / ∆2
Să presupunem acum că dorim să facem acest calcul pentru o variabilă de
eterogenitate maximă şi că în final dorim să obţinem o marjă de eroare ∆ = 2% (adică de
0,02), pentru un nivel de încredere de 95% (adică 0,95). Cu alte cuvinte, dorim să ne
asigurăm acel volum al eşantionului care să ne permită să spunem, pentru variabila
noastră (să zicem starea de sărăcie), că:
P - 2% < π < P + 2% (sau π = P ± 2%), pentru un nivel de încredere de 95%

unde P este proporţia (de săraci) măsurată în eşantion.
Pentru următoarele întrebări, să se încercuiască varianta corectă /variantele corecte:
Dacă nivelul de încredere ales este de 95%, va trebui să ne uităm în tabel la valoarea lui t 4. Eroarea limita de sondaj este 1. populatia este mai eterogena
corespunzătoare acestui nivel. De fapt ne vom uita în tabelul z, deoarece am presupus că cu atit mai mare cu cit: 2. esantionul este mai mic
lucrăm cu abaterea standard în populaţie, şi oricum ar fi absurd să vorbim în această fază 3. abaterea standard a caracteristicii în eşantion
despre numărul de grade de libertate, care e dependent de n (g.l. = n-1). Deci, vom folosi este mai mica
valoarea t = 1,96. 4. media în eşantion este mai mare
5. volumul esantionului este mai mare
Din cele de mai sus rezultă că: 6. nici una dintre acestea
5. Volumul eşantionului trebuie 1. mărimea populaţiei din care se extrage
n = 0,5 x 0,5 x 1,96 x 1,96 / (0,02 x 0,02) = 2401 subiecţi. să fie direct proporţional cu 2. variaţia caracteristicii de eşantionare
3. eroarea limită de reprezentativitate admisă
nivelul de încredere pentru care se garantează
Exerciţii şi probleme rezultatele
1. O populaţie de studenţi într-un campus studenţesc mare are o greutate medie de µ = 69

kilograme şi o abatere standard σ = 3,22 kilograme. Dacă se alege un eşantion aleator de
n = 10 studenţi, care este şansa ca media eşantionului X să se plaseze în intervalul de
+/- 2 kilograme faţă de medie µ a populaţiei?
2. Un teleferic este astfel proiectat încât să poată suporta o greutate maximă de 10000 de
kilograme. În teleferic sunt încărcate la un transport 50 de butoaie. Să presupunem că
greutăţile tuturor butoaielor care trebuie transportate cu telefericul au o medie de 190
kilograme şi o abatere standard de 25 de kilograme. Care este probabilitatea ca un
eşantion aleator de 50 de butoaie să aibă o greutate mai mare decât greutatea maximă
suportată de teleferic?
3. În 1998 aproximativ 50% dintre români considerau că inflaţia este cea mai importantă
problemă a ţării. Dacă se aleg în mod aleator 1500 de români din totalul populaţiei care
este şansa ca proporţia acestui eşantion să reflecte în mod adecvat proporţia populaţiei,
considerând un interval de +/- 3 procente în jurul valorii din populaţie?
De la caz la caz, în funcţie de problema investigată, pot constitui cadru de
Capitolul 4 eşantionare: lista celor care sunt înscrişi la un medic de familie sau la medicii de familie
care operează într-o anumită arie care urmează a fi acoperită de cercetare, lista celor
Proceduri de eşantionare abonaţi la o firmă furnizioare de servicii de televiziune prin cablu, lista celor abonaţi la o
anumită publicaţie, lista celor care figurează în registrul auto, lista celor care figurează în
Unul dintre primele aspecte care trebuie luate în considerare atunci când se pune registrul de carte funciară, etc. Ideal toate aceste liste ar trebui să includă fiecare element
problema realizării unor cercetări practice este aceea a delimitării populaţiei care urmază al populaţiei vizate doar o singură dată. În realitate însă există o serie de neajunsuri
a fi studiată. În acest context, prin “populaţie” sunt desemnate toate elementele care pot printre care cele mai importante sunt:
sau trebuie să fie studiate. Elementele pot fi indivizi umani, dar în acelaşi timp pot fi
gospodării, şcoli, spitale, intreprinderi economice, oraşe, organizaţii sociale sau • lipsa unor elemente: fie lista este inadecvată în sensul în care iniţial nu a fost
profesionale, ziare, articole de presă, discursuri ale unor oameni politici, etc. Indiferent concepută pentru a include toate elementele care pot face la un moment dat obiectul
însă de cine sau ce constituie elementele populaţiei vizate, aceasta trebuie să fie atent de interes al cercetătorului, fie este incompletă, adică nu include din diferite motive
delimitată în funcţie de obiectivele cercetării, întrucât rezultatele finale vor depinde de toate elementele care se presupune care că ar trebui să le includă;
acest punct de referinţă stabilit iniţial. Spre exemplu, să ne imaginăm că într-un oraş se • referinţe la grupuri de elemente şi nu la elemente individuale; spre exemplu, liste care
pune problema adoptării unui nou sistem de transport în comun, iar ceea ce ne interesează nu se referă la numărul de persoane ci la numărul de familii care locuiesc într-o
este acordul sau dezacordul cetăţenilor cu privire la modul practic de realizare a acestuia. gospodărie, dar cercetarea vizează persoane şi nu familii;
În acest caz, populaţia vizată este compusă doar din cei care locuiesc în oraşul respectiv? • existenţa unor elemente straine, adică existenţa în listă a unor elemente care din
sau trebuie avută în vedere şi populaţia care nu locuieşte în oraş, dar care într-o măsură diferite motive nu fac obiectul de studiu la un moment dat;
sau alta beneficiază de transportul în comun din acel oraş? care este vârsta minimă şi • exitenţa unor duplicate: când unele elemente ale populaţiei apar de mai multe ori pe o
maximă a celor care vor fi chestionaţi?, etc. Intrebări asemănătoare acestora se ivesc de listă.
fiecare dată când se pune problema definirii unei populaţii care urmează a fi cercetate, iar
de răspunsurile date vor depinde în mod evident rezultatele finale. Un prim pas în Remedierea tuturor acestor neajunsuri va duce în mod evident la obţinerea unui
definirea unei populaţii vizate este acela de a stabili o populaţie ideală, adică toţi cei care eşantion mai bun. De la caz la caz prin remediere se înţelege: identificarea elementelor
ipotetic ar trebui să fie luaţi în considerare atunci când se cercetează o problematică lipsă şi introducerea lor în lista care constituie cadrul de eşantionare, identificarea tuturor
anume. După care în funcţie de constrângerile practice identificate – spre exemplu, în elementelor care fac parte dintr-un grup, eliminarea unor elemente străine care nu au
cazul în care elementele populaţiei sunt indivizi umani, astfel de constrângeri ar putea fi legătură cu tematica cercetării, eliminarea duplicatelor şi păstrarea pe o listă a unui
date de imposibilitatea de a îi investiga pe cei aflaţi în închisori, unităţi militare, spitale, element doar o singura dată.
hoteluri, în străinătate, etc – populaţia ideală poate fi restrânsă la o populaţie vizată care O modalitate de a depăşi aceste neajunsuri constă în redefinirea problematicii
poate fi abordată în cadrul cercetării. Avantajele luării în considerare în faza iniţială a cercetate în aşa fel încât elementele populaţiei care nu pot fi identificate să nu facă
unei populaţii ideale este acela că excluderea unor segmente din aceasta este explicită, iar obiectul unei anumite cercetări. Acest lucru evident nu este posibil în toate situaţiile şi nu
neajunsurile rezultate de aici pot fi luate în considerare. este posibil mai ales în acele situaţii în care elementele care nu pot fi identificate
O dată stabilită populaţia vizată, poate fi pusă şi problema alegerii unui eşantion. constituie majoritatea elementelor unei populaţii.
Pentru aceasta, elementele populaţiei vizate sunt traspuse într-o listă numită cadru de Atunci când nu există liste care să cuprindă elementele unei populaţii vizate prin
eşantionare, listă din care vor fi extrase ulterior potrivit unor proceduri clar definite acele cadru de eşantionare poate fi desemnată orice altă procedură care să permită identificarea
elemente care vor compune eşantionul. Spre exemplu, dacă se realizează o anchetă elementelor unei populaţii. Spre exemplu, o arie geografică poate juca rolul de cadru de
telefonică al cărui scop este investigarea modului în care dotarea cu utilităţi publice a eşantionare, situaţie în care elementele populaţiei vizate sunt asociate cu un anumit spaţiu
unei localităţi acoperă necesităţile existente, populaţia ideală este constituită din toate natural. Astfel, aria geografică ocupată de o populaţie vizată poate fi împărţită în zone
gospodăriile care au acces la utilităţi publice, iar cadrul de eşantionare este format din mai mici din care sunt alese aleator câteva, care la rândul lor sunt divizate în arii mai mici
toate gospodăriile care au acces la utilităţi publice şi au telefon. Constrângerea în acest dintre care vor fi selectate aleator câteva şi aşa mai departe până la utimul stadiu când din
caz este dată de existenţa unui post telefonic în gospodărie. Gospodăriile care au acces la anumite zone astfel selectate sunt investigate toate elementele.
utilităţi dar care nu au telefon neputând fi investigate, populaţia vizată este formată doar
din acele gospodării care au acces la utilităţi publice şi au telefon (Figura 1.). În exemplul
de faţă, astfel de liste care să se constituie în cadru de eşantionare pot fi evidenţe ale
companiilor funizoare de utilităţi publice şi liste ale abonaţilor la servicii telefonice din
localitatea avută în vedere.
anulează şansele altor elemente care sunt exluse a priori întrucât nu au şansa de a se afla
Figura 4.1. Cadrul de eşantionare pentru selectarea unui eşantion în vederea investigării la locul sau pe traseul pe care se deplasează cel care face selecţia.
printr-o anchetă telefonică a gradului de satisfacere de către utilităţile publice a nevoilor populaţiei Pentru a evita aceste situaţii ar trebui să avem o situaţie clară a tuturor elementelor
unei localităţi (exemplu ipotetic). care compun o populaţie şi să le putem identifica fără echivoc.
Aşa cum am arătat deja în paragraful anterior, în cazul procedurilor de eşantionare
probabiliste fiecare element care compune o populaţie trebuie să aibă o şansă diferită de
zero şi calculabilă de a face parte din eşantion. Acesta este criteriul de bază în stabilirea
dihotomiei: eşantioane probabiliste - eşantioane neprobabiliste
De-a lungul timpului au fost dezvoltate o larg varietate de tehnici de eşantionare,
dintre acestea cele mai frecvent întâlnite sunt: eşantionarea simplă aleatoare, eşantionarea
aleatoare prin stratificare, eşantionarea cluster, eşantionarea multistadială, eşantionarea
pe cote, eşantionarea tip “bulgăre de zăpadă”. În cele ce urmează vom prezenta o serie de
aspecte legate de modul de aplicare a fiecăreia dintre aceste proceduri de eşantionare.
4.1.1 Eşantioane probabiliste
• Eşantionarea simplă aleatoare

Eşantionarea simplă aleatoare este probabil procedura cea mai importantă şi cea
mai des utilizată în domeniul cercetărilor practice şi este considerată procedura de
referinţă, “ideală”, atunci când se pune problema stabilirii unor tehnici de eşantionare.
Asumpţiile de bază ale acestei tehnici sunt acelea că: fiecare element al populaţie vizate
4.1 Tipuri de eşantioane are exact aceeaşi şansă ca şi oricare alt element al aceleiaşi populaţii de a fi selectat în
eşantion, iar selectarea unui element în eşantion nu a influenţat în nici un fel şansele altui
Distincţia clasică în ceea ce priveşte tipurile de eşantioane este aceea între element de a fi selectat. Tehnica tipică sau modelul de realizare al acestui tip de
eşatioanele probabiliste sau aleatoare şi cele neprobabiliste. eşantionare este reprezentat de metoda urnei, situaţie în care fiecarui element dintr-o
În primul caz în procesul de selectare a unui element din populaţie pentru a face populaţie vizată îi corespunde o bilă; toate bilele corespunzătoare unor membrii ai
parte din eşantion se presupune că se face “la întâmplare” fără să intervină în vreun un fel populaţiei vizate sunt introduse într-o urnă după care sunt amestecate şi se extrage pe
subiectivismul celui care aplică procedura de eşantionare şi nici vreun alt fenomen care rând câte una până se ajunge la un număr de bile egal cu numărul de elemente care vor
să afecteze şansa unuia sau unor indivizi de a fi selectaţi. Dată fiind această constrângere, compune eşantionul. Pentru a asigura probabilităţi de extragere egale pentru toate
situaţii cum ar fi alegerea la întâmplare a unui număr de oameni care intră într-o instituţie bilele, după fiecare extragere bila este introdusă înapoi în urnă. Totuşi, dacă populaţia
de la orele 8.00 până la orele 10.00 ale unei zile, constituirea unui eşantion de gospodării este foarte mare (număr foarte mare de bile) reintroducerea bilei în urnă nu mai este
alese la întâmplare atunci când ne plimbăm pe câteva străzi dintr-o localitate, sau necesară deoarece probabilitatea de extragere a bilelor rămase nu este practic influenţată
constituirea unui eşantion format din localităţi rurale ale unui judeţ, selectând tot decât într-o masură extrem de mică, aproape insesizabilă. Simplu de pus în practică din
întâmplător localităţi rurale care se află pe şoseau care leagă două oraşe ale judeţului punct de vedere teoretic, procedura astfel definită întâmpină o serie de dificultăţi mai ales
respectiv, etc, nu vor duce la constituirea unor eşantioane probabiliste. Motivul pentru atunci când se lucrează cu populaţii mari, situaţie în care este practic imposibil de
care nu vom obţine în aceste cazuri eşantioane aleatoare este acela că în alegerea pe care conceput o urnă în care să poate fi introdus un număr de bile egal cu numărul de indivizi
o facem “la întâmplare” excludem fie intenţionat, fie neintenţionat o parte din elementele care compun populaţia unei ţări spre exemplu.
populaţiei vizate. Astfel în primul caz, dacă vrem să alegem un eşantion reprezentativ O a doua metodă de realizare a unei eşantionări simple aleatoare sunt tabelele cu
pentru cei care frecventează o anumită instituţie şi vom selecta “la întâmplare” doar pe numere aleatoare. Procedura constă în generarea unor şiruri de numere aleatoare şi
cei care intră în acea instituţie în intervalul orar amintit îi vom exclude pe toţi cei care la introducerea lor într-un tabel. Fiecărui element din populaţia vizată, care trebuie
momentul respectiv nu au şansa de a intra în acea instituţie, similar vom exlude fără să identificat univoc, i se atribuie un număr de la 1 la N. Cel care realizează selecţia, alege la
vrem gospodăriile care nu au şansa de a se găsi pe străzile pe care ne plimbăm sau întâmplare un număr din şirul de numere aleatoare şi caută apoi în populaţia vizată
localităţile rurale care nu au şansa de a se afla pe şoseaua care leagă cele două oraşe între elemetul cu numărul de ordine reprezentat de numărul aleator respectiv, element care va
care ne deplasăm. Mai mult, nu putem calcula şansa pe care o are fiecare element din cele face parte din eşantion. După care din tabelul de numere aleatoare este ales numărul
trei cazuri prezentate mai sus – persoane, gospodării, localităţi rurale –de fi selectat în următor şi se identifică din nou în populaţia vizată elementul cu numărul de ordine
eşantion. În toate aceste cazuri este clar că întâmplarea favorizează anumite elemente şi identic cu numărul aleator, element care este şi el introdus în eşantion. Procedura
continuă în acest fel până la completarea numărului de elemente necesare constituirii acurateţe acea caracteristică este mai mică în comparaţie cu mărimea unui eşantion extras
eşantionului. În cazul în care unui număr aleator nu îi corespunde un număr atribuit unui dintr-o populaţie care este mai eterogenă în raport cu aceeaşi caracteristică.
element din populaţia vizată, acesta nu este utilizat şi se trece la următorul. Mărimea subeşantioanelor poate să păstreze proporţia subpopulaţiilor, situaţie în
O altă procedură de punere în practică a unei eşantionări simple aletoare este care vom vorbi de eşantionare prin stratificare proporţională. În felul acesta se asigură
cunoscută sub denumirea de metoda pasului. În această situaţie este necesară o listă care pentru toate elementele populaţiei vizate o şansă egală de a fi selectate în eşantion.
să cuprindă toate elementele populaţiei vizate, fiecărui element fiindu-i atribuit un număr Există însă şi situaţii în care este recomandat ca subeşantioanele să nu păstreze
de la 1 la N. După care se stabileşte un pas de eşantionare, de obicei egal cu raportul proporţiile subpopulaţiilor. Acest lucru se întâmplă mai ales atunci când unele
dintre mărimea populaţiei (N) şi mărime eşantionului (n): N/n. Se alege la întâmplare un subpopulaţii sunt reduse din punct de vedere numeric şi în consecinţă, dacă ar fi păstrate
număr din lista care cuprinde toate elementele populaţiei vizate, elementul corespunzător proporţiile, şi subeşantioanele ar fi formate dintr-un număr mic de elemente care nu ar
acelui număr fiind primul element al eşantionului, după care, începând de la acel element, avea un nivel de reprezentativitate rezonabil. În această situaţie se recurge la o stratificare
este selectat în eşantion tot al N/n –lea element din populaţie. Pasul de N/n se aplică de diproporţionată a eşantionului sau o stratificare ponderată, prin suprareprezentarea în
câte ori este nevoie pentru a selecta numărul de elemente care trebuie să fac parte din eşantion a subpopulaţiilor mai puţin numeroase, urmând ca la prelucrarea datelor aceste
eşantion. Procedura pasului mai este cunoscută şi sub denumirea de eşantionare simplă “abateri“ să fie corectate prin metode statistice. În această situaţie şansele elementelor
sistematică sau cvasi-aleatoare. aparţinând diferitelor subpopulaţii de a intra în eşantion sunt diferite: elementele care
Spre exemplificare, să presupunem că populaţia vizată este formată din 5000 de provin din subpopulaţiile mai puţin numeroase având şanse mai mari de fi selectaţi în
gospodării, şi dorim să constituim un eşantion format din 250 de gospodării. Pasul de eşantion decât elementele care provin din subpopulaţiile mai numeroase.
eşantionare în acest caz va fi 5000/250 = 20. Gospodăriile sunt ordonate pe o listă, Indiferent de modalitatea în care sunt constituite subeşantioanele, păstrând sau nu
fiecăreia atribuindu-i-se un număr de la 1 la 5000. Se alege la întâmplare o un număr de proporţiile, eşantionarea prin stratificare presupune existenţa în momentul iniţial al
pe listă, să spunem că acest număr este 7; gospodăria căreia i-a fost atribuit acest număr punerii în practică a procedurii de eşantionare a unei informaţii suplimentare despre
este primul element al eşantionului nostru. Următoarele gospodării care vor face parte din populaţia vizată în comparaţie cu situaţia în care este utilizată eşantionarea simplă
eşantion sunt cele cărora le corespund numerele: 27, 47, 67, 87, 107, 127, 147 şi aşa mai aleatoare. Această informaţie poate fi obţinută cu ajutorul altor studii sau din alte surse de
departe până la selectarea a 250 de gospodării. informare cu privire la populaţia vizată.
În ceea ce priveşte gradul de reprezentativitate al eşantioanelor realizate prin
stratificare în comparaţie cu gradul de reprezentativitte al eşantioanelor simple aleatoare,
• Eşantionarea prin stratificare se admite în general că este mai bun. Mai clar spus, dintre două eşantioane de aceeaşi
Eşantionarea prin stratificare are la bază tot o procedură de alegere aleatoare. mărime unul obţinut prin eşantionare prin stratificare iar altul prin eşantionare simplă
Această metodă este utilizată atunci când cel care face eşantionarea are motive să creadă aleatoare, se consideră că primul are o reprezentativitate mai bună, în situaţia în care
că populaţia vizată este compusă din mai multe subpopulaţii sau subgrupuri distincte, criteriile pe baza cărora se face eşantionarea au o legătură de tip statistic cu
denumite tehnic straturi. Realizarea din punct de vedere practic a unui eşantion prin caracteristicile care fac obiectul cercetării.
stratificare presupune următorii paşi: populaţia vizată este împarţită în subpopulaţii în
funcţie de un anumit criteriu care este deja cunoscut, după care este constituit un eşantion
care la rândul lui va fi compus din atâtea subeşantioane câte subpopulaţii există în
populaţia vizată. În interiorul fiecărei subpopulaţii elementele care vor fi introduse în • Eşantionarea cluster şi eşantionarea multistadială
eşantion sunt selectate aleator. Până acum am prezentat situaţii în care există un anumit cadru de eşantionare -
Spre exemplu, să presupunem că 30% din populaţia unei regiuni locuieşte în liste care să cuprindă elementele unei populaţii - şi situaţii în care pe lângă faptul că
localităţi rurale, 20% locuieşte în oraşe cu până la 50.000 de locuitori, 15% locuieşte în există un anumit cadru de eşantionare cercetătorul mai are la îndemână şi o serie de
oraşe care au de la 50.001 la 100.000 de locuitori, iar restul de 35% locuieşte în oreşe de criterii pe baza cărora o populaţie poate fi împărţită în subpopulaţii sau grupuri. În
peste 100.000 de locuitori. Un eşantion stratificat format din 1000 de persoane va această din urmă situaţie din fiecare grup este extras un subeşantion care va face parte din
cuprinde 300 de persoane din mediul rural, 200 de persoane care locuiesc în oraşe cu eşantionul final.
pânâ la 50.000 de locuitori, 150 de persoane care locuiesc în oraşe care au între 51.001 şi Există însă şi situaţii în care nu există un cadru de eşantionare şi nici nu este
100.000 de locuitori şi 350 de persoane care locuiesc în oraşe de peste 100.000 de necesară creerea unuia întrucât nu toate elementele acelei populaţii vor fi incluse în
locuitori. eşantion. Dacă populaţia poate fi considerată ca fiind formată din grupuri, iar între aceste
Principiul de bază al acestui tip de eşantionare este acela că, cu cât o populaţie grupuri există o anumită asemănare, atunci are sens să nu fie selectaţi în eşantion indivizi
este mai omogenă cu atât este mai uşor să se extragă din aceasta un eşantion din toate grupurile ci numai indivizi din anumite grupuri. În această situaţie populaţia
reprezentativ. De asemenea, cu cât o populaţie este mai omogenă în raport cu o vizată este împarţită în grupuri în funcţie de un anumit criteriu, aceste grupuri la rândul
caracteristică, cu atât mărimea eşantionului necesar pentru a reproduce cu o anumită lor pot fi considerate ca fiind formate din alte grupuri şi aşa mai departe. Date fiind aceste
condiţii, selectarea elementelor care vor compune eşantionul poate începe prin selectarea
grupurilor din care fac parte aceste elemente. Astfel, într-o primă fază sunt selectate În cadrul acestor tehnici de eşantionare neprobabilistă cele mai des utilizate sunt
aleator o parte din grupurile populaţiei vizate, după care din fiecare grup selectat în prima eşantionarea “pe cote” şi eşantionarea tip “bulgăre de zăpadă”.
fază vor fi selectate tot aleator alte grupuri mai mici şi aşa mai departe până când se
ajunge la nivelul elementului de bază din care este compusă populaţia vizată. Spre • Eşantionarea pe cote
exemplu, dacă dorim să alegem un eşantion din populaţia unui oraş, într-o primă fază Eşantionarea pe cote este probabil cea mai des utilizată procedură de eşantionare
putem selecta cartiere din acel oraş, apoi străzi, blocuri, apartamente şi în cele din urmă neprobabilistă utilizată atunci când se lucrează cu populaţii numeroase. Din punct de
persoanele care ne interesează. Dacă toate elementele care fac parte dintr-un grup la un vedere al realizării practice această procedură este similară eşantionării prin stratificare
moment dat sunt incluse în eşantion, procedura de eşantionare astfel definită este prin aceea că populaţia vizată este stratificată după o serie de criterii însă în interiorul
denumită eşantionare cluster. Dacă doar o parte din elementele unui grup sunt incluse în straturilor indivizii nu sunt selectaţi aleator, ci selecţia acestora este lăsată la latitudinea
eşantion, procedura de eşantionare este definită ca multistadială. operatorilor de anchetă. Acestora le sunt indicate numai anumite “cote” care indică
Avantajul unei astfel de proceduri de eşantionare îl constituie costurile reduse în frecvenţa cu care să fie selectaţi subiecţii care au anumite caracteristici. Spre exemplu
raport cu celelalte proceduri prezentate până acum, în sensul în care efortul şi timpul dacă în populaţia vizată avem 49% bărbaţi şi 51% femei şi 20% au studii superioare iar
necesar identificării unui element care va fi inclus în eşantion este mult mai redus. restul de 80% nu au astfel de studii, iar eşantionul este format 1000 de persoane, atunci în
În ceea ce priveşte reprezentativitatea unui astfel de eşantion, se consideră în cadrul acetuia vor fi cuprinşi 490 de barbaţi şi 510 femei, 200 de persoane cu studii
general că, la volum egal, este mai puţin repezentativ în comparaţie cu un eşantion superioare şi 800 de persoane care nu au absolvit învăţământul superior. În această
obţinut prin stratificare sau în comparaţie cu un eşantion obţinut prin procedee simple situaţie dacă sunt utilizaţi 10 operatori de interviu fiecăria i se cere să chestioneze 49 de
aleatoare. Reprezentativitatea mai scăzută este rezultatul eliminării la diferite nivele a bărbaţi şi 51 de femei, 20 de absolvenţi de învăţământ superior şi 80 de persoane care au
unor grupuri de elemente din populaţia vizată. Cu cât aceste grupuri care sunt eliminate absolvit o formă de învăţământ alta decât facultatea. Pentru a se limita subiectivitatea
sunt mai mari şi cu cât sunt mai diferite în comparaţie cu grupurile care nu au fost operatorilor în selecatarea celor care vor fi incluşi în eşantion se recomandă stabilirea a
eliminate cu atât este mai mare riscul de a greşi. cât mai multor criterii de stratificare a populaţiei vizate.
Multe cercetări utilizează o combinaţie între eşantionarea multistadială (care este Avantajul unui astfel de procedeu de selecţie este acela că nu necesită existenţa
mai uşor de efectuat şi ale cărei costuri sunt mai reduse) şi eşantionarea stratificată (a unui cadru de eşantionare, lucru care în unele situaţii este greu de realizat, iar munca
cărei acurateţe este mai mare). Astfel, selecţia în cadrul fiecărui stadiu nu este o selecţie operatorilor este mult uşurată prin aceea ce nu trebuie să caute o persoană anume ci au
simplă aleatoare ci mai degrabă o selecţie aleatoare constrânsă de un criteriu de libertatea de a alege pe cine vor cu condiţia deţinerii anumitor caracteristici vizate de
stratificare. De exemplu, pentru un eşantion naţional nu vom selecta în primul stadiu cercetare.
localităţile prin metoda simplă aleatoare, ci vom folosi şi un criteriu de stratificare - să
zicem împărţirea în rural şi urban. • Eşantionarea tip “bulgăre de zăpadă”
Este o procedură de eşantionare utilizată în situaţia în care nu există informaţii
suficiente pentru a identifica toţi indivizii care compun o anumită populaţie, ci este
4.1.2 Eşantioane neprobabiliste posibilă doar identificare doar a câtorva astfel de indivizi. Date fiind aceste circumstanţe,
analiza unui populaţii vizate începe cu investigarea indivizilor cunoscuţi după care
Alături de aceste proceduri de eşantionare probabiliste în practica de cercetare acestora li se cere să precizeze, dacă este posibil, şi alte persoane despre care se
sunt utilizate şi o serie de tehnici mai puţin riguroase în ceea ce priveşte selectarea celor presupune că întrunesc caracteristici vizate de cercetare. Procedeul se desfăşoară în acest
care vor compune un eşantion. Lipsa de rigurozitate se referă mai ales la neacordarea fel până când sunt identificaţi atâţia indivizi câţi sunt necesari constituirii unui eşantion.
unei atenţii speciale calculării sau egalizării şanselor fiecărui individ din populaţia vizată Se utilizează acest procedeu în cazul în care populaţia vizată este formată spre exemplu
de a face parte din eşantion. Eşantioanele obţinute în acest fel sunt denumite eşantioane din oameni care au aumite hobby-uri sau pasiuni, preocupări şi despre care de obicei nu
neprobabiliste. Astfel de eşantioane se constituie în următoarele situaţii : se cunosc în faza iniţială multe informaţii şi nu se ştie nici câte astfel de persoane compun
• persoane care se oferă voluntar pentru a fi investigaţe; populaţia vizată.
• persoane care îşi desfăşoara activitatea într-o instituţie anume care prezintă interes
pentru cel care efectuează cercetarea;
• persoane care răspund la chestionare publicate în ziare; 4.2 Concluzie
• persoane care apelează telefonic un post de radio sau de televiziune pentru a răspunde
la întrebările care sunt formulate de moderatorii unor emisiuni sau de alţi participanţi Eşantionarea este un procedeu des utilizat în practica de cercetare în diferite
la emisiunile respective; domenii ale activităţii umane. De la medicul care face analize de laborator prelevând o
• persoane intervievate pe stradă sau în anumite spaţii publice; probă de sânge de la un pacient şi până la cei care sunt interesaţi de aspecte ale opinei
publice în diferite domenii precum: preferinţele electorale, acordul sau dezacordul cu
anumite politici publice sau decizii administrative, etc. În funcţie de tematica avută în Capitolul 5
vedere şi de informaţiile disponibile cu privire la populaţia vizată procedurile de
eşantionare respectă mai mult sau mai puţin anumite rigori în ceea ce priveşte selectarea Testarea ipotezelor statistice. Teste de semnificaţie
elementelor din populaţie care vor constitui eşantionul.
Indiferent de procedura de eşantionare utilizată, cercetătorul trebuie să ţină cont O ipoteză statistică este pur şi simplu o afirmaţie despre o populaţie care poate fi
de limitele existente în fiecare situaţie particulară şi să facă explicite neajunsurile testată cu ajutorul unui eşantion aleator. Să ne amintim exemplul din secţiunea 3.3
existente. Una dintre cele mai frecvente erori întâlnite în practica de cercetare este aceea (Capitolul 3) în care un cercetător dorea să estimeze coeficientul mediu de inteligenţă
de pune problema reprezentativităţii statistice pentru eşantioanelor neprobabiliste, în pentru elevii unei şcoli, pe baza unui eşantion. Să presupunem că respectivul cercetător
cazul cărora, aşa cum arătat, această reprezentativitate nu se poate calcula şi-a demarat studiul cu ipoteza că în respectiva şcoală media coeficientului de inteligenţă
În practică procedurile de eşantionare prezentate pe parcursul acestui capitol este de 125. După efectuarea studiului, respectivul cercetător a trecut la estimarea mediei
suferă o serie de abateri şi de adaptări sau ajustări. De cele mai multe ori acestea constă în populaţia de elevi şi a ajuns la concluzia că, pentru un nivel de încredere de 95%,
în combinarea mai multor tehnici de eşantionare în felul acesta sperându-se obţinerea media coeficientului de inteligenţă în şcoală este cuprinsă între 126 şi 136. Deci, ipoteza
unor informaţii cât mai corecte şi mai precise despre populaţia avută în vedere. iniţială, a unei medii în populaţie de 125 nu este susţinută de aceste rezultate, iar
cercatătorul o va respinge. În general, orice ipoteză care se află în afara unui interval de
încredere poate fi judecată ca fiind implauzibilă şi poate fi deci respinsă. Reiese de aici că
Întrebări: un interval de încredere poate fi privit ca un set de ipoteze acceptabile. Să ne întoarcem
acum la cercetătorul nostru şi la modul în care a construit intervalul de încredere. Aşa
1. Cât de multe elemente trebuie să cuprindă un eşantion extras dintr-o populaţie perfect cum am reamintit deja, intervalul de încredere a fost construit pentru un nivel de
omogenă? încredere de 95%. De aici putem deduce că există o probabilitate de 5% ca cercetătorul să
2. Între un eşantion simplu aleator şi unul prin stratificare este mai reprezentativ: a) cel fi greşit atunci când a respins ipoteza iniţială, a mediei egale cu 125, sau, cu alte cuvinte,
simplu aleator, b) cel prin stratificare c) amândouă eşantioanele au acelaşi nivel de că ipoteza a fost respinsă cu o probabilitate de eroare de 5% (0,05).
reprezentativitate.
3. Să presupunem că se realizează un eşantion utilizând “metoda pasului”. Mărimea • Nivel de semnificaţie. Valoarea p
eşantionului este de 200 de elemente iar cea a populaţiei vizate este de 2800 de
elemente. Care este mărimea pasului utilizat? De la al câtelea element al populaţiei În paragraful anterior am văzut cum se poate testa o ipoteză statistică cu ajutorul
poate începe punerea în practică a pasului de eşantionare? intervalelor de confidenţă. În rândurile care urmează vom ptivi lucrurile dintr-o altă
perspectivă, aceea a ipotezei de nul, H0.
Să luăm un exemplu: Într-o comuitate rurală este implementat un program de
dezvoltare care printre alte obiective urmăreşte îmbunătăţirea infrastructurii structurii
fizice, mai precis a drumurilor. Unul din rezultatele aşteptate este o creştere a
bunăstării gospodăriilor, datorită accesului mai uşor către ăieţele marilor oraşe.
Înainte de implementarea programului, venitul mediu per capita al gospodăriilor din
comunitate era de 1200 mii lei, iar abaterea standard era de 300 mii lei. După trei ani
de la implementarea programului, o cercetare făcută pe un eşantion de 100 de
gospodării, arată că media venitului per capita în gospodăriile din eşantion este de
1265 mii lei. Întrebarea care se pune este: a crescut nivelul bunăstării în gospodăriile
din comunitate? Pentru a afla acest lucru vom lansa o ipoteză, pe care o vom numi
ipoteza de nul, şi anume aceea că nivelul bunăstării nu s-a modificat. Formal, aceasta
se scrie:
H0: µ = 1200 sau, mai pe scurt, µ0 = 1200
Afirmaţia alternativă, susţinută de finanţatorii programului, şi anume aceea că

bunăstarea a crescut, va fi considerată ipoteza alternativă, Ha.
Formal aceasta se scrie Ha: µ > 1200, sau µa = 1200
timp, dar numai 11% au aceeaşi opinie la un alt moment de timp. Problema care se pune
Întrebarea pe care o pune statisticianul este: cât de consistentă este media de eşantion în această situaţie este: cât de reală sau de semnificativă este diferenţa între cele două
X =1265 cu ipoteza de nul? Sau cu alte cuvinte: dacă ipoteza de nul ar fi adevărată, grupuri – cei chestionaţi la un moment de timp şi cei chestionaţi la un moment de timp
ulterior? Este această diferenţă autentică sau sau este rezultatul fluctuaţiilor fireşti ale
care e probabilitatea să obţinem o medie de eşantion egală cu 1265?
eşantionării?
Vom reolva această problemă în acelaşi mod în care am rezolvat probleme
Adeseori observăm diferenţe între rezultatele obţinute atunci când se fac măsurători pe
similare în Capitolul 3. Vom standardiza valoarea 1265 cu scorul z, vom calcula
două eşantioane diferite extrase din aceeaşi populaţie. Intrebarea care se pune de aceasta
eroarea standard, şi apoi ne vom pune întrebarea: care e probabilitatea ca o medie de
data este: exista distorsiuni in vreunul dintre esantioane? Cata incredere putem avea in
eşantion egală sau mai mare decât 1265 să apară într-o populaţie cu o medie de
rezultatele unuia sau altuia dintre esantioane?
1200? Rezultatul obţinut este:
Toate aceste întrebări sunt justificate întrucât, aşa cum am arătat în capitolul
dedicat eşantionării, eşantioanele nu reproduc exact caracteristicile unei populaţii, ci
z = 2,17,
există o anumită diferenţă între valoarea unei caracteristici măsurată pe un eşantion şi
Pr( X ≥ 1265) = Pr(z ≥ 2,17)=0,015 valoarea aceleiaşi caracteristici măsurată pe populaţia din este extras eşantionul. Cu toate
acestea de multe ori suntem puşi în situaţia de a trage concluzii cu privire la starea unei
Cu alte cuvinte, dacă programul nu ar fi adus nici o îmbunătaţire în nivelul de populaţii pornind de la măsurători efectuate la nivelul unui eşantion, cu alte cuvinte se
bunăstare, ar fi existat o probabilitate de numai 1,5% să observăm o medie de pune problema de a face inferenţe de la eşantion la populaţie.
eşantion la fel de mare sau mai mare decât 1265. 1,5% este de aceea numit valoarea p
pentru H0, sau mai bine zis, nivelul de semnificaţie al lui H0. Deoarece ipoteza • Testul Z
noastră a fost una în termeni de "mai mare" şi deoarece pentru a găsi probabilitatea
ne-am uitat numai în partea dreaptă a distribuţiei, ipoteza noastră alternativă a fost Este un test de semnificaţie utilizat în cazul în care se compară valorile unor
una unilaterală. Dacă am fi vrut să testăm de exemplu nu o creştere a bunăstării ci caracteristici măsurate pe eşantioane mari (de ordinul a sute sau mii de indivizi). Cele
pur şi simplu o modificare a ei (pozitivă sau negativă) la trei ani de la program, două valori comparate pot fi măsurate fie una pe o populaţie şi una pe un eşantion, fie
ipoteza de alternativă ar fi fost scrisă: amândouă valorile sunt măsurate pe eşantioane diferite.
Ha: µ ≠ 1200 În prima situaţie, fie a şi b cele două valori ale aceleiaşi caracteristici, dintre care
valoarea a este măsurată pe o populaţie iar valoarea b este măsurată pe un eşantion şi fie
Pentru a rezuma, vom spune că valoarea p este probabilitatea ca valoarea de eşantion e eroarea standard a caracteristicii luate în considerare. Testul Z este definit după
să aibă mărimea calculată, dacă ipoteza de nul ar fi adevărată. formula:
Regula pe care o putem generaliza dupa acest exemplu este :

a−b
Z=
H0 se respinge dacă valoarea p este mai mică decât un anumit nivel acceptat α, care e
de obicei este ales 0,05 . Alegerea acestui nivel (numit şi nivel de semnificaţie
teoretic sau critic) este în mare măsură arbitrară. El este practic complementul
nivelului de încredere. Dacă ne întoarcem puţin la exemplul de la începutul acestui şi exprimă de fapt diferenţa dintre valorile a şi b în erori standard (să ne aducem aminte
capitol, cel cu media coeficientului de inteligenţă, ne vom da seama că o a doua că în exemplul cu impactul programului de dezvoltare nu am făcut nimic altceva decât să
interpretare a lui α este "probabilitatea de a greşi respingând ipoteza de nul". Din "comparăm" valoarea obţinută în eşantion - notată aici cu a, cu o medie în populaţie -
acest motiv p se mai numeşte pe scurt şi probabilitate de eroare. Valoarea de 0,05 este notată aici cu b). Dacă valoarea testului Z este mai mare de 1.96 atunci diferenţa dintre
o valoare foarte des folosită pentru testarea ipotezelor de nul în general. cele două valori este semnificativă din punct de vedere statistic la un nivel de încredere
de 0,95 (95%). Sau altfel spus, în termenii ipotezei de nul - vom respinge ipoteza de nul
cu o probabilitate de eroare de 5%.
5.1 Teste de semnificaţie. Inferenţa statistică Pentru a ilustra modul de aplicare a testului Z vom utiliza un exemplu. Să
presupunem că în cadrul unui referendum 42% dintre cetăţenii unei localităţi sunt de
Testele de semnificatie constituie elemente esentiale ale statisticii inferentiale. In acord cu introducerea unui nou sistem de impozite. Cu toate acestea într-un sondaj de
continuare sunt prezentate cateva exemple relevante de intrebari al caror raspuns este dat opinie realizat anterior referendumului pe un eşantion de 900 de persoane indica că doar
cu ajutorul testelor de semnificatie. 37% dintre cetăţeni vor fi de acord cu noua grilă de impozitare. Este diferenţa între cele
Spre exemplu, 17% dintre cei chestionaţi în cadrul unei anchete sociale sunt de două valori autentică sau nu? Provine procentul de 37% dintr-o populaţie cu un procent
acord cu o anumită decizie a administraţie publice locale la un anumit moment dat de de 42%? Sau altfel spus, este diferenţa dintre valoarea în eşantion şi valoarea în populaţie
semnificativă statistic?, ceea ce este totuna cu a ne întreba: este eşantionul reprezentativ
pentru caracteristica dată? şi după formula:
Pentru a pune în evidenţă acest lucru calculăm:
∑ (x ) + ∑ (x )
2 dacă cele două valori sunt măsurate pe două
2
σ2 = 0,37(1 – 0,37) = 0,2331 şi σ = 0,48 i − x1 i − x2

eşantioane independente ale căror mărimi sunt
e=
n1 + n 2 − 2 n1 respectiv n2 (când vrem să testăm de
0,48 exemplu dacă există diferenţe semnificative
şi e= = 0,016 sau e = 1,6% între mediile a dou grupe: diferenţa de salarii între bărbaţii şi femeile care lucrează într-o
900 firmă).
înlocuind în formula lui Z obţinem: (42 - 37)/1,6 = 3,12
La fel ca şi în cazul testului Z şi pentru testul Student sunt calculate diferite nivele
Cautând în tabel pragurile de probabilitate ale lui Z în dreptul lui 3,1 şi pe coloana de probabilitate care reclamă însă şi specificarea numărului de grade de libertate, care se
0,02 găsim 0,4991 şi reprezintă jumătate din nivelul de încredere cautat. Deoarece calculează după formulele:
ipoteza alternativei este cea a diferenţei, fiind deci bilaterală, vom calcula probabilitatea
pentru ambele cozi ale distribuţiei, adică pentru regiunile de respingere a ipotezei de nul, respectiv
care sunt complementare nivelului de încredere. Vom găsi deci p=0,0018, ceea ce υ = n −1 υ = n1 + n2 − 2
conduce către respingerea ipotezei de nul şi a acceptării unei diferenţe semnificative
statistic între valorile comparate. În cazul în care cele două valori ale unei caracteristici
sunt măsurate pe două eşantioane distincte formula testului Z este aceeaşi cu precizarea
• Testul χ2 (chi pătrat) de concordanţă
că eroarea standard se calculează după formula
unde n1 şi n2 sunt mărimile celor două eşantioane, iar σ1 şi σ2 sunt
Testele Z si Student sunt utilizate pentru a testa ipoteze care se referă la valori sau
σ 12 σ 22 abaterile standard ale valorilor caracteristicii pentru fiecare dintre parametrii (medii sau proporţii), motiv pentru care sunt adeseori cunoscute şi sub
e= + cele două eşantioane (sau sub-eşantioane - de exemplu diferenţa de
n1 n2 denumirea mai largă de teste parametrice. Există însă multe situaţii în care ipotezele nu
vârstă între votanţii cu dreapta şi votanţii cu stânga dintr-un eşantion).
pot fi testate utilizând doar medii sau proporţii. Acest lucru se întâmpla spre exemplu
atunci când datele cu care se lucrează nu sunt de tip cantitativ. Există apoi şi alte condiţii
care trebuiesc îndeplinite în cazul testelor parametrice - utilizarea unor eşantioane mari
• Testul Student ( t )
sau a unor eşantioane extrase din populaţii normal distribuite astfel încât şi forma
distribuţiei de eşantionare să fie cunoscută - condiţii care nu întotdeauna pot fi
Atunci când se pune problema de a compara valori ale unor caracterisitici dintre
îndeplinite.
care cel puţin una este obţinută prin măsurători efectuate pe eşantioane de mărimi mici
Pentru a depăşi acest tip de neajunsuri au fost construite şi o serie de teste a căror
(pâna la 30 de indivizi) corespondetul testului Z este testul Student (t). Formula de calcul
mod de operare nu presupune existenţă unor asumpţii cu privire la populaţia vizată sau cu
a testului Student este identică cu aceea a testului Z:
privire la datele pe care le avem la dispoziţie despre aceasta. Acest tip de teste sunt
denumite teste non-parametrice. Unul dintre cele mai des utilizate teste de acest fel este
a −b estimat − H 0
t= sau t= testul χ2 (chi pătrat).
e e Scopul principal al acestui test este oarecum similar testelor Z şi Student şi anume
încearcă să ofere un răspuns întrebării: dată fiind o mulţime de valori observate ale unei
Deosebirea faţă de testul Z constă în modul de calcul al erorii standard (e) care se caracteristici, modul de distribuire a acestor valori poate fi atribuit în întregime
face, datorită estimării lui σ cu ajutorul lui s, după formula: fluctuaţiilor fireşti ale eşantionării sau există o serie de alţi factori care influenţează
dacă una dintre valori este măsurată pe un eşantion de mărime n şi una
(
∑ x−x
2
) pe o populaţie (de exemplu, când vrem să testăm dacă un eşantion este
această distribuire? În acest caz, pentru a răspunde la o astfel de întrebare, punctul de
plecare este o ipoteză nulă care afirmă că nu există alţi factori care să influenţeze
n −1 reprezentativ pe o caracteristică cantitativă, a cărei valoare din populaţie distribuţia valorilor observate ale unei variabile.
e=
n este cunoscută), Pentru a ilustra modul de operare al testului χ2 (chi pătrat) de concordanţă vom
utiliza exemplu următor. Fie următoarea situaţie ipotetică: 100 de funcţionari ai unei
instituţii publice sunt întrebaţi cu privire la ceea ce îi nemulţumeşte cel mai mult la locul
de muncă, răspunsurile oferite având următoarele frecvenţe:
4 2 10 2 7 2 9 2 8 2
frecvenţa χ2 = + + + +
20 20 20 20 20
modul de organizare al activităţilor 24
modul în care sunt trataţi de şef 10
existenţa unui program fix de lucru 27 χ 2 = 15.50
lipsa unui spirit de echipă 11
lipsa unor rezultate vizibile 28 Valoarea obţinută pentru χ2 (15.50) se compară cu valorile critice ale distibuţiei
chi pătrat (Anexa 3) pentru diferite nivele de probabilitate, dintre care cel mai des utilizat
este şi de această dată pragul de 0,05. Ca şi în cazul testului Student compararea valorilor
Întrebarea care se pune în această situaţie este: există un motiv de nemulţumire critice ale unei distribuţii observate cu ditribuţia chi pătrat reclamă specificarea
care este mai acut decât altele? numărului de grade de libertate, număr care se calculează după formula df = k –1, unde k
Ipoteza nulă în această situaţie ar fi aceea că fiecare dintre motivele enumerate reprezintă numărul de categorii ale caracteristicii analizate. În exemplul de mai sus k = 5-
mai sus nemultumeşte în egală măsură pe functionarii acelei instituţii, fiecare dintre cele 1 = 4 şi căutând în tabelul cu valori critice ale lui chi pătrat găsim că pentru nivelul de
cinci răspunsuri având aceeaşi probabilitate de a fi indicat de către respondeţi. Din punct semnificaţie de 0,05 şi 4 grade de libertate valoarea critică este 9,488. Cum 15.50 este
de vedere statistic aceasta ar însemna că frecvenţele observate ale răspunsurilor primite mai mare decât această valoare critică, vom spune că ipoteza nulă se respinge cu o
pot fi considerate egale cu frecvenţele aşteptate. Dacă ipoteza nulă este susţinută atunci probabilitate de eroare de 5% sau, cu alte cuvinte, răspunsurile date de funcţionari nu se
răspunsurile ar trebui să fie distribuite aleator pe cele cinci categorii de răspunsuri luate în distribuie omogen ci există un anumit motiv de nemulţunire care este mai acut decât
considerare. celelalte, iar acest rezultat nu este generat de fluctuaţiile de eşantionare.
Pentru a testa această ipoteză să utilizăm testul χ2 (chi pătrat) care este definit Testul chi pătrat se foloseşte şi în cazurile în care dorim să verificăm dacă un
după formula: eşantion este reprezentativ pentru o caracteristică calitativă, cum ar fi ocupaţiile
subiecţilor, sau de exemplu reprezentativitatea unui eşantion pe regiuni istorice. În acest
caz valorile aşteptate vor fi valorile din populaţie, care sunt cunoscute din surse de date
n
(Oi − Ai ) 2
χ2 = ∑ oficiale (distribuţia pe ocupaţii sau pe regiuni din date de recensăminte de exemplu)
i Ai
5.2 Teste parametrice sau non-parametrice?
unde Oi reprezintă frecvenţele observate, iar Ai reprezintă frecvenţele aşteptate (adică
distribuţia aleatoare a răspunsurilor pe cele cinci categorii ale caracteristicii analizate – Când utilizăm teste parametrice şi când utilizăm teste non-parametrice pentru a
motiv de nemulţumire). Ridicarea la patrat din formula lui chi patrat este necesara analiza un set de date? Răspunsul la această întrebare nu este întotdeună foarte tranşant.
deoarece, prin definitie, Astfel, nu vom putea utiliza teste parametrice dacă datele pe care le avem la
n dispoziţie sunt de tip calitativ, motivul este acelă că testele parametrice operează de cele
∑ (O i − Ai ) = 0 mai multe ori cu valori medii, valori care evident nu pot fi calculate pentru date de tip
i
calitativ. În această situaţie un test non-parametric este singura alternativă posibilă. Pe de
În cazul nostru cele două frecvenţe sunt: altă parte testele parametrice sunt considerate a avea o putere statistică mai mare decât
testele non-parametrice şi aceasta pentru că modul lor de operare ia în considerare mai
Oi Ai Oi - Ai multă informaţie despre caracteristica avută în vedere. Dar acest lucru se face cu anumite
modul de organizare al activităţilor 24 20 4 asumpţii, dintre care cea mai importantă este distribuţia normală în populaţie a valorilor
modul în care sunt trataţi de şef 10 20 -10 caracteristicii analizate.
existenţa unui program fix de lucru 27 20 7 Cât de puternice sunt testele paramentrice în raport cu cele non-parametrice?
lipsa unui spirit de echipă 11 20 -9 Raspunsul trebuie şi de această dată nuanţat. Puterea statistică a unui test este de fapt
lipsa unor rezultate vizibile 28 20 8 probabilitatea de a respinge ipoteza nulă atunci cănd aceasta nu este adevărată. Dar şi în
acest caz situaţiile depind de modul de formulare a ipotezei nule şi de mărimea
eşntionului extras. Dacă una dintre aceste două variabile suferă modificări şi puterea
înlocuind în formula lui χ2 (chi pătrat) obţinem: statistică a unui test este afectată.
Practica a demonstrat că amândouă tipurile de teste pot fi utilizate cu acelaşi
succes cu condiţia luării în calcul a avantajelor şi dezavantajelor fiecăruia.
(24 − 20) 2 (10 − 20) 2 (27 − 20) 2 (11 − 20) 2 (28 − 20) 2
χ2 = + + + +
20 20 20 20 20
Capitolul 6
Asocierea variabilelor calitative

Cum putem testa daca intre doua variabile calitative exista o relatie? Sa ne
1. Tabelul de mai jos clasifică accidentele de muncă într-o întreprindere pentru luna imaginam de exemplu ca suntem interesati sa vedem daca impactul saraciei este acelasi
precedentă în patru perioade egale ale zilei. Considerându-l ca un eşantion aleator pentru diferite grupuri
Figura 6.1 Relatia dintre saracie si statut ocupational din populatie, definite
a. identificaţi valoarea p pentru H0 (conform căreia probabilitatea de producere a starea de saracie a gospodariei fie pe criterii spatiale
accidentelor este egală în orice moment al zilei)? ne-saraca saraca total (regiuni), fie pe criterii
b. Poate fi respinsă ipoteza H0 la un nivel eroare de 5%? statutul Salariat 8341 2536 10877 de apartenenta etnica,
ocupational patron 172 17 189
al capului de pe cont propriu 466 religioasa etc., fie pe
367 833
Perioada din zi Numărul de accidente gospodarie agricultor 1553 1294 2847 baza statutului lor
8-10 a.m. 31 somer 709 795 1504 ocupational etc.. Primul
10-12 a.m. 30 pensionar 12959 2456 15415 lucru pe care il trebuie
1-3 p.m. 41 alta 226 163 389 sa il facem in momentul
3- 5 p.m. 58 Total 24426 7628 32054 in care ne punem o
a) frecvente absolute astfel de intrebare este
starea de saracie a gospodariei construirea unui tabel
2. Într-o universitate mare profesorii bărbaţi şi femei au fost eşantionaţi independent, şi s- ne-saraca saraca total cu dubla intrare, numit
statutul Salariat 77 23 100
au obţinut următoarele observaţii cu privire la salariile lor lunare: ocupational patron
si tabel de contingenta,
91 9 100
al capului de pe cont propriu 56 44 100 in care valorile uneia
(în sute de mii) gospodarie agricultor 55 45 100 dintre variabile apar pe
Bărbaţi Femei (%) somer 47 53 100 coloane si valorile celei
16 9 pensionar 84 16 100 de-a doua variabile apar
19 12 alta 58 42 100 pe randuri. In celulele
Total 76 24 100 unui astfel de tabel
12 8
b) frecvente relative (procente) pe randuri putem avea patru tipuri
11 10 starea de saracie a gospodariei (%)
22 16 de informatii:
ne-saraca saraca total
a) freceventele
statutul Salariat 34 33 34
a. Calculaţi un interval de încredere de 95% pentru media diferenţe de salarii între ocupational patron 1 0 1 absolute (numarul de
bărbaţi şi femei al capului de pe cont propriu 2 5 3 indivizi din fiecare
b. Cât de bine ilustrează aceste date discriminarea practicată de universitate faţă de gospodarie agricultor 6 17 9 celula precum si
femei? somer 3 10 5 numarul total de
pensionar 53 32 48 indivizi care apartin
alta 1 2 1 diverselor categorii ale
Total 100 100 100
variabilelor)
c) frecvente relative (procente) pe coloane
b) frecventele relative
% starea de saracie a gospodariei
pe randuri (care ne
ne-saraca saraca total
statutul Salariat 26 8 34 indica ce procent din
ocupational patron 1 0 1 categoria care defineste
al capului de pe cont propriu 1 1 3 un rand apartine si
gospodarie agricultor 5 4 9 categoriei care defineste
somer 2 2 5 coloana) - de exemplu
pensionar 40 8 48
alta 1 1 1
Total 76 24 100
d) frecvente relative (procente) din total
53% din gospodariile de someri sunt sarace această întrebare trebuie să vedem cum ar trebui să arate distribuţia în situaţia în care nu
c) frecventele relative pe coloane (care ne indica ce procent din categoria care defineste există asociere, adica in situatia de independenta. Sa ne aducem aminte de notiunile de
o coloana apartine si categoriei care defineste randul) - de exemplu 10% din probabilitati invatate in Capitolul 2. Am aratat acolo ca independenta se poate scrie in
gospodariile sarace sunt gospodarii de someri urmatorul fel:
d) frecvente relative din total (care ne indica ce procent din totalul indivizilor analizati
apartin simultan si categoriei de pe rind si categoriei de pe coloana) - de exemplu Pr(A si B) = Pr(A)Pr(B)
2% din totalul gospodariilor studiate sunt sarace si sunt gospodarii de someri (sau
altfel spus sunt gospodarii sarace de someri). Sa vedem acum cum am putea aplica aceste cunostinte in cazul independentei intre doua
variabile. Sa consideram, in exemplul nostru, categoria celor de 25 de ani ca fiind
Un astfel de tabel ofera informatii despre doua tipuri de distributii: distributii marginale evenimentul T, iar categoria celor care sunt in favoarea unei schimbari a modului de
si distributii conditionate. Distributiile marginale sunt practic distributiile de frecvente alocare a bugetului ca fiind evenimentul D. Care este probabilitatea ca evenimentele T si
ale variabilelor. Astfel, in Figura 6.1(a) si (d) la "marginile" tabelelor, pe coloanele de D sa se intimple simultan? Daca cele doua evenimente ar fi independente, atunci
"Total", se afla distributiile marginale ale frecventelor absolute, respectiv relative (%) ale Pr(T si D) = Pr(T)Pr(D)
starii de saracie si respectiv statutului ocupational al capului de gospodarie. In Figura Dar cat sunt Pr(T) respectiv Pr(D)? Din datele noastre, din frecventele marginale, rezulta
6.1(b), care contine frecvente relative pe randuri, ultimul rand ("Total") nu este nimic ca
altceva decat distributia starii de saracie in totalul gospodariilor analizate. In acelasi tabel, Pr(T) = 180/600, iar Pr(D) = 200/600
avem pentru fiecare categorie de ocupatie distributia de frecvente relative a saraciei,
adica distributia starii de saracie conditionata de statutul ocupational al capului de Deci, daca cele doua evenimente ar fi independente, atunci
gospodarie. Astfel, pe rindul "salariat" avem distributia starii de saracie conditionata de Pr(T si D) = (180 x 200) / (600 x 600) = 1/10 = 10%
statutul de salariat al capului de gospodarie. Similar, in Figura 6.1(d) pe coloane avem
distributiile statutului ocuational al capului de gospodarie conditionate de starea de Cu alte cuvinte, numai 10% din cele 600 de persoane chestionate ar trebui sa se afle in
saracie (pe ultima coloana, cea de "Total" avem bineinteles distributia statutului celula din stinga sus a tabelului (persoane care au sub 25 de ani si care sunt in favoarea
ocupational pentru toate gospodariile analizate, adica distributia marginala a statutului schimbarii). Sau mai exact spus, daca cele doua evenimente ar fi independente, frecventa
ocupational). Prin compararea distributiilor conditionate cu distributia marginala ne absoluta a acelei celule ar trebui sa fie de numai 60. Daca vom calcula in acest mod
putem face o prima impresie despre relatia dintre cele doua variabile. Cand distributiile frecventele pe care fiecare celula ar trebui sa le aiba in ipoteza independentei, am obtine
conditionate difera mult de distributiile marginale, ne putem astepta ca intre cele doua datele din tabelul de mai jos:
variabile sa existe o relatie de asociere. In sectiunea urmatoare vom vedea cum putem
testa existenta unei astfel de relatii. Frecvenţe aşteptate in ipoteza independentei
Da Nu Nu ştiu Total
cei cu vârsta sub 25 60 66 54 180
6.1 Testarea independentei dintre doua variabile: Testul χ2 de independenta cei cu vârstă între 26 şi 45 de ani 66,67 73,33 60 200
cei cu varsta peste 45 de ani 73,33 80,67 66 220
Chi pătrat este utilizat şi pentru a testa dacă două variabile sunt sau nu asociate. Fie, spre Total 200 220 180 600
exemplu, următoarea situaţie ipotetică: 600 de locuitori ai unei localităţi care sunt
întrebaţi dacă vor sprijini sau nu o schimbare a modului de alocare a veniturilor bugetare
ale localităţii lor au răspuns după cum urmează: Calculându-l pe chi pătrat dupa formula prezentata in Capitolul 5, obţinem:
Tabelul 6.1 Relaţia dintre două variabile categoriale n

(Oi − Ai ) 2
Frecvenţe observate χ2 = ∑
Da Nu Nu ştiu Total i Ai
cei cu vârsta sub 25 110 40 30 180 (unde n este numarul total de celule ale tabelului)
cei cu vârstă între 26 şi 45 de ani 40 100 60 200
cei cu varsta peste 45 de ani 50 80 90 220 (110 − 60) 2 (40 − 66) 2 (40 − 66,7) 2 (100 − 73,33 2 ) (90 − 66) 2
Total 200 220 180 600 χ2 = + + ... + + + ... +
60 66 66,7 73,33 66
În această situaţie se poate pune întrebarea: există sau nu o preferinţă a unei χ 2 = 99,11
anumite categorii de vârstă pentru schimbarea modului de alocare a veniturilor? Cu alte
cuvinte există o relaţie între vârstă şi acordul cu această schimbare? Pentru a răspunde la
Aşa cum am arătat, în absenţa variabilei independente, numarul de erori e1 a fost 380.
Să vedem acum câte erori am facut prezicând variabila dependentă pe baza valorilor
Numărul gradelor de libertate în acest caz se calculează după formula: variabilei independente (pentru a uşura urmarirea calculelor, am copiat încă o dată mai
jos datele Tabelului 6.1):
df = ( j − 1)(k − 1)
Tabelul 6.1 Relaţia dintre două variabile categoriale
unde j reprezintă numărul de rânduri ale tabelului în care sunt dispuse frecvenţele şi k Frecvenţe observate
Da Nu Nu ştiu Total
reprezintă numărul de coloane. In acest caz df = 4. În tabelul cu valori critice pentru χ2 cei cu vârsta sub 25 110 40 30 180
(Anexa 3) observăm că unui nivel de probabilitate de 5% şi 4 grade de libertate îi cei cu vârstă între 26 şi 45 de ani 40 100 60 200
corespunde valoarea 9,488, valoare mai mică decât valoarea calculată a lui χ2 . În această cei cu varsta peste 45 de ani 50 80 90 220
situaţie vom spune că ipoteza de nul a independentei dintre vârstă şi preferinţa pentru Total 200 220 180 600
schimbarea modului de alocare a veniturilor se respinge, cu o probabilitate de eroare de
0,05 (sau pentru un nivel de semnificatie de 5%).
- pentru grupa de vârstă sub 25 de ani, vom prezice corect pe baza frecvenţei
6.2 Intensitatea relaţiilor dintre variabilele calitative modale în 110 cazuri, şi vom face erori în 70 de cazuri.
- pentru grupa de vârstă 26 - 45 de ani, vom prezice corect pe baza frecvenţei
În secţiunea anterioară am văzut cum putem testa ipoteza existenţei unei relaţii modale în 100 cazuri, şi vom face erori în alte 100 de cazuri.
(de asociere) între două variabile calitative. Testul χ2 ne oferă însă informaţii numai - pentru grupa de vârstă peste 45 de ani, vom prezice corect pe baza frecvenţei
despre existenţa/inexistenţa unei relaţii de asociere între două variabile, dar nu şi despre modale în 90 cazuri, şi vom face erori în 130 de cazuri.
intensitatea respectivei relaţii, atunci când ea există. Pentru a răspunde la întrebarea "Cât
de puternică e relaţia de asociere dintre două variabile?" avem nevoie de măsuri Deci totalul erorilor făcute este e2 = 70 + 100 + 130 =200.
specifice. Două dintre acestea vor fi prezentate în secţiunea care urmează. Să îl calculăm acum pe lambda, după o formulă utilizată şi pentru calculul altor măsuri
ale asocierii şi cunoscută sub numele de "reducere proporţională a erorii":
• Cazul variabilelor nominale - coeficientul λ (lambda)
Să ne întoarcem la datele din Tabelul 6.1 şi să presupunem de această dată că nu e1 − e2 380 − 200
λ= = = 0,47
cunoaştem decât distribuţia marginală a atitudinii faţă de schimbarea modului de alocare e1 380
a bugetului (cu alte cuvinte nu ştim decât că 200 de indivizi sunt pentru, 220 sunt
împotrivă, iar 180 sunt nehotărâţi). Dacă vom încerca să prezicem atitudinea unui individ Coeficientul λ poate lua, prin modul de construcţie numai valori între 0 şi 1, 0
oarecare, vom spune fireşte că repsectivul individ va fi împotriva schimbării modului de însemnând absenţa oricărei relaţii între variabile, adică independenţă, iar 1 însemnând
alocare a bugetului, deoarece cu o astfel de predicţie avem cele mai reduse şanse de a intensitate maximă a asocierii (asociere puternică). El este o măsură asimetrică (avem o
greşi. Cu alte cuvinte, ne-am bazat predicţia pe frecvenţa modală (cea mai mare variabilă independentă pe baza căreia se fac predicţii şi o variabilă dependentă, ale cărei
frecvenţă). În cazul în care am face o astfel de afirmaţie pentru fiecare din cei 600 de valori sunt prezise), însă există formule de calcul şi pentru varianta simetrică a acestui
indivizi, predicţia noastră ar fi corectă pentru 220 dintre ei (37%), şi falsă pentru ceilalţi coeficient. Avantajul lui constă în modul relativ uşor şi intuitiv de calcul. Principalul
380. Să presupunem acum că la un moment dat primim o informaţie în plus, şi anume dezavantaj al acestei măsuri este faptul că în condiţiile în care o categorie a unei variabile
distribuţia atitudinilor faţă de schimbarea modului de alocare a bugetului în funcţie de conţine un număr foarte mare de indivizi, λ poate fi egal cu 0 chiar dacă cele două
grupele de vârstă de care aparţin indivizii (adică exact informaţia prezentată în Tabelul variabile nu sunt independente.
6.1). Să zicem că vom considera ca plauzibilă ipoteza în care atitudinile faţă de
modificarea modului de alocare a bugetului sunt dependente de grupa de vârstă a • Cazul variabilelor ordinale
individului. În acest caz, variabila vârstă se va numi variabilă independentă, iar atitudinea
faţă de schimbarea modului de alocare a bugetului se va numi variabilă dependentă. Să În cazul variabilelor ordinale, aşa cum am văzut în introducerea acestui manual,
zicem acum că vom repeta raţionamentul de mai sus (predicţia atitudinii unui individ pe există posibilitatea de ordonare a valorilor variabilelor, şi în consecinţă există
baza frecvenţei modale) pentru fiecare grupă de vârstă în parte. Vom avea deci, din nou, posibilitatea de a da ranguri indivizilor în funcţie de valorile pe care aceştia le au pentru
un număr de predicţii corecte şi un număr de predicţii eronate. Coeficientul λ reprezintă o variabilă. Măsurile Ca urmare, în analiza acestui tip de variabile vom putea vorbi de un
tocmai proporţia cu care se reduce numărul de erori prin introducerea variabilei semn al asocierii (sau sensul asocierii). Măsurile de asociere a variabilelor ordinale pot
independente. Să calculăm acum λ pentru datele din Tabelul 6.1: lua valori cuprinse între -1 şi 1. La modul general vorbind, o măsură a asocierii dintre
două variabile ordinale va fi pozitivă dacă un individ cu un rang mare pentru variabila X
tinde să aibă un rang mare şi pentru variabila Y, iar indivizii cu ranguri mici pe variabila
X au de asemenea ranguri mici şi pentru Y. asocierea negativă apare atunci când indivizii Exerciţii şi probleme
cu rang mare pentru variabila X tind să aibă ranguri mici pentru Y şi invers. Dacă o
măsură a asocierii dintre două variabile ordinale ia valoarea 0, atunci vom spune că cele 1. Într-un studiu asupra modului în care ocupaţia se asociază cu educaţia, s-a realizat
două variabile sunt independente. Cu cât o relaţie de asociere între două variabile următorul eşantion aleator de 500 de bărbaţi anagajaţi.
ordinale va fi mai puternică, cu atât măsura asocierii va fi mai mare în valoare absolută
(mai aproape de 1). În cele ce urmează ne vom rezuma la a prezenta câteva noţiuni de Ocupaţia
bază care se referă la măsurile de asociere între variabile ordinale şi la a arăta modul de Educaţia Funcţionari Muncitori în Angajaţi în Agricultori
fabrică servicii
calcul pentru o astfel de măsură.
4 sau mai mulţi ani de liceu 194 146 27 10
O pereche de observaţii se numeşte concordantă dacă individul care are un rang mai (incluzând şi formarea vocaţională)
înalt pe o variabilă are un rang mai înalt şi pe a doua variabilă. Mai puţin de patru ani de liceu 18 79 18 8
O pereche de observaţii se numeşte discordantă dacă individul care are un rang mai
înalt pe o variabilă are un rang mai coborât pe cealaltă variabilă. a. Explicitaţi în cuvinte ipoteza de nul H0
Să presupunem că avem 4 elevi, ierarhizaţi după calificativele la două materii: b. Calculaţi χ2 şi valoarea p pentru H0
Elevii Materia X Materia Y

A Foarte bine Bine 2. Se da tabelul:
B Bine Foarte bine somaj
C Satisfăcător Satisfăcător da nu total
sex femei 30% 70% 100%
D Suficient Suficient barbati 30% 70% 100%
total 30% 70% 100%
Să încercăm acum să numărăm perechile concordante şi perechile discordante, şi
pentru aceasta să începm cu toate perechile de observaţii pe care le putem forma cu Care din propozitiile urmatoare sunt adevarate?
elevul A: Acestea sunt: perechea AB (discordantă, deoarece A are un rang mai înalt 1. 30% dintre femei sunt somere
decât B pe variabila X, dar un rang mai coborât decât B pe variabila Y), perechea AC 2. 30% dintre someri sunt barbati
(concordantă) şi perechea AD (concordantă). Să trecem acum la perechile lui B: 3. 70% din totalul populatiei se afla in somaj
Acestea sunt BC (concordantă) şi BD (concordantă). În fine, trecem acum la perechile 4. probabilitatea ca o persoana din populatie sa fie in somaj este de 0.3
lui C, adică la CD (concordantă). În total am avut 6 perechi, din care una discordantă nici una dintre acestea
iar 5 concordante. Să calculăm acum o măsură simplă de asociere între cele două
variabile (calificativele la materiile X şi Y), numită coeficientul τa al lui Kendall: 3. Dacă variabilele nominale x şi y nu sunt independente statistic atunci este de aşteptat
ca:
nc − nd 1. Distribuţiile condiţionate ale lui y funcţie de x să fie diferite de distribuţia marginală a
τa = lui y
nt
unde 2. Distribuţiile condiţionate ale lui y , funcţie de x să fie egale între ele
nt este numărul total de perechi 3. Corelaţia Bravais-Pearson dintre x şi y să fie semnificativ diferită de 0
nc este numărul de perechi concordante 4. Statistica test chi-patrat să difere semnficativ de 0
nd este numărul de perechi discordante 5. Răspunsurile 1,2,3,4 să fie incorecte
În concluzie, pentru exemplul nostru (care este unul pur didactic), τa = 4/6 = 0,66.
Aceasta a fost practic cea mai simplă ilustrare de măsură de asociere a două
variabile ordinale. În practică însă, lucrurile stau puţin mai complicat, pentru că
deseori apar ceea ce se numesc ranguri "legate" sau egale. Acest lucru complică
destul de mult calculele şi formulele, însă principiul rămâne acelaşi, al comparării
numărului de perechi concordante cu numărul de perechi discordante.
pentru că evident avem mai multe opţiuni posibile: am putea, de exemplu, include în prima categorie toate
Capitolul 7 localităţile pentru care SUM ia valori între 0 şi 1500, ori cele între 0 şi 1600.
Cazul următor ilustrează faptul că recodificarea unor variabile cantitative cu multe categorii poate să
schimbe rezultatele analizei statistice.
Studiul relaţiilor între variabile cantitative
Fie X şi Y două variabile de raport, având câte 10 valori. Fiecare dintre cele două variabile este
Pentru a oferi explicaţii sau pentru a realiza predicţii este nevoie, cel mai adesea, să fie analizate transformată prin recodificări diferite în trei variabile: X1, X2, X3, respectiv Y1, Y2, Y3. Noile
relaţii între două sau mai multe variabile: între cea a cărei variaţie încercăm să o explicăm, numită şi variabile au câte 3 valori, iar relaţiile dintre variabilele care provin din X cu fiecare dintre variabilele
variabila dependentă, şi una sau mai multe variabile independente. care provin din Y sunt analizate cu ajutorul unui indicator care corespunde tabelelor de asociere,
Să luăm ca exemplu cazul unui program de reducere a şomajului care urmează a fi analizat la finalul Lambda. Valorile acestor indicatori sunt reprezentate în următorul tabel:
aplicării sale în mai multe localităţi. Într-un astfel de studiu, pot fi considerate drept unităţi de analiză
localităţile în care a fost aplicat programul, variabila dependentă este diferenţa dintre rata somajului înainte Lambda Lambda Lambda
de aplicarea programului şi rata şomajului după terminarea programului (DIF), iar suma alocată în program y1 y2 y3
unei localităţi împărţită la numărul de locuitori (SUM) este una dintre variabilele independente posibile, cu x1 0.00 0.18 0.45
ajutorul căreia puteam încerca să explicăm de ce şomajul a scăzut mai mult în unele localităţi decât în x2 0.27 0.23 0.31
altele. x3 0,10 0.61 0.67
Cunoscând valorile luate de cele două variabile, notate DIF şi SUM, putem încerca să aflăm mai
multe lucruri despre relaţia care le caracterizează:
1. Dacă există o legătură între valorile variabilelor; altfel spus, dacă reuşim să anticipăm rezultatul Se observă în tabel cum recodificările diferite ale variabilelor X şi Y conduc la variaţii importante de
programului într-o localitate, cunoscând care a fost suma alocată din program, mai bine decât în absenţa intensitate a relaţiei dintre noile variabile, obţinute prin transformarea lui X şi Y. Astfel, Lambda are
acestei informaţii. valoarea 0,00 pentru relaţia dintre X1 şi Y1, şi valoarea 0,67 pentru relaţia dintre X3 şi Y3.
2. Care este forma relaţiei, în cazul în care aceasta există. Sunt mai multe moduri de a descrie forma Concluzia care rezultă de aici este că analiza relaţiilor dintre variabile cantitative nu îsi găseşte o rezolvare
relaţiilor dintre variabile: acestea pot să fie liniare, atunci când valorile unei variabile tind să se modifice cu satisfăcătoare prin aplicarea unor procedee specifice variabilelor calitative. Este nevoie să fie aplicate
o constantă în condiţiile în care valorile celeilalte variabile se modifică cu o constantă; Relaţiile liniare pot tehnici statistice adaptate pentru variabilele cantitative, şi care folosindu-se de informaţia descrisă de aceste
să difere prin înclinaţia dreptei prin care sunt reprezentate. Relaţiile neliniare pot fi şi ele monotone, adică variabile, mai bogată decât în cazul celor calitative, pot oferi un răspuns mai complet întrebărilor formulate
pozitive sau negative. În exemplul considerat, este de aşteptat ca relaţia să fie pozitivă, adică unei sume mai mai sus: există relaţii, ce formă au, ce intensitate, pot fi generalizate, sunt cauzale?
mari să îi corespundă o reducere mai accentuată a şomajului. Însă în plus faţă de semnul relaţiei--pozitivă Procedeul cel mai des folosit în cazul în care variabilele sunt cantitative este cel al analizei de
ori negativă--, este important de ştiut cât de rapidă este variaţia variabilei DIF atunci când variabila SUM regresie. În cazul bivariat, când este studiată relaţia dintre o variabilă dependentă şi o singură variabilă
îşi schimbă valorile. Un program este cu atât mai eficient cu cât, în medie, unei aceleiaşi creşteri a independentă, regresia se numeşte regresie simplă. O altă denumire, echivalentă, este cea de regresie
variabilei SUM îi corespunde o creştere mai mare a variabilei DIF. bivariată. Atunci când este studiat efectul simultan al mai multor variabile independente asupra variabilei
3. Care este intensitatea relaţiei. Cât de bine putem prezice valorile variabilei dependente atunci când le dependente, regresia se numeşte regresie multiplă. Denumirile echivalente sunt de regresie multivariată,
cunoaştem pe cele ale variabilei independente? sau regresie multiliniară.
4. Dacă este posibilă generalizarea rezultatelor. Când datele disponibile provin de pe un eşantion de În secţiunea care urmează voi arăta cum sunt definite modelele de regresie lineară simplă, în ce fel
localităţi, poate fi extins rezultatul obţinut pe aceste date la întreaga mulţime de localităţi cuprinsă în sunt interpetaţi coeficienţii care descriu aceste modele, şi în ce mod poate fi evaluată eficienţa lor de
studiu? ansamblu în descrierea relaţiilor dintre perechi de variabile.
5. Cât de mult temei avem să afirmăm că relaţia este de tip cauzal. Ar fi posibil ca existenţa unei relaţii Ultima secţiune a acestui capitol va prezenta, într-o structură similară, modelele de regresie multiplă.
între SUM şi DIF să se datoreze unei a treia variabile, care nu este cuprinsă în analiză, şi care le determină
pe amândouă. Cum putem stabili dacă scăderea ratei şomajului s-a datorat programului analizat, sau dacă
scăderea se datorează exclusiv altor factori? 7.1 Regresia lineară simplă
Tehnicile statistice prezentate în capitolele anterioare ne permit adesea să răspundem unora dintre Fiind cunoscute valorile a două variabile cantitative pentru o mulţime de unităţi de analiză, este
întrebările formulate mai sus. În exemplul considerat însă, cele două variabile au, foarte probabil, un număr posibil să reprezentăm complet această informaţie printr-un grafic. Variabilei dependente îi corespunde axa
ridicat de valori fiecare, fapt care face dificil studiul relaţiei dintre ele cu ajutorul unui tabel de asociere. O verticală, iar celei independente îi corespunde axa orizontală. Fiecare unitate de analiză este reprezentată
soluţie este aceea a reducerii numărului de valori prin recodificare. Astfel, am putea să includem într-o printr-un punct care se află la o distanţă de axa verticală proporţională cu valoarea variabilei independente
aceeaşi categorie, notată cu "1", toate localităţile în care suma cheltuită ca parte a programului, împărţită la luată de acea unitate, şi la o distanţă de axa orizontală proporţională cu valoarea variabilei dependente.
numărul de locuitori, este între 0 şi 1000 lei; într-o categorie notată cu "2" ar fi incluse toate localităţile Astfel, în exemplul precizat anterior, dacă variabila DIF are valorile exprimate în valori procentuale, iar
pentru care valorarea variabilei SUM este între 1001 şi 2000 de lei, etc.; în mod similar se procedează şi variabila SUM este exprimată în mii de lei, o localitate în care s-au cheltuit 5000 de lei pe cap de locuitor,
pentru variabila DIF. şi în care şomajul a scăzut cu două procente, se află cu două unităţi deasupra axei orizontale şi la cinci
Având prin recodificare un număr suficient de mic de categorii, relaţia dintre cele două variabile unităţi în dreapta axei verticale.
poate fi analizată printr-un tabel de asociere. Se pot obţine în acest mod, aşa cum s-a văzut şi în Capitolul 6, Foarte adesea, informaţia cuprinsă într-un grafic de acest tip este prea bogată pentru a putea fi
informaţii despre existenţa unei relaţii între variabile, despre forma relaţiei, precum şi despre posibilitatea analizată direct. La fel cum în cazul unei singure variabile este util să reducem informaţia reprezentată de
generalizării de la eşantion la întreaga mulţime de localităţi. distribuţia sa la o singură valoare, cea a tendinţei centrale, exprimată prin medie, mediană sau un alt
Acest procedu are însă un inconvenient major: o parte a informaţiei iniţiale este ignorată, iar rezultatul indicator, şi în cazul considerării simultane a două variabile ar fi de folos să putem descrie într-un mod cât
analizei este influenţat de modul în care este făcută recodificarea. Întrebarea care se pune în mod justificat, mai succint relaţia dintre acestea.
şi care nu are un răspuns satisfăcător, este "cum trebuie definite categoriile reduse ale variabilei iniţiale?", O soluţie simplă este aceea de a înlocui norul de puncte de pe grafic printr-o singură dreaptă care să îi
aproximeze forma cât mai bine. În secţiunea care urmează, 7.1.1., vom arăta cum poate fi construită o astfel
de dreaptă, numită dreaptă de regresie. Vom prezenta apoi interpretarea coeficienţilor prin care este
descrisă dreapta de regresie. În secţiunea 7.1.2. vor fi definiţi indicatori prin care poate fi apreciat gradul de Dacă pentru două variabile cantitative am putea construi o dreaptă astfel încât toate punctele care
acurateţe prin care o dreaptă de regresie descrie relaţia dintre două variabile. În ultima secţiune a acestei corespund unităţilor de analiză să se afle pe dreaptă, atunci dreapta ar oferi o descriere completă a formei
părţi, 7.1.3., va fi discutate una dintre condiţiile mai importante care trebuie îndeplinită pentru ca modelele norului de puncte. Într-un astfel de caz, fiecare dintre segmentele verticale dintre puncte şi dreaptă ar avea
de regresie să poată fi aplicate. lungimea zero.
Este clar că în exemplul considerat aici nu există o astfel de dreaptă, care să descrie perfect relaţia dintre
7.1.1 Construcţia dreptei de regresie cele două variabile. Ar fi de dorit atunci, să fie determinată acea dreaptă pentru care lungimile segmentelor
verticale dintre puncte şi dreaptă să fie cât mai apropiate de zero.
Fie un grafic pe care sunt reprezentaţi mai mulţi indivizi statistici, în funcţie de valorile a două variabile
cantitative, X şi Y, şi fie o dreaptă dusă la întâmplare pe acest grafic. Poziţia fiecărui individ i este fixată de Prin definiţie, dreapta cu proprietatea că pătratele lungimilor segmentelor dintre puncte şi dreaptă au
valorile pe care iau cele două variabile, notate cu xi şi yi. suma minimă este numită dreaptă de regresie.
Poziţia dreptei în raport cu cele două axe ale graficului este complet precizată de următoarea relaţie:
Datorită modului în care este definită, se spune despre dreapta de regresie că satisface criteriul celor mai
Y' = a + bX. mici pătrate.
(1) Se poate demonstra matematic faptul că pentru două variabile date există o dreaptă unică de regresie, iar
aceasta poate fi determinată. Cu alte cuvinte, oricare ar fi două variabile X şi Y, care iau valori pentru n
Relaţia exprimă faptul că orice punct k de pe dreaptă, are coordonatele xk şi y'k astfel încât y'k = a + bxk. unităţi de analiză, pot fi deteminate în mod unic constantele a şi b astfel încât dreapta
Mai mult, orice punct de pe grafic pentru care are loc relaţia anterioară între coordonatele sale, se află pe
dreaptă. Y' = a + bX, (2)
De aici rezultă faptul că orice dreaptă este identificată complet prin doar două valori, cea a constantei a, şi să ofere o cea mai bună aproximare a relaţiei dintre X şi Y--din perspectiva criteriului celor mai mici
cea a constantei b. Dacă ar fi posibilă înlocuirea unui nor de n puncte, care oferă o reprezentare precisă a n pătrate--, dintre toate dreptele posibile.
perechi de valori, printr-o dreaptă care să indice forma de ansamblu a mulţimii de puncte, atunci ar fi Y' este o variabilă care se obţine din intersecţia segmentelor verticale care trec prin punctele (xi, yi) de
obţinută o simplificare remarcabilă a modului în care este descrisă relaţia. pe grafic şi dreapta de regresie, iar punctele de intersecţie sunt de forma (xi, y'i). Datorită modului în care
este construită variabila Y', valorile sale sunt identice cu ale lui Y atunci când punctele sunt pe o dreaptă, şi
În Figura 7.1 sunt reprezentate localităţile din exemplul discutat anterior, caracterizate de valorile variabilei sunt cu atât mai diferite de cele ale lui Y cu cât punctele sunt mai dispersate în jurul dreptei de regresie.
dependente DIF, respectiv a variabilei independente SUM. Pe grafic este trasată şi o dreaptă (d) precum şi o Un alt mod de a scrie expresia (2) este următorul:
mulţime de segmente verticale, fiecare fiind construit astfel încât să unească punctul care corespunde unei
localităţi cu dreapta (d). Y = a + bX + U,
unde U = Y - Y'.
Figura 7.1. Reprezentarea grafică a variabilelor DIF şi SUM, care iau valori pentru 25 de localităţi. U este o variabilă care pentru fiecare unitate de analiză ia o valoare egală cu lungimea segmentului vertical
dintre punctul care îi corespunde pe grafic şi dreapta de regresie.
În exemplul anterior, a = -5,86, b = 0,67. Ecuaţia dreptei de regresie este
DIF = - 5,86 + 0,67SUM.
7.1.2 Interpretarea coeficienţilor dreptei de regresie
Coeficientul b este numit panta asociată variabilei X şi, aşa cum se poate vedea din expresia dreptei
de regresie, reprezintă numărul de unităţi cu care variază Y' atunci când X creşte cu o unitate:
dacă avem două puncte (x1, y'1) şi (x2, y'2), x2 = x1 + 1, şi ambele puncte sunt pe dreapta
Y' = a + bX,
atunci, înlocuind în formula dreptei se obţine
y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.
În exemplul discutat anterior, valoarea lui b indică faptul că o creştere a sumei cheltuite pe cap de
locuitor cu o mie de lei conduce în medie la o creştere a diferenţei cu 0,67, adică la o scădere a ratei
şomajului cu 0,67 de puncte procentuale.
Semnul plus al lui b indică faptul că între X şi Y are loc o relaţie pozitivă--adică valorilor mici ale lui Astfel, dacă SUM din exemplul anterior ar fi exprimat în unităţi monetare / numărul de locuitori, adică
X tind să le corespundă valori mici ale lui Y, iar valorilor mari ale lui X tind să le corespundă valori mari într-o unitate de măsură de o mie de ori mai mică decât cea din exemplu, b1 ar fi de 1000 de ori mai mic. În
ale lui Y--, în timp semnul minus semnalează prezenţa unei relaţii negative. general, se poate arăta că,
bi = 0 se obţine atunci când forma norului de puncte nu poate fi aproximată printr-o dreaptă. O dacă în loc de X avem cX + d, atunci în loc de b avem b / c.
situaţie de acest gen apare atunci când cele două variabile estimează fenomene independente, fără legătură,
dar şi în cazul în care variabilele sunt într-o relaţie a cărei formă nu este liniară (de exemplu, atunci când Din această proprietate rezultă faptul că panta de regresie nu poate fi folosită drept un indicator al
punctele sunt pe o curbă în formă de parabolă). Cele două cazuri sunt ilustrate în Figura 7.2., respectiv în intensităţii relaţiei dintre variabila dependentă şi variabila independentă.
Figura 7.3.
Constanta a din ecuaţia dreptei de regresie indică valoarea y' pe care o ia un punct pentru care x = 0 şi
care este aflat pe dreaptă.
Figura 7.2. Exemplul a două variabile cantitative între care nu are loc o relaţie.
7.1.3 Indicatori ai intensităţii relaţiei dintre două variabile cantitative: coeficientul de determinaţie şi
coeficientul de corelaţie Pearson
Dreapta de regresie asociată relaţiei dintre două variabile cantitative oferă o imagine sintetică despre
forma acestei relaţii, însă nu oferă informaţii despre cât de asemănătoare este această imaginea simplificată
cu cea reală. Am întâlnit o situaţie similară în cazul mediei: acest indicator descrie succint tendinţa centrală
a distribuţiei unei variabile cantitative, însă nu cuprinde informaţii despre cât de completă este această
reprezentare. În acest caz, există un indicator care arată cât de dispersate sunt valorile luate de variabilă în
jurul mediei: abaterea standard. Cu cât valorile sale sunt mai mici cu atât media descrie mai precis
distribuţia variabilei.
În Figura 7.4. şi în Figura 7.5. sunt reprezentate relaţiile dintre câte două perechi de variabile
cantitative. În ambele cazuri ecuaţia dreptei de regresie este aceeaşi:
Y = 2 - 2,5 X.
Se observă însă că unităţile de analiză din Figura 7.5. sunt mai dispersate în raport cu dreapta de
regresie decât cele din Figura 7.4. Acest fapt arată că dintre cele două drepte, cea din Figura 7.4. oferă
reprezentarea cea mai precisă a relaţiei dintre perechea de variabile cărora le corespunde.
Figura 7.3. Exemplul a două variabile între care există o relaţie (de forma Y' = X2) care nu poate fi Figura 7.4. Distribuţia a două variabile cantitative şi dreapta lor de regresie (A).
aproximată printr-o dreaptă de regresie.
20
10
-10
Y1
-20
-3 -2 -1 0 1 2 3
X1
Coeficientul b are următoarea proprietate importantă: valoarea sa depinde de unităţile de măsură

ale celor două variabile.
Figura 7.5. Distribuţia a două variabile cantitative şi dreapta lor de regresie (B).
20
7.1.4 Problema distribuţiilor non-normale
Pentru a putea studia relaţia dintre două variabile cu ajutorul analizei de regresie este necesar ca
10
acestea să fie de tip cantitativ, adică de interval sau de raport. În plus, există o altă cerinţă care trebuie
respectată pentru ca rezultatele aplicării regresiei să poată fi interpretate în mod corect: distribuţia fiecăreia
dintre cele două variabile trebuie să fie de tip normal (gaussian), sau, cel puţin, să nu se abată în mod
0 substanţial de la această formă.
Voi ilustra printr-un exemplu care sunt problemele care apar atunci când această cerinţă nu este
-10 respectată:
Presupunem că avem date despre proporţia cetăţenilor care au o părere foarte bună despre calitatea
drumurilor din localitatea în care locuiesc şi despre numărul de locuitori din acea localitate. Datele (fictive)
sunt reprezentate în Figura 7.6. Se observă că ambele variabile au distribuţii asimitetrice iar unităţile de
Y2
-20
-3 -2 -1 0 1 2 3 analiză sunt concentrate mai mult la exteme decât în jurul unor valori centrale. Acest fapt este cel mai clar
X2
în ceea ce priveşte numărul de locuitori, unde există o localitate cu o valoare mult diferită de a celorlalte.
Reprezentarea grafică a dreptei de regresie, precum şi valorile lui r şi ale lui R2 indică existenţa unei relaţii
de semn pozitiv între cele două variabile: r = 0,48, iar R2 = 0,23.
Puterea explicativă a unui model de regresie simplă poate fi evaluată cu ajutorul mai multor
indicatori. Coeficientul R2, numit coeficient de determinaţie, este definit de următoarea formulă:
R2 =
∑ (Y '−Y ) 2
∑ (Y − Y ) 2
Numărătorul expresiei reprezintă variaţia lui Y care este "explicată" de ecuaţia de regresie, în timp ce
valoarea de la numitor este egală cu variaţia totală a lui Y. Deci, R2 indică proporţia din variaţia lui Y care
este "explicată" de variabila independentă.
Din modul în care este definit rezultă că R2 poate să ia valori între 0 şi 1. R2 este egal cu 1 atunci când Figura 7.6. Relaţia dintre mărimea localităţii şi proporţia locuitorilor care au o părere foarte bună despre
distribuţia punctelor se face după o dreaptă. Valoarea sa este zero în situaţii cum sunt cele ilustrate în starea drumurilor din localitate.
Figura 7.2. şi în Figura 7.3., adică atunci când distribuţia punctelor nu poate fi aproximată printr-o dreaptă. .5
În general, cu cât valorile lui R2 sunt mai apropiate de 1, cu atât relaţia dintre cele două variabile este mai
intensă iar reprezentarea sa grafică este mai apropiată de o dreaptă.
.4
În exemplul din secţiunea anterioară R2 = 0,53.
R2 care corespunde relaţiei reprezentate în Figura 7.4. are valoarea 0,95, în timp ce R2 din Figura 7.5. are
valoarea 0,58. .3
Un alt indicator al intensităţii relaţiei dintre două variabile cantitative este coeficientul de corelaţie
Pearson, notat cu r şi definit prin următoarea formulă: .2
proportia celor multumiti

r = b σX / σY.
.1
σX şi σY reprezintă abaterea standard a variabilei X, respectiv abaterea standard a variabilei Y.
Coeficientul de corelaţie are două proprietăţi din care poate fi dedus şi modul său de interpretare:
1. r2 = R2 --coeficientul de corelaţie Pearson ridicat la pătrat este egal cu coeficientul de determinaţie. 0.0
2. r are acelaşi semn cu b, deoarece cele două abateri standard din definiţia sa au întotdeauna semn pozitiv. 0 100000 200000 300000 400000
numarul de locuitori
Astfel, din proprietatea (1) rezultă că r ia valori în intervalul [-1, 1], iar valorile extreme sunt luate în
acelaşi situaţii în care R2 ia valoarea 1: atunci când relaţia dintre cele două variabile cantitative este de
intensitate maximă şi punctele care reprezintă grafic unităţile de analiză sunt distribuite pe o dreaptă. În Privind însă graficul, se observă că dreapta de regresie nu aproximează corect distribuţia localităţilor
mod similar, r ia valoarea 0 atunci când R2 este nul, adică în situaţiile în care distribuţia unităţilor de pe grafic, întrucât nu există o tendinţă generală ca localităţile mai mari să aibă proporţii mai mari de
analiză nu poate fi aproximată printr-o dreaptă (Figurile 2. şi 3. ilustrează situaţii în care r este 0). cetăţeni mulţumiţi de starea drumurilor decât localităţile mai mici. Panta ascendentă a dreptei de regresie,
Din proprietatea (2) rezultă că r ia valori pozitive atunci când dreapta de regresie are o înclinaţie precum şi valoarea pozitivă a lui r, sunt urmarea includerii în analiză a localităţii care are o populaţie mult
ascendentă de la stânga spre dreapta, şi valori negative atunci când inclinaţia este descendentă.
mai mare decât a celorlalte (310000 locuitori, în timp ce următoarea localitatea ca mărime are 47000). Dacă 1.5
această localitate este exclusă, se obţin valori pentru b şi R2 foarte aproape de zero: b = -0,051, R2 = 0,003.
1.0
7.2 Regresia lineară multiplă

.5
Modelul de regresie simplă este folosit pentru a descrie relaţia dintre două variabile cantitative. În
cazul în care sunt disponibile date despre mai mulţi factori cu potenţial explicativ, iar aceştia sunt estimaţi 0.0
rata somajului (2) - rata somajului (1)

prin variabile cantitative, este de dorit ca analiza să cuprindă simultan toate variabilele şi nu doar două
dintre acestea. Utilizarea regresiei simple într-un astfel de caz, prin ignorarea unora dintre variabilele -.5
independente, ori prin aplicarea succesivă pentru fiecare dintre variabilele independente, poate să conducă
la rezultate eronate. -1.0 Calit. adm.
Exemplul următor ilustrează o situaţie de acest tip. 3.00
-1.5
Să presupunem că în evaluarea unui program prin care s-a urmărit reducerea şomajului se cunoaşte 2.00
variaţia ratei şomajului (DIF), suma cheltuită raportată la numărul de locuitori (SUM), şi, în plus, faţă de -2.0
1.00
exemplu similar descris în secţiunea precedentă, fiecare localitate este descrisă de un indicator global al
calităţii administrării programelor locale, altele decât cel evaluat aici. Acest din urmă indicator, notat -2.5 Toate localit.
6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0
CALIT, este de tip cantitativ, si are trei valori: 1 desemnează un nivel scăzut, 2 un nivel mediu, iar 3 un
nivel ridicat al calităţii administrării programelor. suma cheltuita / nr. de locuitori
În Figura 7.7 sunt reprezentate localităţile cuprinse în studiu, în funcţie de cele trei variabile. La fel ca
şi în Figura 7.8 valorile lui DIF sunt pe axa verticală, iar cele ale lui SUM pe axa orizontală. Marcarea
localităţilor pe grafic se face prin simboluri grafice diferite în funcţie de valorile celei de a treia variabile. Problema generală pe care încercăm să o rezolvăm prin modelare statistică poate fi redusă adesea la
Analiza legăturii dintre DIF şi SUM printr-o regresie simplă conduce la concluzia că relaţia dintre următoarea exprimare:
cele două variabile este directă, şi destul de intensă (R2 = 0,53). B este un fenomen care trebuie explicat iar A1, A2, ... sunt factori explicativi potenţiali; Care este efectul
Dacă, însă, relaţia dintre cele două variabile este studiată separat pe grupele de localităţi desemnate independent al fiecărui Ai asupra lui B? Care este ierarhia importanţei factorilor A1, A2, ... în explicarea
prin valorile celei de-a treia variabile, concluzia este diferită. În locul unui singur model, vom urmări lui B?
parametrii a trei modele de regresie simplă, câte unul pentru fiecare dintre valorile variablei CALIT. Exemplul de mai sus arată faptul că numai prin modele care cuprind simultan toate variabilele
Valorile lui R2 care se obţin sunt 0,006 pentru CALIT = 1, 0,005 pentru CALIT = 2, şi 0,004 pentru CALIT relevante pentru fenomenul studiat poate fi evaluat efectul independent al fiecăreia. Modelele multivariate
= 3. Cele trei valori indică faptul că intensitatea relaţiilor dintre DIF şi SUM pentru fiecare dintre cele trei cele mai simple şi de aceea cel mai usor de interpretat sunt cele de regresie multiplă. Vom arăta modul în
categorii de localităţi este foarte aproape de zero. Altfel spus, când sunt comparate localităţi care sunt care acestea sunt definite (7.2.1), felul în care pot fi interpretate relaţiile dintre variabilele cuprinse în model
asemănătoare din punctul de vedere al performanţei administrării de programe, cheltuirea unei sume mari (7.2.2.) şi cum poate fi evaluată eficienţa de ansamblu a modelelor (7.2.3). În secţiunea (7.2.4.) vor fi
pe cap de locuitor nu este asociată, în medie, unei scăderi mai accentuate a ratei şomajului decât în discutate modalitaţile de generalizare a rezultatelor obţinute pe un eşantion iar în sectiunea (7.2.5) va fi
localităţile în care suma a fost mai mică. Acest rezultat indică, contrar celui obţinut din analiza doar a descrisă problema multicoliniarităţii. În secţiunea (7.2.6) va fi prezentată o extindere a modelelor de
primelor două variabile, că programul de reducere a şomajului nu a fost eficient. regresie pentru variabile nominale şi ordinale.
Figura 7.7. Relaţia dintre variabilele DIF, SUM, şi CALIT pentru 25 de localităţi.
7.2.1 Definirea modelelor de regresie multiplă
Fie Y, X1, X2, ..., Xm, variabile cantitative. Y este variabila a cărei variaţie incercăm să o explicăm iar X1,
X2,..., Xm, sunt variabilele independente. Putem scrie următoarea relaţie între variabile:
Y = a + b1X1 + b2X2 + ... + bmXm + U (3)
unde a, b1, b2, ..., bm sunt numere iar U este o variabilă.

Se observă că pentru orice combinaţie de numere a, b1, b2, ..., bm, relaţia (3) este asevărată, pentru că
acestea împreună cu valorile lui Y, X1, X2, ..., Xm determină U.
Figura 7.8. Reprezentarea grafică în trei dimensiuni a unor cazuri caracterizate de trei variabile. în care a, b1, b2, ..., bm sunt determinate în urma aplicării principiului celor mai mici pătrate este un
model de regresie multiplă.
Y
Dacă avem o singura variabilă independentă (m=1) ecuaţia (5) descrie un model de regresie simplă.
(X11,X21,Y1)
În exemplul de mai sus, planul care aproximeaza cel mai bine - după criteriul celor mai mici pătrate -,
distribuţia punctelor din spaţiu asociate celor 25 de unităţi de analiză (localităţi cuprinse în studiu) are
(X12,X22,Y2) ecuaţia
(X13,X23,Y3)
(X14,X24,Y4)
DIF = -2,61 + 0,05 SUM + 1,00 CALIT.
Y5
(X15,X25,Y5)
7.2.2 Interpretarea modelelor de regresie multiplă
X15 X25
X1
X2
Coeficientul bi, numit panta asociată variabilei Xi, reprezintă numărul de unităţi cu care variază Y'
atunci când Xi creşte cu o unitate iar celelalte variabile independente sunt menţinute constante. Altfel spus,
bi arată cum se modifică valoarea aşteptată a variabilei dependente atunci când Xi variază iar Xj sunt
constante, j≠i.
Dacă m=2 relaţia (3) poate fi descrisă grafic printr-un desen tridimensional. Fiecărui individ statistic Deasemenea, în măsura în care datele satisfac anumite proprietăţi (dintre care un principiu important este
îi corespunde un punct de coordonate (X1,X2,Y) (Figura 7.8.), iar a, b1 şi b2 definesc un plan descris de cel al distribuţiilor apropiate de cele normale, iar un alt principiu, al multicoliniarităţii, va fi discutat în
ecuaţia secţiunea 7.2.5.) este corect să afirmăm că bi indică variaţia în mediile valorilor lui Y care corespund
punctelor de forma (X1,...,Xi,...,Xm) respectiv (X1,...,Xi + 1,...,Xm). La fel, a arată care este media lui Y
Y' = a + b1X1 + b2X2. atunci când X1 = X2 = ... = Xm = 0.
Semnul plus al lui bi indică faptul că între Xi şi Y are loc o relaţie pozitivă în condiţii de control al
Variabila U este determinată de acest plan şi de punctele de forma (X1,X2,Y) într-un mod analog efectului celorlalte variabile, în timp ce semnul minus indică prezenţa unei relaţii negative.
cazului cu două dimensiuni:
valoarea Ui care îi corespunde unui individ statistic care a luat valorile X1i, X2i,Yi, este egală cu lungimea In exemplul anterior, b1 = 0,05 arată că dacă vom compara două localităţi unde diferenţa dintre
segmentului paralel cu axa OY care are la extremităţi punctul care îi corespunde în spaţiu (X1i,X2i,Yi), sumele cheltuite în program / numărul de locuitori este 1000 lei, şi care sunt identice din perspectiva
respectiv punctul de intersecţie cu planul (si care are coordonatele (X1i,X2i,Y'i)). variabilei CALIT, ne aşteptăm ca, în medie, rata şomajului să fi scăzut cu 0,05 puncte procentuale în
localitatea în care s-a suma / locuitor a fost mai mare. b2 = 1,00 arată că pentru aceeaşi valoare a lui SUM,
Expresia (3) indică faptul că Y poate fi exprimată ca o combinaţie liniară de X1, X2, ..., Xm, şi o localităţile cu o evaluare a calităţii administrării programelor mai bună cu o unitate au, în medie, o scădere
variabilă U numita variabilă reziduală. Dacă fixăm a, b1, b2,..., bm atunci U poate fi exprimat în funcţie de mai mare cu o unitate procentuală. Această interpretare este consistentă cu rezultatul obţinut după aplicarea
aceste numere şi Y, X1, X2,...Xm: de regresii simple pentru fiecare din subeşantioanele definite de CALIT, dar aduce un plus de precizie în
exprimarea relaţiilor dintre variabila dependentă şi cele două variabile independente.
U = Y - (a + b1X1 + b2X2 + ... + bmXm) (4)
Din interpretarea coeficienţilor bi se vede cum regresia multiplă permite compararea de perechi de
Dacă notăm expresia din paranteza cu Y' atunci grupe de indivizi statistici care sunt identici din perspectiva tuturor variabilelor independente cu excepţia
U = Y - Y'. unei singure variabile. Diferenţa observată în valorile variabilei dependente este atribuită variaţiei în
variabila independentă care ia valori diferite pentru grupe diferite.
Vom alege din mulţimea (infinită) a expresiilor de forma (3) acea combinaţie liniară pentru care U
(determinat din (4)) are valori minime. Pentru că U este o variabilă, atunci când expresia (3) se aplică unui Asemeni pantei pentru cazul bivariat, coeficienţii modelului de regresie multiplă depind de unităţile
număr de n indivizi statistici, U este un şir de n numere. Avem nevoie să definim un criteriu după care de măsură ale variabilelor şi este adevărată proprietatea
variabilele U să poată fi comparate astfel încât să putem alege un U având valorile cele mai mici. Principiul
folosit pentru modelele de regresie liniară multiplă este, la fel ca şi în cazul bivariat, cel al celor mai mici dacă în loc de Xi avem cXi + d, atunci în loc de bi avem bi / c. (6)
pătrate:
Această proprietate arată faptul că panta de regresie nu poate fi folosită drept un indicator al
Unei variabile U îi corespunde un număr u obţinut din aplicarea formulei intensităţii relaţiei dintre variabila dependentă şi variabila independentă corespunzătoare, şi nici nu permite
u = u12 + u22 + ... + un2, unde ui este valoarea luată de U pentru cazul statistic i; ierarhizarea variabilelor independente în funcţie de contribuţia fiecăreia la explicaţia variaţiei variabilei
este ales U pentru care u este cel mai mic. Din (3) rezultă că problema este echivalentă cu determinarea dependente.
valorilor a, b1, b2, ..., bm astfel încât u să fie minim. Este important de reţinut că pentru orice număr de Pentru a descrie nu doar forma ci şi intensitatea relaţiilor liniare între variabilele independente şi
variabile independente m, a, b1, b2, ..., bm sunt determinaţi în mod unic de condiţia de a avea u minim. variabila dependentă sunt folosiţi coeficienţii de regresie standardizaţi. Modul în care sunt definiţi este
intuitiv: variabilele Y, X1, X2, ..., Xm sunt standardizate folosind formula scorului z prezentată în Capitolul
Ecuaţia 1.
Y' = a + b1X1 + b2X2 + ... + bmXm, (5)
Noile variabile, obţinute în urma aplicării formulei, au media egală cu zero iar abaterea standard egală R2 are proprietatea de a creşte cu fiecare variabilă care este introdusă în model şi de aceea valorile lui
cu unitatea. Coeficienţii de regresie din modelul determinat de variabilele standardizate, se notează în mod R2 trebuie judecate şi în raport cu numărul de variabile independente. La limită, este posibil să avem R2 = 1
obisnuit cu β1, β2, ..., βm. Aplicând proprietatea (6) avem următoarea formulă pentru coeficienţii dacă avem un număr de variabile independente suficient de mare, chiar dacă acestea sunt generate aleator.
standardizaţi: Concluzia care se desprinde este că alegerea variabilelor care urmează să fie incluse în model nu
poate fi decisă folosind exclusiv informaţia de natură statistică (chiar dacă există procedee complexe prin
σ Xi care putem îmbogăţi această informaţie). Numai prin luarea în considerare şi a unor aspecte de natură
βi = bi teoretică poate fi decisă includerea sau eliminarea unor variabile în analiză.
σY
Să vedem ce semnificaţie au valorile extreme pe care le poate lua R2, 0 şi 1, pentru că interpretarea
În cazul bivariat (m = 1), β1 coincide cu coeficientul de corelaţie Pearson. În cazul general, βi arată cu valorilor intermediare este posibilă prin raportarea la situaţiile maximale.
câte abateri standard variază Y atunci când Xi creşte cu o abatere standard. Din formulă reiese şi faptul că R2 este egal cu 1 atunci când valorile lui Y sunt complet determinate de combinaţiile liniare ale
βi are acelaşi semn cu bi, iar βi = 0 este echivalent cu bi = 0. valorilor variabilelor independente. În cazul bivariat, distribuţia punctelor se face după o dreaptă, iar atunci
Atunci când m > 1 coeficienţii de regresie standardizaţi au câteva proprietăţi diferite faţă de cazul când sunt două variabile independente, după un plan.
bivariat: La fel ca şi în cazul bivariat, R2 = 0 nu indică în mod necesar absenţa unor relaţii între variabilele
independente şi variabila dependentă:
1. βi poate să ia valori şi în afara intervalului [-1, 1]. βi în valoare absolută este supraunitar atunci când 1. Y poate să fie determinată complet de variabilele independente prin relaţii neliniare iar R2 să fie egal cu
relaţia dintre Xi şi Y este foarte intensă şi în plus, există o relaţie liniară strânsă între Xi şi cel puţin una zero. De exemplu, dacă
dintre celelalte variabile independente.
2. în timp ce în cazul bivariat U = 0 implică faptul că β1 = +1, atunci când m > 1, condiţia Y = 10 - X 2 1 - X 2 2 ) ,
U = 0 nu restrânge valorile posibile pentru βi.
se obţine distribuţia din Figura 7.9. în care toate punctele sunt pe o suprafata curbă (cele mai multe sunt pe
Coeficienţii de regresie standardizaţi permit ierarhizarea variabilelor independente în funcţie de o semisferă), iar R2 = 0.
importanţa pe care o are fiecare în explicarea variaţiei variabilei dependente printr-o relaţie directă. Sunt 2. Mai mult, este posibil să avem R2 = 0 chiar şi atunci când între una dintre variabilele independente şi Y
necesare două precizări privind limitele în utilizarea acestor coeficienţi: exista o relaţie liniară, în condiţii de control, însă forma (panta) acestei relaţii nu este constantă pe
1. Dacă într-un model teoretic în care X1, X2, ..., Xm sunt variabile independente pentru Y, Xi este o categoriile celorlalte variabile.
variabilă explicativă şi pentru unul sau mai multi Xj, j≠i, atunci modelul de regresie în care Y este variabila
dependentă ne permite numai estimarea efectului direct pe care îl are Xi asupra lui Y, nu şi a celui mediat Figura 7.9. Exemplul unei distribuţii în spaţiu pentru care variabila dependentă este reprezentată pe axa
de alte variabile din model. De exemplu, variabila care exprimă proporţia celor care au absolvit liceul din verticală şi R2 = 0.
populaţia unei localităţi poate avea un efect direct nul asupra numărului de infracţiuni pe cap de locuitor
(bliceu =0), însă un efect indirect substanţial, mediat de o altă variabilă independentă cuprinsă în modelul de
regresie multiplă (de exemplu, venitul pe cap de locuitor).
2. Atunci când avem două modele cu aceleaşi variabile, dar care descriu date diferite, coeficienţii
standardizaţi nu sunt comparabili între modele decât dacă variabilele care le corespund au dispersii 3,5
asemănătoare. De aceea, este de preferat ca în comparaţiile dintre populaţii diferite să fie folosiţi
3,0
coeficienţii nestandardizaţi, după ce în prealabil datele au fost transformate astfel încât variabilele Xi să
aibă aceeaşi unitate de măsură în ambele modele. 2,5
Y 2,0
7.2.3 Eficienţa unui model de regresie multiplă 1,5
1,0
La fel ca şi în cazul bivariat, puterea explicativă a unui model multivariat poate fi evaluată cu ajutorul
unor indicatori. Coeficientul R2, numit coeficient de determinaţie multiplă, este definit la fel ca şi atunci 4 3
2 1 1 2 3
0 -1 -1 0
când avem o singură variabilă independentă şi are o interpretare similară: X1 -2 -3 -3 -2 X2
R2 =
∑ (Y * −Y ) 2
∑ (Y − Y ) 2
Figura 7.10. Exemplul unei distribuţii în spaţiu pentru care variabila dependentă este reprezentată pe axa
verticală, au loc relaţii bivariate cu variabila dependentă de intensitate maximă şi R2 = 0 pentru modelul
Numărătorul expresiei reprezintă variaţia lui Y care este "explicată" de ecuaţia de regresie, în timp ce multivariat.
valoarea de la numitor este egală cu variaţia totală a lui Y. Deci, R2 indică proporţia din variaţia lui Y care
este "explicată" de toate variabilele independente din model. Din definiţie rezultă că R2 poate să ia valori
între 0 şi 1.
În exemplul din această secţiune avem R2 = 0,69.
Desigur, valorile ridicate ale lui R2 sunt de dorit în locul celor scăzute pentru că implică faptul că
explicaţia este în mai mare măsură completă. Totuşi, această afirmaţie necesită câteva precizări:
Coeficienti Coeficienti
ne-standardizati standardizati Nivel de
12
Eroare semnif.
B standard Beta t stat.
10
SUM 0,048 0,212 0,052 0,229 0,820
8
CALIT 0,994 0,291 0,786 3,412 0,002
6
Y1
4
2 Pentru a doua variabilă independentă din exemplu, CALIT, putem respinge ipoteza de nul (p =
0 12
0,002<0,05).
10
8
1,2
Un model de regresie multiplă poate fi folosit atit în explicaţie cit şi în predicţie. Astfel, din modelul
1,0 6
,8 ,6 4
,4 ,2 0,0 2 X2
X1 anterior rezultă că, în medie, localităţile în care ar fi aplicat un program similar cu cel studiat iar suma
cheltuită ar fi de 8000 de lei / locuitor, şi care ar fi evaluate prin scorul 3 pentru calitatea administrării
programelor, vor avea în medie o scădere a ratei şomajului cu o valoare dată de următoarea formulă
7.2.4 Generalizarea rezultatelor obţinute pe eşantion (inferenţa) DIF0 = -2,61 + 0,05 * 8 + 1,00 * 3 = 0.79.
Atunci când avem la dispozitie date dintr-un eşantion probabilistic şi construim pe acestea un model Mai mult, putem determina cu o probabilitate p intervalul căruia îi apartine valoarea variabilei DIF pentru
de regresie multiplă ne punem problema de a generaliza rezultatele obţinute pentru populaţia din care care cunoaştem valorile variabilelor SUM şi CALIT. Acesta este
provine eşantionul. Să presupunem că am obţinut bi > 0 şi dorim să ştim dacă panta corespunzătoare
variabilei Xi este pozitivă şi la nivelul întregii populaţii. Pentru a afla acest lucru vom construi un interval (DIF0 - tn - m - 1, 0,975σDIF, DIF0 + tn - m - 1, 0,975σDIF),
de încredere în jurul valorii lui bi. Determinarea intervalului de încredere presupune îndeplinirea de către
datele analizate a unor proprietăţi, aceleaşi cu condiţiile specifice cazului bivariat, la care se adaugă unde DIF0 este valoarea medie "prezisă" de model, σDIF este eroarea standard a valorii estimate DIF0.
condiţia de absenţă a multicoliniarităţii (pe care o vom defini şi analiza în sectiunea 6). În continuare, În exemplul anterior, DIF este cu o probabilitate de 0,95 în intervalul de incredere
presupunem îndeplinite toate aceste proprietăţi. Pentru un nivel de incredere de 0,95 avem intervalul (0,79 - 2*0,59, 0,79 + 2*0,59) = (-1,57, 3,15).
(bi - tn - m - 1, 0,975σbi, bi + tn - m - 1, 0,975σbi),

7.2.5 Problema multicoliniarităţii
unde n este numărul de cazuri în eşantion, m este numărul de variabile independente, numărul tn - m, 0,975
poate fi găsit în tabelele pentru distributia t (pentru n - m - 1 = 60 ia valoarea 2,0, iar pentru un număr care Situaţia în care o variabilă independentă poate fi exprimată ca o combinaţie liniară perfectă a celorlalte
tinde la infinit ia valoarea 1,96) iar σbi este eroarea standard a lui bi. variabile independente, este numită multicoliniaritate perfectă:
Dacă intervalul de încredere nu îl conţine pe zero atunci ipoteza de nul, adică afirmaţia conform De exemplu, dacă variabilele independente sunt X1, X2, şi X3, iar
căreia între Xi şi Y nu avem o relaţie liniară directă, poate fi respinsă (un mod mai riguros de a exprima X2 = 3X1 + 2X3, se spune că X2 este exprimat printr-o combinaţie liniară a variabilelor X1 şi X3, iar
ipoteza de nul în cazul regresiei este acela de a spune că parametrul - coeficientul de regresie din populaţie variabilele X1, X2 şi X3 sunt într-o relaţie de multicoliniaritate perfectă.
- este egal cu 0).
O altă modalitate prin care poate fi realizată generalizarea valorilor bi constă în determinarea valorii Atunci când variabilele independente sunt într-o situaţie de multicoliniaritate perfectă coeficienţii de
maxime a nivelului de semnificatie statistică pentru care 0 aparţine intervalului de încredere. Dacă nivelul regresie nu pot fi determinaţi, şi analiza de regresie nu poate fi aplicată.
de semnificaţie observat este mai mic decât 0,05 atunci vom respinge ipoteza de nul, conform regulilor de
testare a ipotezelor statistice. În practică, o situaţie de acest tip este rar întâlnită şi este uşor de detectat. În schimb, sunt mai frecvente
Deasemenea, putem calcula valoarea t asociată lui bi cazurile de multicoliniaritate ridicată, în care o variabila independentă poate fi exprimată aproape perfect
printr-o combinatie liniară a celorlalte variabile independente. Când se intimplă acest lucru, coeficienţii pot
fi determinaţi în mod unic însă sunt instabili: valoarea pantei unui anumit coeficient diferă foarte mult de la
t = bi / σbi.
un eşantion la altul pentru o anumită populaţie. Din acest motiv, atât comparaţiile între valorile
Putem găsi în tabelele statistice care este nivelul de încredere ce corespunde valorii determinate în coeficienţilor dintr-un model cât şi comparaţiile pentru aceeaşi coeficienţi ai unor modele pe eşantioane
acest fel. diferite sunt nesigure.
Pentru exemplul din această secţiune, tabelul următor conţine coeficienţii de regresie, coeficienţii Care este pragul peste care multicoliniaritatea este considerată a fi ridicată şi poate să ridice probleme în
standardizaţi, erorile standard, valorile t şi nivelele de semnificatie statistică. interpretarea modelului? O metodă frecvent folosită constă în realizarea de regresii în care, pe rând, fiecare
dintre Xi este variabilă dependentă iar ceilalţi Xj sunt variabile independente. Valoarea cea mai ridicată
pentru un R2 obţinut în acest fel este o măsură a nivelui de multicoliniaritate din model, iar limita
convenţională sub care se consideră că multicoliniaritatea nu afectează interpretabilitatea modelului este
0,8.
Atunci când este întâlnită o situaţie de multicoliniaritate ridicată sunt mai multe moduri prin care pot fi b. Localităţile în care sunt 20% locuitori care nu au absolvit 10 clase au, în medie, diferenţa între veniturile
atenuate efectele ei: anuale pe cap de locuitor (VENIT) cu 12 mii de lei mai mare decât localităţile în care sunt 30% locuitori
1. Este mărit volumul eşantionului astfel încât ipoteza de nul să poată fi respinsă pentru o parte dintre care nu au absolvit 10 clase.
coeficienţi.
2. Variabilele care sunt puternic corelate sunt combinate în indicatori unici. De exemplu, într-o analiză în 2. Presupunem că, în plus, avem şi date despre proporţia locuitorilor care au mai puţin de 18 ani
care secţiile de vot sunt unităţi statistice, rata de participare în primul tur de scrutin al alegerilor din 1996 (MINORI)-- estimată în procente. Ecuaţia de regresie multiplă care include variabilele SCOALA şi
este o variabilă independentă şi rata de participare în al doilea tur de scrutin al alegerilor din 1996 este o MINORI ca variabile independente este următoarea:
altă variabilă independentă, coeficientul de corelaţie între cele două variabile este r = 0,91. Un model
realizat pe un eşantion ales dintre secţiile de vot şi în care cele două variabile sunt independente va fi VENIT = 12 - 4 SCOALA - 0,2 MINORI.
afectat de o problemă de multicoliniaritate ridicată. O soluţie ar fi includerea în analiză a mediei în locul βSCOALA = -0,08, iar βMINORI = -0,25.
celor două variabile.
3. Sunt realizate mai multe modele fiecare având doar o parte dintre variabilele care produc Care dintre următoarele afirmaţii este adevărată?
multicoliniaritate. Pentru exemplul anterior, ar însemna considerarea a două modele, unul cu rata de a. Variabila MINORI explică mai puţin din variaţia variabilei dependente decât variabila SCOALA.
participare pentru primul tur, al doilea cu rata de participare pentru al doilea tur. b. Conform modelului de regresie, localităţile în care SCOALA = 5, iar MINORI = 20, au avut în medie o
scădere a venitului pe cap de locuitor cu 12 mii de lei.
7.2.6 Variabile "dummy" Pentru următoarea întrebare, să se încercuiască varianta corectă /variantele corecte:
Regula generală conform căreia analiza de regresie poate fi aplicată numai variabilelor de interval sau de 3. Se da ecuatia de regresie cu coeficienti nestandardizati (în paranteză sunt prezentate erorile standard ale
rapoarte are o excepţie importantă: toate proprietăţile pe care le au valorile estimate ale unui model de coeficienţilor de regresie:
regresie se păstrează şi în cazul în care una sau mai multe dintre variabilele independente sunt dihotomice Y’ = -40 + 0.72x1 + 1.29x2 – 0.15x3
(adică variabile care iau două valori). ES (0.13) (0.37) (0.16)
Consecinţele acestei proprietăţi sunt importante deoarece permit nu doar estimarea efectelor unor R=0.9
variabilele care în mod obisnuit sunt dihotomice (exemplu sexul, mediul de rezidentă -- urban / rural, etc.)
asupra variabilei dependente ci şi includerea într-o analiză de regresie a unor variabile nominale sau Care din coeficientii ecuatiei de regresie difera semnificativ de zero pentru un nivel de semnificatie
ordinale cu mai mult de două categorii. Acest lucru este posibil în urma transformării unei variabile cu n p=0.05?
categorii în n - 1 variabile dihotomice. 1. cel al lui x1
Ca o ilustrare, să presupunem că datele despre programul de reducere a şomajului din exemplul discutat în 2. cel al lui x2
această secţiune cuprind informaţii despre încă o variabilă independentă: judeţul în care se află localitatea 3. cel al lui x3
(JUDET). Mai presupunem că localităţile din studiu provin din trei judeţe, notate cu A, B, C. Variabila 4. niciunul
JUDET este transformată în două variabile dihotomice: JUDET1 şi JUDET2.
JUDET1 este definită astfel: localităţile care sunt în judeţul A au valoarea 1, iar toate celelalte au valoarea
0.
JUDET2 este definită asemănător: localităţile care sunt în judeţul B au valoarea 1, iar toate celelalte au
valoarea 0.
Cunoscând valorile celor două variabile pentru o localitate, ştim sigur în ce judeţ se află aceasta, deci
informaţia oferită de JUDET1 şi JUDET2 este egală cu cea oferită de variabila iniţială, JUDET.
Prin introducerea celor două variabile dihotomice în analiză putem verifica dacă scăderea şomajului a fost
influenţată şi de factori care s-au manifestat la nivel de judeţ, independenţi de condiţiile de nivel local.
Dacă coeficientul b, respectiv beta, care corespunde uneia dintre aceste variabile este diferit de 0, atunci
rezultă că variaţia variabilei DIF poate fi explicată mai bine în urma includerii ei.
1. Presupunem cunoscute pentru mai multe localităţi următoarele două variabile: diferenţa între venitul pe
cap de locuitor în ultimul an şi cel din anul anterior (VENIT)--măsurat în mii lei--, şi proporţia celor din
localitate care au absolvit cel mult 10 clase (SCOALA)--estimată în procente.
O analiză de regresie prin care se încearcă explicarea efectului variabilei SCOALA asupra variabilei
VENIT conduce la următoarele rezultate:
r = -0,55, R2 = 0,30, iar ecuaţia de regresie este

VENIT = -7,5 - 12 SCOALA.
Care dintre următoarele afirmaţii este adevărată?

a. Localităţile în care SCOALA are valori mici au, în medie, valori mai mici ale variabilei VENIT.
3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
Anexa 1. Distribuţia normală normată (standard) 3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
Aria dintre 0 şi z 3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
0 z
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2518 0,2549
0,7 0,2580 0,2612 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49897 0,49900
3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 40,9964 0,49965
g.l. - Număr de grade de libertate
Anexa 2. Valorile critice ale lui t pentru aria de sub curbă aflată la dreapta
valorii.
g.l.\p 0.4 0.25 0.1 0.05 0.025 0.01 0.005 0.0005

1 0.32492 1 3.077684 6.313752 12.7062 31.82052 63.65674 636.6192
2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991
3 0.276671 0.764892 1.637744 2.353363 3.18245 4.5407 5.84091 12.924
4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103
5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688
6 0.264835 0.717558 1.439756 1.94318 2.44691 3.14267 3.70743 5.9588

7 0.263167 0.711142 1.414924 1.894579 2.36462 2.99795 3.49948 5.4079
8 0.261921 0.706387 1.396815 1.859548 2.306 2.89646 3.35539 5.0413
9 0.260955 0.702722 1.383029 1.833113 2.26216 2.82144 3.24984 4.7809
10 0.260185 0.699812 1.372184 1.812461 2.22814 2.76377 3.16927 4.5869
11 0.259556 0.697445 1.36343 1.795885 2.20099 2.71808 3.10581 4.437

12 0.259033 0.695483 1.356217 1.782288 2.17881 2.681 3.05454 4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208
14 0.258213 0.692417 1.34503 1.76131 2.14479 2.62449 2.97684 4.1405
15 0.257885 0.691197 1.340606 1.75305 2.13145 2.60248 2.94671 4.0728
16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.015

17 0.257347 0.689195 1.333379 1.739607 2.10982 2.56693 2.89823 3.9651
18 0.257123 0.688364 1.330391 1.734064 2.10092 2.55238 2.87844 3.9216
19 0.256923 0.687621 1.327728 1.729133 2.09302 2.53948 2.86093 3.8834
20 0.256743 0.686954 1.325341 1.724718 2.08596 2.52798 2.84534 3.8495
21 0.25658 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193

22 0.256432 0.685805 1.321237 1.717144 2.07387 2.50832 2.81876 3.7921
23 0.256297 0.685306 1.31946 1.713872 2.06866 2.49987 2.80734 3.7676
24 0.256173 0.68485 1.317836 1.710882 2.0639 2.49216 2.79694 3.7454
25 0.25606 0.68443 1.316345 1.708141 2.05954 2.48511 2.78744 3.7251
26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066

27 0.255858 0.683685 1.313703 1.703288 2.05183 2.47266 2.77068 3.6896
28 0.255768 0.683353 1.312527 1.701131 2.04841 2.46714 2.76326 3.6739
29 0.255684 0.683044 1.311434 1.699127 2.04523 2.46202 2.75639 3.6594
30 0.255605 0.682756 1.310415 1.697261 2.04227 2.45726 2.75 3.646
infinit 0.253347 0.67449 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

9 8
Anexa 3. Valorile critice ale lui χ2 28 12.4613 13.5647 15.3078 16.9278 18.9392
4 1 6 8 4
22.65716 27.33623 32.62049 37.91592 41.33714 44.46079 48.27824 50.99338
α.)
Ariile din dreapta valorilor (α 29 13.1211 14.2564 16.0470 17.7083 19.7677
5 5 7 7 4
23.56659 28.33613 33.71091 39.08747 42.55697 45.72229 49.58788 52.33562
30 13.7867 14.9534 16.7907 18.4926 20.5992 24.47761 29.33603 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196
2 6 7 6 3
g.l./a 0.995 0.99 0.975 0.95 0.9 0.75 0.5 0.25 0.1 0.05 0.025 0.01 0.005
ria
1 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.45494 1.3233 2.70554 3.84146 5.02389 6.6349 7.87944
2 0.01003 0.0201 0.05064 0.10259 0.21072 0.57536 1.38629 2.77259 4.60517 5.99146 7.37776 9.21034 10.59663
3 0.07172 0.11483 0.2158 0.35185 0.58437 1.21253 2.36597 4.10834 6.25139 7.81473 9.3484 11.34487 12.83816
4 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.35669 5.38527 7.77944 9.48773 11.14329 13.2767 14.86026
5 0.41174 0.5543 0.83121 1.14548 1.61031 2.6746 4.35146 6.62568 9.23636 11.0705 12.8325 15.08627 16.7496
6 0.67573 0.87209 1.23734 1.63538 2.20413 3.4546 5.34812 7.8408 10.64464 12.59159 14.44938 16.81189 18.54758
7 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.34581 9.03715 12.01704 14.06714 16.01276 18.47531 20.27774
8 1.34441 1.6465 2.17973 2.73264 3.48954 5.07064 7.34412 10.21885 13.36157 15.50731 17.53455 20.09024 21.95495
9 1.73493 2.0879 2.70039 3.32511 4.16816 5.89883 8.34283 11.38875 14.68366 16.91898 19.02277 21.66599 23.58935
10 2.15586 2.55821 3.24697 3.9403 4.86518 6.7372 9.34182 12.54886 15.98718 18.30704 20.48318 23.20925 25.18818
11 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.341 13.70069 17.27501 19.67514 21.92005 24.72497 26.75685
12 3.07382 3.57057 4.40379 5.22603 6.3038 8.43842 11.34032 14.8454 18.54935 21.02607 23.33666 26.21697 28.29952
13 3.56503 4.10692 5.00875 5.89186 7.0415 9.29907 12.33976 15.98391 19.81193 22.36203 24.7356 27.68825 29.81947
14 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.33927 17.11693 21.06414 23.68479 26.11895 29.14124 31.31935
15 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.33886 18.24509 22.30713 24.99579 27.48839 30.57791 32.80132
16 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.3385 19.36886 23.54183 26.29623 28.84535 31.99993 34.26719
17 5.69722 6.40776 7.56419 8.67176 10.0851 12.79193 16.33818 20.48868 24.76904 27.58711 30.19101 33.40866 35.71847
9
18 6.2648 7.01491 8.23075 9.39046 10.8649 13.67529 17.3379 21.60489 25.98942 28.8693 31.52638 34.80531 37.15645
4
19 6.84397 7.63273 8.90652 10.1170 11.6509 14.562 18.33765 22.71781 27.20357 30.14353 32.85233 36.19087 38.58226
1 1
20 7.43384 8.2604 9.59078 10.8508 12.4426 15.45177 19.33743 23.82769 28.41198 31.41043 34.16961 37.56623 39.99685
1 1
21 8.03365 8.8972 10.2829 11.5913 13.2396 16.34438 20.33723 24.93478 29.61509 32.67057 35.47888 38.93217 41.40106
1
22 8.64272 9.54249 10.9823 12.3380 14.0414 17.23962 21.33704 26.03927 30.81328 33.92444 36.78071 40.28936 42.79565
2 1 9
23 9.26042 10.1957 11.6885 13.0905 14.8479 18.1373 22.33688 27.14134 32.0069 35.17246 38.07563 41.6384 44.18128
2 5 1 6
24 9.88623 10.8563 12.4011 13.8484 15.6586 19.03725 23.33673 28.24115 33.19624 36.41503 39.36408 42.97982 45.55851
6 5 3 8
25 10.5196 11.5239 13.1197 14.6114 16.4734 19.93934 24.33659 29.33885 34.38159 37.65248 40.64647 44.3141 46.92789
5 8 2 1 1
26 11.1602 12.1981 13.8439 15.3791 17.2918 20.84343 25.33646 30.43457 35.56317 38.88514 41.92317 45.64168 48.28988
4 5 6 8
27 11.8075 12.8785 14.5733 16.1514 18.1139 21.7494 26.33634 31.52841 36.74122 40.11327 43.19451 46.96294 49.64492

Introducere in Statistica

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introducere in Statistica

Uploaded by

Copyright:

Available Formats

Universitatea Bucureşti

Introducere şi concepte de bază.................................................................................................................. 3

• Clocotici V., Stan, A., Statistică aplicată în psihologie, Polirom, 2000

2.1 Tabele de frecvenţe şi grafice

Cea de-a patra coloană a tabelului conţine distribuţia cumulativă a frecvenţelor 60

relative, şi reprezintă suma dintre frecvenţa relativă a respectivei categorii şi frecvenţele

2.2 Tendinţa centrală, variaţia şi forma distribuţiei

care apar cu o aceeaşi "cea mai mare" ajutorul formulei:

Numar de ani de scoala

- L este lărgimea sau mărimea intervalului care conţine mediana X = 1 = i =1

corespunde? Răspunsul e dat de regula de trei simplă, conţinută oarecum şi în formula N

calcul al acesteia este mai distribuţiei, valoarea medie va fi şi mai mare

deasupra. Mediana are avantajul distribuţiei, iar media se va găsi în aceeaşi

consumul per capita al gospodariilor (lei), in 1995

unde p este frecvenţa relativă a prezenţei caracteristicii studiate.

1. Veniturile gospodăriilor locuitorilor ţării Alfa, care cuprinde 87 de milioane de

a. Ce se poate spune despre simetria distribuţiei veniturilor?

Pentru următoarele întrebări, să se încercuiască varianta corectă /variantele corecte:

2. Decila 5 este o masura a: 1. tendintei centrale

3. Valoarea sub care se afla 50% dintre cazurile seriei 1. media

Pr(J şi H) = Pr(J)Pr(H|J) = Pr(J)Pr(H).

În ultimul exemplu din secţiunea anterioară am presupus, destul de nerealist, că

sau, în cazul variabilelor dihotomice,

Mărimea eşantionului este indepedentă de mărimea populaţiei din care este e= π (1 − π ) / n

P - 2% < π < P + 2% (sau π = P ± 2%), pentru un nivel de încredere de 95%

1. O populaţie de studenţi într-un campus studenţesc mare are o greutate medie de µ = 69

4.1.1 Eşantioane probabiliste

• Eşantionarea simplă aleatoare

H0: µ = 1200 sau, mai pe scurt, µ0 = 1200

Afirmaţia alternativă, susţinută de finanţatorii programului, şi anume aceea că

Regula pe care o putem generaliza dupa acest exemplu este :

σ2 = 0,37(1 – 0,37) = 0,2331 şi σ = 0,48 i − x1 i − x2

Asocierea variabilelor calitative

Tabelul 6.1 Relaţia dintre două variabile categoriale n

Elevii Materia X Materia Y

În exemplul anterior, a = -5,86, b = 0,67. Ecuaţia dreptei de regresie este

DIF = - 5,86 + 0,67SUM.

7.1.2 Interpretarea coeficienţilor dreptei de regresie

atunci, înlocuind în formula dreptei se obţine

y'2 = a + bx2 = a + b(x1 + 1) = a + bx1 + b = y'1 + b.

Coeficientul b are următoarea proprietate importantă: valoarea sa depinde de unităţile de măsură

proportia celor multumiti

7.2 Regresia lineară multiplă

rata somajului (2) - rata somajului (1)

Y = a + b1X1 + b2X2 + ... + bmXm + U (3)

unde a, b1, b2, ..., bm sunt numere iar U este o variabilă.

7.2.3 Eficienţa unui model de regresie multiplă 1,5

(bi - tn - m - 1, 0,975σbi, bi + tn - m - 1, 0,975σbi),

r = -0,55, R2 = 0,30, iar ecuaţia de regresie este

Care dintre următoarele afirmaţii este adevărată?

g.l.\p 0.4 0.25 0.1 0.05 0.025 0.01 0.005 0.0005

6 0.264835 0.717558 1.439756 1.94318 2.44691 3.14267 3.70743 5.9588

11 0.259556 0.697445 1.36343 1.795885 2.20099 2.71808 3.10581 4.437

16 0.257599 0.690132 1.336757 1.745884 2.11991 2.58349 2.92078 4.015

21 0.25658 0.686352 1.323188 1.720743 2.07961 2.51765 2.83136 3.8193

26 0.255955 0.684043 1.314972 1.705618 2.05553 2.47863 2.77871 3.7066

infinit 0.253347 0.67449 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905

You might also like