You are on page 1of 18

Tcnicas Estadsticas de Anlisis de Datos

Descripcin de datos. Estadsticos de una variable Distribuciones de probabilidad e intervalos de confianza Contrastes de hiptesis. Tipos Relaciones entre atributos Nominales- Numricos: Tests de comparacin de medias (muestras dependientes e independientes) y anlisis de varianza. Numricos - Numricos: Anlisis de Regresin Nominales-Nominales: Tablas de Contingencia. Tests de independencia y comparacin de proporciones. Aplicacin de tcnicas estadsticas a la clasificacin Clasificacin mediante regresin numrica Clasificador bayesiano

Tcnicas Clsicas de Anlisis de Datos

Anlisis de una variable (muestra de datos)


Estadsticos: resumen (describen) toda la informacin contenida en una muestra de datos : Variables continuas medidas centrales (media, moda, mediana) medidas de dispersin (rango, varianza, desviacin estndar, percentiles) medidas de forma (histograma) frecuencias relativas (probabilidades), moda media y varianza de probabilidad estimada

Variables nominales

Muestra: yi; i =1n; toma valores en un rango continuo/discreto

Tcnicas Clsicas de Anlisis de Datos

Estadsticos centrales
Media (esperanza) muestral: promedio de todos los valores
1 n yi n i =1 Moda: valor que aparece ms veces Mediana: valor que deja el mismo nmero de casos a ambos lados media ( y) = y =
mediana ( y) = yi | N casos y j yi = N casos ( y k yi )

equivale a ordenar el vector de datos y tomar el valor central menos sensible frente a valores extremos poco probables

Tcnicas Clsicas de Anlisis de Datos

Estadsticos de dispersin
Recorrido (intervalo, o rango): max(yi)-min(yi) Varianza: promedio de desviaciones con respecto a valor medio 1 n 1 n 2 2 2 Var ( y ) = ( yi y) = y i ny n 1 i =1 n 1 i =1 Desviacin estndar (tpica): raz cuadrada de la varianza desv ( y ) = y = Var ( y )
media, sigma
14 12 10 8 6 4 2 0 -2 0 -4

Datos valor medio valor medio+sigma valor medio - sigma 10 20 muestra 30 40

v r alo

Tcnicas Clsicas de Anlisis de Datos

Histograma
Estimacin de la distribucin de densidad de probabilidad: frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal
140 frecuencia absoluta 120 100 80 60 40 20 0
-3 -2,4 -1,8 -1,2 -0,6 0 0,6 1,2 1,8 2,4 3

N de casos en intervalo

intervalos de clase

La suma total de frecuencias absolutas es el nmero de datos La suma de frecuencias relativas es 1


Tcnicas Clsicas de Anlisis de Datos
5

Ejemplo: histograma de variable uniforme


his togram a 140 120 100 80 60 40 20 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

his togram a

acum ulado 1.2 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 acum ulado

Tcnicas Clsicas de Anlisis de Datos

Cuantiles del histograma


Cuantil: valores que dividen el recorrido de datos en k partes de la misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.) Ejemplo: cuartiles
porcentaje cuartiles 0,25 1,4 0,5 2,725 0,75 4 1 7,7

frecuencia 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 calificacin

Calificacin 2,8 0,6 5 3,1 3,9 4,9 1 0 6,55 ...

Recorrido inter-cuartlico: [1.4, 4]: contiene 50% datos Cuartil 1 Cuartil 2 Cuartil 3 Cuartil 4
7

Tcnicas Clsicas de Anlisis de Datos

Estadsticos de variable nominal


yi nominal: toma valores de un conjunto discreto (categoras): {vi1, , viki} Distribucin de frecuencias de cada valor

p 1 =100(n1 / n)% p2 = 100(n2 / n)% M pki = 100(nki / n)% n = nj


j =1 ki

Moda: valor que aparece ms veces

max (n j ) j

alumnos

Tcnicas Clsicas de Anlisis de Datos

Media y varianza de frecuencias estimadas


Clculo de cada frecuencia para una categora dada: m casos de n p=m/n puede verse como asignar: vi=1 cada ejemplo en la categora vi=0 en el resto 1 n p = vi n i =1 Varianza de p:
Var (p) = 1 n 2 ( vi p) = p(1 p) n i =1

p = p(1 p)

caso mxima varianza: p=0.5


Tcnicas Clsicas de Anlisis de Datos
9

Ejemplo variable nominal y numrica


Edad 23 25 18 37 45 62 43 40 60 54 28 18 54 29 42 26 32 41 37 36 53 21 24 21 45 64 22 61 37 66 Sexo M M H M H H M H M H H H M H M M M M M H H M H H M H M M M M
60 50 porcentaje 40 30 20 10 0 H sexo M

120 100 porcentaje 80 60 40 20 0 18 25 35 edad 45 55 65 frecuencia acumulada

Tcnicas Clsicas de Anlisis de Datos

10

Distribucin Normal
Curva de gran inters por explicar datos en muchas situaciones Aplicada por primera vez como distribucin por A. Quetelet (1830)
f (z) = 1 1 exp z 2 2 2

distribucin simtrica: coincide media y mediana en 0 se dispone del valor de la distribucin de probabilidad: rea bajo la curva de fZ(z) para cualquier valor: Tipificar o estandarizar variables: Se z FZ (z) -3 0.001349967 mide el desplazamiento respecto a la -2.5 0.00620968 -2 0.022750062 media en unidades de desviacin tpica:
-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 0.066807229 0.15865526 0.308537533 0.5 0.691462467 0.84134474 0.933192771 0.977249938 0.99379032 0.998650033

f(z)

F(z0)
2

y y zi = i i
z
11

0 -5 -4 -3 -2 -1 0 1 3

z0

Tcnicas Clsicas de Anlisis de Datos

Distribucin Normal e Intervalos de Confianza


f(z) F(z0)
-3 -2 -1 0 1 3

f(z)

F(z0)
-3 -2 -1 0 1 3

Una cola (unilateral)

Simtrico dos colas (bilateral)

Ej.: se conocen parmetros de una poblacin con distribucin normal: media: = 115; desviacin tpica:= 20 casos inferiores a 70? z=(70-115)/20, F(z)=0,012 casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04 en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667 qu intervalos simtrico tienen el 80%, 95% de los casos (intervalos de confianza)? z=F-1(/2); y=z 80%: z0.1=1,28; 115 z0.1*20=[89.3, 140.6] 95%: z0.025=1,96; 115 z0.025*20=[75.8, 154.2]
12

Tcnicas Clsicas de Anlisis de Datos

RELACIONES DE VARIABLES. TEST DE HIPOTESIS


ANLISIS DE VARIAS VARIABLES
Objetivo: analizar la interrelacin (dependencia) entre los valores de distintas variables, haciendo uso de los datos disponibles Numricas (retardo, carga, distancia,) Nominales (tipo de avin, condicin visibilidad, )

Herramienta de anlisis: tests de hiptesis Numricas-numricas: anlisis de regresin y covarianza Nominales-nominales: tablas de contingencia Nominales-numricas: comparacin de medias, anlisis de varianza

Tcnicas Clsicas de Anlisis de Datos

13

ANLISIS ESTADSTICO DE DATOS


ANLISIS DE VARIAS VARIABLES - NUMRICA-NUMRICA
Permite identificar relaciones entre variables numricas y construir modelos de regresin Se consideran relaciones de una variable de salida (dependiente) con mltiples variables de entrada (independientes) Estimacin de una funcin (Regresin Lineal) que mejor explique los datos

r r r {( X1, y1), (X 2 , y 2 ),..., (X n , y n )}


g(.) : R M R r r X y = g(X)
Tcnicas Clsicas de Anlisis de Datos

r X : vectores con M dimensiones

14

Mnimos Cuadrados
Estima vector de coeficientes que minimiza error I r r r y i = g i ( X ) = a 0 + a p x p =( A t ) * X
p =1

r a1 L a I ]t ; X = [1 x1 L x I ]t Objetivo: dadas N muestras, determinar coeficientes que minimicen el error de prediccin global
2 r = [g ( X j ) y j ] n j=1

r ( A ) = [a 0

El mtodo de mnimos cuadrados selecciona, como estimacin de la recta de regresin poblacional, aquella para la cual esta suma de cuadrados es menor. Problema clsico de minimizacin de funcin cuadrtica: solucin nica
Tcnicas Clsicas de Anlisis de Datos
15

Mnimos Cuadrados
Solucin genrica matricial
1 1 r y1 y1 g (X1) 1 x1 L x I r 1 x 2 L x 2 r r I A = H*A 1 y = M ; g = M = M = r M M y N y N g ( X N ) M M 1 x N L x N I 1

Solucin MC:

r r A = [ H t H ]1 H t y

[(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1]

Tcnicas Clsicas de Anlisis de Datos

16

Ejemplo: regresin lineal de 1 variable

Ao 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984

Renta Consumo consumo E 1959,75 1751,87 1683,473374 2239,09 1986,35 1942,43325 2623,84 2327,9 2299,11261 3176,06 2600,1 2811,043671 3921,6 3550,7 3502,190468 4624,7 4101,7 4153,993607 5566,02 5012,6 5026,63666 6977,84 6360,2 6335,452914 8542,51 7990,13 7785,967518 9949,9 9053,5 9090,676976 11447,5 10695,4 10479,01488 13123,04 12093,8 12032,31062 15069,5 12906,27 13836,76054 16801,6 15720,1 15442,48976 18523,5 17309,7 17038,76316

Estimacin Lineal a1 a0 0.927041871 -133.296932

ConsumoE = a 0 + a1 * Re nta

Tcnicas Clsicas de Anlisis de Datos

17

Ejemplo: regresin lineal de 1 variable

20000 15000 10000 5000 0 0

dependencia consumo

consumos

Consumo consumo E

5000

10000 renta

15000

20000

Tcnicas Clsicas de Anlisis de Datos

18

Ejemplo: regresin lineal de 2 variables

x1 Superficie 310 333 356 379 402 425 448 471 494 517 540

x2 Antigedad 20 12 33 43 53 23 99 34 23 55 22

y Valor 106,287 Euros 107,784 Euros 113,024 Euros 112,275 Euros 104,042 Euros 126,497 Euros 94,311 Euros 106,961 Euros 122,006 Euros 126,497 Euros 111,527 Euros

Valor predicho 109,180 Euros 112,283 Euros 108,993 Euros 108,128 Euros 107,262 Euros 115,215 Euros 99,800 Euros 115,469 Euros 119,233 Euros 113,518 Euros 122,132 Euros

Estimacin Lineal a2 a1 a0 -220.444829 58.2271936 95538.7217

Valor = a 0 + a1* Superficie + a 2 * Antigedad

Tcnicas Clsicas de Anlisis de Datos

19

Ejemplo: regresin lineal de 2 variables

valores predichos

140000 120000 valor (euros) 100000 80000 60000 40000 448 20000 402 356 0 310 10 20 30 40 50 60 70 80 90 100 110 antigedad (a)

150000 100000 50000 0 10 30 50 70 90 310 402 448


494

superficie (m 2)

356

494

540

540

Tcnicas Clsicas de Anlisis de Datos

20

Evaluacin del modelo de regresin


Anlisis de validez del modelo asumido: Medidas de parecido entre variable de salida estimada y real, influencia de variables de entrada Factor de Correlacin Error de prediccin Anlisis de calidad del modelo Error en coeficientes Hiptesis de significatividad de parmetros: t-Student
A1 AF ,..., ? A1 AF

N(0,1)
-4 -3 -2 -1 0 1 2 3

/2

Tcnicas Clsicas de Anlisis de Datos

21

Factor de correlacin
Factor de correlacin entre datos y predicciones:

Corr ( y , y ) =

1 S yS y

(y
j=1

y )( y j y ) =

Cov ( y , y ) Var ( y ) Var ( y )

El factor de correlacin vara entre -1 y 1. En general, se puede hacer factores de correlacin entre cualquier par de variables numricas: indica el grado de relacin lineal existente. -1: existe asociacin lineal negativa perfecta. 1 positiva perfecta. 0 no hay asociacin lineal.

Tcnicas Clsicas de Anlisis de Datos

22

Matrices de covarianza y correlacin


Muestra de vectores aleatorios:
Matriz de covarianzas:
r 1 n r = Xi n i =1
var(x1 ) n r r r r r = 1 (X )(X ) t = cov(x1, x 2 ) CX i i M n i =1 cov(x , x ) 1 I cov(x1, x 2 ) L cov(x1, x 2 ) var(x1) O M L var(x I )

{X1 , X 2 ,..., X n }

La matriz de correlaciones es similar, normalizada

Tcnicas Clsicas de Anlisis de Datos

23

ANLISIS ESTADSTICO DE DATOS


ANLISIS DE VARIAS VARIABLES - NUMRICA-NOMINAL
Mide la relacin entre variables numricas y nominales, o nominales y nominales (proporciones) Analiza las diferencias de medias condicionadas a variable nominal: impacto de la variable nominal sobre la continua
Variacin E

Dos tipos de anlisis: Con dos medias o proporciones: significatividad de la diferencia tstudent Ms de dos valores distintos: Anlisis de Varianza
Variacin NE

Y1

Y2 Y

Y3

Tcnicas Clsicas de Anlisis de Datos

24

1. Comparacin de dos medias


Se plantea como un test de hiptesis, dividiendo los datos en dos grupos, cada uno con su media y varianza. Hiptesis sobre diferencia de medias: D = y1 y2 H0: la diferencia de medias en la poblacin es nula D=0. Hiptesis alternativa A: las medias son distintas: D!=0. Hiptesis alternativa B: la media de 1 es mayor que 2: Hiptesis alternativa C: la media de 1 es menor que 2: Situaciones posibles: Muestras independientes: conjuntos distintos. Muestras dependientes: mismo conjunto, con dos variables a comparar en cada ejemplo.

y1 > y2 y1 < y2

Tcnicas Clsicas de Anlisis de Datos

25

Contrastes de dos medias


Hiptesis alternativa A
/2=0.025
-3

/2=0.025
3

z=1.96

z=+1.96

Hiptesis alternativa B:
=0.05
0 .4
-3 3

0 .3 5

z=1.65

0 .3

0 .2 5

Cuando las muestras son pequeas no es vlida la hiptesis de normalidad de los estadsticos de medias
y t / 2 ,GL
Tcnicas Clsicas de Anlisis de Datos

0 .2 0 .1 5

0 .1

0 .0 5

0 -5

-4

-3

-2

-1

26

2. Anlisis de varianza (ANOVA)


Niveles 1 ... i ... I Observaciones Y11,Y12,...Y1j,...Y1n1 ... Yi1,Yi2,...Yij,...Yini ... YI1,YI2,...YIj,...YInI
I

Variacin Explicada Variacin No Explicada y

Y1

Y2

Y3

n = ni Y Nmero total de elementos: i =1 I 1 Yi = Yij Media por nivel: variacin explicada: n i i =1 1 I ni variabilidad entre grupos Media total: Y = Yij n i =i j=1 variacin no explicada
Relacin entre cuadrados: (residual): variabilidad dentro de los grupos
M ni M

(Y
i =i j=1

ni

ij

Y ) 2 = (Yij Yi ) 2 + n i ( Yi Y ) 2
i =i j=1 i =1

Tcnicas Clsicas de Anlisis de Datos

27

ANLISIS ESTADSTICO DE DATOS


ANLISIS DE VARIAS VARIABLES - NOMINAL-NOMINAL
Analiza la interrelacin entre los valores de variables nominales segn distribucin de casos Herramienta para dos variables: tabla de contingencia distribucin de casos (frecuencias) para las distintas combinaciones de valores de las dos variables
variable 1 valor 1 valor 2 ... valor p1 totales 2 totales 1 variable 2 valor 1 valor 2 ... valor p2 n12 ... n1p2 t1 n11 n21 ... np11 t'1 n22 ... np12 t'2 ... ... ... ... n2p2 ... np1p2 t'p2 t2 ... tp1 t

Probabilidades marginales: Pi=ti/t

Casos esperados Eij=t(ti/t)(tj/t)= titj/t


28

Probabilidades marginales:

Tcnicas Clsicas de jAnlisis de Datos P =tj/t

Relacin entre variables nominales-nominales


Objetivo: analizar la interrelacin (dependencia) entre los valores de variables nominales Herramienta para dos variables: tabla de contingencia distribucin de casos (frecuencias) para las distintas combinaciones de valores de las dos variables
variable 1 valor 1 valor 2 ... valor p1 totales 2 totales 1 variable 2 valor 1 valor 2 ... valor p2 n12 ... n1p2 t1 n11 n21 ... np11 t'1 n22 ... np12 t'2 ... ... ... ... n2p2 ... np1p2 t'p2 t2 ... tp1 t

Probabilidades marginales: Pi=ti/t

Probabilidades marginales: Pj=tj/t

Estimacin del n esperado de observaciones Eij=t(ti/t)(tj/t)= titj/t


29

Tcnicas Clsicas de Anlisis de Datos

Contraste Chi-2 de variables nominales


Es aplicable en anlisis bi-variable (normalmente clase vs atributo) Determina si es rechazable la hiptesis de que dos variables son independientes Bajo hiptesis H0 se determinan los casos en el supuesto de variables independientes. Los valores esperados se determinan con probabilidades marginales de las categoras: Eij=tPi Pj (valores esperados). Nuestro contraste de hiptesis nula de no asociacin estar basado en las magnitudes de las diferencias entre los valores observados y los esperados bajo la hiptesis nula. El estadstico Chi-cuadrado mide la diferencia entre los valores observados y los valores esperados.

2 = (Oij Eij ) 2 / Eij


i =1 j =1

p1 p 2

Tcnicas Clsicas de Anlisis de Datos

30

Ejemplo

Tcnicas Clsicas de Anlisis de Datos

31

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES - NOMINAL-NUMRICA

Hay relacin entre tiempo en retardo y: franja horaria (maana-tarde-noche), tipo de da (diario-finsemana), compaa Mayor grado de relacin?

Tcnicas Clsicas de Anlisis de Datos

32

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES - NOMINAL-NUMRICA Hiptesis (anlogo a comparacin de prestaciones!)
Hiptesis nula H0: la diferencia de medias segn tipo da es nula D=0 Hiptesis alternativa: las medias son distintas: D!=0

fdp(T_finsemana-T_diario)
/2=0.025
-3

/2=0.025
3

0 1.5 +1.96 1.96 Mayor grado de relacin? Ms evidencia estadstica para rechazar la hiptesis de independencia

Tcnicas Clsicas de Anlisis de Datos

33

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES - NUMRICA-NUMRICA

Qu variables estn ms linealmente relacionadas

14 12 10 intervenciones 8
retardo

140 120 100 80 60 40 20 0

6 4 2 0 0 10 20 30 40 50

0 -20

10

20

30

40

50

Tcnicas Clsicas de Anlisis de Datos

operaciones

operaciones

34

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES NOMINAL-NOMINAL
Dependencia entre grado de retardo y tipo de avin, visibilidad,

Tcnicas Clsicas de Anlisis de Datos

35

EJEMPLOS VALIDACIN HIPTESIS


ANLISIS DE VARIAS VARIABLES NOMINAL-NOMINAL Hiptesis nula H0: las variables retardo y categora son independientes: Eij=t(ti/t)(tj/t)

2 = ( E ij Oij ) 2 / E ij
i =1j=1

p1 p 2

2
Tcnicas Clsicas de Anlisis de Datos
36

You might also like