Professional Documents
Culture Documents
Julio de 2011
ndice
ndice I
El modelo de regresin mltiple. Introduccin El modelo de regresin lineal mltiple. Introduccin El modelo de regresin lineal con dos regresores Hiptesis del modelo Consecuencias de las hiptesis del modelo Estimacin de los parmetros del modelo por mnimos cuadrados Propiedades de los estimadores de los parmetros del modelo Estimador de la variamza del error. La varianza residual Inferencia respecto de los parmetros del modelo Interpretacin de los tests de la t en regresin mltiple
ndice
ndice II
El modelo general de regresin. (Continuacin) 8 El test de la F 9 Interpretacin del test de la F 10 Interpretacin conjunta de los tests de la t y de la F
11 12 13 14 15 16 17
Multicolinealidad. Deteccin y tratamiento El coeciente de determinacin Diagnosis y validacin del modelo Prediccin en regresin mltiple Los valores atpicos en regresin mltiple Ejemplos de modelos linealizables Ejemplos de modelos no linealizables
ndice
El modelo de regresin mltiple es la extensin a k variables explicativas del modelo de regresin simple. La estructura del modelo de regresin mltiple es la siguiente:
= f (x1 , . . . , xk ) + E .
ndice
Donde:
E representa el error aleatorio. Contiene el efecto sobre y de todas las variables distintas de x , . . . , xk .
1
ndice
= 0 + 1 x1 + + k xk +E
Hiperplano
ndice
La variable dependiente, Y , depende linealmente de cada una de las variables explicativas, X1 , . . . , Xk . Un regresor no basta para explicar sucientemente la variabilidad de Y .
ndice
= 0 + 1 x1 + 2 x2 +E
Plano
ndice
Grcamente, el modelo de regresin lineal con dos regresores supone calcular la ecuacin de un plano que describa la relacin de Y con X1 y X2 , .
y = 0 + 1 x1 + 2 x2
X2
X1
ndice
De forma anloga al caso simple, calculado el plano, el valor de yi en cualquier punto (x1i , x2i , yi ) se puede descomponer en parte determinista y aleatoria, .
yi ei
y = 0 + 1 x1 + 2 x2
yi = 0 + 1 x1i + 2 x2i
X2 (x1i , x2i ) X1
10
ndice
La estimacin por mnimos cuadrados de los parmetros del modelo consiste en calcular la ecuacin del plano que haga mnimo el valor de
ei
en
e1
ei ,
2
e2
con ei = yi yi . .
X1
X2
11
ndice
Generalizando, al ajustar un modelo de regresin lineal mltiple se supondr que se verican las siguientes hiptesis:
1
Fijados los valores x1i , . . . , xki de las variables X1 , . . . , Xk , se tiene que yi = 0 + 1 x1i + + k xki + ei Cada error ei N (0, 2 ) . Cualquier par de errores ei y ej son independientes. Las variables explicativas son, algebraicamente, linealmente independientes. El nmero de datos es mayor o igual que k + 2.
2 3 4
12
ndice
Observaciones
Las tres primeras hiptesis del modelo se justican igual que en regresin simple. La condicin de la independencia lineal algebraica de los regresores tiene por objeto ajustar la dimensin del problema, ya que si no se cumpliese se podran eliminar regresores del modelo. El nmero de datos debe ser mayor o igual que k + 2 para poder estimar todos los parmetros del modelo.
13
ndice
Las hiptesis impuestas al comportamiento del error del modelo tienen las siguientes consecuencias:
1
Para cada conjunto de valores, x1i , . . . , xki de X1 , . . . , Xk , la variable aleatoria (Y |X1 = x1i , . . . , Xk = xki ) tiene una distribucin:
(Y |X1 = x1i , . . . , Xk = xki ) N (0 + 1 x1i + + k xki , 2 )
14
ndice
Consecuentemente,
yi
= 0 + 1 x1i + + k xki
representa la esperanza de la variable Y condicionada por los valores x1i , . . . xki de las variables X1 , . . . , Xk , respectivamente. Adems, todas las variables Yi tienen la misma varianza, 2 . Es decir, son homocedsticas.
15
ndice
Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados I
= 0 + 1 x1 + + k xk ,
X Individuo 1 x Individuo 2 x
Individuo n
11
12
. . .
Xk xk xk
Y y y
. . .
xkn yn
16
ndice
Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados II
Como
ei
= yi (0 + 1 x1i + + k xki ),
ei
= S (0 , . . . , k ).
17
ndice
Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados III
S =0 k
. . .
18
ndice
Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados IV
Llamando
0 1 = . , . . k
19
ndice
Estimacin de los parmetros del modelo de regresin mltiple por mnimos cuadrados V
Resulta que:
= (X
X ) X Y ,
1
20
ndice
El parmetro i , en regresin mltiple, representa el efecto del aumento de una unidad del regresor Xi sobre la respuesta, Y , cuando el resto de los regresores permanecen constantes.
Si los regresores estn incorrelados, ij = 0, para todo i , j , los estimadores de los coecientes de regresin estimados en el modelo mltiple y en los distintos modelos simples coinciden.
21
ndice
i sigue una distribucin normal, para todo i = 0, . . . , k . Para todo i , con i = 0, 1, . . . , k , se cumple que E (i ) = i . i es un estimador centrado de i , para todo i . Es decir La matriz de varianzas y covarianzas de 0 , . . . , k viene dada por la expresin: COV () = (X X )
2 1
22
ndice
Anlogamente al caso de regresin simple, la realizacin de inferencia sobre los parmetros del modelo requiere una estimacin de 2 . Como en el caso simple, el estimador mximo verosmil de la varianza es:
2 =
ei n
23
ndice
que se emplea para calcular los estimadores de los parmetros i , pone de maniesto las siguientes relaciones entre los residuos:
ei ei x i
=0 1 = 0 . (k + 1) restricciones. . . ei xki = 0
24
ndice
ei , nk 1
2
25
ndice
E (R ) = s
2
Adems:
(n k 1)R s2 2k 1 n 2
Esta distribucin permite realizar inferencia respecto de 2 .
26
ndice
00
11
D (X X )
..
dii
..
dkk
ndice
Por lo tanto,
i N ( i ,
dii ),
de donde,
i i N (0, 1), dii i i tnk 1 . R dii s
28
ndice
La ltima expresin permite realizar, para todo i = 0, . . . k , el contraste individual de regresin (test de la t ):
: i = 0 frente a
: i = 0,
ya que si i = 0,
R s i
dii
tnk 1 .
29
ndice
en regresin
Anlogamente al caso simple, la aceptacin de la hiptesis nula, i = 0, puede ser debida a que:
1 2
En el primer caso, la variable Xi debe ser eliminada del modelo. En el segundo, se debe intentar una transformacin que linealice la relacin entre Xi e Y .
30
ndice
El test de la
en regresin mltiple I
d d d
00
11
(X
X )
..
dii
..
dkk
31
ndice
El test de la
en regresin mltiple II
11
X )
0
2 =
..
dii
..
dkk
32
ndice
El test de la
Llamando b al vector:
b= . . .
Se puede demostrar que:
b (X X ) b k R s
0 2
F(k ,nk 1) .
33
ndice
El test de la
en regresin mltiple IV
H
frente a:
: 1 = 2 = = k = 0
i = 0.
34
ndice
: 1 = 2 = = k = 0,
35
ndice
II
El rechazo de la hiptesis nula del test de la F signica que la variable explicada depende linealmente de alguno de los regresores.
Para saber cul o cules de los regresores explican signicativamente a la variable dependiente es necesario atender a los contrastes individuales de la t .
36
ndice
y de
La siguiente tabla contiene el conjunto de los casos posibles al realizar el test de la F y los contrastes de la t en regresin mltiple: Caso 1 2 3 4 5 6 Test de la F Signicativo Signicativo Signicativo No signicativo No signicativo No signicativo Contrastes individuales Todos signicativos Alguno signicativo Ninguno signicativo Todos signicativos Alguno signicativo Ninguno signicativo
37
ndice
y de
II
Caso
1: Cuando el contraste de la F es signicativo y todos los contrastes de la t tambin lo son, se interpreta que todos los regresores inuyen signicativamente en la variable explicada. 2: Si el contraste de la F es signicativo y slo algunos de los regresores lo son, se interpreta que los regresores no signicativos deben ser eliminados del modelo, o bien transformados si se intuye relacin de dependencia no lineal entre la variable dependiente y alguno de ellos.
Caso
38
ndice
y de
III
3: Cuando el test de la F es signicativo y ninguno de los contrastes individuales lo es, se da una situacin paradjica que, frecuentemente, se origina por un problema denominado multicolinealidad. Su anlisis y tratamiento se explica ms adelante.
y
Casos
5: Si el test de la F es no signicativo y todos o algunos de los contrastes individuales s lo son, se origina igualmente una situacin paradjica que responden a casos particulares de multicolinealidad.
Caso
39
6: Si el test de la F no es signicativo y ninguno de los contrastes individuales lo es, no se detecta relacin de dependencia lineal entre la variable explicada y los regresores.
ndice
Los casos 3, 4, y 5 citados anteriormente se deben habitualmente al problema de multicolinealidad. La multicolinealidad es consecuencia de que todos o una parte de los regresores X1 , . . . , Xk estn fuertemente correlados. La deteccin de la multicolinealidad se realiza a travs de:
La matriz de correlacin de las variables explicativas. La diagonal de la inversa de esta matriz. Los autovalores de la matriz X X .
40
ndice
El tratamiento de la multicolinealidad consiste bsicamente en: Eliminar regresores del modelo que tengan alta correlacin con el resto, lo que disminuye el nmero de parmetros que hay que estimar. (Esta es la solucin ms sencilla, cuando se puede utilizar.) Incluir informacin externa a los datos.
41
ndice
El coeficiente de determinacin I
+ 1 x1 + + k xk ,
X Individuo 1 x Individuo 2 x
Individuo n
11
12
. . .
Xk xk xk
Y y y
Y y y
. . .
xkn yn yn
ndice
El coeficiente de determinacin II
Se dene el coeciente de determinacin como el coeciente de correlacin lineal entre las variables Y e Y . El coeciente de determinacin es una medida de bondad del ajuste del modelo y se representa por R 2 . La ecacia de R 2 como medida de la bondad de ajuste depende de la relacin entre el nmero de regresores, k y el tamao muestral, n, siendo ms able cuanto menor sea el cociente k /n.
ndice
El coeciente de determinacin tiene las siguientes propiedades: 0 R 2 1. Cuando R 2 = 1, la relacin entre la variable explicada y los regresores es exacta.
100 representa el porcentaje de variabilidad de Y explicada por el modelo. Un valor de R 2 100 bajo puede ser debido a la omisin de variables explicativas relevantes en el modelo.
2 2
en el modelo. Para evitar este inconveniente se calcula el coeciente de determinacin corregido por grados de libertad. (Ver Pea 2002) En regresin simple, el coeciente de determinacin es el cuadrado del coeciente de correlacin lineal.
44
ndice
Al igual que en el caso de la regresin simple, antes de emplear un modelo de regresin es necesario vericar las hiptesis bsicas del modelo. Esta vericacin (diagnosis) se realiza a travs del anlisis de los residuos.
45
ndice
En particular: La normalidad del error se analiza con la representacin de los residuos en papel probabilstico normal, o con algn test de normalidad. Las hiptesis de linealidad, homocedasticidad e independencia se verican a travs del grco de residuos frente a los valores previstos y frente a los valores de los regresores. La conveniencia de introducir una nueva variable en el modelo se puede analizar por medio del grco de los residuos frente a esta nueva variable. La interpretacin de los grcos es similar a la que se da a los mismos en regresin simple.
46
ndice
Una vez estimado y validado el modelo de regresin, se puede emplear ste para hacer predicciones.
1
E (Y |X
Tambin se puede emplear y (x1i , . . . , xki ) para predecir el valor de un individuo de la variable (Y |X1 = x1i , . . . , Xk = xki ).
47
ndice
Obsrvese que los dos valores se estiman por el mismo nmero. Igual que en regresin simple, la estimacin de la media se realiza con mayor precisin que el valor de un individuo concreto. Pueden consultarse los detalles del clculo de intervalos de conanza, para ambos casos, en Pea (2002).
48
ndice
Conceptualmente las ideas de punto atpico e inuyente coinciden con las explicadas en regresin simple. La detecccin de puntos atpicos en regresin mltiple es ms compleja que en regresin simple, debido a la dimensionalidad de los datos. Se emplearn los grcos de residuos frente a las variables explicativas y a los valores previstos por el modelo para detectar puntos atpicos, aunque estos grcos no siempre permiten encontrar estos puntos.
49
ndice
Informacin sobre la construccin de estadsticos que permitan detectar atpicos puede encontrarse en Pea (2002). El tratamiento de los atpicos, una vez identicados, ser similar al expuesto en regresin simple.
50
ndice
Se exponen a continuacin algunos ejemplos de relaciones no lineales, que se pueden linealizar mediante transformaciones adecuadas. Modelo polinmico de segundo grado con una variable independiente:
y y
= 0 + 1 x + 2 x 2 + u
51
ndice
2 2 = 0 + 1 x1 + 2 x2 + 11 x1 + 22 x2 + 12 x1 x2 + u
= 0 + 1 x1 + 2 x2 + 11 x3 + 22 x4 + 12 x5 + u
52
ndice
= 0 + 1 x11 + 2 ln x2 + 3
+u
= x11 ,
= ln x2 ,
= 0 + 1 z1 + 2 z2 + 3 z3 + u
53
ndice
Modelo multiplicativo:
y
donde
= x1 x2x3 ,
Y
54
= 0 + z1 + z2 + z3 + u
ndice
Por otro lado, cabe sealar que existen modelos de relacin que no se pueden linealizar mediante funciones elementales, como por ejemplo:
y y
= 0 + 1 e 2 X + u
= 0 + 1 X + 2 (3 )X + u
55