Professional Documents
Culture Documents
1 Este captulo forma parte del apunte para el curso MA44D dictado por la profesora Nancy Lacourly con profesores auxiliares
57
58
3.1. Introduccin.
Un problema muy frecuente en estadstica consiste en buscar y estimar interdependencias entre varia-
bles. En efecto, cuando un par de variables aleatorias (X,Y ) no son independientes, el conocimiento del
valor por X cambia nuestro incertidumbre con respecto a la realizacin de Y , esto se tiene debido a que la
distribucin de Y dado X = x tiene una varianza que en promedio es menor que la varianza marginal de Y ,
en efecto:
donde:
3.4 es por que la esperanza de una suma es la suma de las esperanzas y se agrupan trminos.
De esta igualdad tenemos que EX {V(Y |X))} V(Y ), que es un resultado promedio, lo cual no impide
que para algunos valores de X, V(Y |X) sea mayor que V(Y ).
Cuando se puede aceptar que el fenmeno aleatorio representado por una variable o un vector X puede
servir para predecir aquel representado por Y , se busca una frmula de prediccin. Algunas relaciones son
fciles de plantear y verificar, como las relaciones planteadas a partir de leyes fsicas o mecnicas, pero
cuando la aleatoriedad juega un papel importante, el estudio se hace ms difcil.
Se busca descubrir como un conjunto de variables X1 , X2 , . . . Xp influye sobre una o varias otras varia-
bles Y . Para este propsito, se busca una funcin f que permita reconstruir los valores obtenidos sobre una
muestra de la variables respuesta Y :
Y = f (X1 , X2 , . . . Xp }.
59
Las variables {X1 , X2 , . . . Xp } se llaman variables explicativas 2 y la variables Y se llama variable
respuesta 3 .
Ejemplo 3.1 La distancia que una partcula recorre en el tiempo t est dada por la frmula:
d = + t
Ejemplo 3.2 Si consideramos el peso P y la talla T de las mujeres chilenas adultas, est claro que no
existe una relacin funcional entre P y T , pero existe una tendencia. Considerando que P y T son variables
aleatorias de distribucin conjunta normal bivariada:
P = f (T ) +
con f (T ) = E(P|T )
en que refleja la variabilidad del peso P entre las chilenas de la misma talla con respecto a la media. El
tipo de funcional f en este caso no es evidente, pero plantear en principio un modelo lineal puede servir al
menos para descartarlo.
Ejemplo 3.3 Para decidir la construccin de la nueva central elctrica, ENDESA busca prever el consumo
total de electricidad en Chile despus del ao 2002. Se construye un modelo que liga el consumo de
electricidad con variables econmicas, demogrficas y metereolgicas, y este modelo estima en base a
datos obtenidos en el pasado. Se aplica entonces el modelo para predecir el consumo de electricidad segn
ciertas evoluciones econmicas, metereolgicas y demogrficas. En este caso resulta an ms complejo
determinar cual es la relacin funcional que existe entre las variables explicativas y la variable respuesta.
Ejemplo 3.4 Para establecer una determinada publicidad en la televisin, se cuantifica el efecto de va-
riables culturales y socio-econmicas en la audiencia de los diferentes programas. Sobre la base de una
encuesta telespectadores se construye un modelo que determina los efectos de las variables culturales y
socio-econmicas en la audiencia.
Ejemplo 3.5 Ajuste polinomial. El modelo lineal puede ser generalizado tomando funciones de las varia-
bles explicativas y/o de la variable a explicar. Es el caso cuando se tiene una variables respuesta Y a partir
de una sola variable X en un modelo polinomial: Y = a0 + a1 X 1 + a2 X 2 + a p X p en donde X j correspon-
de a la potencia j de X. Note que es fcil argumentar que este ejemplo corresponde a un modelo lineal,
definiendo como variable X j = X j .
Ejemplo 3.6 Se quiere estimar la constante g de la gravitacin. Se toman los tiempos de cada t de un
1
objeto desde la altura h dada del suelo: d = gt 2 .
2
2 Tambin conocidas como variables independientes o variables exgenas
3 Conocida tambin como variable a explicar o variables dependiente o variable endgena
4 Conocido como ruido blanco", en el cual se suma a cada valor una cantidad con distribucin normal de media el valor real
60
Observamos en los distintos ejemplos que las variables pueden ser aleatorias o no, las relaciones linea-
les o no y que cuando no son lineales pueden eventualmente existir transformaciones de las variables que
llevan a relaciones lineales.
Se presenta a modo de introduccin un enfoque terico de la regresin funcional, para luego presentar
el caso lineal sobre valores muestrales con ms detalle. Se usarn dos mtodos de estimacin para el caso
lineal:
El mtodo matemtico de ajuste de los mnimos cuadrados, que permite estimar los coeficientes del
modelo lineal a partir de valores observados. En este caso no se toma en cuenta la aleatoriedad de
las variables en la estimacin del modelo.
El mtodo de mxima verosimilitud basado en un modelo probabilstico normal, que permite justifi-
car el mtodo de mnimos cuadrados y discutir las propiedades de los estimadores y la precisin del
ajuste.
Finalmente se usar el modelo lineal para predecir. Se enfatizar en los aspectos geomtricos del problema
y como hacer una crtica de los supuestos probabilsticos usuales.
E(Y |X) es la proyeccin ortogonal de Y sobre el subespacio L2 (X) generado por las funciones de X.
La funcin que vamos a minimizar se denomina Error Cuadrtico Medio (ECM), y el problema a
resolver es:
mn E{(Y g(X))2 }
gL2 (X)
E{(Y g(X))2 } = E{(Y f (X))2 } + 2E{(Y f (X))( f (X) g(X)) + E{( f (X) g(X))2 }
pero
E{(Y f (X))( f (X) g(X))} = E{( f (X) g(X))E{(Y f (X))|X}}
y dado que f (X) g(X) es independiente de Y y E{(Y f (X)|X) = 0 por definicin de esperanza condi-
cional, de donde podemos concluir que:
para toda g(X) L2 (X) por lo que f (X) = E(Y |X) resulta ser un mnimo, que es lo que queramos demos-
trar.
61
Un ndice para medir la calidad del modelo est dado por el coeficiente de correlacin entre Y y E(Y |X)
cuyo cuadrado es:
V{E(Y |X)}
Y2 |X Cor2 (Y, E(Y |X)) = (3.6)
V(Y )
V()
= 1 (3.7)
V(Y )
En efecto, veamos que se satisface la relacin 3.6, por definicion de covarianza tenemos:
Ahora bien:
E{(Y E(Y ))(E(Y |X) E(Y ))|X} = (E(Y |X) E(Y ))(E(Y |X) E(Y )) = (E(Y |X) E(Y ))2
y
Cov(Y, E(Y |X)) = EX {(E(Y |X) E(Y ))2 } = V(E(Y |X))
Finalmente
V(E(Y |X))2 V(E(Y |X))
Cor2 (Y, E(Y |X)) = =
V(Y )V(E(Y |X)) V(Y )
En el caso lineal f (X) = E(Y |X) = T X y E() = 0.
Minimizar V() equivale a tomar Cov(, X) = 0. Luego Cov(Y, X) = V(X) en donde = (V(X))1 Cov(Y, X):
62
3.3.1. Solucin de los mnimos cuadrados
Se busca minimizar una funcin de los errores, como por ejemplo:
p n
2i , |i |, max{i }
i
i=1 i=1
el criterio de los mnimos cuadrados toma como funcin ni=1 2i cuya solucin es fcil de obtener y que
tiene una interpretacin geomtrica simple. Primero escribiremos matricialmente el modelo aplicado a la
muestra de observaciones.
y1 1 x1,1 x1,2 . . . x1,p 0 1
y2 1 x2,1 x2,2 . . . x2,p 1 2
Sea Y = . , X = . , = , = .. .
.. .. .. .. ..
.. .. . . . . . .
yn 1 xn,1 xn,2 . . . xn,p p n
Este sistema de ecuaciones lineales tiene una solucin nica cuando las columnas de X son linealmente
independientes, es decir que forman una base del subespacio vectorial W , o equivalentemente que el rango
de X sea igual a p + 1. En este caso la solucin de los mnimos cuadrados es igual a:
= (X t X)1 X t Y.
Se deduce que el operador de proyeccin ortogonal P sobre W , es un operador lineal idempotente de orden
2 y simtrico (por qu?), y se escribe matricialmente como:
P = X(X t X)1 X t
Si el rango de X es inferior a p+1, basta encontrar una base de W entre las columnas de X, y reemplazar
X por X1 la matriz formada por estas columnas linealmente independientes. Se observar que si bien no
es necesariamente nico, Y = X = PY y = Y X = (I P)Y lo son (ver 3.7). Si bien la manera de
entender y plantear este problema resulta ser bastante sencillo, tiene un problema puesto que no es posible
obtener una estimacin de la varianza de los errores 2 .
E(Y ) = 0 + 1 X1 + + p Xp = X
63
con Y = E(Y ) + = X + y se supone que Nn (0, 2 In ). La funcin de verosimilitud, recordando que
es la densidad conjunta de los errores, queda con la forma:
n2
1 1 t
f (1 , 2 , . . . , n ) = exp 2
22 2
n2
2 1 1 t
f (1 , 2 , . . . , n ; , ) = exp 2 (Y X) (Y X)
22 2
que corresponden a las Ecuaciones Normales. Como uno de los prametros de la funcin de verosi-
militud es la varianza 2 , planteamos de igual forma la ecuacin para encontrar su estimador 2 :
ln f t (Y X )
(Y X )
2
= 0 2 =
n
n
1
2 = 2i
n i=1
(X t X) = X t Y
1 n 2
2 = i
n i=1
Esta ltima expresin es denominada varianza residual y corresponde a la varianza emprica de los i .
Proposicin 3.3 (Propiedades) Supongamos que X es de rango completo, luego se tienen las siguientes
propiedades:
64
4. Nn (0, 2 In ) Nn (o, 2 (In P)), con ortogonal a W o independiente de X.
5. Np+1 (, 2 (X t X)1 ).
1 n 2
6. i es un estimador sesgado para 2 .
n i=1
n
7. es independiente de 2i .
i=1
n
1
8. es un estimador consistente para y 2 = 2i es consistente para 2 .
n p 1 i=1
Dem: Se presenta solo la demostracin de la propiedad 6, las dems quedan como ejercicio para el lector.
El estimador es sesgado puesto que:
!
n
E 2i X = (n p 1)2 (3.8)
i=1
luego
n
1
2 = 2
n p 1 i=1 i
resulta ser un estimador insesgado para 2 . Ahora bien la expresin 3.8 proviene del hecho que
Uno de los resultados importantes en esta seccin es la optimalidad que tiene el estimador bajo
ciertas condiciones, que se traduce en el Teorema de Gauss-Markov. Primero introducimos una nocin
para comparar matrices:
Dem: Si entre los estimadores insesgados de y lineales en Y , tiene la varianza ms pequea, hay que
mostrar que:
= GY : E( ) = V() V( ).
65
= E(DY ) = 0 y como Y = X + entonces
Como los dos estimadores son insesgados, E( )
DX = 0. Calculemos la varianza de :
+ V(DY ) + 2Cov(,
V( ) = V() DY )
en donde
DY ) = E((DY
Cov(, t Dt )
)t ) = E(Y
= E((X t X)1 X t YY t Dt )
= (X t X)1 X t E(YY t )Dt
= (X t X)1 [V(Y ) + E(Y )E(Y )t ]Dt revisar
= 0
+ 2 DDt en donde DDt es semi-definida positiva.
Finalmente V( ) = V()
Si adems los errores siguen una distribucin normal, el estimador es de mnima varianza entre todos
los estimadores insesgados de . En efecto la cantidad de informacin de Fisher de la muestra multivariada
para el parmetro es:
1
In () = 2 X t X
y el estimador tiene una matriz de varianza igual a 2 (X t X)1 . Luego se obtiene la igualdad en la de-
sigualdad de Cramer-Rao, lo que concluye la ltima aseveracin.
Se obtiene faclmente una generalizacin de este teorema cuando V() = , donde se supone que es
invertible. El estimador de mnima varianza es entonces:
= (X t 1 X)1 X t 1Y
que se interpreta como la proyeccin ortogonal en el sentido de la mtrica 1 (Vea esto como un ejercicio
propuesto).
66
que representa el cuadrado del coseno del ngulo del vector Y con el vector Y en Rn (Figura 3.1).
Existen tres varianzas que son candidatas para comparar y que colocamos a continuacin:
1 n 2
Varianza residual: i .
n i=1
1 n
Varianza explicada por el modelo: (yi y)2 .
n i=1
1 n
Varianza total: (yi y)2 .
n i=1
67
en donde 1n es el valor de la bisectriz de Rn de componentes todas iguales a 1.
Ahora bien tal como se estudio en el captulo pasado, la idea es poder comprobar las hiptesis que
hemos supuesto sobre modelo completo. De esta manera se plantea la hiptesis global:
H0 : 1 = 2 = = p = 0 H0 : E(Y ) = 0 1n
esta hiptesis se interpreta como que los valores de las p variables explicativas no influyen en los valores
de Y . Nuestro objetivo ahora es descubrir cuales son los estadsticos que utilizaremos para decidir el test.
Recordando que Nn (0, 2 (In P)) e Y Nn (X, 2 P), y suponiendo que r es el rango de la matriz X,
se tiene:
n
2i (n r)2
i=1
= nr .
2 2
Notemos que bajo la hiptesis H0 se tiene que Y |H0 Nn (1 1n , 2 P) que es equivalente a que 0 = y,
de donde se puede deducir que:
n 2 n 2
yi 0 yi y
= 2r1
i=1 i=1
2
1 n 2 n yi y
Adems yi y son independientes. Se tiene entonces que bajo la hiptesis nula H0 :
2 i=1 i=1
n
(yi y)2 /(r 1)
i=1
F n Fr1,nr
2i /(n r)
i=1
(n r)R2
F= .
(r 1)(1 R2 )
De los desarrollos hechos la regin crtica para la hiptesis nula H0 : E(Y |X) = 0 1n contra la hiptesis
alternativa H1 : E(Y |X) = X con un nivel de significacin queda definida por
En la prctica, se define la Probabilidad crtica o p-valor que corresponde al valor pc que satisface
P(Fr1,nr > F) = pc . Si el valor de la probabilidad crtica pc es bajo con respecto a algn valor de
referencia dado, entonces se rechaza H0 , es decir se declara el modelo como significativo y alguna de
las variables X j si incide en el valor de Y . Caso contrario por supuesto no se rechaza H0 pues puede que
ninguna de las variables incida en el valor de Y .
68
3.5.2. Medicin del efecto de cada variable en el modelo
En la seccin anterior revisamos cual era el efecto global de las variables del modelo, lo cual nos im-
pide distinguir del aporte significativo que tenga cada una de ellas, para esto se realizan test de hiptesis
asociados con cada una de ellas.
Para realizar estos test suponemos que las variables explicativas son independientes, adems recorde-
mos que el efecto asociado a la variable X j se mide con el trminoX j j . Gracias a estos test se observar
que el modelo lineal es invariante por el cambio de escalas de mediciones.
H0 : j = 0
H1 : j 6= 0
Recordando que:
j N( j , 2j ) con
2 = Var( j ) = 2 (X t X)1
j j, j
sujeto a considerar un modelo con matriz X de rango completo. Luego se tiene que:
j j
N(0, 1)
j
j
tnr .
j
donde tnr es la denominacin usual de una distribucin t- student a n r grados de libertad. Note que
gracias a esto es posible deducir intervalos de confianza para cada uno de los j .
es grande, no se rechaza H0 y si es pequea se rechaza H0 , lo que en este caso muestra un efecto significa-
tivo de la variables X j sobre Y .
Estos test individuales sobre los efectos tienen validez cuando las variables explicativas son relativa-
mente independientes. Cuando no es el caso, es decir cuando una variable X j puede tener un efecto sobre Y
distinto cuando se combina con otras variables, hay entonces que eliminar los efectos de las otras variables.
Para eso se puede usar el coeficiente de correlacin parcial que estudiaremos en la prxima seccin.
69
3.5.3. Coeficiente de correlacin parcial
El efecto de una variable X1 sobre la variable Y puede estar afectado por una tercera variable X2 cuando
X2 tiene efecto sobre X1 tambin. El estudio se basa entonces en las dos relaciones del tipo lineal:
X1 = X2 +
Y = X2 +
Donde y son los errores del modelo. La influencia de la variable X2 sobre las variables X1 e Y se
mide solamente a partir de los restos:
X1 X2 =
Y X2 =
Con esto, si X1 y X2 son muy correlacionados entonces la correlacin parcial entre X1 e Y es muy pe-
quea. En efecto X1 aporta casi ninguna informacin nueva sobre Y (o vice-versa) cuando X2 es conocida.
Se puede usar un grfico de los errores para medir los efectos y el tipo de efecto (lineal o no): en el
grfico (3.2) se presentan los errores de la regresin de X1 tomando como variable explicativa X2 , versus,
la regresin de Y tomando X2 . En (a) podemos decir que la variable X2 no tiene efecto sobre la variable Y
en presencia de la variable X1 ; pero en (b) la variable X2 aporta a la explicacin de la variable Y an si la
variable X1 es presente en el modelo.
entonces se define el coeficiente de correlacin parcial entre X1 e Y , dadas las variables X j , por:
70
Si las variables X j no tienen efecto sobre X1 e Y , es decir que las correlaciones Corr(X, X j ) y Corr(Y, X j )
son todas nulas, entonces (X,Y |X2 , X3 , . . . , Xq ) = Corr(X,Y ).
Se tiene una intertretacin geomtrica del coeficiente de correlacion parcial; pensemos en slo tres va-
riables, sean rX1 y rY los residuos de las regresiones de X1 e Y sobre X2 , ie r es el vector de las diferencias
entre los valores a estimar y su estimadores. Un clculo simple mostrar que rX1 y rY viven en el plano
perpendicular a X2 , entonces el coeficiente de correlacin es el coseno del ngulo entre ellos en ese plano.
Luego
V(X|Z) = XX XZ 1
ZZ ZX
En general y V no son conocidos, por lo cual se estiman con la matriz de varianza covarianza muestral
S, dando (considerando la misma descompocisin que en ):
1
V(X|Z) = SXZ = SXX SXZ SZZ SZX
Corr(X1 ,Y ) Corr(X1 , X2 )Corr(Y, X2 )
(X1 ,Y |X2 ) = p p
1 Corr(X1 , X2 )2 1 Corr(Y, X2 )2
Bajo los supuestos de normalidad esta distribucin es exacta, si no, es slo es una aproximacin para
grandes muestras. Con este estadstico rechazamos H0 si |t| > C con C tal que P(tn2k > C) = /2, donde
es el nivel de significancia.
H0 : j1 = j2 = = jk = 0
H1 : E(Y ) = 0 + 1 X1 + + p Xp
Si X jk+1 , X jk+2 , . . . , X j p son las restantes variables explicativas, bajo H0 , el modelo se escribe: Y =
0 + jk+1 X jk+1 + + j p X j p + o . Notar que la varianza residual bajo H1 , i 2i , menor que la varianza
residual bajo H0 , i 2oi .
Se puede estudiar el cociente de stas varianzas (i 2oi )/(i 2i ) o su complemento (i y2oi )/(i 2i ) en
donde yoi son las componentes del estimador E(Y |X) bajo H0 .
71
Bajo la hiptesis H0 se tiene que
(yi yoi )2 /k
i
Q= Fk,nr .
2i /(n r)
i
Se puede considerar otra forma de escribir el problema. Sea la hiptesis nula H0 : E(Y ) = X0 W0 ,
con X0 de rango s, contra H1 : E(Y ) = X W . La hiptesis H0 equivale a (X X0 ) = 0 lo que corres-
ponde a k = p s + 1 ecuaciones independientes D = 0, en que D es de x p + 1 con rango k. Para que
el test tenga sentido, D no debe depender de una solucin particular de las ecuaciones normales.
Sean Y e Y0 las proyecciones Y sobre W y W0 , respectivamente, adems sean y 0 las medias bajo
kY Y k2 2
2 = kY Y k , sigue que, bajo H , se tiene np1 R2 F
H1 y H0 . Se define S2 = y R 0 k,nr .
kY Y k2 kY Y k2 k
nr 2
Con lo que la regin crtica es de la forma R > C con C tal que P( nr 2
k R > C) = ( el nivel de
k
significacia).
max L
Se puede plantear el test de razn de verosimilitudes tambin: = maxH0L . Demostraremos que la
regin crtica se escribe S > C0 y que ste test coincide con el test F. Cuando la varianza 2 es conocida,
la razn de verosimilitudes es igual a:
max L
H0 1 2
= = exp 2 kY Y0 k .
max L 2
Luego la regin crtica del test se escribe usando el hecho que kY Y0 k2 > 2 2k , al tomar 2 desconocida,
caemos en el caso anterior, ie, usamos un estadstico basado en una F de Fisher.
Q = (Y X)t (Y X) + 2(A c)
Q
= 0 X t X 0 = X t Y + At
0 = (X t X)1 (X t Y + At )
= + (X t X)1 At .
72
Proposicin 3.4 La diferencia de las varianzas residuales con y sin restriccin es:
U
Adems, bajo la hiptesis nula 2
2k .
Dem:
U := (Y X 0 )t (Y X 0 ) (Y X )
t (Y X )
= Y t (P P0 )Y.
sigue el resultado.
Reemplazando P0Y = PY + X(X t X)1 At [A(X t X)1 At ]1 (c A)
Por otro lado como A es de rango igual a k, A Nk (A, 2 A(X t X)1 At ), luego U
2
2k .
U/k
Fk,np .
V /(n p)
La mejor forma de chequear si los errores son aleatorios de medias nulas, independientes y de la misma
varianza, consiste en estudiar los residuos
i = 1, 2, . . . , n : i = yi j xi, j
j
Se puede usar el grfico (Yi , i ), que debera mostrar ninguna tendencia de los puntos, o bien construir
test de hiptesis sobre los errores. En el grfico de la izquierda de la figura 3.3 se puede ver los residuos
aleatorios independientes de Y, lo que no es el caso de los residuos del grfico de la derecha.
Si el supuesto que los errores son N(0, 2 ) no se cumple, tenemos que estudiar el efecto que esto tiene
sobre la estimacin de los parmetros y sobre los tests de hiptesis, adems tenemos que detectar si este
supuesto es cierto o no y corregir eventualmente la estimacin de los parmetros y tests.
Vimos donde interviene el supuesto de normalidad en la estimacin de los parmetros del modelo y en
los tests de hiptesis para verificar la significacin de las variables en el modelo. Este tema se relaciona
con el concepto de la robustez (ver MILLER R.G. (1986), Beyond ANOVA, Basics of Applied Statistics).
La teora de estimacin y de test de hiptesis se basa en supuestos sobre la distribucin de poblacin.
Por lo tanto si estos supuestos son inexactos, la estimacin o la conclusin del test sera distorsionada. Se
buscan entonces mtodos que sean lo menos sensibles a la inexactitud de los supuestos. Se habla entonces
de robustez del mtodo.
Se divide el estudio en dos partes: la normalidad y la igualdad de las varianzas de los errores.
73
Figura 3.3: Grficos de residuos
Tenemos entonces que verificar la hiptesis nula Ho : i N(0, 2 ) o sea si ui = i /, H0 : ui N(0, 1).
Esto sugiere comparar la funcin de distribucin emprica Fn de los residuos normalizados con la funcin
de distribucin de la N(0, 1).
card{u(i) u}
Fn (u) =
n
Se define los cuantiles empricos qi = F 1 (Fn (u(i) ). Notemos que Fn (u(i) ) = Fn ((i) ).
Si Fn se parece a F, los puntos (ui , qi ) deberan ser colineales (sobre la primera bisectriz). Este grfico
se llama probit o recta de Henri ( grfico 3.4).
Si los puntos en ell grfico probit aparecen como no lineal, se rechaza la normalidad de los errores y
se puede corregir utilizando la regresin no paramtrica o bien otras alternativas segn la causa de la no
normalidad: no simetra, observaciones atpicas, etc..
74
Figura 3.4: Recta de Henri
como:
E(2 |X1 , . . . , Xp ) = E(2 ) = 2
En este contexto, tenemos que la esperanza condicional de los errores sobre las variables corresponde
a:
2 = 0 + 1 X1 + . . . + p Xp + ui
Luego se puede pensar en lo anterior como una regresin para 2 usando las variables explicativas.
H0 implica que todos los coeficientes son iguales a 0, y esto equivale a hacer un test usual F sobre la
importancia de la regresin de 2 sobre las variables X (ver 3.5.1). Como no es conocido, se usan los
estimados durante la regresin original, .
Sin embargo, Y = X = (XAX t )Y es nico, dado que XAX t no depende de la inversa generalizada
= (XAX t )X = X. Los vectores Y de las predicciones y de los residuos son
A. Luego E(Y ) = E(X )
invariantes e insesgados y 2 = (Y t (1 XAX t )Y )/(n r), el estimador de 2 , lo es tambin.
75
3.7.1. El modelo reducido.
Sea X de rango r (r < p + 1) y U Mr,p+1r tal que si X = (X1 |X2 ) con X1 de rango completo r,
X2 = X1U. Entonces, si = (1 2 )t :
X = X1 1 + X2 2 = X1 (1 +U2 ) = X1 +
+ = 1 +U 2 = (X1t X1 )1 X1t Y
E( + ) = +
V(+ ) = 2 (X1t X1 )1
Teorema 3.2 Una condicin necesaria y suficiente para que H : E G sea estimable es que existe L
l(Rn , Rk ) (ie L Mk,n ) tal que LX = H.
Dem:
Teorema 3.3 Una condicin necesaria y suficiente para que H sea estimable es que Ker(X)Ker(H).
Dem:
() Si H es estimable, L l(Rn , Rk ) tq LX = H; luego si X = 0 H = 0, ie Ker(X)Ker(H).
76
Dem:
2. En este caso H es la identidad en R p+1 , luego Ker(H) = {0} Ker(X) = {0}, ie X debe tener rango
completo.
Teorema 3.4 Una condicin necesaria y suficiente para que H l(R p+1 , Rk ) sea estimable es que H2 =
H1U, en donde H1 y H2 son las restricciones de H a L1 y L2 .
Dem:
77
Si H es estimable, existe L tal que LX = H y adems LX1 = H1 y LX2 = H2 . Sigue que
Luego H es estimable.
El siguiente teorema nos muestra la optimalidad del estimador para el caso en que se tienen funciones
estimables, tal como se hizo en el modelo de rango completo donde estudiamos el Teorema de Gauss-
Markov
Teorema 3.5 Si H es una funcin vectorial estimable, el nico estimador lineal insesgado de mnima
varianza de H es H en donde es cualquier solucin de las ecuaciones normales.
Dem:
H = H1 1 + H2 2 = H1 +
H = H1 +
= V(H1 + ) = 2 H1 (X t X1 )1 H t
V(H ) 1 1
Veamos que esta condicin nos asegura de obtener la unicidad con cualquier K de rango s (seguimos
usando la misma notacin que el punto anterior).
78
Dem:
La solucin de (1) puede escribirse usando la particin X = (X1 , X2 ), = X1t X1 )1 X1t Y :
( (
+ = 1 +U 2 1 = + U 2
0 = K1 1 + K2 2 (K2 K1U) 2 = K1 +
Este ltimo sistema de ecuaciones tiene una solucin nica si y solo si K2 K1U es invertible.
Obs:
K no puede ser estimable en este caso. Si lo fuera K2 = K1U y 2 no es nico.
Si H es estimable, H no depende del estimador solucin de las ecuaciones normales por lo tanto
de las restricciones elegidas.
Dos maneras de encontrar la solucin de (2):
1. Como Kb = 0, se puede escribir las ecuaciones normales de la forma:
(X t X + MK) K = X t Y
en donde M es una matriz tal que X t X + MK invertible. El problema es el de encontrar esta matriz
M.
3.8. Prediccin.
Si se tiene una nueva observacin para la cual se conocen los valores de las variables explicativas, sean
x0,1 , x0,2 , . . . , x0,p , pero se desconoce el valor Y0 de la variables respuesta, se puede entonces usar el modelo
para inferir un valor para Y0 a travs de su modelo esperado:
0 = E(y0 ) = xt0
79
Un problema distinto es estimar un intervalo para y0 . Hablamos de un intervalo para la prediccin. En este
caso hay que tomar en cuenta la varianza de la variable aleatoria y0 :
y0 = y0 + 0 .
Para cada parmetro j del modelo lineal, se puede construir un intervalos de confianza utilizado:
j j
tnr
j
at at
Para una combinacin lineal del vector : q tnr , el intervalo de confianza queda:
at (X t X)1 a
q q
t /2 t t 1 t /2 t t 1
a tnr a (X X) a, a + tnr a (X X) a
1 0 0 0
Ejemplo 3.7 Sean p = 3, n = 18, (X t X)1 = 1n 0 2 1 , 22 = n y = 2 .
0 1 2 1
Las varianzas de 1 y 2 son: 21 = 0,5 y 22 = 1. Los intervalos de confianza individuales con 1 =
0, 95 para 1 y 2 son: 1 [0, 13; 4, 13] y 2 [1, 13; 3, 13].
Calculamos el intervalo para 1 2 : at = ( 0 1 1 ), as V(at ) = 3 1 2 [2, 691; 4, 691].
Ahora para 1 + 2 : at = ( 0 1 1 ); V(at ) = 1 1 + 2 [0, 891; 5, 131].
En la figura 3.8a se represent los dos intervalos de confianza individuales para 1 y 2 y en la figura
3.8b, las regiones de confianza para 1 2 y 1 + 2 .
80
Figura 3.8: (a) Intervalo para 1 y 2 (b) Intervalo para 1 2 y 1 + 2
3.10. Ejercicios.
1. Cuatro mdicos estudian los factores que explican porque hacen esperar a sus pacientes en la con-
sulta. Toman una muestra de 200 pacientes y consideran el tiempo de espera de cada uno el da de la
consulta, la suma de los atrasos de los mdicos a la consulta este mismo da, el atraso del paciente
a la consulta este da (todos estos tiempos en minutos) y el nmeros de mdicos que estn al mismo
tiempo es la consulta este da. Se encuentra un tiempo promedio de espera de 32 minutos con una
desviacin tpica de 15 minutos. Se estudia el tiempo de espera en funcin de las otras variables
mediante un modelo lineal cuyos resultados estn dados a continuacin:
a) Interprete los resultados del modelo lineal. Comente su validez global y la influencia de cada
variable sobre el tiempo de espera. Especifique los grados de libertad de las t de Student y la F
de Fisher.
b) Muestre que se puede calcular la F de Fisher a partir del coeficiente de determinacin. Si se
introduce una variable explicativa suplementaria en el modelo, el coeficiente de determinacin
sar ms elevado?
c) D un intervalo de confianza a 95
d) Predecir el tiempo de espera, con un intervalo de confianza a 95que llega a la hora un da que el
consultorio funciona con 4 mdicos que tienen respectivamente 10, 30, 0, 60 minutos de atraso.
81
2. Suponga que tenemos un modelo lineal Y = X + con Nn (0, 2 In ), R p+1 , X Mn,p+1 (R).
a) Escribamos X como: X = (X1 , X2 ), con X1 y X2 submatrices de X tales que X1tX2 = 0(la matriz
1
nula). El modelo inicial Y = X + se escribe Y = X1 1 + X2 2 + con = . Si 1 es
2
el estimador de mxima verosimilitud de1 enel modelo Y = X1 1 + y 2 es el estimador
1
de mxima verosimilitud de es igual a .
2
(Indicacin: se1
usar el siguiente
resultado: si A Mn,n (R) es una matriz diagonal por bloque,
A1 0
i.e. A1 = , con las submatrices A1 y A2 invertibles , entonces A es invertible, y
0 A1 2
A1 0
A1 = ).
0 A2
1
b) Si X1t X2 6= 0 y si se toma = como estimador de , que propiedad pierde bajjo el
2
supuesto usual E() = 0.
3. Consideremos tres variables Y , X, Z observadas sobre una muestra de tamao n = 40, Muestra =
{(yi , xi , zi ) tq i = 1, . . . , 40}. Se busca explicar Y linealmente a partir de X y Z.
4. Se requiere ajustar una funcin escaln y = f (t) con f constante en los intervalos en que j = 0, . . . , K
y a0 < a1 < . . . < aK . Para ello se observan datos {(ti , yi ) i = 1, . . . , n}. Se asume que los yi son
mutuamente independientes y que la distribucin de los yi es N( f (ti ), 2 ).
82
Variable Medias Desv. tpica
Y 11,68 3,46
Z 0,00 2,65
Constante Estimacin Dev. tpica estimacin t-Student P(|X| > t)
11,68 0,36 32,54 0,00
1,00 0,14 7,27 0,00
Coef. determinacin=0,58 F de Fisher=52,78 P(X > F) = 0, 000
83
Si V(Y ) = , invertible, entonces el estimador insesgado de mnima varianza entre los estima-
dores lineales insesgados de es aquel que minimiza kY Xk21 .
kY Y k21 2nr
n at
t
a) Se escribe X X = . D las expresiones de a y V . Muestre que V es definida positiva.
a V
!
n
Muestre que a es un vector nulo cuando las variables explicativas estn centradas j : xi, j = 0 .
i=1
Relacione los valores propios de V con los de V 1 .
n n
b) Muestre que V( j ) sujeto a j : xi, j = 0 y j : xi,2 j = c (c es una constante positiva)
j i=1 i=1
alcanza su mnimo cuando X t X es diagonal.
c) En qu difieren de las propiedades optimales obtenidas en el teorema de Gauss-Markov?
n n
d) Se supone que X t X es diagonal con j : xi, j = 0 y j : xi,2 j = c. Deducir las expresiones
i=1 i=1
V(),
de , Y . Exprese el coeficiente de correlacin mltiple R2 en funcin de los coeficientes
de correlacin lineal de Y con las variables explicativas X.
9. Concluye el test de razn de verosimilitudes para la hiptesis nula H0 : A = c para los supuestos
usuales. Muestre que es equivalente al test F de Fisher dado en 2.5.5.
10. Sea el modelo lineal Y = X + con Nn (0, 2 In ), X Mnp de rango incompleto. Sea A una
funcin vectorial estimable de , con A Msp de rango completo s. Muestre que A(X t X) At es
invertible.
84