Regresion100 Simple

Regresin Lineal Simple
yi = b0 + b1xi + ui
Contenido
Estimacin mediante el mtodo de

momentos
Estimacin por mnimos cuadrados
ordinarios
Bondad de ajuste: R2
Propiedades de los estimadores MCO
Supuestos Gauss-Markov
Insesgamiento
Eficiencia
2
y = b0 + b1x + u
donde y es:
Variable dependiente
Variable explicada
Variable de lado
izquierdo (duh!)
Regresando
u es:
Residual
Trmino de error
mientras que x es:
Variable independiente
Variable explicativa
Covariable
Variable de control
Regresor
Variable de lado derecho
b0 y b1: parmetros o
coeficientes a estimar
Algunos supuestos
El valor promedio de u, el trmino de error,

en la poblacin es = 0. Es decir,
E(u) = 0
Este supuesto no es muy restrictivo puesto
que siempre podemos ajustar el intercepto b0
para normalizar E(u) = 0
Media condicional = 0
Hay un supuesto crucial sobre la relacin

entre el error y la variable explicativa:
cov(x, u)
Queremos que la informacin contenida en x
sea independiente de la informacin
contenida en u (ie, que no estn
relacionados), de modo que:
E(u|x) = E(u) = 0, lo cual implica:
E(y|x) = b0 + b1x
5
E(y|x) es una funcion lineal de x: para cada x,

la prediccin de y es E(y|x)
y
f(y)
.
x1
. E(y|x) = b + b x
0
x2
6
Mnimos Cuadrados Ordinarios (MCO)
La idea bsica es estimar parmetros

poblacionales a partir de una muestra.
Sea {(xi,yi): i=1, ,n} una muestra aleatoria
de tamao n de una poblacin.
Para cada observacin en la muestra,
tenemos:
yi = b0 + b1xi + ui
Lnea de regresin, observaciones y errores

E(y|x) = b0 + b1x
.{
u4
y
y4
y3
y2
y1
u2 {.
.} u3
} u1
x1
x2
x3
x4
x
8
Derivacin de estimadores MCO /OLS
El supuesto E(u|x) = E(u) = 0 implica que

Cov(x,u) = E(xu) = 0
Por qu? En probabilidad bsica sabemos

que:
Cov(x,u) = E(xu) E(x)E(u)
y dado que E(u)=0 Cov(x,u) = E(xu) = 0
continuacin MCO/OLS
El doble supuesto E(xu) = E(u) = 0 se

traduce en dos restricciones.
Y dado que: u = y b0 b1x,
podemos reescribir estas dos restricciones
en trminos de x, b0 y b1 :
E(u) = E(y b0 b1x) = 0
E(xu) = E[x(y b0 b1x)] = 0
Conocidas como las restricciones de
momentos
10
Derivacin de MCO usando el

Mtodo de Momentos (MOM)
(Breviario: el 1, 2, 3 y 4 momentos de una funcin de distribucin

de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)
El mtodo de momentos consiste en imponer las

restricciones de momentos, asumidas como ciertas
para la poblacin, en los momentos de la muestra.
Pero cmo? Recuerden que un estimador
muestral de E(X), la media de una poblacin, es
simplemente la media aritmtica de la muestra.
11
Derivacin de MCO / OLS
La idea es buscar parmetros que nos aseguren

que las restricciones de momentos se cumplan en la
muestra.
Las restricciones muestrales son (el gorrito denota
parmetros estimados):
i 1
x 0
b
0
1 i
b x 0
x
y
b
i i 0 1i
i 1
(1)
(2 )
12
Estimador MCO / OLS: intercepto
Dada la definicin de media muestral y las

propiedades de la sumatorias, podemos reescribir la
primera restriccin como sigue:
i 1
x 0
b
0
1 i
y b0 b1 x ,
o bien
b y b x
0
13
Derivacin de MCO / OLS

Y ahora, sustituyendo b0 en la segunda restriccin, tenemos:
n
n 1 xi yi b0 b1 xi 0
i 1
x b x 0
x
y
b
i i
1
1 i
i 1
n
i 1
i 1
x
y
b
i i
1 xi xi x
Aqu hay un paso mgico ver apndice A.7 y A.8.
i 1
i 1
xi x yi y b1 xi x
14
estimador MCO / OLS: pendiente b1
x x x x y y
2
i 1
i 1
b1
x x y
i
i 1
x x
i 1
cov( x, y )
var( x)
toda vez que x tenga varianza :
x x
i 1
0
15
Sobre el estimador MCO de b1
b1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.

Si x y y estn correlacionados positivamente, b1
ser positivo (pues la varianza del denominador
siempre es positiva).
Si x y y estn correlacionados negativamente, b1
ser negativo.
Si x y y no tienen correlacin alguna, b1 no ser
estadsticamente distinto de cero (volveremos a
esto ms tarde).
Obviamente, requerimos que x tenga cierta varianza
en la muestra.
16
MCO / OLS
Intuitivamente, MCO ajusta una lnea a

travs de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mnima posible: de ah el trmino mnimos
cuadrados.
El residual, , es un estimado del trmino de
error entre lo observado y lo predicho, es
decir, la diferencia entre la lnea de regresin
(fitted line) y el dato observado.
Ver grfica...
17
Lnea de regresin muestral, observaciones, y

residuales estimados
y
y4
4 {
y b0 b1 x
y3
y2
y1
.
{
.} 3
1
}
.
x1
x2
x3
x4
x
18
Un enfoque alternativo:
Minimizar residuales al cuadrado
Siguiendo la idea de ajustar una lnea de regresin,

podemos plantear un problema de minimizacin.
Es decir, buscar parmetros b tales que minimicen
la siguiente expresin:
ui yi b 0 b1 xi
i 1
i 1
19
...continuacin
Usando clculo para resolver un problema de

minimizacin con dos parmetros resulta en dos
condiciones de primer orden (FOC)similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:
i 1
n
x 0
b
0
1 i
b x 0
x
y
b
i i 0 1i
i 1
20
Propiedades algebraicas de MCO / OLS
Al minimizar los residuales cuadrados:

La suma de los residuales de MCO ser igual a
cero.
Por ende, la media muestral de los residuales ser
cero tambin.
La covarianza muestral entre las variables
explicativas y los residuales ser cero.
La lnea de regresin de MCO siempre cruzar la
media de la muestra, ie, la media de x y la media
de y.
21
Propiedades algebraicas
(matemticamente)
n
i 1
ui 0 por tanto,
n
x u
i 1
i i
i 1
0 por tanto, cov(x,u) 0
y b0 b1 x
Es decir, la solucin de MCO es idntica a la del mtodo de momentos.
22
Suma de cuadrados: Terminologa

Podemos separar cada observacin en un componente
explicado (sistemtico) y un componente no explicado :
yi y i ui De modo que podemos definir lo siguiente :
y y es la Suma Total de cuadrados : SST

y y es la Suma Explicada de cuadrados : SSE
u es la Suma Residual de cuadrados : SSR
2
2
i
Lo cual implica que SST SSE SSR
SST es la suma de desviaciones al cuadrado de las observaciones

de la muestra: es proporcional, ms no igual, a VAR(y).
23
Demostracin: SST = SSE + SSR

SST yi y yi y i y i y
2
ui y i y
u 2 ui y i y y i y
2
i
SSR 2 ui y i y SSE
y como sabemos que ui y i y 0
SSR SSE
24
Bondad de ajuste:
2
R
Cmo saber qu tan bueno es el ajuste

entre la lnea de regresin y los datos de la
muestra?
Podemos calcular la proporcin de la Suma
de cuadrados totales (SST) que es
explicada por el modelo.
Esto es la llamada R-cuadrada de una
regresin:
R2 = SSE/SST = 1 SSR/SST
25
Haciendo regresiones con stata
Hemos visto como derivar las frmulas para

calcular estimadores MCO de nuestros
parmetros de inters b.
Podemos calcularlos a mano (muy tedioso),
o aplicar estas frmulas en una hoja de
clculo como excel (algo tedioso), o bien
usar un paquete estadstico estndar como
stata (muy fcil)
Para correr una regresin de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)
26
Sesgo y eficiencia de MCO
Dos caractersticas deseables de cualquier

estimador estadstico son:
Insesgamiento (unbiasedness): que el parmetro
estimado sea, en promedio, igual al verdadero
parmetro poblacional.
Eficiencia (efficiency): que la varianza del
estimador sea mnima (ie, mxima precisin).
As, buscamos estimadores con sesgo mnimo y
mxima eficiencia (ie, mnima varianza).
MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.
27
Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1.
2.
3.
4.
El modelo poblacional es lineal en sus

parmetros: y = b0 + b1x + u
Muestra aleatoria de tamao n,
{(xi, yi): i=1, 2, , n}, representativa de la
poblacin, de modo que el modelo muestral
es: yi = b0 + b1xi + ui
Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
Varianza(xi ) > 0
28
Insesgamiento de MCO
Para analizar el sesgo del estimador, necesitamos

reescribirlo en trminos del parmetro poblacional.
De modo que reescribimos la frmula para b1 como:
x x y
2
x
, donde
s xi x
2
x
29
Insesgamiento de MCO (cont.)

Sustituyendo para yi, el numerador de la expresin anterior
puede descomponerse como sigue:
x x y x x b b x u
x x b x x b x x x u
b x x b x x x x x u
i
desviaciones de x
n*var(x)
1 i
1 i
n*cov(x,u)
30

Por estadstica bsica, sabemos que :
x x 0, y
x x x x x
i
s x2
de modo que el numerador puede reescribirse as :
b1s x2 xi x ui , y por lo tanto

b1 b1
x x u
s x2
31

Finalmente, si definimos d i xi x , de modo que
1
b i b1 2 d i ui , y aplicamos valor esperado :

sx
E b1 b1
2 d i E ui b1
sx
El operador E(.) aplica a ui, el nico componente aleatorio de la
expresin.
El valor esperado de la b1 estimada es el verdadero parmetro
poblacionaltoda vez que los 4 supuestos Gauss-Markov se
cumplan.
32
Insesgamiento: resumen
Los estimadores MCO de b1 y b0 son

insesgados.
La demostracin de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente ser
insesgado.
El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
ste puede estar cerca o lejos del verdadero
parmetro poblacional.
33
Varianza de los estimadores MCO
Ya vimos que la distribucin muestral de

nuestro estimador est centrada en torno al
verdadero parmetro.
Qu tan dispersa ser la distribucin del
estimador?
Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5):
var(u|x) = s2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
34
Varianza de MCO (cont.)
Por estadstica sabemos que:

s2 = Var(u|x) = E(u2|x)-[E(u|x)]2
Y como E(u|x) = 0, entonces:
s2 = E(u2|x) = E(u2) = Var(u)
De modo que s2 es la varianza no condicional de
los residuales, tambin llamada varianza del error.
s, la raz cuadrada de la varianza del error, se
conoce como la desviacin estndar del error.
Con lo cual podemos decir que:
E(y|x)=b0 + b1x
Var(y|x) = s2
35
Homoscedasticidad
y
f(y|x)
.
x1
. E(y|x) = b + b x
0
x2
36
Heteroscedasticidad
f(y|x)
.
x1
x2
x3
E(y|x) = b0 + b1x
x
37
Varianza de MCO (cont.)
Var b1 Var b1
2 d i ui
s
x
1
1
2 Var d i ui
2
sx
sx
1
2
sx
1
d s s sx2
2
i
2
d
i Varui
2
d
i
1 2 s2
s
s
Var
b
2
2
x
1
s
s
x
x
38
Varianza de MCO: resumen
A mayor varianza del error, s2, mayor

varianza del estimador de b1.
A mayor varianza en xi, menor varianza
del estimador de b1.
Por ende, a mayor tamao de muestra, n,
menor varianza del estimador de b1.
Pero ojo, la varianza del error es
desconocida: necesitamos estimarla
tambin.
39
Estimacin de la varianza del error
No conocemos la varianza del error, s2, porque no

observamos los errores de la poblacin, ui
Lo que observamos son los residuales (estimados)
del modelo muestral:
ui yi b0 b1 xi
Pero podemos usar los residuales estimados para

construir un estimador de la varianza del error.
40

ui yi b0 b1 xi , y sustituyendo para yi
b b x u b b x
0
1 i
1 i
ui b0 b 0 b1 b1 xi
por insesgamiento, ambos parntesis se eliminan...
de modo que un estimador insesgado de s 2 es :
1
SSR
2
s
ui
n 2
n 2
2
41

2
s s error estndar de la regresin

recordemosque : std.dev b s
sx
si sustituimos s en vez de s , entonces tenemos
el error estndar de b :
se b1
x x
2
Y, una vez que conocemos el error estndar de b1 estimada, podemos

calcular su intervalo de confianza y hacer pruebas de hiptesis.
42
Apndice A.
Propiedades del operador Suma
43
Apndice A.
Propiedades del operador Suma
44

Regresion100 Simple

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion100 Simple

Uploaded by

Copyright:

Available Formats

Regresin Lineal Simple

Estimacin mediante el mtodo de

mientras que x es:

El valor promedio de u, el trmino de error,

Hay un supuesto crucial sobre la relacin

E(y|x) es una funcion lineal de x: para cada x,

Mnimos Cuadrados Ordinarios (MCO)

La idea bsica es estimar parmetros

Lnea de regresin, observaciones y errores

Derivacin de estimadores MCO /OLS

El supuesto E(u|x) = E(u) = 0 implica que

Por qu? En probabilidad bsica sabemos

El doble supuesto E(xu) = E(u) = 0 se

Derivacin de MCO usando el

(Breviario: el 1, 2, 3 y 4 momentos de una funcin de distribucin

El mtodo de momentos consiste en imponer las

Derivacin de MCO / OLS

La idea es buscar parmetros que nos aseguren

Estimador MCO / OLS: intercepto

Dada la definicin de media muestral y las

Derivacin de MCO / OLS

estimador MCO / OLS: pendiente b1

toda vez que x tenga varianza :

Sobre el estimador MCO de b1

b1, es la covarianza muestral entre x y y, dividida

entre la varianza muestral de x.

Intuitivamente, MCO ajusta una lnea a

Lnea de regresin muestral, observaciones, y

Siguiendo la idea de ajustar una lnea de regresin,

Usando clculo para resolver un problema de

Propiedades algebraicas de MCO / OLS

Al minimizar los residuales cuadrados:

0 por tanto, cov(x,u) 0

Suma de cuadrados: Terminologa

y y es la Suma Total de cuadrados : SST

Lo cual implica que SST SSE SSR

SST es la suma de desviaciones al cuadrado de las observaciones

Demostracin: SST = SSE + SSR

y como sabemos que ui y i y 0

Cmo saber qu tan bueno es el ajuste

Haciendo regresiones con stata

Hemos visto como derivar las frmulas para

Sesgo y eficiencia de MCO

Dos caractersticas deseables de cualquier

El modelo poblacional es lineal en sus

Para analizar el sesgo del estimador, necesitamos

Insesgamiento de MCO (cont.)

Insesgamiento de MCO (cont.)

de modo que el numerador puede reescribirse as :

b1s x2 xi x ui , y por lo tanto

Insesgamiento de MCO (cont.)

b i b1 2 d i ui , y aplicamos valor esperado :

Los estimadores MCO de b1 y b0 son

Varianza de los estimadores MCO

Ya vimos que la distribucin muestral de

Varianza de MCO (cont.)

Por estadstica sabemos que:

Varianza de MCO (cont.)

Varianza de MCO: resumen

A mayor varianza del error, s2, mayor

Estimacin de la varianza del error

No conocemos la varianza del error, s2, porque no

Pero podemos usar los residuales estimados para

Estimacin de la varianza del error