You are on page 1of 44

Regresin Lineal Simple

yi = b0 + b1xi + ui

Contenido

Estimacin mediante el mtodo de


momentos
Estimacin por mnimos cuadrados
ordinarios
Bondad de ajuste: R2
Propiedades de los estimadores MCO
Supuestos Gauss-Markov
Insesgamiento
Eficiencia
2

y = b0 + b1x + u

donde y es:

Variable dependiente
Variable explicada
Variable de lado
izquierdo (duh!)
Regresando

u es:

Residual
Trmino de error

mientras que x es:

Variable independiente
Variable explicativa
Covariable
Variable de control
Regresor
Variable de lado derecho

b0 y b1: parmetros o
coeficientes a estimar

Algunos supuestos

El valor promedio de u, el trmino de error,


en la poblacin es = 0. Es decir,
E(u) = 0
Este supuesto no es muy restrictivo puesto
que siempre podemos ajustar el intercepto b0
para normalizar E(u) = 0

Media condicional = 0

Hay un supuesto crucial sobre la relacin


entre el error y la variable explicativa:
cov(x, u)
Queremos que la informacin contenida en x
sea independiente de la informacin
contenida en u (ie, que no estn
relacionados), de modo que:
E(u|x) = E(u) = 0, lo cual implica:
E(y|x) = b0 + b1x
5

E(y|x) es una funcion lineal de x: para cada x,


la prediccin de y es E(y|x)
y
f(y)

.
x1

. E(y|x) = b + b x
0

x2
6

Mnimos Cuadrados Ordinarios (MCO)

La idea bsica es estimar parmetros


poblacionales a partir de una muestra.
Sea {(xi,yi): i=1, ,n} una muestra aleatoria
de tamao n de una poblacin.
Para cada observacin en la muestra,
tenemos:
yi = b0 + b1xi + ui

Lnea de regresin, observaciones y errores


E(y|x) = b0 + b1x
.{
u4

y
y4

y3
y2

y1

u2 {.

.} u3

} u1

x1

x2

x3

x4

x
8

Derivacin de estimadores MCO /OLS

El supuesto E(u|x) = E(u) = 0 implica que


Cov(x,u) = E(xu) = 0

Por qu? En probabilidad bsica sabemos


que:
Cov(x,u) = E(xu) E(x)E(u)
y dado que E(u)=0 Cov(x,u) = E(xu) = 0

continuacin MCO/OLS

El doble supuesto E(xu) = E(u) = 0 se


traduce en dos restricciones.
Y dado que: u = y b0 b1x,
podemos reescribir estas dos restricciones
en trminos de x, b0 y b1 :
E(u) = E(y b0 b1x) = 0
E(xu) = E[x(y b0 b1x)] = 0
Conocidas como las restricciones de
momentos
10

Derivacin de MCO usando el


Mtodo de Momentos (MOM)

(Breviario: el 1, 2, 3 y 4 momentos de una funcin de distribucin


de una variable aleatoria son la media, varianza, sesgo y kurtosis,
respectivamente.)

El mtodo de momentos consiste en imponer las


restricciones de momentos, asumidas como ciertas
para la poblacin, en los momentos de la muestra.
Pero cmo? Recuerden que un estimador
muestral de E(X), la media de una poblacin, es
simplemente la media aritmtica de la muestra.

11

Derivacin de MCO / OLS

La idea es buscar parmetros que nos aseguren


que las restricciones de momentos se cumplan en la
muestra.
Las restricciones muestrales son (el gorrito denota
parmetros estimados):

i 1

x 0

b
0
1 i

b x 0
x
y

b
i i 0 1i
i 1

(1)

(2 )

12

Estimador MCO / OLS: intercepto

Dada la definicin de media muestral y las


propiedades de la sumatorias, podemos reescribir la
primera restriccin como sigue:

i 1

x 0

b
0
1 i

y b0 b1 x ,
o bien
b y b x
0

13

Derivacin de MCO / OLS


Y ahora, sustituyendo b0 en la segunda restriccin, tenemos:
n

n 1 xi yi b0 b1 xi 0
i 1

x b x 0
x
y

b
i i
1
1 i
i 1
n

i 1

i 1

x
y

b
i i
1 xi xi x
Aqu hay un paso mgico ver apndice A.7 y A.8.

i 1

i 1

xi x yi y b1 xi x
14

estimador MCO / OLS: pendiente b1

x x x x y y
2

i 1

i 1

b1

x x y
i

i 1

x x
i 1

cov( x, y )

var( x)

toda vez que x tenga varianza :

x x
i 1

0
15

Sobre el estimador MCO de b1

b1, es la covarianza muestral entre x y y, dividida

entre la varianza muestral de x.


Si x y y estn correlacionados positivamente, b1
ser positivo (pues la varianza del denominador
siempre es positiva).
Si x y y estn correlacionados negativamente, b1
ser negativo.
Si x y y no tienen correlacin alguna, b1 no ser
estadsticamente distinto de cero (volveremos a
esto ms tarde).
Obviamente, requerimos que x tenga cierta varianza
en la muestra.
16

MCO / OLS

Intuitivamente, MCO ajusta una lnea a


travs de los datos muestrale, de modo que
la suma de residuales al cuadrado (SSR) sea
la mnima posible: de ah el trmino mnimos
cuadrados.
El residual, , es un estimado del trmino de
error entre lo observado y lo predicho, es
decir, la diferencia entre la lnea de regresin
(fitted line) y el dato observado.
Ver grfica...
17

Lnea de regresin muestral, observaciones, y


residuales estimados
y

y4

4 {

y b0 b1 x
y3
y2

y1

.
{

.} 3

1
}
.
x1

x2

x3

x4

x
18

Un enfoque alternativo:
Minimizar residuales al cuadrado

Siguiendo la idea de ajustar una lnea de regresin,


podemos plantear un problema de minimizacin.
Es decir, buscar parmetros b tales que minimicen
la siguiente expresin:

ui yi b 0 b1 xi
i 1

i 1

19

...continuacin

Usando clculo para resolver un problema de


minimizacin con dos parmetros resulta en dos
condiciones de primer orden (FOC)similares a
las restricciones de momentos vistas antes, pero
ahora multiplicadas por n:

i 1
n

x 0

b
0
1 i

b x 0
x
y

b
i i 0 1i
i 1

20

Propiedades algebraicas de MCO / OLS

Al minimizar los residuales cuadrados:


La suma de los residuales de MCO ser igual a
cero.
Por ende, la media muestral de los residuales ser
cero tambin.
La covarianza muestral entre las variables
explicativas y los residuales ser cero.
La lnea de regresin de MCO siempre cruzar la
media de la muestra, ie, la media de x y la media
de y.
21

Propiedades algebraicas
(matemticamente)
n

i 1

ui 0 por tanto,
n

x u
i 1

i i

i 1

0 por tanto, cov(x,u) 0

y b0 b1 x
Es decir, la solucin de MCO es idntica a la del mtodo de momentos.

22

Suma de cuadrados: Terminologa


Podemos separar cada observacin en un componente
explicado (sistemtico) y un componente no explicado :
yi y i ui De modo que podemos definir lo siguiente :

y y es la Suma Total de cuadrados : SST


y y es la Suma Explicada de cuadrados : SSE
u es la Suma Residual de cuadrados : SSR
2

2
i

Lo cual implica que SST SSE SSR

SST es la suma de desviaciones al cuadrado de las observaciones


de la muestra: es proporcional, ms no igual, a VAR(y).
23

Demostracin: SST = SSE + SSR


SST yi y yi y i y i y
2

ui y i y

u 2 ui y i y y i y
2
i

SSR 2 ui y i y SSE

y como sabemos que ui y i y 0

SSR SSE
24

Bondad de ajuste:

2
R

Cmo saber qu tan bueno es el ajuste


entre la lnea de regresin y los datos de la
muestra?
Podemos calcular la proporcin de la Suma
de cuadrados totales (SST) que es
explicada por el modelo.
Esto es la llamada R-cuadrada de una
regresin:
R2 = SSE/SST = 1 SSR/SST

25

Haciendo regresiones con stata

Hemos visto como derivar las frmulas para


calcular estimadores MCO de nuestros
parmetros de inters b.
Podemos calcularlos a mano (muy tedioso),
o aplicar estas frmulas en una hoja de
clculo como excel (algo tedioso), o bien
usar un paquete estadstico estndar como
stata (muy fcil)
Para correr una regresin de y en x en stata:
regress y x1 x2 x3 (ver ejemplo)
26

Sesgo y eficiencia de MCO

Dos caractersticas deseables de cualquier


estimador estadstico son:
Insesgamiento (unbiasedness): que el parmetro
estimado sea, en promedio, igual al verdadero
parmetro poblacional.
Eficiencia (efficiency): que la varianza del
estimador sea mnima (ie, mxima precisin).
As, buscamos estimadores con sesgo mnimo y
mxima eficiencia (ie, mnima varianza).
MCO cuenta con ambas propiedades bajo ciertas
condiciones: los supuestos Gauss-Markov.
27

Supuestos Gauss-Markov I:
Insesgamiento de MCO/OLS
1.

2.

3.

4.

El modelo poblacional es lineal en sus


parmetros: y = b0 + b1x + u
Muestra aleatoria de tamao n,
{(xi, yi): i=1, 2, , n}, representativa de la
poblacin, de modo que el modelo muestral
es: yi = b0 + b1xi + ui
Media condicional cero: E(u|x) = 0 y por
tanto E(ui|xi) = 0
Varianza(xi ) > 0
28

Insesgamiento de MCO

Para analizar el sesgo del estimador, necesitamos


reescribirlo en trminos del parmetro poblacional.
De modo que reescribimos la frmula para b1 como:

x x y

2
x

, donde

s xi x
2
x

29

Insesgamiento de MCO (cont.)


Sustituyendo para yi, el numerador de la expresin anterior
puede descomponerse como sigue:

x x y x x b b x u
x x b x x b x x x u
b x x b x x x x x u
i

desviaciones de x

n*var(x)

1 i

1 i

n*cov(x,u)

30

Insesgamiento de MCO (cont.)


Por estadstica bsica, sabemos que :

x x 0, y
x x x x x
i

s x2

de modo que el numerador puede reescribirse as :

b1s x2 xi x ui , y por lo tanto


b1 b1

x x u

s x2

31

Insesgamiento de MCO (cont.)


Finalmente, si definimos d i xi x , de modo que
1

b i b1 2 d i ui , y aplicamos valor esperado :


sx

E b1 b1
2 d i E ui b1
sx
El operador E(.) aplica a ui, el nico componente aleatorio de la
expresin.
El valor esperado de la b1 estimada es el verdadero parmetro
poblacionaltoda vez que los 4 supuestos Gauss-Markov se
cumplan.
32

Insesgamiento: resumen

Los estimadores MCO de b1 y b0 son


insesgados.
La demostracin de esto depende de los 4
supuestos Gauss-Markov: si alguno de ellos
no se cumple, MCO no necesariamente ser
insesgado.
El insesgamiento es una propiedad del
estimador muestral: dada cierta muestra,
ste puede estar cerca o lejos del verdadero
parmetro poblacional.
33

Varianza de los estimadores MCO

Ya vimos que la distribucin muestral de


nuestro estimador est centrada en torno al
verdadero parmetro.
Qu tan dispersa ser la distribucin del
estimador?
Para analizar esto, requerimos un supuesto
Gauss-Markov adicional (el 5):
var(u|x) = s2
conocido como homoscedasticidad
(homoskedasticity): varianza constante.
34

Varianza de MCO (cont.)

Por estadstica sabemos que:


s2 = Var(u|x) = E(u2|x)-[E(u|x)]2
Y como E(u|x) = 0, entonces:
s2 = E(u2|x) = E(u2) = Var(u)
De modo que s2 es la varianza no condicional de
los residuales, tambin llamada varianza del error.
s, la raz cuadrada de la varianza del error, se
conoce como la desviacin estndar del error.
Con lo cual podemos decir que:
E(y|x)=b0 + b1x
Var(y|x) = s2
35

Homoscedasticidad
y
f(y|x)

.
x1

. E(y|x) = b + b x
0

x2
36

Heteroscedasticidad
f(y|x)

.
x1

x2

x3

E(y|x) = b0 + b1x

x
37

Varianza de MCO (cont.)

Var b1 Var b1
2 d i ui

s
x

1
1

2 Var d i ui
2
sx
sx
1

2
sx

1
d s s sx2
2
i

2
d
i Varui

2
d
i

1 2 s2

s
s

Var
b

2
2
x
1
s
s
x
x

38

Varianza de MCO: resumen

A mayor varianza del error, s2, mayor


varianza del estimador de b1.
A mayor varianza en xi, menor varianza
del estimador de b1.
Por ende, a mayor tamao de muestra, n,
menor varianza del estimador de b1.
Pero ojo, la varianza del error es
desconocida: necesitamos estimarla
tambin.
39

Estimacin de la varianza del error

No conocemos la varianza del error, s2, porque no


observamos los errores de la poblacin, ui
Lo que observamos son los residuales (estimados)
del modelo muestral:

ui yi b0 b1 xi

Pero podemos usar los residuales estimados para


construir un estimador de la varianza del error.

40

Estimacin de la varianza del error


ui yi b0 b1 xi , y sustituyendo para yi
b b x u b b x
0

1 i

1 i

ui b0 b 0 b1 b1 xi
por insesgamiento, ambos parntesis se eliminan...
de modo que un estimador insesgado de s 2 es :
1
SSR
2
s
ui

n 2
n 2
2

41

Estimacin de la varianza del error


2

s s error estndar de la regresin


recordemosque : std.dev b s
sx
si sustituimos s en vez de s , entonces tenemos
el error estndar de b :

se b1

x x
2

Y, una vez que conocemos el error estndar de b1 estimada, podemos


calcular su intervalo de confianza y hacer pruebas de hiptesis.
42

Apndice A.
Propiedades del operador Suma

43

Apndice A.
Propiedades del operador Suma

44

You might also like