You are on page 1of 15

1

Modelos de Regresin
En muchos problemas existe una relacin inherente entre dos o ms variables, y resulta
necesario explorar la naturaleza de esta relacin. El anlisis de regresin es una tcnica
estadstica para el modelado y la investigacin de la relacin entre dos o ms variables.
Por ejemplo, en un proceso qumico, supngase que el rendimiento del producto est
relacionado con la temperatura de operacin del proceso. El anlisis de regresin puede
emplearse para construir un modelo que permita predecir el rendimiento para una
temperatura dada. Como ilustracin, considrense los datos de la siguiente tabla. En ella,
es la pureza del oxgeno producido en un proceso de destilacin qumico, y x es el
porcentaje de hidrocarburos presentes en el condensador principal de la unidad de
destilacin. La figura 1 presenta el diagrama de dispersin de los datos contenidos en la
Tabla 1. El anlisis de este diagrama de dispersin indica que, si bien una curva no pasa
exactamente por todos los puntos, existe una evidencia fuerte de que los puntos estn
dispersos de manera aleatoria alrededor de una lnea recta. Por consiguiente es razonable
suponer que la media de la variable aleatoria est relaciona con x por la siguiente
relacin lineal:
E(|x) = 0 + 1 x
Donde la pendiente y la ordenada al origen de la recta reciben el nombre de coeficientes
de regresin.

Tabla 1
Nmero de observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Nivel de Hidrocarburo
x(%)
0.99
1.02
1.15
1.29
1.49
1.36
0.87
1.23
1.55
1.40
1.19
1.15
0.98
1.01
1.11
1.20
1.26
1.32
1.43
0.95

Pureza
(%)
90.01
89.05
91.43
93.74
96.73
94.45
87.59
91.77
99.42
93.65
93.54
92.52
90.56
89.54
89.85
90.39
93.25
93.41
94.98
87.33

Si bien la media de es una funcin lineal de x, el valor real observado de no cae de


manera exacta sobre la recta. La manera apropiada para generalizar este hecho con un
modelo probabilstico lineal es suponer que el valor esperado de es una funcin lineal
de x, pero que para un valor fijo de x el valor real de est determinado por el valor
medio de la funcin (el modelo lineal) ms un trmino que representa un error aleatorio,
por ejemplo,
= 0 + 1 x +
donde es el error aleatorio. Este modelo recibe el nombre de modelo de regresin
lineal simple, ya que slo tiene una variable independiente o regresor.

Regresin Lineal Simple


El caso de la regresin lineal simple considera slo un regresor o predictor x, y una
variable dependiente o respuesta . Supngase que la verdadera relacin entre y x es
una lnea rect, y que la observacin en cada nivel x es una variable aleatoria. Tal como
ya se indic, el valor esperado de para cada valor de x es
E(|x) = 0 + 1 x

donde la ordenada al origen 0 y la pendiente 1 son los coeficientes desconocidos de la


regresin. Se supone que cada observacin, , puede describirse por el modelo
= 0 + 1 x +

(1)

donde es un error aleatorio con media cero y varianza 2. Tambin se supone que los
errores aleatorios que corresponden a observaciones diferentes son variables aleatorias no
correlacionadas.
Las estimaciones de 0 y 1 deben dar como resultado una lnea que (en algn sentido) se
ajuste mejor a los datos. El cientfico alemn Karl Gauss (1777-1855) propuso estimar
los parmetros 0 y 1 de la ecuacin (1) de modo que se minimice la suma de los
cuadrados del error. Este criterio para estimar los coeficientes de regresin se conoce
como mtodo de mnimos cuadrados. Al utilizar la ecuacin (1), es posible expresar las
n observaciones de la muestra como:
i = 0 + 1 x + i,

i = 1,2,,n

y la suma de los cuadrados de las desviaciones de las observaciones con respecto a la


recta de regresin es

L=

2
i
i =1

= (Yi 0 1 xi ) 2 .
i =1

Los estimadores de mnimos cuadrados de 0 y 1, 0 y 1 , deben satisfacer las


ecuaciones siguientes:
n
L
= 2 (Yi 0 1 xi ) = 0
0 ,
i =1
o 1

L
1

= 2 (Yi 0 1 xi ) xi = 0
i =1

o , 1

Despus de simplificar las expresiones anteriores, se tiene que


n

i =1

i =1

n0 + 1 xi = Yi
n

i =1

i =1

i =1

0 xi + 1 xi2 = xi Yi

Las ltimas ecuaciones reciben el nombre de ecuaciones normales de mnimos


cuadrados. La solucin de estas ecuaciones dan como resultado los estimadores de
mnimos cuadrados 0 y 1 .

Definicin
Las estimaciones de mnimos cuadrados de la ordenada al origen y la pendiente del
modelo de regresin lineal simple son

0 = y 1 x

1 n
1 n
donde y = yi y x = xi .
n i =1
n i =1

n y n x
i i
n
i =1 i =1
y i xi
n
y 1 = i =1
2
nx
i
n
i =1
2
xi
n
i =1

Por tanto, la lnea de regresin estimada o ajustada es


y i = 0 + 1 xi ,

i = 1,, n

Los residuos se determinan como i = yi y i . El residuo describe el error en el ajuste del


modelo en la i-sima observacin yi . Los residuos proporcionan informacin sobre la
adecuacin del modelo ajustado.

Notacin
En ocasiones es conveniente dar smbolos especiales al numerador y denominador en las
frmulas de los estimadores de mnimos cuadrados.
Dados los datos ( x1 , y1 ), ( x2 , y 2 ),, ( xn , y n ) sean

S xx
y

nx
i
n
n
2
2
= ( xi x ) = xi i =1
n
i =1
i =1

S xy

n x n y
i i
n
n
= ( xi x )( yi y ) = xi yi i =1 i =1
n
i =1
i =1

A partir de esta notacin, los estimadores de mnimos cuadrados sern:

0 = y 1 x
1 =

S xy
S xx

Ejemplo
Es momento de ajustar un modelo de regresin lineal simple a los datos de pureza del
oxgeno de la Tabla 1. Con esos datos pueden calcularse las cantidades siguientes:
20

20

i =1

i =1

n = 20, xi = 23.92, yi = 1843.21, x = 1.20,

y = 92.16

10

20

i =1

yi2

= 170044.53,

20

2
xi
i =1

20

= 29.29, xi yi = 2214.66
i =1

S xx

20 x
i
20
(23.92) 2

i =1
2
= xi
= 29.29
= 0.68
20
20
i =1

y
S xy

20 x 20 y
i i
20
(23.92)(1843.21)
= xi yi i =1 i =1 = 2214.66
= 1018
20
20
i =1

Por consiguiente, las estimaciones de mnimos cuadrados de la pendiente y la ordenada al


origen son
S xy 18.18

1 =
=
= 14.97 y 0 = y 1 x = 92.16 (14.97)1.20 = 74.20
S xx 0.68

11

El modelo de regresin lineal simple ajustado es


y i = 74.20 + 14.97 xi , i = 1,2,,20
La grfica de este modelo aparece en la figura 2, junto con los datos de la muestra.

12

Con el empleo del modelo de regresin ajustado, es posible predecir una pureza de
oxgeno de y = 89.17% cuando el nivel de hidrocarburo es x = 1.00% . La pureza de
89.17% puede interpretarse como una estimacin de la pureza promedio verdadera de la
poblacin cuando x = 1.00% , o como una estimacin de la nueva observacin cuando
x = 1.00% . Claro est que estas estimaciones se encuentran sujetas a un error; esto es, es
poco probable que una observacin futura de la pureza sea exactamente 89.17% cuando
el nivel de hidrocarburo sea de 1.00%. En secciones subsecuentes se ver cmo utilizar
los intervalos de confianza y los de prediccin para describir el error al hacer
estimaciones a partir de un modelo de regresin.

Propiedades de los estimadores de mnimos cuadrados y estimacin de 2


Resulta sencillo describir las propiedades estadsticas de los estimadores de mnimos
cuadrados 0 y 1 . Recurdese que se ha supuesto que el trmino de error en el
modelo Y = 0 + 1 x + es una variable aleatoria con media cero y varianza 2 . Puesto
que los valores de x son fijos, Y es una variable aleatoria con media Y x = 0 + 1 x y
varianza 2 . Por consiguiente, los valores de 0 y 1 dependen de los valores de y
observados; por tanto, los estimadores de mnimos cuadrados de los coeficientes de

13

regresin pueden verse como variables aleatorias. A continuacin se investiga el sesgo y


las propiedades de la varianza de los estimadores de mnimos cuadrados 0 y 1 .
No es difcil demostrar que 0 y 1 son estimadores insesgados de 0 y 1 ,
respectivamente, es decir E0 = 0 y E1 = 1 .
Por otro lado, se tiene:
2 1

2
2

x
Var0 = +
, Var1 =
S xx
n S xx

x
y Cov( 0 , 1 ) = 2
S xx

Para obtener inferencias con respecto a los coeficientes de regresin 0 y 1 , es necesario


estimar la varianza 2 que aparece en las expresiones para Var0 y Var1 . El parmetro
2 , que es la varianza del trmino de error en el modelo de regresin, refleja la
variacin aleatoria alrededor de la verdadera recta de regresin.

14

La estimacin para 2 , 2 , esta dada por

2 =

SS E
n2

(2)

donde
n

SS E = i
i =1
n

= ( yi y i ) 2
i =1
n

= yi2 ny 2 1S xy
i =1

= S yy 1S xy ,

i =1

i =1

con S yy = yi2 ny 2 = ( yi - y ) 2

Ejemplo (contin.)
A continuacin se encuentra la estimacin de la varianza 2 utilizando para ello los datos
de la Tabla 1, obteniendose 2 = 1.17 .

15

Definicin
En una regresin lineal simple, el error estndar estimado de la pendiente es
2

se( 1 ) =
S xx

y el error estndar de la ordenada al origen es


2 1

se( 0 ) = +

n S xx

donde 2 se calcula con la ecuacin (2).

You might also like