Professional Documents
Culture Documents
Modelos de Regresin
En muchos problemas existe una relacin inherente entre dos o ms variables, y resulta
necesario explorar la naturaleza de esta relacin. El anlisis de regresin es una tcnica
estadstica para el modelado y la investigacin de la relacin entre dos o ms variables.
Por ejemplo, en un proceso qumico, supngase que el rendimiento del producto est
relacionado con la temperatura de operacin del proceso. El anlisis de regresin puede
emplearse para construir un modelo que permita predecir el rendimiento para una
temperatura dada. Como ilustracin, considrense los datos de la siguiente tabla. En ella,
es la pureza del oxgeno producido en un proceso de destilacin qumico, y x es el
porcentaje de hidrocarburos presentes en el condensador principal de la unidad de
destilacin. La figura 1 presenta el diagrama de dispersin de los datos contenidos en la
Tabla 1. El anlisis de este diagrama de dispersin indica que, si bien una curva no pasa
exactamente por todos los puntos, existe una evidencia fuerte de que los puntos estn
dispersos de manera aleatoria alrededor de una lnea recta. Por consiguiente es razonable
suponer que la media de la variable aleatoria est relaciona con x por la siguiente
relacin lineal:
E(|x) = 0 + 1 x
Donde la pendiente y la ordenada al origen de la recta reciben el nombre de coeficientes
de regresin.
Tabla 1
Nmero de observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nivel de Hidrocarburo
x(%)
0.99
1.02
1.15
1.29
1.49
1.36
0.87
1.23
1.55
1.40
1.19
1.15
0.98
1.01
1.11
1.20
1.26
1.32
1.43
0.95
Pureza
(%)
90.01
89.05
91.43
93.74
96.73
94.45
87.59
91.77
99.42
93.65
93.54
92.52
90.56
89.54
89.85
90.39
93.25
93.41
94.98
87.33
(1)
donde es un error aleatorio con media cero y varianza 2. Tambin se supone que los
errores aleatorios que corresponden a observaciones diferentes son variables aleatorias no
correlacionadas.
Las estimaciones de 0 y 1 deben dar como resultado una lnea que (en algn sentido) se
ajuste mejor a los datos. El cientfico alemn Karl Gauss (1777-1855) propuso estimar
los parmetros 0 y 1 de la ecuacin (1) de modo que se minimice la suma de los
cuadrados del error. Este criterio para estimar los coeficientes de regresin se conoce
como mtodo de mnimos cuadrados. Al utilizar la ecuacin (1), es posible expresar las
n observaciones de la muestra como:
i = 0 + 1 x + i,
i = 1,2,,n
L=
2
i
i =1
= (Yi 0 1 xi ) 2 .
i =1
L
1
= 2 (Yi 0 1 xi ) xi = 0
i =1
o , 1
i =1
i =1
n0 + 1 xi = Yi
n
i =1
i =1
i =1
0 xi + 1 xi2 = xi Yi
Definicin
Las estimaciones de mnimos cuadrados de la ordenada al origen y la pendiente del
modelo de regresin lineal simple son
0 = y 1 x
1 n
1 n
donde y = yi y x = xi .
n i =1
n i =1
n y n x
i i
n
i =1 i =1
y i xi
n
y 1 = i =1
2
nx
i
n
i =1
2
xi
n
i =1
i = 1,, n
Notacin
En ocasiones es conveniente dar smbolos especiales al numerador y denominador en las
frmulas de los estimadores de mnimos cuadrados.
Dados los datos ( x1 , y1 ), ( x2 , y 2 ),, ( xn , y n ) sean
S xx
y
nx
i
n
n
2
2
= ( xi x ) = xi i =1
n
i =1
i =1
S xy
n x n y
i i
n
n
= ( xi x )( yi y ) = xi yi i =1 i =1
n
i =1
i =1
0 = y 1 x
1 =
S xy
S xx
Ejemplo
Es momento de ajustar un modelo de regresin lineal simple a los datos de pureza del
oxgeno de la Tabla 1. Con esos datos pueden calcularse las cantidades siguientes:
20
20
i =1
i =1
y = 92.16
10
20
i =1
yi2
= 170044.53,
20
2
xi
i =1
20
= 29.29, xi yi = 2214.66
i =1
S xx
20 x
i
20
(23.92) 2
i =1
2
= xi
= 29.29
= 0.68
20
20
i =1
y
S xy
20 x 20 y
i i
20
(23.92)(1843.21)
= xi yi i =1 i =1 = 2214.66
= 1018
20
20
i =1
1 =
=
= 14.97 y 0 = y 1 x = 92.16 (14.97)1.20 = 74.20
S xx 0.68
11
12
Con el empleo del modelo de regresin ajustado, es posible predecir una pureza de
oxgeno de y = 89.17% cuando el nivel de hidrocarburo es x = 1.00% . La pureza de
89.17% puede interpretarse como una estimacin de la pureza promedio verdadera de la
poblacin cuando x = 1.00% , o como una estimacin de la nueva observacin cuando
x = 1.00% . Claro est que estas estimaciones se encuentran sujetas a un error; esto es, es
poco probable que una observacin futura de la pureza sea exactamente 89.17% cuando
el nivel de hidrocarburo sea de 1.00%. En secciones subsecuentes se ver cmo utilizar
los intervalos de confianza y los de prediccin para describir el error al hacer
estimaciones a partir de un modelo de regresin.
13
2
2
x
Var0 = +
, Var1 =
S xx
n S xx
x
y Cov( 0 , 1 ) = 2
S xx
14
2 =
SS E
n2
(2)
donde
n
SS E = i
i =1
n
= ( yi y i ) 2
i =1
n
= yi2 ny 2 1S xy
i =1
= S yy 1S xy ,
i =1
i =1
con S yy = yi2 ny 2 = ( yi - y ) 2
Ejemplo (contin.)
A continuacin se encuentra la estimacin de la varianza 2 utilizando para ello los datos
de la Tabla 1, obteniendose 2 = 1.17 .
15
Definicin
En una regresin lineal simple, el error estndar estimado de la pendiente es
2
se( 1 ) =
S xx
se( 0 ) = +
n S xx