Professional Documents
Culture Documents
__________________________________________________________________
1.- Introducción............................................................................................................................. 1
2.- Correlación parcial mediante el recurso de diagramas de Venn. ............................................ 3
3.- Correlación parcial como correlación entre residuales ........................................................... 6
4.- Coeficiente de regresión múltiple y coeficiente de regresión parcial...................................... 8
____________________________________________________________________________
1.- Introducción
1
Está claro que si trabajamos con niños de edades comprendidas, digamos, entre 6 y 10 años, los
más altos serán las más inteligentes, pero no por el efecto de la estatura, sino porque ambas,
estatura e inteligencia, corren parejas con el transcurrir de los años. Es la edad la que da lugar a
la maduración general de los sujetos, y con ella, la inteligencia y la estatura. Si no consideramos
la edad obtendremos el siguiente gráfico para la relación entre ambas variables :
I
n
t
e
l
i
g
e
n
c
i
a
Estatura
I
n
t
e 9
l 8
i
7
g
e 6
n
c
i
a
Estatura
2
Se observa que es la variabilidad debida a la edad la que marca la diferencia en cuanto a
inteligencia y no la estatura. Desde una perspectiva experimental es posible anular la influencia
de la variable edad simplemente trabajando con valores constantes de la misma. De esta forma,
su variabilidad es cero y se anula todo posible efecto. Por ejemplo, podríamos haber operado
sólo con niños de 6 años. No obstante, este método obliga a reducir las muestras (sólo 6 años)
con lo que se pierde potencia en los cálculos.
a c
b
X1 X2
3
con Y cuando hemos eliminado por completo (de ambas variables) la variabilidad de X2 será su
correlación parcial (al cuadrado). Si la denotamos como R y21.2 :
R y2.12 − R y22
R 2
y1.2 =
1 − R y22
R y2.12 − R y21
R 2
y 2.1 =
1 − R y21
Ejemplo 1.- Deseamos estudiar el efecto que tiene sobre la Calificación de una determinada
asignatura (Y) las siguientes variables: Inteligencia (X1) Horas de estudio (X2) y Clase social
(X3). A este respecto disponemos de las siguientes puntuaciones obtenidas por 20 estudiantes:
X1 X2 X3 Y X1 X2 X3 Y
********************** *************************
109 10 3 4.1 132 16 5 7.8
120 8 4 4.3 140 18 5 9.3
112 21 2 6.4 111 9 4 5.2
115 14 2 4.5 109 25 3 6.5
98 18 1 4.2 95 16 3 5.2
101 23 3 5.5 88 10 2 2.1
100 21 2 6.0 106 14 4 4.8
105 12 2 5.1 123 12 3 5.6
130 21 5 8.8 120 20 2 7.2
121 19 4 7.5 102 22 2 6.3
X1 X2 X3 Y
X1 1,000 ,038 ,703 ,760
X2 ,038 1,000 -,108 ,581
X3 ,703 -,108 1,000 ,557
Y ,760 ,581 ,557 1,000
4
Esto supuesto, determinar la correlación entre Inteligencia y Calificación prescindiendo del
efecto de la Inteligencia.
SOL:
R y2.13 − R y23
R 2
y1.3 =
1 − R y23
Para ello, hemos de calcular previamente R y2.13 y R y23 . En relación a este último, nos ofrecen la
información en la matriz de correlaciones. Así pues:
R y2.13 = β ´r
En relación a β :
−1
1 0.703 0.760 0.7275
−1
β =R r= =
0.703 1 0.557 0.0458
Por tanto:
0.760
R y2.13 = β ´r = [0.7275 0.0458 ] = 0.5782
0.557
Así pues:
5
3.- Correlación parcial como correlación entre residuales.
Xˆ 1 = a + bX 2
Si a las puntuaciones originales de X1 les restamos X̂ 1 , que son precisamente las puntuaciones de
X1 que debe a X2, obtendremos, entonces, las puntuaciones de X1 libre de X2. Si por otro lado,
hacemos lo mismo con Y:
Yˆ = a + bX 2
Si restamos a los valores de Y, los valores Yˆ , que son los que presta X2 a esta variable, entonces,
igualmente obtendremos los valores de Y libres de X2. Si a continuación calculamos la
correlación entre (Y − Yˆ ) y ( Xˆ 1 − X 1 ) , habremos obtenido la correlación parcial de Y con X1
eliminado la influencia de X2; esto es, ry1.2 . Así pues, la correlación parcial puede plantearse
como una correlación entre residuos:
Ejemplo 2.- Tomando como referencia los datos del ejemplo 1, calcular mediante las
puntuaciones residuales, la correlación de Inteligencia y Calificación, eliminando toda influencia
del Nivel social.
SOL:
Xˆ 1 = 87.840 + 7.872X 3
Yˆ = 3.355 + 0.808X 3
6
A continuación restemos a la Inteligencia los valores asociados con el Nivel social ( X 1 − X̂ 1 ). E
igualmente, de las Calificaciones, aquello valores ligados con el Nivel social ( Y − Yˆ ). Haciendo
operaciones y efectuando las siguientes denominaciones:
Y − Yˆ ⇒ e1
X 1 − Xˆ 1 ⇒ e2
∑e e
1 2
− e1e2
160.808
− 0*0
r(Y −Yˆ )( X = N = 20 = 0.6230
ˆ
3−X3 )
1
Se1 Se2 1.3973 * 9.2371
7
Obsérvese que elevando al cuadrado este valor obtendremos precisamente R y21.3 , cuyo valor,
como se sabe, es 0.3881.
Como se sabe, los coeficientes de regresión múltiple indican el efecto de una cierta variable
sobre la variable dependiente cuando las restantes permanecen constante. En este sentido,
también se conocen como coeficientes de regresión parcial, por cuanto se estudia el efecto de tal
variable sobre la dependiente cuando hemos sustraído la variabilidad de las restantes.
Para ilustrarlo, observemos la ecuación de regresión múltiple que liga la variable Calificación
con la Inteligencia y el Nivel social. Efectuando los cálculos oportunos, tendremos:
Se entiende que el valor 0.0942 indica el cambio en Y por cada unidad de X1 cuando X3
permanece constante, o dicho, de otro modo, cuando sustraemos la variabilidad de esta última
variable. Pues bien, esto mismo obtendremos cuando calculamos la ecuación de regresión entre
los residuales e1 y e2 anteriormente mencionados, como consecuencia de eliminar X3 tanto de Y
como de X1. De esta forma, si calculamos la ecuación de regresión entre e1 y e2 obtendremos:
eˆ1 = 0.0942e 2
Su valor nos muestra el efecto de X1 sobre Y una vez eliminados la variabilidad de X3. Se
comprende de esta forma cómo en presencia de multicolinealidad el efecto de cada una de las
variables excluyendo las restantes no sea significativo aunque pueda serlo estas mismas variables
por separado. En este caso, las puntuaciones residuales son reducidas y reducido es, en
consecuencia, el efecto sobre la variable dependiente.
Si queremos conocer la relación exacta entre los coeficientes de regresión y las correlaciones
parciales, simplemente recurriremos a la expresión que liga la pendiente de la recta con su
correlación:
Sy
b=r
Se