You are on page 1of 8

Coeficiente de correlación parcial

__________________________________________________________________

1.- Introducción............................................................................................................................. 1
2.- Correlación parcial mediante el recurso de diagramas de Venn. ............................................ 3
3.- Correlación parcial como correlación entre residuales ........................................................... 6
4.- Coeficiente de regresión múltiple y coeficiente de regresión parcial...................................... 8
____________________________________________________________________________

1.- Introducción

Aunque el término de correlación parcial guarda cierta similitud con el de correlación


semiparcial, y de hecho presentan cálculos parecidos, sus propósitos son bien diferentes. La
correlación semiparcial hay que situarla en el contexto de la regresión múltiple, en el proceso de
inclusión de variables, para ver la contribución de los distintos regresores en la explicación de la
variable dependiente. Normalmente las variables independientes comparten cierta información -
están solapadas-, y hay que comprobar si al incluirla en el modelo aportan nueva información o
su aportación es pura redundancia, si añaden variabilidad explicada o si la misma se encuentra en
las variables incluidas anteriormente. En términos estadísticos, se trata de averiguar el
incremento ocurrido en R2 cuando se añade una (o varias) variables. Por ejemplo, si en un
determinado modelo de regresión hemos incluido la variable X1, la variable X2 y deseamos saber
cuanto aporta la variable X3, simplemente calcularemos la diferencia entre la R2 de estas tres
variables y la R2 de las dos primeras variables. Así, el incremento de R2, debido a la inclusión de
X3 será:

∆R 2 = R y2.123 − R y2.12 = R y2( 3.12 )

En la correlación parcial interesa no tanto la contribución de una determinada variable en el


modelo de regresión, como la eliminación de ciertas variables que resultan perturbadoras para la
cabal comprensión de la relación entre las variables de interés. Tiene que ver con las
denominadas correlaciones espúreas donde ser observan relaciones entre variables que parecen
indicar que unas afectan otras, cuando en realidad la concomitancia que presentan es debida a
que su variabilidad va pareja debido al efecto de terceras variables. Estas terceras variables son
precisamente las que hay que detectar (no siempre cosa fácil) y eliminar su influjo para
comprobar si realmente las variables consideradas siguen manteniendo la supuesta relación.

Un ejemplo típico de correlación espúrea es aquel en el que se relacionan, para sujetos en


periodos evolutivo, variables cognitivas y variables biológicas, como la inteligencia y la estatura.

1
Está claro que si trabajamos con niños de edades comprendidas, digamos, entre 6 y 10 años, los
más altos serán las más inteligentes, pero no por el efecto de la estatura, sino porque ambas,
estatura e inteligencia, corren parejas con el transcurrir de los años. Es la edad la que da lugar a
la maduración general de los sujetos, y con ella, la inteligencia y la estatura. Si no consideramos
la edad obtendremos el siguiente gráfico para la relación entre ambas variables :

I
n
t
e
l
i
g
e
n
c
i
a

Estatura

No obstante, si observamos dentro de diagrama general y distinguimos las distintas edades,


observaremos que no parece haber para cada edad relación entre Estatura e Inteligencia:

I
n
t
e 9
l 8
i
7
g
e 6
n
c
i
a

Estatura

2
Se observa que es la variabilidad debida a la edad la que marca la diferencia en cuanto a
inteligencia y no la estatura. Desde una perspectiva experimental es posible anular la influencia
de la variable edad simplemente trabajando con valores constantes de la misma. De esta forma,
su variabilidad es cero y se anula todo posible efecto. Por ejemplo, podríamos haber operado
sólo con niños de 6 años. No obstante, este método obliga a reducir las muestras (sólo 6 años)
con lo que se pierde potencia en los cálculos.

Una alternativa al método experimental de control de variables nos la ofrece el procedimiento de


la correlación parcial. Básicamente consiste en eliminar la influencia de una variable restando su
variabilidad del conjunto de variables a las que suponemos que afecta y operando con el resto de
variabilidad de dichas variables.

Expondremos a continuación dos procedimientos de llevar a cabo la correlación parcial. La


primera más sencilla e intuitiva, mediante diagramas de Venn, y la segunda más formal, basado
en la correlación entre residuales, pero que refleja mejor la lógica llevada a cabo.

2.- Correlación parcial mediante el recurso de diagramas de Venn.

Tengamos tres variables, X1, X2, e Y. Si representamos simbólicamente su campo de variación


mediante círculos y suponemos que una de las variables, por ejemplo X2, comparte variabilidad
con las restantes variables, tendremos el siguiente gráfico:

a c
b

X1 X2

Deseamos eliminar toda la variabilidad de X2 para el conjunto de variables. Como si no existiera


en absoluto, por lo que le restamos su variabilidad de la variable Y. Como toda la variabilidad de
Y vale la unidad, tendremos que lo que le queda al sustraerle la variabilidad de X2 será 1 − R y22 . Y
si le restamos a X1 lo que comparte con Y tendremos: R y2.12 − R y22 . Por tanto, lo que comparte X1

3
con Y cuando hemos eliminado por completo (de ambas variables) la variabilidad de X2 será su
correlación parcial (al cuadrado). Si la denotamos como R y21.2 :

R y2.12 − R y22
R 2
y1.2 =
1 − R y22

Por la misma lógica, si deseamos eliminar de X2 y de Y el efecto de X1:

R y2.12 − R y21
R 2
y 2.1 =
1 − R y21

Ejemplo 1.- Deseamos estudiar el efecto que tiene sobre la Calificación de una determinada
asignatura (Y) las siguientes variables: Inteligencia (X1) Horas de estudio (X2) y Clase social
(X3). A este respecto disponemos de las siguientes puntuaciones obtenidas por 20 estudiantes:

X1 X2 X3 Y X1 X2 X3 Y
********************** *************************
109 10 3 4.1 132 16 5 7.8
120 8 4 4.3 140 18 5 9.3
112 21 2 6.4 111 9 4 5.2
115 14 2 4.5 109 25 3 6.5
98 18 1 4.2 95 16 3 5.2
101 23 3 5.5 88 10 2 2.1
100 21 2 6.0 106 14 4 4.8
105 12 2 5.1 123 12 3 5.6
130 21 5 8.8 120 20 2 7.2
121 19 4 7.5 102 22 2 6.3

La matriz de correlaciones entre las distintas variables es la siguiente:

X1 X2 X3 Y
X1 1,000 ,038 ,703 ,760
X2 ,038 1,000 -,108 ,581
X3 ,703 -,108 1,000 ,557
Y ,760 ,581 ,557 1,000

4
Esto supuesto, determinar la correlación entre Inteligencia y Calificación prescindiendo del
efecto de la Inteligencia.

SOL:

Hemos de aplicar la siguiente fórmula:

R y2.13 − R y23
R 2
y1.3 =
1 − R y23

Para ello, hemos de calcular previamente R y2.13 y R y23 . En relación a este último, nos ofrecen la
información en la matriz de correlaciones. Así pues:

R y21 = 0.5574 2 = 0.3107

Para el cálculo de R y2.13 :

R y2.13 = β ´r

En relación a β :

−1
1 0.703 0.760  0.7275 
−1
β =R r=   = 
0.703 1  0.557  0.0458 
Por tanto:

0.760 
R y2.13 = β ´r = [0.7275 0.0458 ]  = 0.5782
0.557 

Así pues:

R y2.13 − R y23 0.5782 − 0.3107


R y21..3 = = = 0.3881
1− R 2
y3 1 − 0.3107

5
3.- Correlación parcial como correlación entre residuales.

Otra alternativa, cuando deseamos eliminar la influencia de una determinada variable de un


conjunto de ellas, consiste en restarle in situ a las puntuaciones de tales variables el efecto de la
variable que deseamos suprimir. Tengamos, de nuevo, X1, X2 e Y, donde deseamos eliminar el
posible efecto de X2 tanto de X1 como de Y, con la intención de conocer la relación entre X1 e Y
libre de la influencia de X2. En ese sentido, calcularemos la ecuación de regresión que liga X2 con
X1 :

Xˆ 1 = a + bX 2

Si a las puntuaciones originales de X1 les restamos X̂ 1 , que son precisamente las puntuaciones de
X1 que debe a X2, obtendremos, entonces, las puntuaciones de X1 libre de X2. Si por otro lado,
hacemos lo mismo con Y:

Yˆ = a + bX 2

Si restamos a los valores de Y, los valores Yˆ , que son los que presta X2 a esta variable, entonces,
igualmente obtendremos los valores de Y libres de X2. Si a continuación calculamos la
correlación entre (Y − Yˆ ) y ( Xˆ 1 − X 1 ) , habremos obtenido la correlación parcial de Y con X1
eliminado la influencia de X2; esto es, ry1.2 . Así pues, la correlación parcial puede plantearse
como una correlación entre residuos:

ry1.2 = r(Y −Yˆ )( X − Xˆ )


1 1 1

Ejemplo 2.- Tomando como referencia los datos del ejemplo 1, calcular mediante las
puntuaciones residuales, la correlación de Inteligencia y Calificación, eliminando toda influencia
del Nivel social.

SOL:

Calculemos en primer lugar la ecuación de regresión que liga la variable X1 (Inteligencia)


con X3 (Nivel social). Resulta ser:

Xˆ 1 = 87.840 + 7.872X 3

Y haciendo lo propio con la variable Y (Calificación):

Yˆ = 3.355 + 0.808X 3

6
A continuación restemos a la Inteligencia los valores asociados con el Nivel social ( X 1 − X̂ 1 ). E
igualmente, de las Calificaciones, aquello valores ligados con el Nivel social ( Y − Yˆ ). Haciendo
operaciones y efectuando las siguientes denominaciones:

Y − Yˆ ⇒ e1

X 1 − Xˆ 1 ⇒ e2

obtendremos los siguientes datos transformados:

Calculando la correlación entre ambas variables:

∑e e
1 2
− e1e2
160.808
− 0*0
r(Y −Yˆ )( X = N = 20 = 0.6230
ˆ
3−X3 )
1
Se1 Se2 1.3973 * 9.2371

7
Obsérvese que elevando al cuadrado este valor obtendremos precisamente R y21.3 , cuyo valor,
como se sabe, es 0.3881.

4.- Coeficiente de regresión múltiple y coeficiente de regresión parcial

Como se sabe, los coeficientes de regresión múltiple indican el efecto de una cierta variable
sobre la variable dependiente cuando las restantes permanecen constante. En este sentido,
también se conocen como coeficientes de regresión parcial, por cuanto se estudia el efecto de tal
variable sobre la dependiente cuando hemos sustraído la variabilidad de las restantes.

Para ilustrarlo, observemos la ecuación de regresión múltiple que liga la variable Calificación
con la Inteligencia y el Nivel social. Efectuando los cálculos oportunos, tendremos:

Yˆ = −4.922 + 0.0942 X 1 + 0.0633 X 3

Se entiende que el valor 0.0942 indica el cambio en Y por cada unidad de X1 cuando X3
permanece constante, o dicho, de otro modo, cuando sustraemos la variabilidad de esta última
variable. Pues bien, esto mismo obtendremos cuando calculamos la ecuación de regresión entre
los residuales e1 y e2 anteriormente mencionados, como consecuencia de eliminar X3 tanto de Y
como de X1. De esta forma, si calculamos la ecuación de regresión entre e1 y e2 obtendremos:

eˆ1 = 0.0942e 2

Su valor nos muestra el efecto de X1 sobre Y una vez eliminados la variabilidad de X3. Se
comprende de esta forma cómo en presencia de multicolinealidad el efecto de cada una de las
variables excluyendo las restantes no sea significativo aunque pueda serlo estas mismas variables
por separado. En este caso, las puntuaciones residuales son reducidas y reducido es, en
consecuencia, el efecto sobre la variable dependiente.

Si queremos conocer la relación exacta entre los coeficientes de regresión y las correlaciones
parciales, simplemente recurriremos a la expresión que liga la pendiente de la recta con su
correlación:

Sy
b=r
Se

You might also like