You are on page 1of 51

UNIVERSIDAD NACIONAL

MAYOR DE SAN MARCOS

TÉCNICAS MULTIVARIANTES
ANÁLISIS DE CONGLOMERADOS

2019 – 01
5/20/19
ANÁLISIS DE CONGLOMERADOS
• La Idea principal del tipo de análisis es agrupar a los individuos o elementos
en grupos en función a sus similitudes o similaridades entre ellos.
• Por lo general, se agrupa las observaciones, pero en este tipo de análisis se
puede también agrupar variables.
• En este análisis se aplican métodos de clasificación automática o no
supervisada, y de reconocimiento de patrones sin supervisión.
• En esta técnica se estudia los siguientes tipos de problemas:
• Partición de los datos
• Construcción jerarquías

2
ANÁLISIS DE CONGLOMERADOS

PARTICIÓN DE LOS DATOS.


Cuando se dispone de datos que se sospecha que son
heterogéneos y por ende se deben dividir en un número de
grupos prefijado tal que:
• Cada elemento pertenezca a uno, y sólo uno, de los grupos;
• Todo elemento quede clasificado
• Cada grupo sea homogéneo al interior
5/20/19 3
ANÁLISIS DE CONGLOMERADOS

CONSTRUCIÓN DE JERARQUÍAS
Cuando se desea estructurar los elementos de un conjunto de forma
jerárquica por su similitud. Es decir, que los datos se ordenen en
niveles, de modo que los niveles superiores contienen a los
inferiores.
En realidad no se definen grupos, sino la estructura de asociación en
cadena que pueda existir entre los elementos que, sin embargo,
permite obtener también una partición de los datos en grupos.
5/20/19 4
ANÁLISIS DE CONGLOMERADOS

Los métodos de partición utilizan matriz de datos, pero los algoritmos


jerárquicos utilizan la matriz de distancias o similitudes entre
elementos.
Para agrupar variables se parte de la matriz de relación entre variables:
• En el caso de variables continuas se usa la matriz de correlaciones
• En el caso de variables discretas se usa la matriz de distancias (las
distancias ji-cuadrado).

5/20/19 5
Análisis de Conglomerados Jerárquico
• Este procedimiento permite aglomerar casos y variables y se tiene
disponible una gran variedad de métodos de aglomeración y
medidas de distancia. La diferencia fundamental con el
procedimiento anterior, está en que en éste último se trabaja de
forma jerárquica.

• Comienza con el cálculo de la matriz de distancias entre los


elementos de la muestra. Luego se buscan los dos elementos más
próximos y se agrupan en un conglomerado. El conglomerado
resultante es indivisible a partir de ese momento. De esta manera, se
van agrupando los elementos en conglomerados cada vez más
grandes y más heterogéneos hasta llegar al último paso, en el que
todos los elementos quedan agrupados en un único conglomerado
global.
5/20/19 6
Análisis de Conglomerados Jerárquico

• En cada paso del proceso pueden agruparse casos individuales,


conglomerados previamente formados o un caso individual con un
conglomerado previamente formado.

• El análisis de conglomerados jerárquico es, por tanto, una técnica


aglomeración: partiendo de los elementos muestrales
individualmente considerados, va creando grupos hasta llegar a la
formación de un único grupo o conglomerado constituido por todos
los elementos de la muestra.

5/20/19 7
Análisis de Conglomerados Jerárquico
• El procedimiento Conglomerados jerárquicos del SPSS informa de todos
los pasos realizados en el análisis, por lo que resulta fácil apreciar qué
elementos o conglomerados se han aglomerando en cada paso y a qué
distancia se encontraban cuando se han unido.

• Esto permite valorar la heterogeneidad de los conglomerados que se


van juntando en cada etapa del análisis y decidir en cuál de ellas la fusión
de elementos incrementa excesivamente la heterogeneidad de los
conglomerados. Aunque el análisis termina cuando se ha conseguido
agrupar a todos los casos en un único conglomerado, el objetivo del
analista será el de descubrir la existencia de grupos homogéneos
"naturales" que puedan existir en el archivo de datos.

8
Análisis de Conglomerados Jerárquico

• La versatilidad del este procedimiento radica en la


posibilidad de utilizar distintos tipos de medidas para
estimar la distancia existente entre los elementos, la
posibilidad de transformar la métrica original de las
variables y la posibilidad de seleccionar de entre una gran
variedad de métodos de aglomeración. Pero no existe
ninguna combinación de estas posibilidades que optimice
la solución obtenida. En general, será conveniente valorar
las distintas soluciones para elegir la más consistente.

5/20/19 9
Ejemplo 1: Análisis Conglomerados Jerárquico

• Este ejemplo muestra como obtener un análisis de conglomerados


jerárquico con las especificaciones que el procedimiento tiene
establecidas por defecto.
• Utilizaremos el archivo de datos Coches B.sav que contiene datos de
15 vehículos seleccionados al azar.
• Primero, vamos a construir un diagrama de dispersión para observar
la distancia existente entre los casos en dos variables de interés; esto
es, entre las variable potencia y motor. Ubicando a la variable peso
“Potencia total (kg)” en el eje de las abscisas y a la variable motor
“Cilindrada en cc” en el eje de las ordenadas.
• Con ello, tendremos una idea empírica de los conglomerados que se
puede obtener al usar estas dos variables.
• Luego se procederá a usar el Método de Conglomerados Jerárquico
del IBM SPSS Statistic.
10
11
12
13
14
Ejemplo 1: Análisis Conglomerados Jerárquico

Resumen del procesamiento de los casos


Esta tabla muestra un resumen de los casos procesados: el número y
porcentaje de casos válidos analizados, el número y porcentaje de casos
con valores perdidos en alguna de las variables incluidas en el análisis, y
el tamaño total de la muestra, que no es otra cosa que la suma de los
casos válidos y los perdidos.
En las notas al pie de tabla se indica el nombre de la medida utilizada
para obtener la matriz de distancias (Distancia euclidiana al cuadrado) y
el método de conglomeración utilizado (Vinculación promedio).
La solución obtenida puede depender en gran medida de la combinación
de: el tipo de medida de las distancias y el método de conglomeración. 15
Historial de conglomeración
Esta tabla muestra el historial del proceso de conglomeración, etapa por etapa.
En cada etapa se unen dos elementos. Como la muestra analizada tiene 15
casos, sólo se realizan 14 etapas de fusión.
La columna Conglomerado que se combina informa sobre los conglomerados (o
casos) combinados en cada etapa.
16
Historial de conglomeración
En la primera etapa se han combinado los casos 2 y 6 del archivo de datos. Como el
análisis se inicia con todos los casos separados en conglomerados individuales, la
primera etapa siempre se refiere a casos individuales.
A partir de ese momento, estos dos casos constituyen el conglomerado «2-6» y son
indivisibles en las etapas posteriores. 17
Historial de conglomeración
La columna Coeficientes ofrece el valor de la distancia en la que se encuentran
los casos antes de la unión.
La columna Etapa en la que el conglomerado aparece por primera vez recoge la
etapa en la que se han formado los conglomerados que se están aglomerando
en cada momento. 18
Historial de conglomeración
En la etapa 5 se juntan el auto 3 y el 15; inspeccionando la columna para la
primera aparición de estos elementos encontramos un 3 y un 0, lo que
significa que el elemento 3 ya apareció en la etapa 3 y es un conglomerado
(el 3-9), y que el elemento 15 es un caso individual.
19
Historial de conglomeración
La columna Próxima etapa indica la etapa en la que el conglomerado se va
unir con otros elementos.
Por ejemplo, el conglomerado 2-6-12 que se ha formado en la etapa 2, y en la
etapa 7 se volverá a combinar con el auto 8.
20
Diagrama de témpanos vertical
Esta gráfico resume el proceso de combinación de manera gráfica. En las
cabeceras de las columnas se encuentran los números de los casos individuales
y en las de las filas el número de conglomerados formados en cada etapa (cada
fila representa una etapa del proceso de combinación). Las etapas comienzan
en la parte inferior del diagrama y van progresando hacia arriba. 21
Diagrama de témpanos vertical
Inicialmente, se parte de 15 conglomerados individuales; es decir, tantos
como casos analizados.
En la primera etapa se agrupan dos casos individuales, quedando 14
conglomerados (13 individuales y 1 doble). Los casos agrupados son el 2 y
el 6, lo cual está representado con una marca que une las columnas
22
correspondientes a esos dos casos.
Diagrama de témpanos vertical
Los casos agrupados en la segunda son los casos 2, 6 y 12. En la lectura de
la información de la tercera etapa, que se encuentra una fila más arriba,
se puede decir que se agrupan los casos 3 y 9, así como los casos
agrupados en la segunda. Y así sucesivamente, se van formando los
conglomerados. Hasta que en la última etapa, todos los casos forman un 23
único conglomerado.
Diagrama de témpanos vertical
Los casos agrupados en la segunda son los casos 2, 6 y 12. En la lectura de la
información de la tercera etapa, que se encuentra una fila más arriba, se
puede decir que se agrupan los casos 3 y 9, así como los casos agrupados en
la segunda. Y así sucesivamente, se van formando los conglomerados.
Hasta que en la última etapa, todos los casos forman un único
conglomerado. 24
• El procedimiento de Conglomerados jerárquicos no ofrece ninguna tabla de
resultados con los valores promedio de los conglomerados formados (los
centroides) ya que su finalidad es permitir tomar una decisión sobre cuál es
el número idóneo de conglomerados para representar la estructura interna
de los datos. No obstante, es posible crear fácilmente la tabla de centroides
a partir de las variables que el procedimiento permite crear en el archivo de
datos .

• Vamos a pedir al SPSS que genere un diagrama de dispersión de los casos


respecto a las dos variables de clasificación utilizadas: motor (cilindrada en
cc) y cv (potencia).

• Haciendo que marque los casos según el conglomerado al que han sido
asignado al solicitar una solución de dos y tres conglomerados.
Ejemplo 1: Análisis Conglomerados Jerárquico

Los gráficos de dispersión indican que la mejor solución es de dos


conglomerados, cuando se considera de los datos solo las dos
variables de clasificación utilizada en este caso. Y no parece que una
solución con un mayor número de conglomerados pueda resumir
mejor las distancias existentes entre los casos. 26
Partición de los Datos:
Método de k medias
Partición de los Datos:
Método de k medias

28
Partición de los Datos:
Método de k medias

29
Partición de los Datos:
Método de k medias

30
Partición de los Datos:
Método de k medias

31
Partición de los Datos:
Método de k medias
• En este caso se usa el Método de K Medias que permite
procesar un número ilimitado de casos, pero sólo permite
utilizar un método de aglomeración y requiere que se
proponga previamente el número de conglomerados que
se desea obtener.
• Es un método que se basa en las distancias existentes entre
ellos en un conjunto de variables (este método de
aglomeración no permite agrupar variables).
• Este procedimiento comienza seleccionado los K casos más
distantes entre sí.
Partición de los Datos:
Método de k medias

A continuación se inicia la lectura secuencial del archivo de


datos asignando cada caso al centro más próximo y
actualizando el valor de los centros a medida que se van
incorporando nuevos casos.
Una vez que todos los casos han sido asignados a uno de
los K conglomerados, se inicia un proceso iterativo para
calcular los centroides finales de esos K conglomerados.
Este análisis es útil cuando se dispone de un gran número
de casos.
33
Partición de los Datos:
Método de k medias

• Existe la posibilidad de utilizar la técnica de clasificación de


manera exploratoria:
• Clasificando los casos e iterándolos para encontrar la ubicación de
los centroides,
• Clasificando los casos a partir de centroides conocidos
suministrados por el usuario.

• Cuando se utiliza como técnica exploratoria, es habitual


que el usuario desconozca el número idóneo de
conglomerados, por lo que es conveniente repetir el
análisis con distinto número de conglomerados y
comparar las soluciones obtenidas.
Partición de los Datos:
Método de k medias

• El procedimiento Análisis de conglomerados de K medias siempre utiliza,


para medir la distancia entre los casos, la distancia euclidiana: la longitud
de la recta que une ambos casos, la misma que se calcula de la siguiente
manera:
dih = �(X
j
ij - X hj ) 2

donde Xij y Xhj se refiere a las puntuaciones obtenidas por el individuo i y el


individuo h, en cada una de las j = 1, 2, ..., p variables incluidas en el análisis
(la sumatoria de la expresión incluirá p términos, es decir, tantos como
variables).

 Esta distancia es fácil de entender, pero es muy sensible a la métrica de las


variables.
Partición de los Datos:
Método de k medias
• Para eliminar en el cálculo de las distancias el efecto debido a las
diferencias en la métrica de las variables, se acostumbra a
transformar las variables antes del análisis de manera que todas
ellas tengan variabilidades similares.
• Entre las transformaciones disponibles y que permite igualar
tanto la métrica como la variabilidad de las variables, es la
estandarización (tipificación).
• El Análisis de conglomerados de K medias no incluye, entre sus
opciones, la tipificación de las variables; si se desea incluir en el
análisis las variables tipificadas, es necesario efectuar la
transformación antes de iniciar el análisis.
Ejemplo: Método de K Medias

En este ejemplo utilizaremos el archivo de datos Coches A.sav.


• Primero, vamos a construir un diagrama de dispersión para observar la
distancia existente entre los casos en dos variables de interés; esto es, entre
las variable peso y motor. Ubicando a la variable peso “Peso total (kg)” en el
eje de las abscisas y a la variable motor “Cilindrada en cc” en el eje de las
ordenadas.
• Con ello, tendremos una idea empirica de los k conglomerados que se puede
obtener al usar estas dos variables.
• Luego se procederá a usar el Método de K Medias del IBM SPSS Statistic,
para comprobar si en realidad se puede agrupar a los datos en en los k
conglomerados obtenidos en el inciso anterior.

37
Ejemplo: Método de K Medias

Se puede apreciar que existe un grupo de vehículos relativamente numeroso


con peso y cilindrada reducidos y otro grupo más disperso de vehículos de
mayor peso y mayor cilindrada.
La nube de puntos, por tanto, incita a pensar que existen al menos dos
40
grupos naturales de casos.
Ejemplo: Método de K Medias

La tabla Centros iniciales de los conglomerados contiene los centros


iniciales, es decir, los valores de las dos variables de clasificación utilizadas
como centros de los dos conglomerados solicitados.
Una vez seleccionados los centros de los conglomerados, cada caso es
asignado al conglomerado de cuyo centro se encuentra más próximo y
comienza un proceso de ubicación iterativa de los centros.
En la primera iteración se reasignan los casos por su distancia al nuevo
centro y, tras la reasignación, se vuelve a actualizar el valor del centro.
En la siguiente iteración se vuelven a reasignar los casos y a actualizar el
valor del centro, y así sucesivamente.
Ejemplo: Método de K Medias

Historial de iteraciones
Esta tabla resume el historial de las
iteraciones con la indicación del cambio
(desplazamiento) experimentado por
cada centro en cada iteración.
Puede observarse que, conforme
avanzan las iteraciones, el
desplazamiento de los centros se va
haciendo más y más pequeño, hasta
llegar a la quinta iteración, en la que ya
no existe desplazamiento alguno.
El proceso de iteración se detiene, por
defecto, cuando se alcanzan 10
iteraciones o cuando de una iteración a
otra no se produce ningún cambio en la
ubicación de los centroides (cambio = 0).

44
Ejemplo: Método de K Medias

Centros de los conglomerados finales


Esta tabla ofrece los centros de los conglomerados finales, es decir, los centros de
los conglomerados tras el proceso de actualización iterativa.
Comparando los centros finales con los centros iniciales se puede apreciar con
claridad un desplazamiento del centro del conglomerado 1 hacia la parte inferior del
plano definido por las dos variables de clasificación y un desplazamiento del centro
del conglomerado 2 hacia la parte superior.
Esta tabla es de gran utilidad para interpretar la constitución de los conglomerados
pues resume los valores centrales de cada conglomerado en las variables de interés.
La interpretación de los resultados de nuestro ejemplo es simple: el primer
conglomerado está constituido por vehículos de gran cilindrada y mucho peso,
mientras que segundo conglomerado está constituido por los vehículos de
cilindrada reducida y poco peso.
Ejemplo: Método de K Medias

Número de casos en cada conglomerado


Esta tabla informa sobre el número de casos asignado a cada conglomerado.
En nuestro ejemplo, los tamaños de los conglomerados no son demasiado
diferentes, pero dadas las características de la técnica es muy frecuente
encontrarse con que alguno de los conglomerados finales contenga tan sólo
un número muy reducido de casos atípicos.

46
Ejemplo: Método de K Medias

•A fin de comprobar nuestra apreciación empírica de la forma de cómo


se distribuirán los datos con la asignación de los dos conglomerados,
vamos obtener un diagrama de dispersión con marcas distintas para los
casos de uno y otro conglomerado y podremos formarnos una idea
bastante precisa de las características de cada conglomerado.

•Para ello solicitemos que IBM SPSS Statistics que nos genere un
diagrama dispersión donde se muestre ambos conglomerados,
indicándole que use la nueva variable de membresía de conglomerados
de cada caso.

47
Ejemplo: Método de K Medias

• Los conglomerados obtenidos


permiten distinguir con claridad un
conglomerado inferior (poco peso y
poca cilindrada) y un conglomerado
superior (mucho peso y mucha
cilindrada).
• Sin embargo, no necesariamente
siempre que se utiliza el análisis de
conglomerados debemos esperar
resultados tan claros (grupos tan
claramente definidos).
• En la frontera entre ambos
conglomerados pueden encontrarse
casos que aparentan estar más cerca
del conglomerado al que no han sido
asignados
50
51

You might also like