You are on page 1of 61

I.

ESTADISTICA DESCRIPTIVA

Tablas de distribucin de frecuencias.

(Frecuencias relativas y relativas acumuladas. )Graficas estadsticas


Histogramas
Polgonos
Ojivas
Grafico de Torta o Pastel

Medidas de tendencia central

Media
Mediana
Moda
percntiles y cuartiles

Medidas de dispersin

Rango

Varianza

desviacin estndar

coeficiente de variacin

Diagrama de cajas.
Actividad: Prctica en sala de cmputo. instrucciones sobre manejo de paquete
estadstico para descripcin de datos

1. Introduccin:
La palabra "estadstica" suele utilizarse como
coleccin de datos numricos.- esto es el
significado ms vulgar de la palabra estadstica.
Se sobrentiende que dichos datos numricos
han de estar presentados de manera ordenada
y sistemtica. Una informacin numrica
cualquiera puede no constituir una estadstica,
para merecer este apelativo, los datos han de
constituir un conjunto coherente, establecido de
forma sistemtica y siguiendo un criterio de
ordenacin

Introduccin:
En si, es una serie de tcnicas ligadas con
el fin de recolectar puede ser por medio de
test, encuestas, censos, entre otras
formas, un conjunto de datos. Luego
organizar de manera cuantitativa o
cualitativamente, segn sea el caso.
Presentar ya sea por tablas o por grficos
y finalmente analizar el conjunto de datos
para sacar conclusiones y as poder tomar
una buena decisin.

Introduccin:
Es obvio que todo estudio estadstico ha de
estar referido a un conjunto o coleccin de
personas o cosas. Este conjunto de personas o
cosas es lo que denominaremos poblacin.
Las personas o cosas que forman parte de la
poblacin se denominan elementos. En sentido
estadstico un elemento puede ser algo con
existencia real, como un automvil o una casa, o
algo ms abstracto como la temperatura, un
voto, o un intervalo de tiempo.

Introduccin:
A su vez, cada elemento de la poblacin tiene
una serie de caractersticas que pueden ser
objeto del estudio estadstico. As por ejemplo si
consideramos como elemento a una persona,
podemos distinguir en ella los siguientes
caracteres:
Sexo, edad, nivel de estudios, profesin, peso,
altura, color de pelo, etc.
Luego por tanto de cada elemento de la
poblacin podremos estudiar uno o ms
aspectos cualidades o caracteres.

Tipos de poblacin
La poblacin puede ser segn su tamao de dos
tipos:
Poblacin Finita: cuando el nmero de elementos
que la forman es finito, por ejemplo el nmero de
alumnos de un centro de enseanza, o grupo clase.
Poblacin Infinita: cuando el nmero de
elementos que la forman es infinito, o tan grande
que pudiesen considerarse infinitos... Como por
ejemplo si se realizase un estudio sobre los
productos que hay en el mercado. Hay tantos y de
tantas calidades que esta poblacin podra
considerarse infinita.

Poblacin
Ahora bien, normalmente en un estudio estadstico,
no se puede trabajar con todos los elementos de la
poblacin sino que se realiza sobre un subconjunto
de la misma. Este subconjunto puede ser una
muestra, cuando se toman un determinado
nmero de elementos de la poblacin, sin que en
principio tengan nada en comn; o una
subpoblacin, que es el subconjunto de la
poblacin formado por los elementos de la
poblacin que comparten una determinada
caracterstica, por ejemplo de los alumnos del
centro la subpoblacin formada por los alumnos de
3 eso, o la subpoblacin de los varones.

Variables y Atributos.
Como hemos visto, los caracteres de un
elemento pueden ser de muy diversos
tipos, por lo que los podemos clasificar en:
dos grandes clases:
Variables cuantitativas.
Variables cualitativas o atributos

Variables cuantitativas.
Las variables cuantitativas son las que se describen por
medio de nmeros, como por ejemplo el peso, altura, edad,
nmero de suspensos
A su vez este tipo de variables se puede dividir en dos
subclases:
Cuantitativas discretas. Aquellas a las que se les puede
asociar un nmero entero, es decir, aquellas que por su
naturaleza no admiten un fraccionamiento de la unidad, por
ejemplo nmero de hermanos, pginas de un libro, etc.
Cuantitativas continuas: aquellas que no se pueden
expresar mediante un nmero entero, es decir, aquellas que
por su naturaleza admiten que entre dos valores cualquier
la variable pueda tomar cualquier valor intermedio, por
ejemplo peso, tiempo. Etc.
No obstante en muchos casos el tratamiento estadstico
hace que a variables discretas las trabajemos como si
fuesen continuas y viceversa.

Los atributos son aquellos caracteres que para su


definicin precisan de palabras, es decir, no le podemos
asignar un nmero. Por ejemplo sexo profesin, estado
civil, etc. A su vez las podemos clasificar en:
Ordenables: aquellas que sugieren una ordenacin, por
ejemplo la graduacin militar, el nivel de estudios, etc.
No ordenables: aquellas que slo admiten una mera
ordenacin alfabtica, pero no establece orden por su
naturaleza, por ejemplo el color de pelo, sexo, estado
civil, etc.
CENSO. Decimos que realizamos un censo cuando se
observan todos los elementos de la poblacin
estadstica

TABLAS DE DISTRIBUCION DE FRECUENCIAS.

Es una tcnica estadstica para organizar datos en


clases y cada una se les aplica la frecuencia
correspondiente. Sirve para visualizar y organizar los
datos. Una de los primeros pasos que se realizan en
cualquier estudio estadstico es la tabulacin de
resultados, es decir, recoger la informacin de la
muestra resumida en una tabla en la que a cada valor
de la variable se le asocian determinados nmeros que
representan el nmero de veces que ha aparecido, su
proporcin con respecto a otros valores de la variable,
etc. Estos nmeros se denominan frecuencias: as
tenemos los siguientes tipos de frecuencia:

Frecuencia Absoluta: La frecuencia absoluta de una


variable estadstica es el nmero de veces que aparece
en la muestra dicho valor de la variable, la
representaremos por ni
Frecuencia Relativa:
La frecuencia absoluta, es una medida que est influida
por el tamao de la muestra, al aumentar el tamao de la
muestra aumentar tambin el tamao de la frecuencia
absoluta. Esto hace que no sea una medida til para
poder comparar. Para esto es necesario introducir el
concepto de frecuencia relativa, que es el cociente entre
la frecuencia absoluta y el tamao de la muestra. La
denotaremos por fi

Frecuencia Relativa:

Donde n = tamao de la muestra

Porcentaje:
La frecuencia relativa es
un tanto por uno, sin
embargo, hoy da es
bastante frecuente hablar
siempre en trminos de
tantos por ciento o
porcentajes, por lo que
esta medida resulta de
multiplicar la frecuencia
relativa por 100. La
denotaremos por pi.

Pi Fi 100%

Frecuencia Absoluta Acumulada:


Para poder calcular este tipo de frecuencias hay
que tener en cuenta que la variable estadstica
ha de ser cuantitativa o cualitativa ordenable. En
otro caso no tiene mucho sentido el clculo de
esta frecuencia. La frecuencia absoluta
acumulada de un valor de la variable, es el
nmero de veces que ha aparecido en la
muestra un valor menor o igual que el de la
variable y lo representaremos por Ni.

Frecuencia Relativa Acumulada:


Al igual que en el
caso
anterior
la
frecuencia
relativa
acumulada
es
la
frecuencia absoluta
acumulada
dividido
por el tamao de la
muestra,
y
la
denotaremos por Fi

Ni
Fi
N

Porcentaje Acumulado:
Anlogamente se define
el porcentaje acumulado
y lo vamos a denotar por
pi como la frecuencia
relativa acumulada por
100.

Pi Fi 100%

Ejemplo
Veamos esto con un ejemplo: tomamos para ello los
datos relativos a las personas activas.

En este ejemplo se puede ver fcilmente como se


calculan estas frecuencias.

Tablas de frecuencias
Existen dos formas diferentes de tablas de
frecuencia, teniendo
Que la variable estadstica tome pocos valores
diferentes (ya sea grande o pequeo el tamao
de la muestra).
Que, en una muestra de gran tamao, la
variable estadstica tome muchos valores
diferentes, ya se trate de variable estadstica
discreta como de variable estadstica continua
(este ltimo caso es el ms habitual).

En el segundo caso por tratarse de variable continua o


discreta pero con un nmero de datos muy grande, es
aconsejable agrupar los datos en clases.
Agrupamos los valores de la variable estadstica en
intervalos
de
clase
contiguos
y
elegidos
convenientemente para no perder mucha informacin. No
existe un criterio claro de cul debe ser el nmero de
intervalos que debemos escoger, Norcliffe establece que el
nmero de clases debe ser, aproximadamente igual a la
raz cuadrada positiva del nmero de datos. Normalmente,
el nmero de intervalos de clase se suele fijar entre 5 y 15
y de tal manera que en cada clase se tengan, al menos, 5
observaciones. De todas formas el investigador los
acomodar a las condiciones especificas del problema
estadstico objeto de estudio (se tomarn tantos intervalos
solapados como sean necesarios para recubrir todo el
recorrido de la variable).

Los extremos de los intervalos de clase se denominan


extremos de clase y sus puntos medios marcas de clase
(valor que nos representa la informacin que contiene un
intervalo).
Como cada observacin debe quedar perfectamente
encasillada en uno y slo un intervalo de clase, debemos
decidir a qu intervalos pertenecen los extremos de las
clases, por lo que habrn de tomarse intervalos
semiabiertos o tomando el extremo de cada clase con un
decimal ms que las observaciones. Con el fin de que la
clasificacin est bien hecha, los intervalos se deben
construir de manera que el lmite superior de una clase
coincida con el lmite inferior de la siguiente, y adems,
adoptando el criterio de que los intervalos sean cerrados
por la izquierda y abiertos por la derecha.

Por otro lado tenemos la amplitud de cada intervalo, que


puede ser constante o variable. Si procuramos que todas las
clases tengan la misma amplitud y los lmites de cada clase
sean nmeros redondos (mltiplos p. ej. de 5)
conseguiremos simplificar mucho los clculos (siempre y
cuando no se pierda demasiada informacin con estas
consideraciones).
Debemos observar un hecho importante, se entiende que
cuando hacemos una agrupacin en intervalos de clase, para
nosotros solamente cuenta el nmero de observaciones que
caen dentro de cada uno de los intervalos y no la colocacin
en su interior, es decir, suponemos que la distribucin de
estos valores en el intervalo es homognea, en esto radica la
prdida de informacin que supone agrupar los datos de las
observaciones.

(Frecuencias relativas y relativas


acumuladas.)Graficas estadsticas

Ejemplo.
En la siguiente
tabla se muestra el
total de vacunas
aplicadas durante
el verano de l991
en un estado de la
Repblica
Mexicana.

HISTOGRAMA.
Es una representacin grafica de una distribucin de
frecuencias por medio de rectngulos.
Es un recurso comn e importante para representar
datos, consiste en una escala horizontal para valores de
los datos que se estn representando, una escala
vertical de las frecuencias de dichos datos.
El histograma es especialmente til cuando se tiene un
amplio nmero de datos que es preciso organizar.
Histograma de frecuencia absoluta. (Xi y fi)
Histograma de frecuencia relativa (Xi y Fi)
Histograma de frecuencia relativa porcentual (Xi y hi)
Histograma de frecuencia relativa acumulada (Xi y Hi)
Con la distribucin de frec. anterior se tiene:

POLIGONOS DE FRECUENCIA
Es una representacin grafica de la distribucin de
frecuencia que resulta esencialmente equivalente al
histograma y se obtiene uniendo mediante segmentos los
centros de las bases superares de los rectngulos del
histograma.

OJIVA.
Una grafica similar al polgono de frecuencias es
la ojiva, pero esta se obtiene de aplicar
parcialmente la misma tcnica a una distribucin
acumulativa y de igual manera que estas,
existen las ojivas mayor que y menor que.
Una grfica de distribucin de frecuencias
acumuladas es llamada una ojiva. Se trazan los
lmites reales superiores contra las frecuencias
acumuladas.

Ojiva Porcentual Polgono de frecuencias


relativas acumuladas.
Se trazan los lmites reales superiores contra las
frecuencias relativas acumuladas.

DIAGRAMA CIRCULAR, PASTEL O


TORTA.
Cuando lo que se desea resaltar son las proporciones
que representan algunos subconjuntos con respecto al
total, conviene utilizar la grafica o diagrama circular. Es
un grafico en el que cada valor o modalidad se le asigna
un sector circular de rea proporcional a la frecuencia
que representan.
Es un grfico que se basa en una proporcionalidad entre
la frecuencia y el ngulo central de una circunferencia,
de tal manera que a la frecuencia total le corresponde el
ngulo central de 360. Para construir se aplica la
siguiente formula:
X = frecuencia relativa * 360/ frecuencia relativa

Este se usa cuando se trabaja con datos que tienen


grandes frecuencias, y los valores de la variable son pocos,
la ventaja que tiene este diagrama es que es fcil de hacer
y es entendible fcilmente, la desventaja que posee es que
cuando los valores de la variable son muchos es casi
imposible o mejor dicho no informa mucho este diagrama y
no es productivo, proporciona principalmente informacin
acerca de las frecuencias de los datos de una manera
entendible y sencilla.
Se forma al dividir un crculo en sectores circulares de
manera que:
a)
Cada sector circular equivale al porcentaje
correspondiente al dato o grupo que representa.
b)
La unin de los sectores circulares forma el crculo y
la suma de sus porcentajes es 100.

Diagramas de caja o boxplots


los pasos para construirlo son los siguientes:
Dibujar y marcar un eje de medida horizontal
Construir un rectngulo cuyo borde izquierdo esta arriba
del cuarto inferior y cuyo borde derecho esta arriba del
cuarto superior
Dibujar un segmento de recta vertical dentro de la caja
arriba de la mediana
Prolongar rectas desde cada extremo de la caja hasta las
observaciones ms lejanas que estn todava a menos de
1.5fs de los bordes correspondientes
Dibujar un circulo abierto para identificar cada observacin
que caiga entre 1.5fs y 3fs del borde al cual esta ms
cercano estas se llaman puntos inusuales suaves

Dibujar un circulo de lnea llena para identificar cada


observacin que caiga a mas de 3fs del borde ms
cercano, estas se llaman puntos inusuales extremos
Donde fs= cuarto superior cuarto inferior
Este diagrama se usa cuando se necesita la mayor
informacin acerca de la distribucin de los datos, la
ventaja que posee con respecto a los dems diagramas es
que este grfico posee caractersticas como centro y
dispersin de los datos, y la principal desventaja que
posee es que no presenta ninguna informacin acerca de
las frecuencias que presentan los datos

PARAMETRO
Es un nmero que caracteriza a un conjunto de datos,
se clasifican en:
Parmetro de centralizacin
Miden alrededor de que valor se agrupan los datos.
Ejemplo, media, mediana, moda, cuarteles, percentiles,
etc.
Media
Tambin llamado promedio o esperanza matemtica, es
un numero calculado mediante ciertas operaciones a
partir de los elementos de un conjunto de nmeros, x1,
x2,, xn, y que sirve para representara este. Hay
distintos tipos de media.

Media Aritmtica:
La media aritmtica de una variable se define como la
suma ponderada de los valores de la variable por sus
frecuencias relativas y lo denotaremos por y se calcula
mediante la expresin:

Xi representa el valor de la variable o en su caso la marca de clase.

Propiedades:
Si multiplicamos o dividimos todas las observaciones por
un mismo nmero, la media queda multiplicada o dividida
por dicho numero.
Si le sumamos a todas las observaciones un mismo
nmero, la media aumentar en dicha cantidad.
Adems de la media aritmtica existen otros conceptos de
media, como son la media geomtrica y la media
armnica.

Media geomtrica:
La media geomtrica de n observaciones es la raz de ndice n
del producto de todas las observaciones. La representaremos
por g.

Media armnica:
La media armnica de n observaciones es la inversa de la media
de las inversas de las observaciones y la denotaremos por h

Al igual que en el caso de la media geomtrica su


utilizacin es bastante poco frecuente.

Mediana:
La mediana es el valor central de la variable, es decir,
supuesta la muestra ordenada en orden creciente o
decreciente, el valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.
Clculo de la mediana en el caso discreto:
Tendremos en cuenta el tamao de la muestra.
Si n es impar, hay un trmino central, el trmino
que ser el valor de la mediana.
Si n es par, hay dos trminos centrales,
la mediana ser la media de esos dos valores

Ejemplo

Clculo de la mediana en el caso contino:


Si la variable es continua, la tabla vendr en intervalos, por
lo que se calcula de la siguiente forma:

Nos vamos a apoyar en un grfico de un histograma de


frecuencias acumuladas. De donde la mediana vale: donde
ai es la amplitud del intervalo
Vemoslo por medio de un ejemplo.
Supongamos los pesos de un grupo de 50 personas se
distribuyen de la siguiente forma:

Como el tamao de la muestra es n=50, buscamos el


intervalo en el que la frecuencia acumulada es mayor que
50/2=25, que en este caso es el 3 y aplicamos la frmula
anterior. Luego la mediana ser

Me=

MODA
La moda es el valor de la variable que tenga mayor
frecuencia absoluta, la que ms se repite, es la nica
medida de centralizacin que tiene sentido estudiar en una
variable cualitativa, pues no precisa la realizacin de
ningn clculo.
Por su propia definicin, la moda no es nica, pues puede
haber dos o ms valores de la variable que tengan la
misma frecuencia siendo esta mxima. En cuyo caso
tendremos una distribucin bimodal o polimodal segn el
caso.
Por lo tanto el clculo de la moda en distribuciones
discretas o cualitativas no precisa de una explicacin
mayor; sin embargo, debemos detenernos un poco en el
clculo de la moda para distribuciones cuantitativas
continuas.

Apoyndonos en el grfico podemos llegar a la determinacin de


la expresin para la moda que es:

Otros autores dan una expresin aproximada para la moda que


viene dada por la siguiente expresin:

Veamos su clculo mediante un ejemplo, para ello usaremos los


datos del apartado anterior

Veamos su clculo mediante un ejemplo, para ello usaremos


los datos del apartado anterior

Parmetros de localizacin.
Cuartiles, deciles, percentiles
Las medidas de localizacin dividen la distribucin en
partes iguales, sirven para clasificar a un individuo o
elemento dentro de una determinada poblacin o muestra.
As en psicologa los resultados de los test o pruebas que
realizan a un determinado individuo, sirve para clasificar a
dicho sujeto en una determinada categora en funcin
de la 53-1-u-puntuacin obtenida.

Cuartiles
Medida de localizacin que divide la poblacin o muestra
en cuatro partes iguales.
Q1= valor de la variable que deja a la izquierda el 25%
de la distribucin.
Q2= valor de la variable que deja a la izquierda el 50%
de la distribucin = mediana.
Q3= valor de la variable que deja a la izquierda el 75%
de la distribucin.
Al igual que ocurre con el clculo de la mediana, el
clculo de estos estadsticos, depende del tipo de
variable.

Caso i: variable cuantitativa discreta:


En este caso tendremos que observar el tamao de la
muestra: n y para calcular q1 o q3 procederemos como si
tuvisemos que calcular la mediana de la correspondiente
mitad de la muestra.
Caso ii: variable cuantitativa continua:
En este caso el clculo es ms simple: sea la distribucin
que sigue:

Siendo el intervalo coloreado


.
donde se encuentra el
cuartil .
.
correspondiente:
Y

Deciles
Medida de localizacin que divide la poblacin o muestra
en 10 partes iguales
No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver slo para
las variables continuas.
Dk = decil k-simo es aquel valor de la variable que deja a
su izquierda el k10 % de la distribucin.

Intervalo donde se encuentra el .


decil correspondiente:
k = 1... 9

Percentiles:
Medida de localizacin que divide la poblacin o muestra
en 100 partes iguales
No tiene mucho sentido calcularlas para variables
cualitativas discretas. Por lo que lo vamos a ver slo para
las variables continuas.
Pk = percentil k-simo es aquel valor de la variable que deja
a su izquierda el k % de la distribucin.
Intervalo donde se encuentra el . .
.
percentil correspondiente

k=1... 99

Ejemplo:
Como se puede observar la forma de calcular estas
medidas es muy similar a la del clculo de la mediana.
Veamos el clculo de algunas de estas medidas en el
ejemplo que estamos estudiando.
Vamos a calcular q1, q3, d3, y p45

.
. ...
.
que supere al .
corresponde al 2 .
intervalo.(50/4=12.5)

Clculo de q1: buscamos en la .


columna de las frecuencias
acumuladas el valor
25% de n=50,
.

Anlogamente calculemos q3, buscamos ahora en la


misma columna el correspondiente al 75 %de n que en
este caso es el 4 intervalo (3.50/4=37.5)

Veamos ahora el decil 3.


(Corresponde al 30 % 3 50 / 10 = 15) sera el 2 intervalo.

Por ltimo veamos el percentil 45 (4550/100 = 22.5)


corresponde al intervalo 3.

Parmetro de dispersin.
Las medidas de dispersin indican que tan lejos o tan
cerca se encuentran unos datos de otros en una
distribucin de frecuencia. La medida representativa mas
utilizada para analizar la dispersin de datos es la media.
Las ms importantes son el rango, la desviacin media, la
desviacin tpica o estndar, el coeficiente de variacin, la
varianza.
Rango
Es la medida de dispersin que indica la distancia entre el
valor mayor y menor en un grupo de datos
Se denota como r. Realmente no es una medida muy
significativa e la mayora de los casos, pero
indudablemente es muy fcil de calcular.

Desviacin:
Es la diferencia que se observa entre el valor de la variable
y la media aritmtica. La denotaremos por di.
No es una medida, son muchas medidas, pues cada valor
de la variable lleva asociada su correspondiente
desviacin, por lo que precisaremos una medida que
resuma dicha informacin.
Varianza:
Es una medida de dispersin que se halla mediante la
suma de los cuadrados de la desviacin respecto a las
medias, divididas entre el nmero de datos. Es la media de
los cuadrados de las desviaciones, y la denotaremos por
si se trata de una muestra o tambin por si se habla de
una poblacin.

Aunque tambin es posible calcularlo como:

Este estadstico tiene el inconveniente de ser poco


significativo, pues se mide en el cuadrado de la
unidad de la variable, por ejemplo, si la variable
viene dada en cm. La varianza vendr en cm2.

Desviacin Tpica:
Es la raz cuadrada de la varianza, se denota por sx o
x.

Este estadstico se mide en la misma unidad que la variable


por lo que se puede interpretar mejor.

Coeficiente De Variacin:
Es un estadstico de dispersin que tiene la ventaja de que
no lleva asociada ninguna unidad, por lo que nos permitir
decir entre dos muestras, cual es la que presenta mayor
dispersin. La denotaremos por c.v.

Diagrama de cajas.????
Actividad: prctica en sala de cmputo. Instrucciones
sobre manejo de paquete estadstico para descripcin
de datos

You might also like