You are on page 1of 32

00 Introduccin a la estadstica y teora de probabilidades

Diego Andrs Alvarez Marn Profesor Asistente Universidad Nacional de Colombia Sede Manizales

Contenido

Qu es la estadstica? Qu es la teora de probabilidades? Qu es la estadstica descriptiva? Qu es la estadstica inferencial

Estadstica

Es la rama matemtica relacionada con la coleccin, el anlisis, la interpretacin (o explicacin) y la representacin de datos.

Teora de probabilidades vs Estadstica

La teora de probabilidades es la rama de la matemtica relacionada con el anlisis de fenmenos aleatorios; esta se desarroll como un modelo abstracto y sus conclusiones y deducciones estn basados en axiomas. La estadstica se basa en la aplicacin de la teora de probabilidad a problemas reales y sus conclusiones son inferencias basadas en observaciones.

Ramas de la estadstica
La estadstica se divide en dos ramas:

Estadstica descriptiva Estadstica inferencial

Estadstica descriptiva

La estadstica descriptiva se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos en estudio. Los datos pueden ser resumidos en forma numrica y/o grfica.

Estadstica inferencial
Esta comprende los mtodos y procedimientos para deducir propiedades (hacer inferencias) de una poblacin, a partir de una pequea parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin).
7

Estadstica descriptiva vs. Estadstica inferencial


La diferencia entre la estadstica descriptiva y la estadstica inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones sobre la poblacin que est representada por los datos recopilados.

01 Estadstica descriptiva

Diego Andrs Alvarez Marn Profesor Asistente Universidad Nacional de Colombia Sede Manizales

Contenido

Definiciones bsicas Medidas de tendencia no central Medidas de tendencia central Medidas de dispersin Momentos Representacin grfica de la informacin

Histogramas

10

Definiciones
Se quiere estudiar una poblacin. Sin embargo por razones prcticas se analiza una muestra de la poblacin. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular ciertas caractersticas de la muestra llamadas estadsticas.

Poblacin: es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La poblacin es la coleccin de toda la informacin que caracteriza un fenmeno. Muestra estadstica (o aleatoria): es un subconjunto representativo de individuos de la poblacin Muestreo: es la tcnica por la cual se selecciona una muestra a partir de una poblacin Una estadstica es el resultado de aplicar una funcin a un conjunto de datos.

Informacin bsica de un conjunto de datos


Mnimo y mximo Percentil Tendencia central Dispersin Momentos

Mnimo y mximo (con MATLAB)

Mnimo y mximo (con MS EXCEL)

Medidas de posicin no central


Un percentil es el valor de una variable bajo el cual un cierto porcentaje de las observaciones caen. De este modo el percentil 20 es el valor bajo el cual el 20% de las observaciones pueden ser encontradas. Algunos tipos de percentiles importantes son: Los cuartiles: percentil 25, 50 (mediana) y 75 Los quintiles: percentil 20, 40, 60 y 80 Los deciles: percentiles 10, 20, ..., 90

Definiciones de percentil

Ejemplo usando la definicin 1


Calcule el percentil 70 de los datos 1200, 11, 23, 27, 25, 29 Primero que todo se deben organizar los datos en orden ascendente 11, 23, 25, 27, 29, 1200 Por lo tanto el percentil 70 es 29

Percentiles con MATLAB

Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos

Percentiles con MS EXCEL

Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos

Medidas de tendencia central


Las medidas de tendencia central miden la localizacin del centro de los datos

Media aritmtica (o promedio) Mediana Moda Media geomtrica Media armnica Media acotada (o media truncada)
21

Media aritmtica (o promedio)

22

Mediana

23

Mediana

24

Mediana

25

Media geomtrica

26

Media geomtrica
La media geomtrica es relevante cuando varias cantidades son multiplicadas para producir un total, o cuando los nmeros son de naturaleza exponencial, como por ejemplo el crecimiento de la poblacin mundial o las tasas de inters de una inversin financiera. La media geomtrica es menos sensible que la media aritmtica a los valores extremos.

27

Ejemplo

28

Propiedades de la media geomtrica

29

Media armnica

30

Ejemplo

31

Ejemplo

32

Media armnica

33

Moda

34

Media acotada (o media truncada)

35

Medidas de tendencia central en MS EXCEL

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda
36

MEDIA.ACOTADA(datos;porcentaje)
Calcula la media de un conjunto de datos despus de eliminar el porcentaje de los extremos inferior y superior de los puntos de datos. Puede utilizar esta funcin cuando desee excluir del anlisis los valores extremos. porcentaje es el nmero fraccionario de puntos de datos que se excluyen del clculo. Por ejemplo, si porcentaje = 0,2, se eliminarn cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos de la parte superior y dos de la parte inferior.
37

Medidas de tendencia central en MATLAB

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda
38

Otras medidas de tendencia central

Media generalizada

http://en.wikipedia.org/wiki/Generalized_mean http://en.wikipedia.org/wiki/Weighted_mean http://en.wikipedia.org/wiki/Midrange http://en.wikipedia.org/wiki/Root_mean_square

Media ponderada

Punto medio

Root mean square (RMS)

39

Notas varias

La media armnica es siempre inferior a la media geomtrica, que a su vez es siempre inferior a la media aritmtica. http://en.wikipedia.org/wiki/Inequality_of_arithm etic_and_geometric_means http://en.wikipedia.org/wiki/Pythagorean_means

Ver:

40

Medidas de dispersin
La dispersin de los datos se puede atribuir a pequeas diferencias de construccin, a mano de obra deficiente, errores humanos, variabilidad inherente al material, as como a errores en las observaciones y en las mediadas. Las medida de dispersin miden la variabilidad de un conjunto de datos. Una medida de dispersin es un nmero real no negativo, que es cero si todos los dtos son idnticos, y se incrementa a medida que las observaciones son ms diversas.
41

Medidas de dispersin

Varianza Desviacin estndar Desviacin media Desviacin mediana Rango (o recorrido) Rango (o recorrido) intercuartil Rango (o recorrido) interdecil

42

Varianza y desviacin estndar muestral


Use siempre estas frmulas para calcular la varianza y la desviacin estndar, a menos que se indique lo contrario.
Ver: http://en.wikipedia.org/wiki/Variance http://en.wikipedia.org/wiki/Standard_deviation
43

Varianza y desviacin estndar poblacional

44

Correccin de Bessel

Aunque intuitivamente la frmula de la desviacin estndar (varianza) poblacional es la que se debe usar (denominador n), SIEMPRE que se quieren hacer inferencias acerca de una poblacin, se debe utilizar la desviacin estndar (varianza) muestral (denominador n-1). Las razones de esto se entendern en el Captulo ***.

45

Recorrido o rango

46

Recorrido interdecil e intercuartil

47

Desviacin media (mean absolute deviation - MAD) Desviacin mediana (median absolute deviation)

48

Coeficiente de variacin (coefficient of variation - C.O.V.)

No confundir con la covarianza!


49

Nota final

A pesar que la media aritmtica y la desviacin estndar han sido empleadas de manera extensa como medidas de tendencia central y dispersin respectivamente, estas no son siempre las medidas ms deseables. Su uso es popular por su varias propiedades tericas que las hacen muy manipulables desde el punto de vista matemtico.

50

Otras medidas de dispersin

Momento central de cualquier orden

http://en.wikipedia.org/wiki/Moment_(mathematics) http://en.wikipedia.org/wiki/Mean_difference

Diferencia media

Desviacin estndar geomtrica


http://en.wikipedia.org/wiki/Geometric_standard_deviation

51

Medidas de dispersin en MS EXCEL

52

Haga Alt+F11 para ingresar el cdigo Insertar Mdulo Copy+Paste cdigo Grabar como .xlsm

Como la funcin para calcular la desviacin mediana no existe en MS EXCEL 2007, debemos crear la funcin usando Visual Basic for Applications (VBA)
53

Medidas de dispersin en MATLAB

54

Valor atpico (outlier)


Un valor atpico es una observacin que es numricamente distante del resto de los datos. Las estadsticas derivadas de los conjuntos de datos que incluyen valores atpicos sern frecuentemente engaosas. Por ejemplo, en el clculo de la temperatura media de 10 objetos en una habitacin, si la mayora tienen entre 20 y 25C, pero hay un horno a 350C, la mediana de los datos puede ser 23, pero la temperatura media ser 55. En este caso, la mediana refleja mejor la temperatura de la muestra al azar de un objeto que la media.
55

Valor atpico (outlier)

Los valores atpicos pueden ser indicativos de datos que pertenecen a una poblacin diferente del resto de la muestra establecida. No existe una definicin matemtica de lo que constituye un valor atpico; este es un ejercicio subjetivo.

56

Sensibilidad de las medidas de tendencia central a valores atpicos

57

Sensibilidad de las medidas de dispersin a los valores atpicos

58

Momentos

Coeficiente de asimetra

Ver: http://en.wikipedia.org/wiki/Skewness

Curtosis

Ver: http://en.wikipedia.org/wiki/Kurtosis

59

Curtosis y coeficiente de asimetra en MS EXCEL

Curtosis y coeficiente de asimetra en MATLAB

MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular estos parmetros

Histogramas
Un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.

Datos
Suponga que los siguientes nmeros representan el consumo en m3 de agua por da de una poblacin (observe que estn ordenados ascendentemente). Elabore el histograma de dichos datos.
2298 3205 3325 3609 3918 3992 4057 4188 4289 4363 4377 4448 4450 4524 4536 4565 4591 4657 4666 4670 4724 4737 4763 4784 4816 4817 4852 4887 4905 4908 4923 4941 4993 4998 5035 5041 5058 5142 5152 5152 5330 5535

1. Determine el rango de los datos

Rango es igual al dato mayor menos el dato menor. Rango = 5535 - 2298 = 3237
4188 4289 4363 4377 4448 4450 4524 4536 4565 4591 4657 4666 4670 4724 4737 4763 4784 4816 4817 4852 4887 4905 4908 4923 4941 4993 4998 5035 5041 5058 5142 5152 5152 5330 5535

2298 3205 3325 3609 3918 3992 4057

2. Obtener el nmero de clases


Una clase (bin) es ...

Supongamos por el momento que Entonces Formaremos por lo tanto 7 clases/intervalos

3. Establecer la longitud de las clases/intervalos (bins)

Establecer la longitud de clase: es igual al rango dividido entre el nmero de clases Lngitud de la clase = 3237/7 = 462.4

4. Construir los intervalos de las clases


Los intervalos resultan de dividir el rango de los datos en relacin al resultado del paso 3 en intervalos iguales.

4. Graficar el histograma de conteo

4. Graficar el histograma de conteo

Consultar la ayuda de la funcin FRECUENCIA de MS EXCEL para entender su uso

Tenga en cuenta...

La normalizacin del histograma La frecuencia relativa refleja la proporcin de la observaciones contenidas en una clase Cuando los intervalos de clase son idnticos, el rea de los rectngulos representa las frecuencias. Sin embargo, cuando la longitud de los intervalos es diferente, las reas no representan la frecuencia. Por lo tanto se debe ajustar la altura de los rectngulos para que sus reas sean proporcionales a la frecuencia.

5. Graficar el histograma de frecuencias relativas

El eje Y tiene unidades de frecuencia por m3/da

Histograma de frecuencia de clase con MATLAB

Histograma de frecuencia de clase con MATLAB


El eje Y tiene unidades de frecuencia por m3/da

Histogramas con MS EXCEL


MS EXCEL 2003: http://www.bloggpro.com/creating-histograms-in-excel/ MS EXCEL 2007: http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/ or just GOOGLE IT! http://www.google.com/search?q=histograms+excel+2007

6. Graficar la distribucin de frecuencia relativa acumulada

Se obtiene graficando en el eje vertical la frecuencia relativa acumulada de una clase contra el lmite inferior de la siguiente clase sobre el eje horizontal y uniendo todos los puntos consecutivos.

El eje Y tiene unidades de frecuencia nicamente

Percentil 80

Nmero de clases

No existe una forma nica de escoger el nmero de intervalos. Esto por lo tanto se deja a criterio del analista. Sin embargo, existen algunas recomendaciones (las cuales generalmente hacen suposiciones sobre la forma de los datos): El nmero de clases depende del nmero total de observaciones

Nmero de intervalos (k)


k nmero de intervalos (clases) h ancho del intervalo

Mi recomendacin:

Frmula de Sturges (1926): su rendimiento es pobre si n<30

Frmula de Scott (1979): s es la desviacin estndar muestral

Frmula de Freedman-Diaconis (1981): IQR es el rango intercuartil

Mtodo de Shimazaki y Shinomoto (2007)

Fuente: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html

Referencias bibliogrficas

Sturges, H. A. (1926). The choice of a class interval. J. American Statistical Association: 6566. Scott, D. W. (1979). On optimal and data-based histograms. Biometrika. 66 (3): 605610 Freedman, D. and Diaconis, P. (1981). On the histogram as a density estimator: L2 theory. Zeitschrift fr Wahrscheinlichkeitstheorie und verwandte Gebiete. 57 (4): 453476 Shimazaki H. and Shinomoto S. (2007), A method for selecting the bin size of a time histogram Neural Computation. 19(6), 1503-1527

Ejemplo con clases de tamaos diferentes


Considere el siguiente ejemplo del Censo de USA en el ao 2000: Journey to work and place of work

U.S. Census Bureau tiempo de viaje al trabajo. El censo encontr que 124 millones de personas trabajan fuera de su casas.
Fuente: http://www.census.gov/prod/2004pubs/c2kbr-33.pdf

Datos por cantidad


Intervalo (minutos) [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) [40,45) [45,60) Ancho (minutos) 5 5 5 5 5 5 5 5 5 15 Cantidad Cantidad (miles)/ (miles) Ancho (minutos) 4180 836 13687 2737 18618 3723 19634 3926 17981 3596 7190 1438 16369 3273 3212 642 4122 824 9200 613

Histograma del tiempo de viaje (censo USA, 2000)


El rea bajo la curva es igual al nmero de casos = 124 millones. Este diagrama usa cantidad/ancho de la tabla.

Datos por proporcin


Intervalo (minutos) [0,5) [5,10) [10,15) [15,20) [20,25) [25,30) [30,35) [35,40) [40,45) [45,60) Ancho (minutos) 5 5 5 5 5 5 5 5 5 15 Cantidad Cantidad/Total/A (miles) ncho (minutos) 4180 0.01 13687 0.02 18618 0.03 19634 0.03 17981 0.03 7190 0.01 16369 0.03 3212 0.01 4122 0.01 9200 0

Histograma de frecuencia relativa del tiempo de viaje (censo USA, 2000)


El rea bajo la curva es igual a 1 Este diagrama usa cantidad/total/ancho de la tabla.

Generalizacin del histograma

Kernel smoothing methods (tambien llamado ventanas de Parzen (Parzen windows). El comando de MATLAB asociado es ksdensity.

Ver: http://en.wikipedia.org/wiki/Kernel_density_estimation

Generalizacin de histograma
Existen otro mtodos basados en la utilizacin de polinomios ortogonales de Legendre. Ver por ejemplo: X.B. Li y F.Q. Gong (2009). A method for fitting probability distributions to engineering properties of rock masses using Legendre orthogonal polynomials. Structural Safety. Volume 31, Issue 4, July 2009, Pages 335-343
Applying the Gram-Schmidt process to the functions 1, x, x^2, ... on the interval [-1,1] with the usual L^2 inner product gives the Legendre polynomials

Otras funciones de MS EXCEL

Otras funciones de MATLAB

Otras formas grficas de representar los datos

You might also like