Professional Documents
Culture Documents
Diego Andrs Alvarez Marn Profesor Asistente Universidad Nacional de Colombia Sede Manizales
Contenido
Estadstica
Es la rama matemtica relacionada con la coleccin, el anlisis, la interpretacin (o explicacin) y la representacin de datos.
La teora de probabilidades es la rama de la matemtica relacionada con el anlisis de fenmenos aleatorios; esta se desarroll como un modelo abstracto y sus conclusiones y deducciones estn basados en axiomas. La estadstica se basa en la aplicacin de la teora de probabilidad a problemas reales y sus conclusiones son inferencias basadas en observaciones.
Ramas de la estadstica
La estadstica se divide en dos ramas:
Estadstica descriptiva
La estadstica descriptiva se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos en estudio. Los datos pueden ser resumidos en forma numrica y/o grfica.
Estadstica inferencial
Esta comprende los mtodos y procedimientos para deducir propiedades (hacer inferencias) de una poblacin, a partir de una pequea parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin).
7
01 Estadstica descriptiva
Diego Andrs Alvarez Marn Profesor Asistente Universidad Nacional de Colombia Sede Manizales
Contenido
Definiciones bsicas Medidas de tendencia no central Medidas de tendencia central Medidas de dispersin Momentos Representacin grfica de la informacin
Histogramas
10
Definiciones
Se quiere estudiar una poblacin. Sin embargo por razones prcticas se analiza una muestra de la poblacin. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular ciertas caractersticas de la muestra llamadas estadsticas.
Poblacin: es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La poblacin es la coleccin de toda la informacin que caracteriza un fenmeno. Muestra estadstica (o aleatoria): es un subconjunto representativo de individuos de la poblacin Muestreo: es la tcnica por la cual se selecciona una muestra a partir de una poblacin Una estadstica es el resultado de aplicar una funcin a un conjunto de datos.
Definiciones de percentil
Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos
Observe que MS EXCEL y MATLAB calculan los percentiles con diferentes algoritmos
Media aritmtica (o promedio) Mediana Moda Media geomtrica Media armnica Media acotada (o media truncada)
21
22
Mediana
23
Mediana
24
Mediana
25
Media geomtrica
26
Media geomtrica
La media geomtrica es relevante cuando varias cantidades son multiplicadas para producir un total, o cuando los nmeros son de naturaleza exponencial, como por ejemplo el crecimiento de la poblacin mundial o las tasas de inters de una inversin financiera. La media geomtrica es menos sensible que la media aritmtica a los valores extremos.
27
Ejemplo
28
29
Media armnica
30
Ejemplo
31
Ejemplo
32
Media armnica
33
Moda
34
35
Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda
36
MEDIA.ACOTADA(datos;porcentaje)
Calcula la media de un conjunto de datos despus de eliminar el porcentaje de los extremos inferior y superior de los puntos de datos. Puede utilizar esta funcin cuando desee excluir del anlisis los valores extremos. porcentaje es el nmero fraccionario de puntos de datos que se excluyen del clculo. Por ejemplo, si porcentaje = 0,2, se eliminarn cuatro puntos de un conjunto de datos de 20 puntos (20 x 0,2), dos de la parte superior y dos de la parte inferior.
37
Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para calcular la moda
38
Media generalizada
Media ponderada
Punto medio
39
Notas varias
La media armnica es siempre inferior a la media geomtrica, que a su vez es siempre inferior a la media aritmtica. http://en.wikipedia.org/wiki/Inequality_of_arithm etic_and_geometric_means http://en.wikipedia.org/wiki/Pythagorean_means
Ver:
40
Medidas de dispersin
La dispersin de los datos se puede atribuir a pequeas diferencias de construccin, a mano de obra deficiente, errores humanos, variabilidad inherente al material, as como a errores en las observaciones y en las mediadas. Las medida de dispersin miden la variabilidad de un conjunto de datos. Una medida de dispersin es un nmero real no negativo, que es cero si todos los dtos son idnticos, y se incrementa a medida que las observaciones son ms diversas.
41
Medidas de dispersin
Varianza Desviacin estndar Desviacin media Desviacin mediana Rango (o recorrido) Rango (o recorrido) intercuartil Rango (o recorrido) interdecil
42
44
Correccin de Bessel
Aunque intuitivamente la frmula de la desviacin estndar (varianza) poblacional es la que se debe usar (denominador n), SIEMPRE que se quieren hacer inferencias acerca de una poblacin, se debe utilizar la desviacin estndar (varianza) muestral (denominador n-1). Las razones de esto se entendern en el Captulo ***.
45
Recorrido o rango
46
47
Desviacin media (mean absolute deviation - MAD) Desviacin mediana (median absolute deviation)
48
Nota final
A pesar que la media aritmtica y la desviacin estndar han sido empleadas de manera extensa como medidas de tendencia central y dispersin respectivamente, estas no son siempre las medidas ms deseables. Su uso es popular por su varias propiedades tericas que las hacen muy manipulables desde el punto de vista matemtico.
50
http://en.wikipedia.org/wiki/Moment_(mathematics) http://en.wikipedia.org/wiki/Mean_difference
Diferencia media
51
52
Haga Alt+F11 para ingresar el cdigo Insertar Mdulo Copy+Paste cdigo Grabar como .xlsm
Como la funcin para calcular la desviacin mediana no existe en MS EXCEL 2007, debemos crear la funcin usando Visual Basic for Applications (VBA)
53
54
Los valores atpicos pueden ser indicativos de datos que pertenecen a una poblacin diferente del resto de la muestra establecida. No existe una definicin matemtica de lo que constituye un valor atpico; este es un ejercicio subjetivo.
56
57
58
Momentos
Coeficiente de asimetra
Ver: http://en.wikipedia.org/wiki/Skewness
Curtosis
Ver: http://en.wikipedia.org/wiki/Kurtosis
59
Histogramas
Un histograma es una representacin grfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables.
Datos
Suponga que los siguientes nmeros representan el consumo en m3 de agua por da de una poblacin (observe que estn ordenados ascendentemente). Elabore el histograma de dichos datos.
2298 3205 3325 3609 3918 3992 4057 4188 4289 4363 4377 4448 4450 4524 4536 4565 4591 4657 4666 4670 4724 4737 4763 4784 4816 4817 4852 4887 4905 4908 4923 4941 4993 4998 5035 5041 5058 5142 5152 5152 5330 5535
Rango es igual al dato mayor menos el dato menor. Rango = 5535 - 2298 = 3237
4188 4289 4363 4377 4448 4450 4524 4536 4565 4591 4657 4666 4670 4724 4737 4763 4784 4816 4817 4852 4887 4905 4908 4923 4941 4993 4998 5035 5041 5058 5142 5152 5152 5330 5535
Establecer la longitud de clase: es igual al rango dividido entre el nmero de clases Lngitud de la clase = 3237/7 = 462.4
Tenga en cuenta...
La normalizacin del histograma La frecuencia relativa refleja la proporcin de la observaciones contenidas en una clase Cuando los intervalos de clase son idnticos, el rea de los rectngulos representa las frecuencias. Sin embargo, cuando la longitud de los intervalos es diferente, las reas no representan la frecuencia. Por lo tanto se debe ajustar la altura de los rectngulos para que sus reas sean proporcionales a la frecuencia.
Se obtiene graficando en el eje vertical la frecuencia relativa acumulada de una clase contra el lmite inferior de la siguiente clase sobre el eje horizontal y uniendo todos los puntos consecutivos.
Percentil 80
Nmero de clases
No existe una forma nica de escoger el nmero de intervalos. Esto por lo tanto se deja a criterio del analista. Sin embargo, existen algunas recomendaciones (las cuales generalmente hacen suposiciones sobre la forma de los datos): El nmero de clases depende del nmero total de observaciones
Mi recomendacin:
Fuente: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
Referencias bibliogrficas
Sturges, H. A. (1926). The choice of a class interval. J. American Statistical Association: 6566. Scott, D. W. (1979). On optimal and data-based histograms. Biometrika. 66 (3): 605610 Freedman, D. and Diaconis, P. (1981). On the histogram as a density estimator: L2 theory. Zeitschrift fr Wahrscheinlichkeitstheorie und verwandte Gebiete. 57 (4): 453476 Shimazaki H. and Shinomoto S. (2007), A method for selecting the bin size of a time histogram Neural Computation. 19(6), 1503-1527
U.S. Census Bureau tiempo de viaje al trabajo. El censo encontr que 124 millones de personas trabajan fuera de su casas.
Fuente: http://www.census.gov/prod/2004pubs/c2kbr-33.pdf
Kernel smoothing methods (tambien llamado ventanas de Parzen (Parzen windows). El comando de MATLAB asociado es ksdensity.
Ver: http://en.wikipedia.org/wiki/Kernel_density_estimation
Generalizacin de histograma
Existen otro mtodos basados en la utilizacin de polinomios ortogonales de Legendre. Ver por ejemplo: X.B. Li y F.Q. Gong (2009). A method for fitting probability distributions to engineering properties of rock masses using Legendre orthogonal polynomials. Structural Safety. Volume 31, Issue 4, July 2009, Pages 335-343
Applying the Gram-Schmidt process to the functions 1, x, x^2, ... on the interval [-1,1] with the usual L^2 inner product gives the Legendre polynomials