You are on page 1of 29

Estadística Inferencial

(Esta unidad tiene filminas con fondo verde y otras con fondo blanco.
Las de fondo verde son las más importantes)
Muestra Población

Estadístico Parámetro

Valor variable Valor fijo!!!!!!

Conocido Desconocido
(Certeza) (Probabilidad)

En estadística inferencial, generalizamos los


resultados obtenidos de una muestra a la población a
la que pertenece, conociendo la confianza que
depositamos en nuestras conclusiones o el nivel de
error que podemos estar cometiendo.
• Cuando hacemos inferencia, no tenemos certeza de
que lo que observamos en la muestra se pueda
generalizar a la población.
• La estadística inferencial cuantifica la probabilidad
de que lo que estoy observando en una muestra
ocurra en la población a la cual pertenece dicha
muestra, dentro de unos márgenes de error

La muestra debe ser seleccionada aleatoriamente

• Dos grandes objetivos:


-Estimación de parámetros
-Prueba de hipótesis
Estimación de parámetros
• Existe una amplia gama de técnicas para
estimar parámetros a partir de estadísticos
muestrales.

• La base teórica se sustenta en la distribución


de probabilidades del estadístico (estimador)
calculado en cada una de las muestras
posibles.
Estimadores
• El estimador es un estadístico.
• Una estimación es el valor que asume el
estimador al aplicar la fórmula del estadístico
en una muestra.
– Ej: Estimador de una MEDIA POBLACIONAL
podría ser una media muestral, una mediana
muestral..
– Una estimación de la Media de ingresos
poblacional es el valor de la media de ingresos
obtenida en una muestra específica.
Los mejores estimadores
Media muestral (𝑥)ҧ Media Poblacional (μ)

Proporción muestral (p) Proporción Poblacional (P)

Desviación estándar Desviación estándar


muestral (s) Poblacional (σ)
Propiedades de los buenos
estimadores
• INSESGADO (un estimador es insesgado si su
media/esperanza es igual al parámetro).

• PRECISO (un estimador es más preciso que otro si su varianza


es menor.)

• CONSISTENTE (un estimador es consistente si al aumentar la


muestra la estimación se acerca al parámetro, es decir,
aumenta la precisión)

• DISTRIBUCION ASINTÓTICA NORMAL (un estimador es


asintóticamente normal si además de ser insesgado y preciso,
tiene distribución normal cuando la muestra es grande)
Sesgo y precisión
Estimación de parámetros
Puntual: se estima que el valor del parámetro
tiene el mismo valor que el estadístico observado
(estimación realizada)

Por intervalos: se dice q el parámetro θ estará


en un intervalo (a; b: INTERVALO DE CONFIANZA)
que tiene como punto central el estadístico
observado. a < θ < b
Recapitulando..
• En la unidad 7 vimos:
𝝈 𝝈
P(𝝁 − 𝒛 ≤𝒙
ഥ≤𝝁+𝒛 )=??
𝒏 𝒏

para probabilidad de el z es
(Conocidos los Parámetros (𝝁 y 𝝈 en este caso), 0,90 ±1,645
podemos saber cómo se distribuyen los estadísticos 0,95 ±1,96
𝒙 en este caso)
muestrales/estimadores (ഥ 0,99 ±2,576

Ej: sabemos que el 95% de las medias de las muestras estarán entre el
parámetro 𝝁 y ±1,96 unidades de desvío estándar.
Suponíamos conocido el parámetro.
Ahora desconocemos el parámetro y sólo conocemos UNA
media muestral (la de mi única muestra).
Solución: despejamos 𝝁
Ejemplo (en base a lo que vimos en la unidad 7)
Si el parámetro es la media poblacional 𝝁 y
ഥ, decimos que el parámetro
el estimador es 𝒙
estará en un intervalo a y b (llamado
intervalo de confianza), que tiene como
ഥ:
punto central a 𝒙
𝒂≤𝝁≤𝒃
𝝈 𝝈
ഥ−𝒛
𝒙 ≤ 𝝁 ≤ ഥ𝒙 + 𝒛
𝒏 𝒏
𝝈
a b 𝒙−𝒛
a=ഥ
𝒏
𝝈
𝒙+𝒛
b=ഥ
𝒏
Estimación por intervalos. Conceptos
• b y a son los límites del “intervalo de confianza”
• b-a: amplitud del intervalo. Mientras más pequeño,
más preciso.
• coeficiente/nivel de confianza (1-α ): es la probabilidad
de que un intervalo contenga al parámetro. Es un valor
fijado por el investigador antes de comenzar la estimación
(oscila entre 0,90 y 0,99). Ej: 95% (tengo una confianza del
95% de que el intervalo contiene al parámetro)
P(a ≤ θ ≤ b) = 1- α
𝝈 𝝈
𝒙−𝒛
P(ഥ ≤𝝁≤𝒙
ഥ+𝒛 ) =𝟏−𝜶
𝒏 𝒏
Ej. Nivel de confianza
Si el investigador decide
trabajar con una confianza del
95%, el razonamiento es el
siguiente:

Si se obtuvieran 100 muestras


aleatorias de igual tamaño y en cada una
se calcula la media muestral y se
calculan los intervalos de confianza (IC)
para el parámetro, 95 IC contendrán al
verdadero valor del parámetro, mientras
que 5 no lo contendrán.
Estimación por intervalos de μ
Pasos de la estimación:
1. Se fija un nivel de confianza (por ej: 95%).
P(a ≤ μ ≤ b)= 1- α = 95%
(objetivo: calcular los límites del intervalo (a y b))

2. Se define una muestra de tamaño n


3. Estimamos μ a partir de un estimador (elegimos la media
muestral 𝒙ഥ, ya que es el mejor estimador).
4. Estimamos los límites del intervalo (a y b)
𝝈 𝝈
𝒙 − 𝐳.
P(ഥ ≤𝝁 ≤ ഥ𝒙+ 𝒛. )=1- α
𝒏 𝒏

a b
Ejemplo
Se quiere conocer la cantidad de horas promedio que trabajan las
personas en la ciudad de Córdoba. Se realiza una muestra (EPH)
de n=1.000 personas en la que se obtiene una media de 40 hs
semanales, con una desviación de 20hs.
Estime el intervalo de confianza de la cantidad de horas promedio
que trabajan las personas en la ciudad de Córdoba, para una
confianza del 95% .
 
P( x  1,96    x  1,96 )  0,95
ഥ= 40
𝒙 n n
𝒔 = 20 
a  x  1,96
n
n = 1.000

b  x  1,96
n
Estimación por intervalos de la proporción P
Recapitulando..
En la unidad 7 vimos que la distribución de la proporción
𝑷𝑸 𝑷𝑸
ෝ es Normal: 𝒑
muestral 𝒑 ෝ~ 𝑵(𝑷, ) con media P y 𝒔 =
𝒏 𝒏

Esto implica que, si se conoce P (el parámetro Proporción), es


posible conocer cómo se distribuyen todas las proporciones
muestrales pො
𝑷𝑸 𝑷𝑸
• P(𝑷 − 𝒛 ≤ 𝒑ෝ ≤ 𝑷 + 𝒛 )=??
𝒏 𝒏
para probabilidad de el z es
0,90 ±1,645
0,95 ±1,96
0,99 ±2,576

Sabemos que el 95% de las proporciones muestrales 𝒑
𝑷𝑸
quedarán comprendidas entre P y ±1,96
𝒏

𝑷𝑸 𝑷𝑸
• P(𝑷 − 𝟏, 𝟗𝟔 ≤ 𝒑ෝ ≤ 𝑷 + 𝟏, 𝟗𝟔 )=0,95
𝒏 𝒏
De manera que si extraemos una única muestra, ella tiene una
𝑷𝑸
probabilidad de 0,95 de encontrarse entre el parámetro y ± 1,96
𝒏
.
Ej de la unidad anterior (unidad 7, filmina 32)
• La pobreza en Córdoba alcanza el 20% de la población. Si se realizan
infinitas muestras de n=100, entre qué niveles (proporciones) de pobreza
quedará comprendido el 95% central de las muestras?
𝑷𝑸 𝑷𝑸
P(𝑷 − 𝒛 ≤ 𝒑ෝ ≤ 𝑷 + 𝒛 )=95 %
𝒏 𝒏

𝟎,𝟐∗𝟎,𝟖 𝟎,𝟐∗𝟎,𝟖
Si n=100 P(𝟎, 𝟐 − 𝟏, 𝟗𝟔 ≤ ෝ𝒑 ≤ 𝟎, 𝟐 + 𝟏, 𝟗𝟔 )=95%
𝟏𝟎𝟎 𝟏𝟎𝟎

• Y si las muestras son de n=500 casos?


𝟎,𝟐∗𝟎,𝟖 𝟎,𝟐∗𝟎,𝟖
• Si n=500 P(𝟎, 𝟐 − 𝟏, 𝟗𝟔 ≤ ෝ𝒑 ≤ 𝟎, 𝟐 + 𝟏, 𝟗𝟔 )=95%
𝟓𝟎𝟎 𝟓𝟎𝟎

𝟏, 𝟗𝟔
𝑷𝑸 Si n=100, el 95% de las muestras tendrán su
𝒏
n z p q proporción entre P=0,2 ±0,078
100 1,96 0,2 0,8 0,078
500 1,96 0,2 0,8 0,035 Si n=500, el 95% de las muestras tendrán su
proporción entre P=0,2 ±0,035
Si se extrae una única muestra de n=100 casos, cuál es la probabilidad de que se encuentre
entre el parámetro P y ±0,078? (es decir, entre 0,122 y 0,278)
Si se extrae una única muestra de n=500 casos, cuál es la probabilidad de que se encuentre
entre el parámetro P y ±0,035? (es decir, entre 0,165 y 0,235)
• En la práctica, desconocemos P y sólo conocemos la
proporción 𝒑ෝ en una única muestra. Queremos estimar el
ෝ.
parámetro P a partir de 𝒑
𝑷𝑸 𝑷𝑸
• En la fórmula P(𝑷 − 𝒛 ≤ 𝒑ෝ ≤ 𝑷 + 𝒛 )=95 %
𝒏 𝒏

𝑷𝑸 𝑷𝑸
• Despejamos P P(𝒑ෝ − 𝒛 ≤ 𝑷 ≤ 𝒑ෝ + 𝒛 )=95 %= 1- α
𝒏 𝒏

ෝ en la única muestra de n=100 es 0,18, digo que “con una


Si el valor de 𝒑
confianza del 95%, el parámetro P se encuentra entre 𝟎, 𝟏𝟖±0,078
(qué valor asumen los límites a y b del intervalo? a=0,18-0,078; b=0,18+0,078).

ෝ en la única muestra de n=500 es 0,18, digo que “con una


Si el valor de 𝒑
confianza del 95%, el parámetro P se encuentra entre 𝟎, 𝟏𝟖 ±0,035
(qué valor asumen los límites a y b del intervalo?)
Estimación por intervalos de la proporción P
Resumen. Pasos de la estimación:
1. Se fija un nivel de confianza (por ej: 95%).
P(a ≤ P ≤ b)= 1- α = 95%
(objetivo: calcular los límites del intervalo (a y b))
2. Se define una muestra de tamaño n.
3. Estimamos P a partir de un estimador (elegimos la proporción
muestral 𝒑ෝ , ya que es el mejor estimador).
4. Estimamos los límites del intervalo (a y b)

𝑷𝑸 𝑷𝑸 𝑷𝑸
P(𝒑ෝ − 𝐳. ≤ 𝑷 ≤𝒑ෝ + 𝒛. )=1- α 𝒑ෝ ~ 𝑵(𝑷, )
𝒏 𝒏 𝒏
Ejemplo
Se desea conocer la proporción de población
analfabeta de la ciudad de Córdoba. Se realiza una
muestra (EPH) de 2000 personas y se obtiene una
proporción de 8% de analfabetos.
a. Estime el intervalo de confianza para la ciudad de
Córdoba, a un nivel de confianza del 95%.
b. Estime el intervalo de confianza para la ciudad de
Córdoba, a un nivel de confianza del 99%.

𝒑𝒒 𝒑𝒒
P(𝒑 − z1 ≤𝑷 ≤ 𝒑+z2. )=1- α
𝒏 𝒏
Error de la estimación
Error de muestreo
• Se define como la diferencia absoluta
entre el estimador y el parámetro

e x
x e
z z
/ n / n
𝝈
• Despejando: e=z.
𝒏
De qué depende el nivel de error?
Nivel de error en la estimación
• Depende de:

– Confianza con la que queremos trabajar (z)


– Homogeneidad/heterogeneidad de la variable
en la población (σ)
– Tamaño de la muestra (n)
Ejemplo 1
• En el ejemplo de la población analfabeta,
¿cuál es el valor del error en la
estimación?
• Si se desea reducir ese nivel de error,
¿qué posibilidades tengo?
– Aumentar la confianza?
– Reducir la confianza?
– Aumentar el tamaño de muestra?
– Reducir el tamaño de muestra?
Ejemplo 2
• En el ejemplo de la cantidad de horas de
trabajo, ¿cuál es el valor del error en la
estimación?
• Si se desea reducir ese nivel de error,
¿qué posibilidades tengo?
– Aumentar la confianza?
– Reducir la confianza?
– Aumentar el tamaño de muestra?
– Reducir el tamaño de muestra?
Tamaño de la muestra (n)

• Dijimos que: e  z. Para muestras con
reemplazo o N grande
n
• Despejando n:
𝐳 𝟐 𝛔𝟐
𝒏 = 𝐧𝟎 = 𝟐
• n depende de: 𝒆
– Confianza con la que queremos trabajar
(determinado por z)
– Homogeneidad/heterogeneidad (σ) de la
variable en la población
– Error que estamos dispuestos a cometer (e)
Si la población es finita, realizamos
un ajuste
Para muestras sin

𝐳 𝟐 𝛔𝟐 reemplazo o N chico

𝐧𝟎 = 𝟐
𝒆

𝒏𝟎 ∗ 𝑵
𝐧=
𝑵 + (𝒏𝟎 − 𝟏)
Ejemplo
• En el ejemplo de la población analfabeta,
si se desea mantener el error encontrado
(con una confianza de 95%), pero
aumentando el nivel de confianza a un
99%. ¿cuál será el tamaño de muestra
que se necesita?
• Y si se deseara seguir trabajando con una
confianza del 95%, pero reduciendo el
nivel de error a un 0,005, qué debemos
hacer?
Qué es α??
α se conoce como Riesgo de la estimación:

• Es la probabilidad de que el intervalo no


contenga al parámetro
(es el complemento de la confianza)