You are on page 1of 35

Introducción

Los administradores aplican alguna técnica estadística a prácticamente todas las


ramas de las empresas públicas y privadas. Estas técnicas son tan diversas que los
estadísticos, por lo general, las dividen en dos grandes categorías: estadística
descriptiva y estadística inferencial. Algunos ejemplos nos serán de ayuda para
entender la diferencia entre las dos.
En la actualidad en el marco de los criterios de la Administración de la calidad y de
la productividad, así como en la aplicación de los sistemas de gestión de calidad
orientados a la toma de decisiones es imprescindible la aplicación de la Estadística
tanto descriptiva y en cierta medida la estadística inferencial, que a su vez
proporcionan elementos de confiabilidad que científicamente sustenten la decisión
tomada.
Los especialistas en estadística seleccionan sus observaciones de manera que
todos los grupos relevantes estén representados en los datos. Para determinar el
mercado potencial de un nuevo producto, por ejemplo, los analistas podrían estudiar
cien consumidores de cierta área geográfica. Dichos analistas deben tener la
certeza de que este grupo incluya personas que representan distintas variables
como nivel de ingresos, raza, nivel educativo y vecindario. Los datos pueden
provenir de observaciones reales o de registros elaborados con otros propósitos.
Por ejemplo, con fines de facturación e informes médicos, un hospital registra el
número de pacientes que utilizan los servicios de rayos X. Esta información puede
organizarse para producir datos que los especialistas en estadística puedan
describir e interpretar. Los datos pueden ayudar a los responsables de tomar
decisiones a hacer suposiciones razonadas acerca de las causas y, por tanto, de
los efectos probables de ciertas características en situaciones dadas. El
conocimiento de tendencias derivado de la experiencia previa puede, también,
permitir a los ciudadanos conscientes anticipar resultados posibles y actuar en
consecuencia. Una investigación de mercado puede revelar que determinado
producto es preferido por amas de casa de origen afroamericano de las
comunidades suburbanas, con ingresos y educación promedios. Los textos
publicitarios del producto deberán, por tanto, estar dirigidos a esta audiencia.

RAMIREZ MIXTEGA MARIA JOSE “309C”


1
Índice
UNIDAD 2
ANÁLISIS DE REGRESIÓN LINEAL Y MÚLTIPLE
2.7 Análisis de regresión múltiple y correlación. ………………………………..
2.8 Residuales y graficas de residuales. ………………………………………....
2.9 Interpretación del intervalo de confianza. …………………………………...
2.10 Uso del coeficiente de determinación múltiple. …………………………....

UNIDAD 3
SERIES DE TIEMPO
3.6 Tendencias irregular. ……………………………………………………………
3.7 Pronostico basado en factores de tendencia y estacionales. ……………..
3.8 Pronósticos, ciclos e indicadores económicos. ……………………………..
3.9 Técnica y uso de promedios móviles y suavización exponencial en las
organizaciones. ……………………………………………………………………..
3.10 Ventajas y desventajas del análisis de las series de tiempo. …………….

UNIDAD 4
ESTADÍSTICA NO PARAMETRICA
4.1 Escalas de medición. …………………………………………………………….
4.2 Métodos estadísticos paramétricos contra no paramétricos. ……………….
4.3 Pruebas de rachas para aleatoriedad. …………………………………………
4.4 Una muestra: prueba de signos. ………………………………………………..
4.5 Una muestra: prueba de Wilcoxon. …………………………………………….

RAMIREZ MIXTEGA MARIA JOSE “309C”


2
4.6 Dos muestras: prueba de Mann-Whitney. ………………………………………
4.7 Observaciones pareadas: pruebas de signos. …………………………………
4.8 Observaciones pareadas prueba de Wilcoxon. ………………………………..
4.9 Varias muestras independientes: prueba de Krauskal-Wallis. ……………….
4.10 Aplicaciones con el uso de software. …………………………………………..

UNIDAD 2
ANALISIS DE REGRESION LINEAL Y MULTIPLE.

El Análisis de Regresión Lineal Múltiple nos permite establecer la relación que se


produce entre una variable dependiente Y y un conjunto de variables independientes
(X1, X2,... XK). El análisis de regresión lineal múltiple, a diferencia del simple, se
aproxima más a situaciones de análisis real puesto que los fenó- menos, hechos y
procesos sociales, por definición, son complejos y, en consecuencia, deben ser
explicados en la medida de lo posible por la serie de variables que, directa e
indirectamente, participan en su concreción.
Al aplicar el análisis de regresión múltiple lo más frecuente es que tanto la variable
dependiente como las independientes sean variables continuas medidas en escala
de intervalo o razón. No obstante, caben otras posibilidades: (1) también podremos
aplicar este análisis cuando relacionemos una variable dependiente continua con
un conjunto de variables categóricas; (2) o bien, también aplicaremos el análisis de
regresión lineal múltiple en el caso de que relacionemos una variable dependiente
nominal con un conjunto de variables continuas.
La anotación matemática del modelo o ecuación de regresión lineal múltiple es la
que sigue:
Y = a + b1x1 + b2x2 + ... + bnxn + e
ó
Presente = a + b1pasado + b2futuro + e
En donde:
Y es la variable a predecir;
a, b1x1, b2x2... bnxn, son parámetros desconocidos a estimar; y e es el error que
cometemos en la predicción de los pará- metros.

RAMIREZ MIXTEGA MARIA JOSE “309C”


3
Al ocuparnos del análisis lineal bivariado, análisis de regresión simple, vimos como
el modelo final resultante podía ser calificado 1. Introducción Capítulo 4 Análisis de
Regresión Múltiple Capítulo 4 Análisis de Regresión Múltiple • 4 • Estadística
Informática: casos y ejemplos con el SPSS de un “buen modelo”. Sin embargo, en
muchas ocasiones los modelos bivariados o simples pueden verse mejorados al
introducir una segunda (tercera, cuarta,...) variable independiente o explicativa.
Consideramos que un modelo de regresión lineal simple se ha “mejorado” cuando
al introducir en el mismo más variables independientes la proporción de variabilidad
explicada se incrementa. Pero ¿qué variables son las que mejor explican el hecho,
proceso o fenómeno social objeto de estudio?; o, ¿qué variables no son necesario
incluir en el modelo dada su nula o escasa capacidad explicativa? Esta es, sin lugar
a dudas, la decisión más importante ligada al análisis de regresión múltiple y la
inclusión de este proceso es lo que diferencia, sustancialmente, al análisis de
regresión múltiple del de regresión simple.

RAMIREZ MIXTEGA MARIA JOSE “309C”


4
2.7 ANALISIS DE REGRESION MULTIPLE Y
CORRELACION.

Al trabajar con dos variables cuantitativas podemos estudiar la relación que existe
entre ellas mediante la correlación y la regresión. Aunque los cálculos de
ambas técnicas pueden ser similares en algunos aspectos e incluso dar resultados
parecidos, no deben confundirse. En la correlación tan solo medimos la dirección y
la fuerza de la asociación de una variable frente a la otra, pero nunca una relación
de causalidad. Solo cuando tenemos una variable que es causa o depende de otra,
podremos realizar entonces una regresión. En este capítulo estudiaremos dos de
los coeficientes de correlación más utilizados, como el coeficiente de Pearson y el
coeficiente no paramétrico de Spearman. También veremos un ejemplo
de regresión lineal simple y cómo se deben interpretar sus resultados.

Coeficiente de correlación de Pearson (r)


Si tenemos dos variables cuantitativas y deseamos medir el grado de asociación
podemos utilizar el coeficiente de correlación de Pearson. En primer lugar, es muy
aconsejable realizar un gráfico de dispersión entre ambas variables y estudiar
visualmente la relación entre ellas. Este coeficiente mide asociación lineal y al ser
una prueba paramétrica requiere para su uso que ambas variables tengan
distribuciones normales1. De no ser así, deberemos utilizar el coeficiente no
paramétrico de Spearman.
El coeficiente de correlación de Pearson (r) puede tomar valores entre -1 y +1, de
modo que un valor de "r" positivo nos indica que al aumentar el valor de una variable
también aumenta el valor de la otra (Figura 1A), y por el contrario, "r" será negativo
si al aumentar el valor de una variable disminuye la otra (Figura 1B). La correlación
será perfecta si r= ±1, en este caso los puntos formarán todos una recta. Es
importante a priori determinar qué valor de "r" vamos a considerar como
clínicamente relevante, puesto que una correlación tan baja como r= 0,07 sería
significativa (p=0,027) con un tamaño muestral de unas 1000 personas. Al igual que
cualquier otro parámetro, conviene darlo con sus correspondientes intervalos de
confianza. Un coeficiente de correlación significativo, lo único que nos indica es que
es bastante improbable que en nuestra población "r" sea cero, y por tanto su
intervalo de confianza no incluirá el cero.

RAMIREZ MIXTEGA MARIA JOSE “309C”


5
Figura 1. El coeficiente de correlación de Pearson.

Ejemplo:
10 agentes de computadoras 60 Usuarios Llamadas Ventas 50 Usuario1 20 30
Usuario2 40 60 40 Ventas Usuario3 20 40 Usuario4 30 60 30 Usuario5 10 30
Diagrama de dispersión Usuario6 10 40 20 Usuario7 20 40 Usuario8 20 50 10
Usuario9 20 30 Usuario10 30 70 10 20 30 40 50 60 70Hipótesis: A mayor llamadas
mayores ventas tendrá en el mes llamadas
Retroalimentación
• Variable dependiente:: Es la que se predice o calcula.• Variable independiente: La
variable que proporciona las bases para el cálculo. Es el valor de predicción.• Las
llamadas será la variable independiente
• Las ventas será la variable dependiente• A mayor número de llamadas
mayores ventas.
Correlación
• Describe la intensidad de la relación entre dos conjuntos de variables de nivel de
intervalo. r = -1 r = +1
Regresión invariada• Y´ = a + bx - regresión lineal.

RAMIREZ MIXTEGA MARIA JOSE “309C”


6
2.8 RESIDUALES Y GRAFICAS RESIDUALES

Análisis de residuos. Gráficos.

Como se ha indicado anteriormente, el análisis de los residuos es básico para


chequear si se verifican las hipótesis del modelo de regresión. Por ello, a
continuación se exponen las propiedades matemáticas de los mismos. Considérese
el modelo de regresión lineal múltiple

Los residuos mínimo-cuadráticos vienen dados por

o en forma matricial

Como = H , siendo H = X -1Xt la matriz de proyección ortogonal. Es fácil

probar que la matriz H es idempotente y simétrica . En base a


esto

= - = -H = =
= X + -HX -H = ,
Donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,

Por tanto, ei es una variable aleatoria con distribución

(9.9)

Donde hii es el valor de influencia de i. que mide la “distancia estadística” de i. a


Un residuo “grande” indica que la observación está lejos del modelo estimado y, por

RAMIREZ MIXTEGA MARIA JOSE “309C”


7
tanto, la predicción de esta observación es mala. Las observaciones con residuos
grandes se denominan observaciones atípicas o heterogéneas (outliers).

Como los residuos tienen varianza variable y son dimensionados (tienen las
unidades de la variable Y ), normalmente se tipifican

(9.10)

Los residuos tipificados siguen una distribución normal estándar, pero como 2 es
desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen
los residuos estandarizados, definidos como

(9.11)

Por la hipótesis de normalidad los residuos estandarizados siguen una


distribución t con n- grados de libertad. Como ya se indicó en el estudio del
modelo de regresión lineal simple, en el cálculo de ri existe el problema de que hay
una relación de dependencia entre el numerador y el denominador de ri. Para
evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el
estimador R, , la varianza residual del modelo de regresión obtenido a partir de la
muestra en la que se ha eliminado la observación . Ahora se definen
los residuos estudentizados como

(9.12)

Los residuos estudentizados siguen una distribución t con - grados de


libertad. Si el tamaño muestral es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes
los residuos estandarizados tales que > 2.

Con los residuos estandarizados o estudentizados se pueden construir los


siguientes gráficos de interés, muchos de los cuales ya han sido comentados,

El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y


regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer
gráfico que se debe observar. Proporciona una primera idea de la existencia de
relación lineal o de otro tipo entre la respuesta y las regresoras y también da una
idea de posibles relaciones lineales entre las variables regresoras, lo que crea
problemas de multicolinealidad.

RAMIREZ MIXTEGA MARIA JOSE “309C”


8
El gráfico de dispersión matricial para los datos del Ejemplo 7.1. se representa en
la Figura 9.2.

Figura 9.2. Gráfico matricial con los datos del Ejemplo 7.1.

El histograma de los residuos, que sirve para observar la existencia de


normalidad, simetría y detectar observaciones atípicas.
El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de
simetría, que permite contrastar la normalidad (simetría) de la distribución de los
residuos.
El gráfico de residuos frente a las predicciones , que permite
detectar diferentes problemas:

Heterocedasticidad, la varianza no es constante y se deben de transformar los datos


(la variable Y ) o aplicar mínimos cuadrados ponderados.
Error en el análisis, se ha realizado mal el ajuste y se verifica que los residuos
negativos se corresponden con los valores pequeños i y los errores positivos se
corresponden con los valores grandes de i, o al revés.
El modelo es inadecuado por falta de linealidad y se deben de transformar los datos
o introducir nuevas variables que pueden ser cuadrados de las existentes o
productos de las mismas. O bien se deben introducir nuevas variables explicativas.
Existencia de observaciones atípicas o puntos extremos.

RAMIREZ MIXTEGA MARIA JOSE “309C”


9
Tener en cuenta que se debe utilizar el gráfico de residuos frente a
las predicciones en lugar del gráfico de residuos frente a las
observaciones porque las variables e están correladas, mientras que las
variables e no lo están.
El gráfico de residuos frente a una variable explicativa , permite deducir si
la existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas
a la variable explicativa representada.

Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera
de ellas se observa que la relación con la variable xj no es lineal y, probablemente,
un ajuste cuadrático sea adecuado, también se tendrían dudas acerca de la
homocedasticidad del modelo.

Figura 9.3. Gráfico de residuos frente a variable regresora. Ajuste no lineal.

En la Figura 9.3 se observa que el modelo es heterocedástico y la causa de este


problema puede ser la variable explicativa xj. Por ello, la solución se basa en
transformar el modelo teniendo en cuenta este hecho.

RAMIREZ MIXTEGA MARIA JOSE “309C”


10
Figura 9.4. Gráfico de residuos frente a variable regresora. Heterocedasticidad.

El gráfico de residuos frente a una variable omitida, permite valorar si


esta variable influye en el modelo y por lo tanto se debe incluir como una nueva
variable regresora.

En la Figura 9.5. De residuos frente a una variable omitida se observa que


existe una relación lineal con esta variable y por tanto se mejora el ajuste si se
incluye la variable xomit.

Figura 9.5. Gráfico de residuos frente a variable omitida.


Una situación frecuente se produce cuando se tienen observaciones de diferentes
poblaciones y se debe de incluir una variable de clasificación en el modelo de
regresión. Esto se puede observar en el gráfico de residuos frente a predicciones
como se puede ver en la Figura 9.6.

Figura 9.6. Necesidad de una variable de clasificación.

RAMIREZ MIXTEGA MARIA JOSE “309C”


11
El gráfico de los residuos frente a la variable de clasificación omitida se presenta en
la Figura 9.7.

Figura 9.7. Residuos frente a variable de clasificación omitida.


El gráfico parcial de residuos, es útil para valorar la influencia real de una variable
regresora, esto es, conocer la información nueva que aporta la variable regresora
en estudio y que no aportan las otras variables regresoras.

Según el paquete estadístico que se utilice los gráficos parciales de residuos se


pueden construir de diferentes formas.

Tipo 1.

Si se tienen k variables regresoras y se desea obtener el gráfico


parcial de residuos respecto a la variable xk, se procede de la siguiente forma:

1. se calcula el modelo de regresión respecto a las


restantes variables regresoras,

2. Se calculan los residuos

Que representan la parte de Y no explicada por las variables x1,x2,...,xk-1.

3. Por tanto, la gráfica de los residuos “parciales” ek* frente a la


variable xk permite valorar la importancia real de esta variable.

Tipo 2.

RAMIREZ MIXTEGA MARIA JOSE “309C”


12
Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma.
Calcular

*
k = + k k = + k k

= -
Se obtiene un nuevo gráfico parcial representando los residuos
“parciales” k* frente a la variable xk.

Si la variable xk es ortogonal a las restantes variables explicativas los estimadores


*
i y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los
vectores ek* y k * . Lo que hace que los dos gráficos de residuos parciales sean casi
iguales en este caso.

Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se
observa que existe una relación lineal entre las variables regresoras y la variable de
interés.

Figura 9.8. Gráfico parcial con los datos del Ejemplo 7.1. (altura)

Figura 9.9. Gráfico parcial con los datos del Ejemplo 7.1. (diámetro)

RAMIREZ MIXTEGA MARIA JOSE “309C”


13
Tipo 3.

Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos es


el siguiente (se quiere calcular el gráfico parcial respecto a xk):

Se calculan los modelos de regresión de las variables Y y xk respecto a las


restantes variables regresoras,

Ahora se representa el gráfico de residuos de ek* frente a los residuos e ,k. Esto es,
el gráfico de los pares . Este gráfico da una idea de la relación entre la
variable Y y la variable xk una vez que se ha eliminado la influencia de las otras
variables regresoras.

Utilizando los datos del ejemplo 7.1. se obtienen los siguientes gráficos parciales:

Figura 9.10. Gráfico parcial respecto a altura.

RAMIREZ MIXTEGA MARIA JOSE “309C”


14
Figura 9.11. Gráfico parcial respecto a diámetro.

El gráfico de residuos frente al índice (tiempo = i), proporciona información


acerca de la hipótesis de independencia de los residuos. En este gráfico se pueden
observar algunas características que indican falta de independencia, tales como
una correlación positiva o negativa, la existencia de tendencias, saltos estructurales,
rachas,...., etc.

En este gráfico también se puede observar si existe una relación lineal con el índice
y éste debe de incluirse en el modelo de regresión como variable explicativa.

Como ya se indicó anteriormente al realizar estos gráficos, una alta variabilidad en


los residuos ( 2 grande) puede “esconder” una pauta de comportamiento de los
mismos y, en este caso, es conveniente “filtrar” o “suavizar” los residuos utilizando
la técnica de “medias móviles” o “medianas móviles” u otro análogo. Asi el filtro
de “medianas móviles de orden tres” a partir de los residuos originales t=
n n - 1 más “suave”.
1 genera una nueva sucesión de residuos t=2

Para t = 2,...,n- 1. Si se considera que la sucesión resultante no está


suficientemente suavizada se puede repetir el procedimiento de suavización.

RAMIREZ MIXTEGA MARIA JOSE “309C”


15
2.9 INTERPRETACION DEL INTERVALO DE
CONFIANZA.

Intervalos de confianza Sin importar que tan bien diseñado esté un estudio, el hecho
de realizar un muestreo hace susceptible al ensayo a ciertos grados de imprecisión
y azar. Lo que somos capaces de apreciar en una muestra o al comparar dos grupos
puede no necesariamente representar al universo o población de donde la muestra
proviene.
Los intervalos de confianza ofrecen una manera de estimar, con alta probabilidad,
un rango de valores en el que se encuentra el valor poblacional (o parámetro) de
una determinada variable. Esta probabilidad ha sido fijada por consenso en un 95%
en base a supuestos de normalidad, pero rangos entre el 90% y 99% son
comúnmente utilizados en la literatura científica. En términos simples, un intervalo
de confianza del 95% indica que el valor poblacional se encuentra en un
determinado rango de valores con un 95% de certeza. Como regla general, mientras
mayor es el tamaño de la muestra, menor es la variabilidad para hacer la estimación
del intervalo, lo que lleva a estimadores más precisos . Por el contrario, mientras
más certeza se desee respecto a la extrapolación poblacional (por ejemplo, 99%),
más amplio será el intervalo.
Estas herramientas también permiten hacer inferencia estadística al excluir un valor
crítico que indique la falta de asociación del intervalo. Una interpretación coloquial
de esto último es decir que los hallazgos son estadísticamente significativos porque
el intervalo “no pasa por el 1”. Efectivamente, de tratarse de un indicador cuya
fórmula es un cuociente, como el riesgo relativo (RR) o el Odds Ratio (OR), un valor
1 indica que la frecuencia de un determinado evento fue igualmente presentado
tanto en el grupo expuesto como en el que no, por lo que sería el “valor crítico” que
debe excluirse para denotar significancia estadística9-11. Cuando lo expresado es
una resta en el riesgo entre dos grupos (como con la reducción del riesgo absoluto),
un valor de 0 pasa a ser el límite para denotar hallazgos significativos, puesto que
representaría el punto en que el evento es igualmente probable en ambos grupos.
Supongamos que existe un estudio que detectó que la fibrilación auricular en el
postoperatorio se asociaba a mayor mortalidad entre pacientes operados con un RR
de 3 (IC 95%: 2-4). Esto significa que en la muestra, la presencia de la arritmia
triplicó la probabilidad de morir en relación a quienes no la tuvieron. Si bien no
podemos trabajar con la población, la estimación del intervalo indica que podemos
estar 95% seguros que el valor poblacional del riesgo relativo estará entre 2 y 4.
Como el valor 1 está excluido del rango del intervalo, podemos decir que los
hallazgos son estadísticamente significativos.

RAMIREZ MIXTEGA MARIA JOSE “309C”


16
¿Intervalo de confianza o valor p? Hacer pruebas de hipótesis (valores p) o estimar
(intervalos de confianza) son técnicas validadas que contribuyen a la precisión de
los efectos clínicos de cualquier investigación original. Ambas están estrechamente
relacionadas, siendo raro que un intervalo de confianza entregue un resultado
significativo y un valor p no. No obstante, la información ofrecida por un intervalo de
confianza es más detallada que la contenida en valores p, permitiendo al clínico
además estimar si el rango de una diferencia entre tratamientos es lo
suficientemente grande como para justificar su uso en una patología relevante.

Intervalo de confianza

El intervalo de confianza describe la variabilidad entre la medida obtenida en un


estudio y la medida real de la población (el valor real). Corresponde a un rango de
valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad,
el valor real de una determinada variable. Esta «alta probabilidad» se ha establecido
por consenso en 95%. Así, un intervalo de confianza de 95% nos indica que dentro
del rango dado se encuentra el valor real de un parámetro con 95% de certeza5-8.

Para comprender y hacer intuitivo el concepto de intervalo de confianza utilizaremos


un ejemplo clásico.

Supongamos que tenemos una moneda, la cual puede o no estar balanceada. Así,
después de varios lanzamientos, la probabilidad que el resultado sea sello variará
desde 0 (todas las veces cara, es decir, una moneda balanceada) hasta 1 (todas
las veces sello, nuevamente balanceada), pasando por 0,5 (la mitad de las veces
sello y las otras cara, lo que equivale a una moneda no balanceada). Como no
conocemos la verdadera naturaleza de la moneda, vamos a experimentar con ella.

Iniciamos el experimento con 2 lanzamientos, uno es cara y el otro es sello. La


probabilidad de que el resultado sea sello fue 0,5, con lo que podríamos concluir
que la moneda no está balanceada, sin embargo, ¿con sólo 2 lanzamientos
podemos concluir con total certeza que esa es la naturaleza de la moneda? La
respuesta es no, por lo tanto ¿cuál es el rango de valores donde se encuentra el
valor real? Dado que el azar pudo influir en este resultado, uno acepta que el rango
de valores reales posibles es amplio, incluso desde uno tan bajo como 0 a uno tan
alto como 1, por lo tanto aún no estamos seguros de la naturaleza de nuestra
moneda.

Considerando lo anterior, ampliamos el experimento y realizamos 8 nuevos


lanzamientos (10 en total), resultando 5 caras y 5 sellos. Nuevamente el resultado
es 0,5, sin embargo, ahora intuitivamente nos percatamos que la verdadera
naturaleza de la moneda se encuentra en un rango menos amplio. Por ejemplo, es
poco probable que después de 10 lanzamientos 9 sean sello, menos aún que todos
lo sean, sin embargo, aún es factible que 8 ó 7 ó 6 sí lo sean. Así, nuestro nuevo

RAMIREZ MIXTEGA MARIA JOSE “309C”


17
rango puede variar entre 0,2 y 0,8, pero con un alcance: todos advertimos que si
bien 0,8 y 0,2 son posibles, los valores centrales (0,4 y 0,6) lo son más aún, siendo
0,5 el más probable.

Decidimos seguir experimentando, realizando 90 nuevos lanzamientos (100 en


total), resultando 50 caras y 50 sellos. Nuevamente el resultado es 0,5, advirtiendo
que cada vez es más probable que la verdadera naturaleza de nuestra moneda es
el de una no balanceada, pero aún con un rango de variabilidad que podríamos
estimar entre 0,4 y 0,6 (es decir, que después de 100 lanzamientos, el resultado
real varíe entre 40 y 60 sellos).

Realizamos 1.000 lanzamientos, resultando 500 sellos y 500 caras, con lo que
estamos aún más seguros que nuestra moneda no está balanceada (nuestro rango
puede ser 0,45 a 0,55 o menor).
El ejemplo anterior nos permite aclarar varios conceptos:

• La «verdadera naturaleza» de nuestra moneda (si está balanceada o no)


corresponde al valor real.

• El rango de valores reales posibles, es decir, el rango donde se encuentra la


verdadera naturaleza de nuestra moneda, corresponde al IC.

• El valor real más probable corresponde al estimador puntual del estudio, en este
caso 0,5.

• Finalmente, advertimos la relación inversa entre la amplitud del IC y el tamaño


muestral: si consideramos que el número de lanzamientos representa el n de la
muestra, observamos que mientras más pequeño es el n más amplio es el IC. A
mayor número de lanzamientos (mayor n) más certeza tenemos que el resultado
del experimento se acerca al valor real, por lo tanto el IC es más estrecho5-8.

Para llevar a la práctica el concepto vamos a recurrir al ejemplo utilizado en el


artículo anterior: la comparación de una nueva droga A versus una droga B en la
prevención de AVE en pacientes con antecedente de accidente isquémico
transitorio (AIT).

RAMIREZ MIXTEGA MARIA JOSE “309C”


18
Al analizar estos datos se obtiene una reducción absoluta del riesgo (RRA) de 4,2%
con 95% de intervalo de confianza de 0,9% a 7,5%. Esto quiere decir que el valor
real, es decir, el resultante al aplicar la intervención a la población total de pacientes
con AIT, está con 95% de probabilidad entre un RRA de 0,9% a 7,5%, siendo el
valor más probable 4,2%. Si aumentamos el n de la muestra a 20.000 obtendríamos
nuevamente un RRA de 4,2%, pero con un intervalo de confianza más estrecho, de
3,5% a 4,9% (Fórmula en apéndice 1).

Apéndice 1. Fórmula de intervalo de confianza:

Donde:

p1 Tasa de eventos grupo 1


p2 Tasa de eventos grupo 2
n1 n grupo 1
n2 n grupo 2

Interpretación de un IC

El intervalo de confianza es una medida de precisión que permite al clínico evaluar


2 aspectos de un resultado (estimador puntual):

1. Si existe diferencia estadística significativa.

2. Si tal diferencia es relevante para recomendarla a mis pacientes (relevancia


clínica).

RAMIREZ MIXTEGA MARIA JOSE “309C”


19
Para analizar si existe o no diferencia estadística significativa debemos observar los
extremos del IC. Independiente si el estimador puntual muestra beneficio o daño,
debemos verificar si alguno de los extremos del IC pasa sobre la línea del no efecto.
Si es así, existe la posibilidad de que el valor real corresponda al no efecto o incluso
tenga un efecto opuesto al esperado. En este caso no existiría diferencia
estadísticamente significativa entre aplicar o no la intervención (Figura 1)

Cuando un estudio demuestra un efecto con significación estadística (es decir el


extremo del IC no cruza ni toca la línea del no efecto), el clínico debe definir cuál es
el beneficio mínimo necesario para recomendar la terapia, lo que
llamaremos umbral. Así, nuestro estudio hipotético demuestra beneficio estadístico
significativo, siendo el beneficio mínimo probable un RRA de 0,9%. El que este
beneficio tenga relevancia clínica depende del tipo de evento prevenido o
favorecido, los efectos adversos de la droga A v/s la droga B, el costo, las
circunstancias clínicas, etc. Si el evento a prevenir es banal, o si la droga A tiene
muchos efectos adversos y es más cara que B, nuestro umbral va a ser alto, por lo
tanto el beneficio demostrado en nuestro estudio no sería relevante Figura 2.

Al contrario, si el evento a prevenir es relevante en sí mismo (por ej: mortalidad o


invalidez), o si la nueva droga es más barata y sin efectos adversos, tal vez con
demostrar un RRA de sólo 0,5% nos basta para recomendarla (umbral), por lo tanto
nuestro estudio no sólo demuestra diferencia estadísticamente significativa, sino
que también beneficio relevante para el paciente (Figura 3).

Figura 1. Estudio hipotético cuyo estimador puntual informa un RRA 2,8%, pero cuyo
IC sobrepasa la línea del no efecto, por lo tanto es posible que el valor real sea
daño. No existe diferencia estadística significativa en este estudio.

RAMIREZ MIXTEGA MARIA JOSE “309C”


20
Figura 2. Estudio hipotético que informa beneficio estadístico significativo, sin
embargo, el IC pasa sobre el beneficio mínimo necesario para recomendar la terapia
(umbral, RRA 3%). El beneficio mínimo demostrado (RRA 0,9%) no es suficiente
para recomendar la terapia.

Figura 3. Estudio hipotético que informa beneficio estadístico significativo. El IC no


sobrepasa el beneficio mínimo necesario para recomendar la terapia (umbral, RRA
0,5%). El beneficio mínimo demostrado (RRA 0,9%) es suficiente para recomendar
la terapia.

Así, para evaluar beneficio clínico, primero debemos establecer un umbral mínimo
de beneficio, el que depende del tipo de evento a prevenir o favorecer los efectos
adversos, costos, etc. de la nueva droga, y luego observar el beneficio mínimo
probable que muestra el estudio, que corresponde al extremo del IC más cercano a
la línea del no efecto. Si el extremo del IC no sobrepasa el umbral se asume que el
beneficio mínimo probable es suficiente para recomendar la nueva terapia.

Existe la posibilidad que la nueva droga hiciese daño (RRA negativo). El proceso es
similar al anterior, estableciendo un umbral máximo de daño tolerable, y observando
el extremo del IC que más se acerca a la línea del no efecto. Si la nueva droga
genera más daño con una diferencia estadísticamente significativa, debemos
observar si el extremo del IC sobrepasa ese umbral. Si no lo hace se asume que el
daño mínimo probable es más alto que lo tolerable, por lo tanto se está en
condiciones de rechazar la nueva terapia (Figura 4).

RAMIREZ MIXTEGA MARIA JOSE “309C”


21
Al comparar dos grupos en un estudio podemos demostrar que no existe diferencia
entre ambos (hipótesis nula) o que sí la hay (hipótesis alternativa). El valor P es un
test de hipótesis que nos ayuda a afirmar con cierto nivel de seguridad (por
consenso se usa 95%, que se expresa como P <0,05) que una de las hipótesis es
la correcta. Para nuestro ejemplo, la hipótesis nula corresponde a la igualdad de
resultados al usar la droga A o B, mientras que la hipótesis alternativa supone que
una de ellas es mejor que la otra en prevenir la enfermedad.

El valor P representa la probabilidad que una diferencia observada entre 2 grupos


sea sólo debida al azar, es decir, la probabilidad que la hipótesis nula sea verdadera
a pesar de observar diferencia en un estudio7-9. Como toda probabilidad, puede
tener valores desde 0 a 1. Valores más cercanos a 1 indican que existe una alta
probabilidad que las diferencias observadas sean sólo por azar, es decir, apoya la
hipótesis nula. En cambio, valores más cercanos a 0 apoyan la hipótesis alternativa.

Apliquemos este concepto a nuestro ejemplo, en que se obtiene un RRA de 4,2%


con un valor P <0,05 (p=0,039). Si asumimos como valor real que la droga A es
igual a B (hipótesis nula) y pudiéramos repetir el estudio muchas veces, el P <0,05
nos dice que en menos de 5% de las ocasiones se observaría tal diferencia entre
ambas, sólo por azar. Dicho de otra forma, en la mayor parte de las ocasiones la
diferencia observada no se debe al azar, por lo tanto rechazamos la hipótesis nula
y establecemos que existe diferencia estadística significativa.

El valor P se correlaciona en forma muy estrecha con el intervalo de confianza, ya


que si uno muestra diferencia estadística significativa el otro también lo hace, y
viceversa. Sin embargo, el valor P, a diferencia del IC, no nos entrega información
respecto al rango en el que se encuentra la magnitud del efecto de un determinado
tratamiento (valor real), por lo que sólo nos habla de diferencias estadísticas
significativas, sin permitirnos evaluar si esta diferencia es relevante para mi
paciente. Por ejemplo, un resultado significativo (P <0,05) podría incluir diferencias
clínicamente irrelevantes, y resultados no significativos (P >0,05) podrían esconder
una diferencia clínicamente importante entre 2 tratamientos si el estudio no incluye
un tamaño muestral adecuado (un estudio con bajo poder puede no mostrar una
diferencia que realmente sí existe)8.

De esta forma, aunque el valor P mide la fuerza de una asociación, siempre es útil
el intervalo de confianza para complementar la evaluación de la magnitud del efecto
de una intervención y poder realizar una interpretación adecuada de los resultados
de un estudio.

CONCLUSIONES

Al leer un estudio es muy importante interpretar los resultados en forma correcta.


Esto supone comprender el significado del estimador puntual y de sus medidas de
precisión, lo que permite extrapolar los datos a la población de interés. Tanto el
análisis de un intervalo de confianza como el de un valor P nos permiten determinar

RAMIREZ MIXTEGA MARIA JOSE “309C”


22
Diferencias estadísticas significativas, sin embargo sólo el IC nos permite evaluar el
rango de valores donde posiblemente se encuentra el valor real, y por lo tanto,
permite realizar una mejor interpretación y aplicación clínica de los resultados.

Figura 4. Estudio hipotético que informa daño estadístico significativo. El IC no


sobrepasa el daño mínimo establecido como umbral. El daño mínimo demostrado
es suficientemente importante para rechazar la terapia.

RAMIREZ MIXTEGA MARIA JOSE “309C”


23
2.10 USO DEL COEFICIENTE DE DETERMINACION
MULTIPLE.

En estadística, el coeficiente de determinación, denominado R² y pronunciado R


cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo
principal propósito es predecir futuros resultados o probar una hipótesis. El
coeficiente determina la calidad del modelo para replicar los resultados, y la
proporción de variación de los resultados que puede explicarse por el modelo. 1
Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las
más comunes se refieren a la regresión lineal. En este caso, el R² es simplemente
el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto para la
regresión lineal simple. Si existen varios resultados para una única variable, es
decir, para una X existe una Y, Z... el coeficiente de determinación resulta del
cuadrado del coeficiente de determinación múltiple. En ambos casos el R² adquiere
valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde
este valor puede tomar valores negativos.2
Caso general
Un modelo estadístico se construye para explicar una variable aleatoria que
llamaremos dependiente a través de otras variables aleatorias a las que llamaremos
factores. Dado que podemos predecir una variable aleatoria mediante su media y
que, en este caso, el error cuadrático medio es su varianza, el máximo error
cuadrático medio que podemos aceptar en un modelo para una variable aleatoria
que posea los dos primeros momentos es la varianza. Para estimar el modelo
haremos varias observaciones de la variable a predecir y de los factores. A la
diferencia entre el valor observado de la variable y el valor predicho la llamaremos
residuo. La media cuadrática de los residuos es la varianza residual.

La bondad de la predicción depende de la relación entre las variables. Si dos


variables no cavarían, no podremos hacer predicciones válidas, y si la intensidad de
la variación es moderada, las predicciones no serán demasiado buenas. En
consecuencia, hay que disponer de alguna medida de la capacidad de la ecuación
de Regresión para obtener predicciones buenas (en el sentido de que sean lo
menos erróneas posible).

Esta medida es el Coeficiente de Determinación, que es el cuadrado del coeficiente


de correlación de Pearson, y da la proporción de variación de la variable Y que es
explicada por la variable X (variable predictor o explicativa). Si la proporción es igual
a 0, significa que la variable predictor no tiene NULA capacidad predictiva de la
variable a predecir (Y). Cuanto mayor sea la proporción, mejor será la predicción.

RAMIREZ MIXTEGA MARIA JOSE “309C”


24
Si llegara a ser igual a 1 la variable predictor explicaría TODA la variación de Y, y
las predicciones NO tendrían error.

Ejemplo

En el siguiente cuadro puedes comprobar:

a) que la Varianza total de la variable Y (0.76) es igual a la suma de las Varianzas


de las puntuaciones estimadas (Y') y de los errores de predicción (Y-Y').

b) Que el coeficiente de determinación (r2xy) es igual a la proporción de la Varianza


explicada (s2y') respeto de la Varianza total (s2y)

RAMIREZ MIXTEGA MARIA JOSE “309C”


25
UNIDAD 3
SERIES DE TIEMPO
Por serie de tiempo nos referimos a datos estadísticos que se recopilan, observan
o registran en intervalos de tiempo regulares (diario, semanal, semestral, anual,
entre otros). El término serie de tiempo se aplica por ejemplo a datos registrados en
forma periódica que muestran, por ejemplo, las ventas anuales totales de
almacenes, el valor trimestral total de contratos de construcción otorgados, el valor
trimestral del PIB.
Componentes de la serie de tiempo Supondremos que en una serie existen cuatro
tipos básicos de variación, los cuales sobrepuestos o actuando en concierto,
contribuyen a los cambios observados en un período de tiempo y dan a la serie su
aspecto errático. Estas cuatro componentes son: Tendencia secular, variación
estacional, variación cíclica y variación irregular.
Supondremos, además, que existe una relación multiplicativa entre estas cuatro
componentes; es decir, cualquier valor de una serie es el producto de factores que
se pueden atribuir a las cuatro componentes.
Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es
por lo común el resultado de factores a largo plazo. En términos intuitivos, la
tendencia de una serie de tiempo caracteriza el patrón gradual y consistente de las
variaciones de la propia serie, que se consideran consecuencias de fuerzas
persistentes que afectan el crecimiento o la reducción de la misma, tales como:
cambios en la población, en las características demográficas de la misma, cambios
en los ingresos, en la salud, en el nivel de educación y tecnología. Las tendencias
a largo plazo se ajustan a diversos esquemas. Algunas se mueven continuamente
hacía arriba, otras declinan, y otras más permanecen igual en un cierto período o
intervalo de tiempo.
Variación estacional: El componente de la serie de tiempo que representa la
variabilidad en los datos debida a influencias de las estaciones, se llama
componente estacional. Esta variación corresponde a los movimientos de la serie
que recurren año tras año en los mismos meses (o en los mismos trimestres) del
año poco más o menos con la misma intensidad. Por ejemplo: Un fabricante de
albercas inflables espera poca actividad de ventas durante los meses de otoño e
invierno y tiene ventas máximas en los de primavera y verano, mientras que los
fabricantes de equipo para la nieve y ropa de abrigo esperan un comportamiento
anual opuesto al del fabricante de albercas.
Variación cíclica: Con frecuencia las series de tiempo presentan secuencias
alternas de puntos abajo y arriba de la línea de tendencia que duran más de un año,
esta variación se mantiene después de que se han eliminado las variaciones o

RAMIREZ MIXTEGA MARIA JOSE “309C”


26
tendencias estacional e irregular. Un ejemplo de este tipo de variación son los ciclos
comerciales cuyos períodos recurrentes dependen de la prosperidad, recesión,
depresión y recuperación, las cuales no dependen de factores como el clima o las
costumbres sociales.
Variación Irregular: Esta se debe a factores a corto plazo, imprevisibles y no
recurrentes que afectan a la serie de tiempo. Como este componente explica la
variabilidad aleatoria de la serie, es impredecible, es decir, no se puede esperar
predecir su impacto sobre la serie de tiempo. Existen dos tipos de variación irregular:
a) Las variaciones que son provocadas por acontecimientos especiales, fácilmente
identificables, como las elecciones, inundaciones, huelgas, terremotos. b)
Variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en
forma exacta, pero que tienden a equilibrarse a la larga.

RAMIREZ MIXTEGA MARIA JOSE “309C”


27
3.6 TENDENCIAS IRREGULARES
Una serie temporal o cronológica es una secuencia de datos, observaciones o
valores, medidos en determinados momentos y ordenados cronológicamente. Los
datos pueden estar espaciados a intervalos iguales (como la temperatura en un
observatorio meteorológico en días sucesivos al mediodía) o desiguales (como el
peso de una persona en sucesivas mediciones en el consultorio médico, la farmacia,
etc.). Para el análisis de las series temporales se usan métodos que ayudan a
interpretarlas y que permiten extraer información representativa sobre las relaciones
subyacentes entre los datos de la serie o de diversas series y que permiten en
diferente medida y con distinta confianza extrapolar o interpolar los datos y así
predecir el comportamiento de la serie en momentos no observados, sean en el
futuro (extrapolación pronostica), en el pasado (extrapolación retrógrada) o en
momentos intermedios (interpolación)..

Uno de los usos más habituales de las series de datos temporales es su análisis
para predicción y pronóstico (así se hace por ejemplo con los datos climáticos, las
acciones de bolsa, o las series de datos demográficos). Resulta difícil imaginar una
rama de las ciencias en la que no aparezcan datos que puedan ser considerados
como series temporales.
Las series temporales se estudian en estadística, procesamiento de
señales, econometría y muchas otras áreas.

COMPONENTE TENDENCIA
La determinación de la tendencia secular solamente se debe realizar cuando se
disponga de una larga serie de observaciones, en otro caso podrían obtenerse
conclusiones erróneas. Los métodos más utilizados para aislar la tendencia secular
son:
Método gráfico.
Método de las medias móviles.
Método de los mínimos cuadrados.

Para hacer predicciones se debe estimar la tendencia por el método de los mínimos
cuadrados.

a) MÉTODO GRÁFICO
Se trata de un método muy sencillo, ya que permite obtener una línea de tendencia
sin necesidad de realizar ningún cálculo.

RAMIREZ MIXTEGA MARIA JOSE “309C”


28
El proceso consiste en la representación gráfica de la serie, uniendo mediante
segmentos rectilíneos los puntos altos que presentan la serie, lo mismo se hace con
los puntos bajos. De este modo, aparecen dos líneas: la poligonal de cimas y la
poligonal de fondos.
Se unen los puntos medios de los segmentos que separan ambas poligonales,
obteniendo una línea mucho más suave que las dos anteriores que indica la
dirección predominante, esto es, su tendencia.
El método gráfico presenta una falta de objetividad, aunque en algunos casos puede
resultar útil para analizar una ligera aproximación.
b) MÉTODO DE LAS MEDIAS MÓVILES
Es un método mecánico mediante el que se sustituye la serie original por una serie
suavizada, que se toma como línea de tendencia.
El método de las medias móviles no sirve para hacer predicciones, dado que solo
proporciona el valor de la tendencia en el intervalo de tiempo para el que se
disponen los datos de la serie (excepto los valores que se pierden al principio y al
final de promediar), no para momentos futuros.
Dada una serie temporal it Y , t (t ,t , ,t ) ≡ 1 2 L n , i =1 ,2 , L , k , el método para
suavizar la serie y determinar la tendencia, consiste en promediar cada valor con
algunas de las observaciones que le preceden y le siguen.
El método consiste en sustituir cada t y por la media móvil t y , la longitud k de la
media móvil viene determinada por el número de su períodos (trimestres,
cuatrimestres, semestres, etc.) considerados en el año, con lo que se eliminan las
variaciones estacionales y accidentales (también se puede hacer con datos anuales
para intentar eliminar el ciclo).
Podemos encontrarnos con dos casos:
k es impar, todos los subíndices de las medias móviles serán números enteros, y,
en consecuencia, la serie de las medias móviles estará centrada, se pierden (k −1)
datos, la mitad al principio y la otra mitad al final. La línea de tendencia estará
formada por la unión de los puntos (t, y )t . ƒ
K es par, de manera que los subíndices no serán siempre enteros y, por tanto, la
serie no estará centrada. En este caso, no es necesario centrarla, para lo que se
calcula la media aritmética entre dos valores consecutivos de las medias móviles
calculadas anteriormente, representándola por
t y , donde 3 , L 2 k 2 , 2 k 1 , 2 k t = + + + . Se pierden k datos y la línea de tendencia
estará formada por lo puntos (t, y )t .
Como ejemplo, sea la serie de la tabla adjunta, y vamos a calcular la serie de medias
móviles tomando las observaciones de tres en tres:

RAMIREZ MIXTEGA MARIA JOSE “309C”


29
La línea que une los puntos (Y , Y , , Y ) 2 3 L 8 se toma como línea de tendencia.
t yt yt
1 1y
2 2y 2y
3 3y 3y
4 4y 4y
5 5y 5y
6 6y 6y
7 7y 7y
8 8y 8y
9 9y

Al aplicar el método de las medias móviles nos encontramos con el problema de


determinar el número adecuado de valores que hay que promediar. Como es
evidente, cuanto mayor sea este número, mayor será el suavizado que se
obtenga. Por otra parte, cuanto mayor sea el número de valores que se toman para
promediar, mayor será la información que se pierde en la línea de tendencia. En
consecuencia, se debe de elegir un número equilibrado de valores para promediar,
que por una parte, permita obtener el mayor suavizado posible y, por otra parte, no
dar lugar a una pérdida excesiva de información.
Análisis de Tendencia La tendencia secular o tendencia a largo plazo de una serie
es por lo común el resultado de factores a largo plazo. En términos intuitivos, la
tendencia de una serie de tiempo caracteriza el patrón gradual y consistente de las
variaciones de la propia serie, que se consideran consecuencias de fuerzas
persistentes que afectan el crecimiento o la reducción de la misma, tales como:
cambios en la población, en las características demográficas de la misma, cambios
en los ingresos, en la salud, en el nivel de educación y tecnología.
Un ejemplo de cómo se observan las tendencias se encuentra observando este
Gráfico donde se observa una tendencia en cuanto al crecimiento de usuarios de
internet en México que va de 2005 a 2010; ello nos da un patrón del comportamiento
de esta serie de tiempo; ahora sólo faltaría analizar detalladamente con el método
de mínimos cuadrados. Para el caso de tendencias a largo plazo, su
comportamiento se ajusta a una línea recta, llamada por esta razón línea de
tendencia, es decir, se aproxima a una ecuación de recta, que recibe el nombre de
ecuación de tendencia y que es de la forma:
y = a + bt
Ejemplo: Cálculo de la Tendencia a través de Mínimos Cuadrados En la siguiente
tabla se encuentran los datos de las ventas de los últimos cinco años de una
empresa del ramo de alimentos:

RAMIREZ MIXTEGA MARIA JOSE “309C”


30
Graficar los datos b) Determinar la ecuación de tendencia e interpretarla c) Trazar
la recta de tendencia d) Pronosticar las ventas para los siguientes dos años e
interpretar el resultado a) Con los datos que se tienen se obtiene la grafica
Para determinar los coeficientes de la ecuación se debe construir una tabla con los
datos necesarios:
Se sustituyen los valores en las fórmulas respectivas:
y habiendo calculado los coeficientes, entonces la Ecuación de Tendencia queda
y = 6.1 + 1.3t
Ahora se interpreta de la siguiente manera:
Las ventas se expresan en millones de pesos, el origen o año 0, es 2003 y t aumenta
una unidad por año. El valor 1.3 indica que las ventas aumentan a razón de 1.3
millones de pesos por año.
El valor 6.1 es el de las ventas estimadas cuando t = 0.
Es decir, el monto de las ventas estimadas para el año 2003 es igual a 6.1 millones
de pesos. c)
Para trazar la recta, se deben tener dos puntos, para el primero de ellos se puede
utilizar el valor 6.1 de la ecuación anterior y el segundo se puede obtener asignando
un valor cualquiera a x, dentro del rango del intervalo del que se dispone, por
ejemplo 4 (año 2006) para obtener el valor de y, es decir:
y = 6.1 + 1.3t = 6.1+ 1.3(4) =11.3
con lo que ya se puede trazar la Recta de Tendencia

Los dos años siguientes son 2008 y 2009, que en términos de los cálculos que
estamos haciendo son 6 y 7, respectivamente. Pues bien,

Análisis de Variaciones Cíclicas Como se dijo antes, estos dos componentes, el de


tendencia y el cíclico, solamente se aplica para datos anuales.
Concretamente, el componente cíclico puede identificarse como el, que persistiría
en los datos luego de eliminada la influencia del componente de tendencia.
Esta eliminación se realiza dividiendo cada uno de los valores observados entre su
valor de tendencia correspondiente, mediante la siguiente fórmula: estos se
sustituyen en la Ecuación de Tendencia y se obtienen los pronósticos requeridos,
es decir:
y = 6.1 + 1.3t = 6.1+ 1.3(6) = 13.9 y = 6.1 + 1.3t = 6.1+ 1.3(7) = 15.2

RAMIREZ MIXTEGA MARIA JOSE “309C”


31
que se interpreta de la siguiente manera: Con base en las ventas anteriores, la
estimación o pronóstico para los años 2008 y 2009, es 13.9 y 15.2 millones de
pesos, respectivamente. Variación cíclica:
Con frecuencia las series de tiempo presentan secuencias alternas de puntos abajo
y arriba de la línea de tendencia que duran más de un año, esta variación se
mantiene después de que se han eliminado las variaciones o tendencias estacional
e irregular. Un ejemplo de este tipo de variación son los ciclos comerciales cuyos
períodos recurrentes dependen de la prosperidad, recesión, depresión y
recuperación, las cuales no dependen de factores como el clima o las costumbres
sociales.

RAMIREZ MIXTEGA MARIA JOSE “309C”


32
3.7 pronósticos basados en factores de tendencia y
estacionales.
PRONOSTICOS BASADOS EN FACTORES DE TENDENCIA Y ESTACIONALES
Una consideración particularmente importante en los pronósticos a largo plazo, es
el componente cíclico de las series de tiempo.
METODOS PARA PRONOSTICOS A CORTO PLAZO:
1. Emplear el valor de tendencia proyectado como base del pronóstico.
2. Ajustarlo respecto del componente estacional.
3. Desestacionalizar el valor observado más reciente y
4. Multiplicarlo por el índice estacional del periodo de pronóstico. (La diferencia
entre los dos periodos será la atribuible a la influencia estacional).

ECUACION DE LA LÍNEA DE TENDENCIA:

Los valores de tendencia se asocian con periodos y no con puntos temporales, por
lo que deben reducirse los tres elementos de la ecuación de tendencia anual. (b0,
b1 y X) Para efecto de la transformación a datos mensuales, el punto base del año
anteriormente codificado como X = O, se ubicaría en el punto medio del año (01/07)
PRONOSTICOS CICLICOS E INDICADORES ECONOMICOS • Los pronósticos
basados en los componentes de tendencia y estacional de una serie de tiempo son
apenas el punto de partida de los pronósticos económicos. • La primera razón es la
necesidad de considerar el probable efecto del componente cíclico durante el
periodo de pronóstico. • La segunda es la importancia de identificar los factores
causales específicos que han influido en las variables de series de tiempo.
Pronósticos a corto plazo. • Suele suponerse que el efecto del componente cíclico
es el mismo que se ha incluido en los valores recientes de la serie de tiempo. •
cuando se trata de periodo más prolongados, o incluso de periodos cortos en
épocas de inestabilidad económica, es importante identificar los puntos de cambio
de ciclo de la economía nacional. • Las variaciones cíclicas asociadas con un
producto en particular pueden coincidir o no con el ciclo económico general.
• EJEMPLO . Históricamente, las ventas industriales de automóviles han coincidido
estrechamente con el ciclo económico general de las economías nacionales. Por el
contrario, las ventas de autopartes han sido comúnmente opuestas, en cuanto al
factor cíclico, respecto del ciclo económico general. • El Instituto Nacional de
Investigación Económica (NBER) de Estados Unidos ha identificado y dado a
conocer series de tiempo históricamente indicadoras de expansiones y recesiones

RAMIREZ MIXTEGA MARIA JOSE “309C”


33
cíclicas respecto del ciclo económico general. • Indicadores líder: han llegado
habitualmente a puntos de cambio de ciclo antes del cambio correspondiente en la
actividad económica general. -Las horas semanales promedio laboradas en
manufactura. -El valor de nuevos pedidos de bienes de consumo y materiales -
Índice común de precios de las acciones.
• Indicadores coincidentes: está compuesto por series de tiempo cuyos puntos de
cambio han coincidido usualmente con el ciclo económico general. -La tasa de
empleo -El índice de producción industrial. • Indicadores rezagados: es el integrado
por series de tiempo cuyas cumbres y valles suelen retardarse en comparación con
las del ciclo económico general. -Los inventarios de manufactura y comerciales y la
tasa preferencial promedio que cobran los bancos.
• Además de considerar el efecto de las fluctuaciones cíclicas y de pronosticar tales
fluctuaciones, también : deben estudiarse las variables causales específicas que
han influido históricamente en los valores de series de tiempo. - Los análisis de
regresión y correlación son particularmente aplicables a tales estudios * Relación
entre estrategia de precios y volumen de ventas. Áreas que demandan especial
atención. Los análisis históricos Las posibles implicaciones de nuevos productos y
de cambios en el ámbito de la comercialización.
PRONÓSTICOS BASADOS EN PROMEDIOS MÓVILES • Un promedio móvil es el
promedio de los n valores de datos más recientes de una serie de tiempo.
PM = Σ (n valores más recientes) n
• A medida que se dispone del nuevo valor de un dato de una serie de tiempo, la
nueva observación remplaza a la antigua en la serie de n valores como base para
determinar el nuevo promedio, lo que explica el motivo de que se llame promedio
móvil. • El promedio móvil puede servir para: -Pronosticar los valores de datos del
siguiente periodo de la serie de tiempo, pero no los de datos de periodos más
distantes a futuro. -Es un método adecuado de pronóstico cuando en los datos no
está presente la influencia de una tendencia, cíclica o estacional, situación por
demás improbable. Así, este procedimiento sirve sencillamente para promediar el
componente irregular de los datos recientes de una serie de tiempo.
LA SUAVIZACIÓN EXPONENCIAL COMO MÉTODO DE PRONÓSTICO La
suavización exponencial es un método de pronóstico basado en el uso de
promedios ponderados. La base de ponderación es exponencial porque se concede
la mayor ponderación al valor correspondiente al periodo inmediatamente anterior
al periodo de pronóstico y las ponderaciones decrecen exponencialmente para los
valores de datos de periodos anteriores.

RAMIREZ MIXTEGA MARIA JOSE “309C”


34
Conclusión

Bibliografía
http://www.monografias.com/trabajos96/analisis-regresion-y-correlacion/analisis-
regresion-y-correlacion.shtml#ixzz4s0nkKanl
http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0034-98872005000900017

RAMIREZ MIXTEGA MARIA JOSE “309C”


35

You might also like