You are on page 1of 48

MUESTREO

NDICE MUESTREO............................................................................................................................... 3 CLCULO DE TAMAOS DE MUESTRA........................................................................ 3 CONCEPTOS GENERALES............................................................................................. 3 INTERVALOS DE CONFIANZA..................................................................................... 4 Advertencias y recomendaciones....................................................................................5 Media.............................................................................................................................. 6 Proporcin.......................................................................................................................7 Odds ratio........................................................................................................................9 Riesgo relativo.............................................................................................................. 10 Concordancia................................................................................................................ 12 Pruebas diagnsticas..................................................................................................... 12 CONTRASTES DE HIPTESIS......................................................................................15 Advertencias y recomendaciones..................................................................................16 Comparacin de medias. Grupos independientes......................................................... 16 Comparacin de medias. Grupos emparejados............................................................. 18 Estudios de casos y controles. Grupos independientes................................................. 19 Estudios de casos y controles. Grupos emparejados.....................................................20 Estudios de cohortes......................................................................................................21 Comparacin de proporciones. Grupos emparejados................................................... 22 Pruebas diagnsticas..................................................................................................... 22 Calidad de lotes.............................................................................................................24 Supervivencia................................................................................................................26 Coeficiente de correlacin............................................................................................ 26 BIBLIOGRAFA.............................................................................................................. 27 SELECCIN MUESTRAL.................................................................................................. 28 CONCEPTOS GENERALES........................................................................................... 28 MUESTREO SIMPLE ALEATORIO.............................................................................. 30 MUESTREO SISTEMTICO EN FASES...................................................................... 32 MUESTREO ALEATORIO ESTRATIFICADO.............................................................34 MUESTREO POR CONGLOMERADOS MONOETPICO......................................... 36 MUESTREO POR CONGLOMERADOS BIETPICO................................................. 39 MUESTREO POR CONGLOMERADOS BIETPICO ESTRATIFICADO.................42 BIBLIOGRAFA.............................................................................................................. 46 ASIGNACIN DE SUJETOS A TRATAMIENTOS..........................................................47 CONCEPTOS GENERALES........................................................................................... 47 BIBLIOGRAFA.............................................................................................................. 48

MUESTREO
Virtualmente toda investigacin epidemiolgica exige la seleccin de una muestra de la poblacin que se estudia. Necesariamente, entonces, habr que tomar una decisin acerca del tamao que ha de tener la muestra y elegir un procedimiento para seleccionar ese nmero de unidades de anlisis (elementos o sujetos que componen la poblacin y que podran ser, en su momento, objeto de interrogatorio o medicin). El presente mdulo ofrece herramientas para ambas tareas. El problema de determinar el tamao de muestra necesario es amplio y variado, y aunque este asunto ha sido intensamente abordado desde el punto de vista informtico, Epidat 3.1 incorpora un compendio bastante exhaustivo de tcnicas acorde a las demandas ms importantes de los epidemilogos, y aspira a aportarles procedimientos que le ayuden en ese sentido. Anlogamente, las alternativas disponibles para llevar adelante el proceso de seleccin son numerosas. Los recursos computacionales disponibles (especialmente, aquellos que aparecen en los grandes paquetes, como SPSS o SAS) para llevar adelante la seleccin de muestras son, sin embargo, reducidos. Epidat 3.1 aporta un instrumento apropiado para completar esta tarea, aunque se concentra solo en procedimientos equiprobabilsticos de seleccin, es decir, en mtodos que otorgan igual probabilidad de ser elegidos para la muestra a todos los elementos de la poblacin objeto de estudio. No es ocioso aclarar explcitamente que Epidat 3.1 solo contempla la seleccin de muestras y no la de realizar estimaciones de parmetros con acuerdo a los diseos muestrales. Para ello es menester acudir a programas especializados tales como CSAMPLE de la versin 6 de EPIINFO, EPI2000 o SUDDAN. Cuando se realiza una investigacin experimental, con frecuencia es necesario aplicar asignaciones aleatorias de los sujetos del estudio a dos o ms grupos (decidir qu sujetos han de recibir cada uno de los tratamientos contemplados). El tercer submdulo de este mdulo de muestreo resuelve dicha tarea.

CLCULO DE TAMAOS DE MUESTRA CONCEPTOS GENERALES


La determinacin del tamao de muestra es una tarea que se realiza durante la fase de diseo de un estudio para establecer el nmero de elementos o sujetos que deben seleccionarse para participar en el mismo. El abanico de criterios susceptibles de ser considerados para efectuar este clculo es amplio y variado, y la eleccin concreta que se haga depende, entre otras cosas, de la informacin de que se disponga y de las caractersticas del procedimiento estadstico que se va a utilizar para analizar los datos. Por ejemplo, en una encuesta transversal para estimar la prevalencia de diabetes en una poblacin, se requerir un tamao de muestra que permita estimar dicha prevalencia con una determinada precisin. En cambio, en un ensayo clnico de un nuevo frmaco comparado con un placebo, el tamao de muestra debe permitir detectar, por ejemplo, con una determinada potencia, una reduccin del riesgo de mortalidad despus de un ao de seguimiento. En el primer caso, el objetivo es la estimacin de un parmetro; en el segundo se pretende analizar si hay

un efecto estadsticamente significativo de un tratamiento. En cada uno de estos dos contextos, estimacin o realizacin de pruebas de hiptesis, se abren a su vez diversas posibilidades. Epidat 3.1 procura dar elementos que ayuden a resolver el problema para las situaciones que se presentan ms frecuentemente en la prctica. Debe enfatizarse, sin embargo, que los recursos disponibles para hacer esta determinacin slo tienen un carcter orientador. Los resultados formales como los que Epidat 3.1 produce, necesariamente han de ser combinados con otros elementos cruciales a la hora de decidir un tamao muestral tales como los recursos materiales disponibles y la historicidad del problema; una posible alternativa consiste en conjugar los resultados formales que ofrece EPIDAT 3.1 con el sentido comn y tener en cuenta los tamaos usados en trabajos similares (es decir, incorporar el sentido comn de los dems)1,2. Aun cuando se elija aplicar recursos computacionales formales como los que aqu se ofrecen, estos elementos laterales a las frmulas siempre habrn de desempear un papel en el proceso decisorio.

INTERVALOS DE CONFIANZA
Como parte de una encuesta epidemiolgica es habitual querer estimar la prevalencia de una enfermedad en una poblacin. En esas situaciones, el investigador se pregunta cuntos sujetos necesito examinar para estimar esa prevalencia con un grado razonable de precisin?. Los submdulos de Epidat 3.1 incluidos en el mdulo de Muestreo, Clculo de Tamaos de Muestra, bajo el epgrafe Intervalos de confianza basan el clculo del tamao de muestra necesario para un estudio en la precisin deseada para el intervalo de confianza del parmetro que se pretende estimar. Esos submdulos son:

Media Proporcin Odds ratio Riesgo relativo Concordancia Pruebas diagnsticas

Un intervalo de confianza (IC) es un recorrido de valores razonables dentro del cual estara el parmetro de inters con cierto grado de confianza, que habitualmente es del 95%, y debe presentarse siempre junto a la estimacin puntual de un parmetro, puesto que permite cuantificar la magnitud del error asociado a la estimacin o error muestral. La amplitud del IC est directamente relacionada con ese error que, en el caso de una media o una proporcin, por ejemplo, es exactamente la mitad de la amplitud del IC. A su vez, el error est determinado por el tamao de la muestra, por lo que el tamao muestral mnimo estar en funcin del error mximo que se considere admisible. Si se procede a estimar, por ejemplo, una proporcin, exigir que el error de esa estimacin sea suficientemente pequeo como para considerar que la estimacin es eficiente, equivale a demandar que el intervalo de confianza sea suficientemente estrecho. En un contexto de estimacin, por tanto, el tamao muestral est determinado por varios factores:

La precisin de la estimacin, que se mide a travs del error muestral. La magnitud del mximo margen de error admisible debe ser fijada por el investigador, pues es l quien mejor identifica las consecuencias prcticas de un error dado. Si, por ejemplo, lo que se quiere es conocer el salario medio de una poblacin de mujeres en edad frtil y se declara que se admite un error de hasta e=50 , ello significa que se est

pensando en trminos como los siguientes: Si el verdadero promedio fuera 500 pero lo que se me informa es que asciende a 525 , entonces considero que conozco adecuadamente el dato; sin embargo, si lo que se me informa es que ese nmero es, por ejemplo, 418 y luego me entero de la cifra verdadera, considero que estaba trabajando con un dato equivocado. En general se cumple que al aumentar la precisin, es decir, al disminuir el grado de error admisible, aumenta el tamao de muestra necesario, algo coherente con lo que indica el sentido comn. Cuando el error se expresa como un porcentaje del valor que puede tener el parmetro, por ejemplo un 5% o un 10%, en ese caso se habla de precisin relativa.

El nivel de confianza, que generalmente se fija en 95%. El efecto de este valor sobre el tamao de muestra es directo; es decir, para una precisin dada, el tamao de muestra aumenta al aumentar el nivel de confianza. Otros elementos directamente relacionados con el parmetro concreto que se pretende estimar y que se comentarn en cada caso.

Epidat 3.1 permite calcular tamaos de muestra de una forma flexible, generando una tabla de valores para la precisin y proporcionando el tamao de muestra correspondiente a cada uno de esos valores. La tabla se define partiendo de un valor mnimo fijado por el usuario y aumentando a intervalos regulares de incremento hasta llegar al valor mximo tambin declarado por el usuario. Por ejemplo, si se definen mnimo=2, mximo=6 e incremento=2, se obtiene una tabla con los valores 2, 4, y 6 para la precisin y los correspondientes tamaos de muestra. Un recurso incluido en Epidat 3.1 y que puede ser de utilidad en ciertas situaciones es la posibilidad de realizar el clculo inverso, es decir, determinar la precisin asociada a la estimacin de un parmetro en funcin de diversos tamaos de muestra posibles. Igual que en la situacin inversa, el clculo es flexible; se puede definir una tabla de valores para los tamaos de muestra a partir de un mnimo, un mximo y un incremento, y se obtendr la precisin que corresponde a cada caso.

Advertencias y recomendaciones

La determinacin a priori de los valores que intervienen en las frmulas del tamao muestral es una decisin esencialmente subjetiva. En concreto, no es fcil establecer cul es el error mximo aceptable para la estimacin de un parmetro. Esto puede conducir a que dos investigadores independientes, aplicando la misma frmula, obtengan tamaos de muestra muy diferentes por el hecho de que tienen una visin distinta del problema. En el clculo de un tamao de muestra es una contradiccin habitual tener que conocer en la fase de diseo el valor de un parmetro que solo se podr estimar una vez extrada la muestra. Para resolver este problema hay dos opciones:

Estimar el parmetro a partir de una muestra piloto. Obtener un valor aceptable a partir de las referencias que se tengan de trabajos o experiencias similares ya realizados.

En la prctica, las encuestas estn generalmente diseadas para estimar un conjunto grande de parmetros, y no uno solo. Sin embargo, es necesario determinar un tamao de muestra nico. Esta dificultad suele solventarse adoptando uno de los

parmetros como el ms importante, lo que implica otra decisin subjetiva en el clculo.

El error muestral que se comete en la estimacin de un parmetro depende del tipo de diseo establecido para seleccionar los elementos que integran la muestra. A tamaos de muestra iguales, el error es mayor si se utiliza un diseo complejo (por ejemplo, muestro estratificado bietpico) que bajo muestreo aleatorio simple (MAS). Sin embargo, las frmulas que permiten obtener el tamao de muestra en funcin de la precisin asumen siempre que se va a realizar un MAS, lo que conduce a tamaos de muestra ms pequeos que los que realmente seran necesarios para garantizar el grado de precisin asumido si el diseo es otro. Una forma de corregir el tamao de muestra en funcin del diseo muestral es multiplicar el tamao obtenido con MAS por el denominado efecto de diseo. Naturalmente, no es fcil hallar una estimacin adecuada de este valor, pero en la prctica suele asumirse algn valor entre 1,5 y 3. Un valor igual a 2, por ejemplo, significa que para obtener la misma precisin habr que estudiar el doble de individuos que con el MAS.

Una abarcadora reflexin sobre el clculo del tamao de muestra puede verse en el captulo 12 del libro Diseo razonado de muestras y captacin de datos para la investigacin sanitaria3.

Media
Los factores especficos que intervienen en el clculo del tamao de muestra para estimar una media son:

El tamao de la poblacin En la mayora de las situaciones prcticas es difcil conocer el verdadero tamao de la poblacin objeto del muestreo. A menudo se dispone solo de una aproximacin a tal valor, o incluso puede darse el caso de que se desconozca por completo. Ninguna de estas situaciones pone al investigador ante una restriccin importante a la hora de calcular el tamao de muestra, ya que el tamao poblacional tiene escasa influencia sobre el tamao de la muestra la mayor parte de las veces 1. Supngase, por ejemplo, que se planifican dos estudios de fecundidad: uno en una gran ciudad donde hay medio milln de mujeres en edad frtil, y otro en uno de sus municipios que tiene 55.000 mujeres entre 15 y 49 aos. En ambos casos se quiere estimar, mediante MAS, el salario medio de dichas mujeres con un error no mayor de 50 y admtase que, por estudios previos, se conoce que la desviacin estndar es aproximadamente igual a 300 . Los tamaos de muestra que proporciona Epidat 3.1, para un nivel de confianza del 95%, son respectivamente, 139 mujeres en la ciudad y 138 en el municipio, nmeros virtualmente iguales. Este hecho, vlido siempre que la poblacin sea mucho mayor que los posibles tamaos muestrales, pone de manifiesto que es errnea la recomendacin, nada inusual, de fijar un porcentaje de la poblacin como tamao de muestra. En el ejemplo expuesto, seleccionar un 1% de la poblacin conducira a una muestra de 5.000 mujeres en la ciudad y de 550 en el municipio; puede comprobarse, haciendo el clculo en Epidat, que el margen de error en el primer caso sera de unos 8,3 , valor que se triplica en el municipio, donde sera de 24,9 . Por otra parte, si el tamao poblacional se desconoce, pero puede asumirse que es mucho mayor que el de la muestra a seleccionar, entonces se est en una situacin equivalente a la que se producira ante el caso hipottico de una poblacin infinita. En
6

ese caso, en la pantalla de entrada de datos de Epidat se deja el valor por defecto (0) en el campo correspondiente al tamao de la poblacin.

La varianza o, equivalentemente, la desviacin estndar de la poblacin.

Ejercicio En un rea sanitaria, la distribucin del peso al nacer de nios que cumplen su perodo de gestacin de 40 semanas es aproximadamente normal con una media de =3500 gramos y una desviacin estndar de =430 gramos. Un investigador planea llevar a cabo un estudio para estimar el peso medio al nacer de los nios que llegan al trmino del embarazo y cuyas madres fumaron durante ese perodo, asumiendo que la desviacin estndar es la misma. Si el investigador desea que el error no supere los 50 gramos con una confianza del 95%, qu tamao de muestra se requiere en este estudio? Resultados con Epidat 3.1
Tamaos de muestra y precisin para estimacin de una media Desviacin estndar esperada: Nivel de confianza: Efecto de diseo: Precisin -----------50,000 Tamao de muestra ----------------285 430,000 95,0% 1,0

Nota: Advirtase que se ha dejado el valor por defecto para el Efecto de diseo (igual a 1,0) por tratarse de una muestra simple aleatoria.

Proporcin
Los factores especficos que intervienen en el clculo del tamao de muestra para estimar una proporcin son:

El tamao de la poblacin Sobre este dato, cabe hacer las mismas consideraciones que en el caso de la media. La proporcin Puesto que la demanda de proveer al programa de un valor anticipado para P es irremediablemente contradictoria (pues el tamao que se busca es el de la futura muestra que se estudiar precisamente con la finalidad de estimar P) es muy habitual encontrar en manuales y artculos4,5 la recomendacin de utilizar el valor 0,5 cuando no se conoce en absoluto el valor de la proporcin P. Para ello se esgrime el argumento de que dicho valor es el que produce el mximo tamao de muestra. Cabe hacer algunas consideraciones con respecto a esta receta, que ha sido objeto de discusin en la literatura6-9. En primer lugar, la frmula que permite calcular el tamao de muestra para estimar una proporcin P alcanza su mximo cuando P=0,5; pero esto solo es cierto si los dems elementos que intervienen en la frmula, nivel de confianza y precisin del IC, estn fijos. Sin embargo, el mximo error absoluto que se puede admitir para estimar una proporcin P no puede establecerse de manera racional sin tener una idea acerca de la magnitud de P. Por ejemplo, un error absoluto del 3% puede ser adecuado si la proporcin que se va a estimar est alrededor del

20%, pero resultara del todo inapropiado si el rasgo cuya prevalencia se quiere estimar es muy poco frecuente, dgase un 2%, menor incluso que el error establecido. Consecuentemente, tal receta resulta carente de sentido y no debe ser empleada. Cabe sealar, sin embargo, que el investigador raramente se halla en esa situacin de absoluto desconocimiento acerca del parmetro; basndose en su experiencia o el conocimiento cientfico sobre el tema, generalmente tiene de antemano una idea aproximada del recorrido de valores en el que razonablemente se podra ubicar. Represe en el siguiente ejemplo tomado de la ayuda del mdulo de Anlisis bayesiano: Es razonable suponer, sin embargo, que de antemano se tengan ciertas ideas acerca de cul puede ser ese valor desconocido; por ejemplo, podra considerarse altamente verosmil que la tasa de prevalencia de asma en la comunidad no est muy distante de 9%. Desde luego, tal criterio inicial, nacido quizs de la experiencia propia y ajena, as como del encuadre terico del problema, se produce en un marco de incertidumbre. As, tal vez se piensa que 7% 13% son tambin valores posibles, aunque acaso menos verosmiles que 9%. Y tambin se pudiera estar convencidos de que 55% sera sumamente improbable, a la vez que se pudiera estar persuadidos de que cifras como 1% u 80% seran virtualmente imposibles. Tener de antemano puntos de vista como estos no solo es posible sino casi inevitable para alguien versado en la materia. En una situacin de este tipo, la determinacin de la precisin adecuada no es una maniobra ciega. Sin perder de vista la carga subjetiva que supone siempre tal decisin, por lo general es posible fijar un error que no sea disparatado teniendo en cuenta el recorrido de valores que se puede considerar razonable para P. En el ejemplo de la tasa de prevalencia, se puede suponer que la proporcin que ha de estimarse se mover probablemente entre un 5% y un 15%, y es razonable aspirar a que no se incurra en un error mayor del 1%. Para el clculo del tamao de muestra, el valor de P que maximiza n es el ms prximo al 50%, en este caso se tomara P=15%. Ejercicio Un departamento local de salud quiere calcular la prevalencia de sujetos con reacciones positivas a la tuberculina entre los menores de 5 aos de su circunscripcin. Calcular cuntos nios han de figurar en una muestra simple aleatoria para que pueda estimarse dicha prevalencia con una precisin absoluta, expresada en porcentaje, entre el 3 y el 5% y un 95% de confianza si se cree, por estudios previos, que la tasa de prevalencia pudiera ser, aproximadamente, del 20%. Nota: Adaptado de Lwanga y Lemeshow5. Resultados con Epidat 3.1
Tamaos de muestra y precisin para estimacin de una proporcin Proporcin esperada : Nivel de confianza: Efecto de diseo: Precisin (%) -----------3,000 4,000 5,000 Tamao de muestra ---------------683 385 246 20,000% 95,0% 1,0

Nota: Advirtase que se ha dejado el valor por defecto para el Efecto de diseo (igual a 1,0) por tratarse de una muestra simple aleatoria.

Odds ratio
Un estudio de casos y controles es un estudio observacional que comienza con la identificacin de un grupo de casos (individuos con una enfermedad o condicin) y un grupo de controles (individuos sin la enfermedad o condicin). Para cada elemento del estudio se identifica si estuvo o no expuesto a cierto factor; entonces, se estima la prevalencia de la exposicin en cada uno de los dos grupos y se comparan estas dos estimaciones. Como seala Thompson10, en los ltimos aos se ha producido un importante cambio de direccin en el anlisis y presentacin de los datos de estudios de casos y controles y otros tipos de investigaciones epidemiolgicas. Cada vez se pone menos nfasis en las pruebas de significacin estadstica y los correspondientes valores p, y ms en las estimaciones puntuales e intervalos de confianza de medidas cuantitativas del grado de asociacin entre exposicin y enfermedad. Cuando el anlisis previsto se va a orientar en tal direccin, el clculo del tamao de muestra necesario debe basarse en la estimacin y no en la prueba de hiptesis. La medida ms frecuentemente utilizada para cuantificar la asociacin a partir de datos procedentes de un estudio de casos y controles es el odds ratio (OR). Los factores especficos que intervienen en el clculo del tamao de muestra para estimar un OR en un estudio de este tipo son:

Proporcin de casos expuestos o prevalencia de la exposicin en los casos (P1), Proporcin de controles expuestos o prevalencia de la exposicin en los controles (P2), Odds ratio (OR) Estos tres valores estn relacionados entre s del modo siguiente: OR = P1 (1 P2 ) , P2 (1 P1 )

por lo que, especificando dos de estos parmetros, el otro queda perfectamente determinado. Epidat 3.1 permite que el usuario decida cules de los valores desea introducir y calcula automticamente el tercero.

Nmero de controles por caso: La determinacin del nmero de controles es una cuestin muy importante al planificar un estudio de casos y controles. Generalmente se utiliza igual nmero de controles que de casos. Se ha demostrado que hay muy poca ganancia en la precisin de un estudio cuando la razn (n controles)/(n casos) supera el valor 411. No obstante, Epidat 3.1 admite que se establezcan hasta 10 controles por caso.

Si se selecciona la opcin de calcular tamaos de muestra, la precisin del intervalo de confianza o error se pide en trminos relativos, es decir, la razn entre el error absoluto y el OR, y el resultado que produce Epidat 3.1 es el tamao de cada uno de los grupos, casos y controles, por separado. En el caso contrario, cuando se pide calcular precisin, el dato de entrada debe ser el tamao de la muestra de casos. Ejercicio Usted va a disear un estudio de casos y controles emparejado sobre tabaquismo y cncer de laringe utilizando controles poblacionales. Suponiendo que la prevalencia del hbito
9

tabquico en la poblacin es del 45% y que el OR esperado es aproximadamente 3, cuntos pares de casos y controles necesitar para estimar el OR con una precisin relativa del 15% y un nivel de confianza del 95%? Resultados con Epidat 3.1
Tamaos de muestra y precisin para estimacin del odds ratio Proporcin de casos expuestos: Proporcin de controles expuestos: OR esperado: Controles por caso: Nivel de confianza: 71,053% 45,000% 3,000 1 95,0%

Precisin relativa (%) ------------------------15,000

Tamao de muestra Casos Controles ---------- ---------1295 1295

Nota: Advirtase que Epidat 3.1 calcula la proporcin de casos expuestos (71,053%) empleando el OR y la proporcin de controles expuestos que se han declarado.

Riesgo relativo
Un estudio de cohorte es un estudio observacional que comienza con la identificacin de un grupo de personas libres de la enfermedad o condicin en estudio. En este grupo de personas se separan las que estn sujetas a cierta exposicin y las que no estn en ese caso; luego se realiza un seguimiento en el tiempo de unos y otros con el fin de comparar la frecuencia de aparicin de la enfermedad entre expuestos y no expuestos. Un aspecto fundamental del anlisis de los estudios de cohorte es su capacidad para producir medidas de incidencia de la enfermedad, es decir, del riesgo individual de desarrollar la enfermedad durante el perodo de seguimiento. La razn entre el riesgo en expuestos y en no expuestos, o riesgo relativo, expresa cuntas veces ms probable es que ocurra la enfermedad en un grupo que en el otro y a la vez constituye una medida que cuantifica la asociacin entre la exposicin y la enfermedad. Los factores especficos que intervienen en el clculo del tamao de muestra para estimar un riesgo relativo son:

Riesgo en expuestos (P1), Riesgo en no expuestos (P2) Riesgo relativo esperado (RR) Estos tres valores estn relacionados entre s del modo siguiente: P1 , P2 por lo que, especificando dos de estos parmetros, el otro queda perfectamente determinado. Epidat 3.1 permite que el usuario decida cules de los valores desea introducir y calcula automticamente el tercero. RR =

Razn entre el nmero de no expuestos y el de expuestos (R):

10

Cuando se plantea el diseo de un estudio de cohortes, generalmente no se conoce de antemano la exposicin en los sujetos de la poblacin que se estudia, sino que la muestra se selecciona aleatoriamente de la poblacin y posteriormente se determinan los individuos expuestos entre los que conforman la cohorte. En esa situacin, la proporcin de expuestos en la cohorte ser aproximadamente igual a la prevalencia de la exposicin en la poblacin de la que procede la muestra. A partir de esta prevalencia (P) puede estimarse la razn entre el nmero de no expuestos y expuestos que conformarn la cohorte: R=(1-P)/P, valor que interviene en el clculo del mnimo tamao de muestra para cumplir los requisitos de precisin exigidos5. Tambin puede darse la situacin de que la exposicin se conozca previamente a la seleccin de los sujetos y que se desee seleccionar, por ejemplo, el mismo nmero de expuestos que de no expuestos. En ese caso, la razn tomar el valor 1. Si se selecciona la opcin de calcular tamaos de muestra, la precisin del intervalo de confianza o error se pide en trminos relativos, es decir, hay que comunicar la razn mxima que puede admitirse entre el error absoluto y el riesgo relativo. En los resultados, Epidat 3.1 presenta los tamaos de expuestos y no expuestos por separado para el caso en que interesa realizar la seleccin de modo independiente en ambos grupos. En el caso contrario, cuando se pide calcular precisin, el dato de entrada debe ser el tamao de la muestra de expuestos. Ejercicio Un epidemilogo proyecta un estudio sobre la posibilidad de que cierta enfermedad pulmonar est favorecida por la exposicin a un contaminante atmosfrico recin detectado cuyo efecto no ha sido examinado previamente. Qu tamao tendr que tener la muestra de cada grupo (el de expuestos y el de no expuestos) si el epidemilogo desea estimar el riesgo relativo con una precisin entre el 10% y el 20% del valor real (el cual, verosmilmente, pudiera ascender a 2) con un 95% de confianza? La enfermedad se manifiesta en el 20% de las personas no expuestas al contaminante atmosfrico y los dos grupos sern de igual tamao. Nota: Adaptado de Lwanga y Lemeshow5. Resultados con Epidat 3.1
Tamaos de muestra y precisin para estimacin del riesgo relativo Riesgo en expuestos: Riesgo en no expuestos: Riesgo relativo esperado: Razn no expuestos/expuestos: Nivel de confianza: Precisin relativa (%) ------------------------10,0 15,0 20,0 40,000% 20,000% 2,000 1,000 95,0%

Tamao de muestra Expuestos No expuestos ---------------- ---------------1904 1904 800 800 425 425

Puede observarse cmo disminuye el tamao de muestra necesario a medida que aumenta el error permitido en la estimacin. Por otra parte, el programa calcul el riesgo en expuestos, un 40%, a partir de los datos que se le proporcionaron: riesgo en no expuestos y riesgo relativo.

11

Concordancia
El coeficiente de concordancia kappa de Cohen permite cuantificar el grado de acuerdo entre dos o ms observadores una vez que se ha eliminado el efecto del azar12 (Vase una discusin de dicho coeficiente en el mdulo de CONCORDANCIA Y CONSISTENCIA). Los factores que intervienen en el clculo del tamao de muestra necesario para estimar adecuadamente el coeficiente kappa, cuando son dos los observadores y dos las categoras de clasificacin (Positivo/Negativo), son:

Coeficiente kappa esperado (k): debe ser un valor entre 1 y 1, recorrido de variacin de kappa. Proporcin de sujetos clasificados como positivos por el primer observador. Proporcin de sujetos clasificados como negativos por el segundo observador. Precisin absoluta (e): expresa la diferencia entre el valor del coeficiente kappa y el lmite inferior (o el superior) de un intervalo de confianza. No puede introducirse un valor para el cual ke sea inferior a 1 o k+e supere al 1.

Si el valor especificado para el coeficiente kappa es incompatible con la proporcin de sujetos que cada observador clasificar como positivos, el programa muestra en la ventana de resultados el siguiente mensaje: El valor de kappa es incompatible con las proporciones marginales. Los detalles sobre el procedimiento de clculo pueden encontrase en Cantor13. Ejercicio Supngase que las radiografas de trax de los sujetos que estn controlados en una unidad de neumologa se reparten entre dos radilogos. Se sabe que el radilogo A clasifica el 80% como positivas y el radilogo B clasifica el 76% como positivas, entendiendo por positiva una radiografa sospechosa de lesin tuberculosa. Para estimar la concordancia entre los radilogos, se piensa seleccionar una muestra de 100 radiografas que sern remitidas a los dos. Que precisin tendr el intervalo de confianza del 95% si el ndice kappa estuviera alrededor de 0,4? Resultados con Epidat 3.1
Tamaos de muestra y precisin para estimacin del coeficiente Kappa Coeficiente de concordancia (kappa) esperado: 0,400 Proporcin de clasificaciones positivas por el observador 1: 80,000% Proporcin de clasificaciones positivas por el observador 2: 76,000% Nivel de confianza: 95,0% Tamao de muestra Precisin ---------------- ---------------100 0,213

Pruebas diagnsticas
La evaluacin del desempeo de una prueba diagnstica (PD) es un campo importante en la investigacin mdica. Este proceso comienza por la cuantificacin (estimacin, en rigor) de la magnitud de los errores que pueden cometerse, o su inverso, la magnitud de los aciertos que se

12

cometen al intentar "adivinar" un diagnstico a partir de los resultados que brinde dicho procedimiento. La sensibilidad y la especificidad, introducidas por Yerushalmy14 en 1947, son los indicadores estadsticos tradicionales y bsicos que evalan el grado de eficacia inherente a una prueba diagnstica. Estos ndices miden la discriminacin diagnstica de una prueba con relacin a un criterio de referencia, que se considera la verdad. En un artculo publicado en 1998, Obuchowsky15 revisa los mtodos que permiten determinar el tamao de muestra necesario para realizar un estudio de evaluacin de una prueba diagnstica. Entre los ndices considerados en la literatura para abordar el clculo del tamao muestral se encuentran la sensibilidad y la especificidad. La sensibilidad indica la capacidad de la prueba para detectar a un sujeto enfermo, mientras que la especificidad indica la capacidad que tiene la prueba de identificar como sanos a los que efectivamente lo son. Estas caractersticas pueden estimarse, respectivamente, como la proporcin de verdaderos positivos y la proporcin de verdaderos negativos si se tienen los datos dispuestos en una tabla 2x2 como la que sigue:

Prueba diagnstica

Positivos Negativos Total

Criterio de verdad Enfermos No enfermos a b c d a+c b+d

Total a+b c+d a+b+c+d

Por tanto, el clculo del tamao de muestra para construir un IC, con una determinada precisin, para la sensibilidad, la especificidad, (o para ambos ndices) de una prueba diagnstica, se basa en el mtodo para una proporcin. Los factores que intervienen en el clculo son:

Sensibilidad, en porcentaje. Especificidad, en porcentaje. Es necesario seleccionar al menos una de estas opciones, pero no son excluyentes. Si se seleccionan las dos, el tamao de muestra se calcular por separado para cada uno de los dos parmetros y se adoptar como adecuado el mximo de los dos obtenidos, que es el que presenta Epidat 3.1.

Razn entre los tamaos de muestra de no enfermos y enfermos (R). Prevalencia de la enfermedad. Estos dos ltimos datos son excluyentes, es decir, solo uno de ellos ha de ser declarado; las razones se exponen a continuacin. La seleccin de los pacientes que conformarn la muestra puede hacerse de varias maneras. La va cannica consiste en seleccionar una muestra de N1 sujetos enfermos y otra de N2 no enfermos diagnosticados por la prueba de referencia, y aplicar la nueva prueba a los N = N 1 + N2 individuos, de suerte que pueda conformarse una clasificacin cruzada tal como se expone en la anterior tabla de 2x2. En esta situacin, debe especificarse en qu razn estarn los tamaos de los dos grupos de sujetos, no enfermos sobre enfermos15: R=N2/N1. Frecuentemente, el investigador desea dos grupos de igual tamao N1=N2, por lo que R ser igual a 1. Con esta opcin, Epidat 3.1 presentar los tamaos de enfermos y no enfermos por separado.

13

Una segunda opcin para el diseo del estudio consiste en obtener una muestra simple aleatoria de N individuos y aplicar a cada uno de ellos tanto el criterio de verdad o prueba de referencia con que se cuenta como la prueba diagnstica que se evala. Este diseo se plantea cuando la verdadera condicin de enfermedad de los sujetos no se conoce en el momento de la seleccin. En esa situacin, la proporcin de enfermos en la muestra ser aproximadamente igual a la prevalencia de la enfermedad en la poblacin de la que proceden los sujetos. A partir de esta prevalencia (P), Epidat 3.1 estima la razn entre el nmero de no enfermos y enfermos que conformarn la muestra: (1-P)/P, valor que se utiliza en el clculo del tamao de muestra.

Precisin absoluta: es el error absoluto asociado a la estimacin por IC. No es posible especificar valores diferentes para la sensibilidad y la especificidad, en el caso de que el tamao de muestra est basado en los dos parmetros. Se asume que los dos intervalos tendrn la misma precisin.

Si se selecciona la opcin de calcular tamaos de muestra, Epidat 3.1 presenta los tamaos de enfermos y no enfermos por separado cuando el dato de entrada es la razn entre estos dos valores, y el tamao total en el caso de especificar la prevalencia de la enfermedad. En el caso contrario, cuando se pide calcular precisin, el dato de entrada debe ser el tamao total de la muestra en cualquiera de las dos opciones. Ejercicio En un centro hospitalario se quiere evaluar una prueba diagnstica de apendicitis que consiste en medir la temperatura sobre el punto de McBurney y sobre la posicin simtrica del lado izquierdo; se diagnostica apendicitis aguda si la temperatura cutnea en el lado derecho es por lo menos 1C superior. En un estudio previo se han estimado la sensibilidad y la especificidad de la prueba en 83% y 92%, respectivamente. Esta prueba se aplicar a un grupo de pacientes seleccionados para apendicectoma y con apendicitis confirmada por el examen histolgico posterior, y a un grupo de controles, del mismo tamao, ingresados para un tratamiento ortopdico. Cul es el nmero de enfermos y no enfermos que el grupo investigador debe seleccionar para estimar la sensibilidad y la especificidad de la prueba con un nivel de confianza del 95% y una precisin del 3%? Resultados con Epidat 3.1
Tamaos de muestra y precisin para pruebas diagnsticas Sensibilidad: Especificidad: Razn no enfermos/enfermos: Nivel de confianza: Precisin (%) -----------3,000 Enfermos -----------603 Sanos -----------603 83,000% 92,000% 1,000 95,0% Total -----------1206

14

CONTRASTES DE HIPTESIS
Como ya se coment al principio de esta ayuda, la determinacin del tamao de muestra en la fase de diseo de un estudio se basa en las caractersticas del procedimiento estadstico que se va a utilizar para analizar los datos. En los submdulos de Epidat 3.1 incluidos en el mdulo de muestreo, clculo de tamaos de muestra, bajo el epgrafe Contraste de hiptesis, el clculo del tamao de muestra necesario para un estudio se basa en la potencia deseada para efectuar una prueba de hiptesis. Esos submdulos, que incluyen las pruebas estadsticas aplicadas ms frecuentemente en la investigacin clnica y epidemiolgica, son:

Comparacin de medias Grupos independientes Grupos emparejados Estudios de casos y controles Grupos independientes Grupos emparejados Estudios de cohortes Comparacin de proporciones emparejadas Comparacin de pruebas diagnsticas Grupos independientes Grupos emparejados Calidad de lotes Supervivencia Coeficiente de correlacin

Los contrastes o pruebas de hiptesis son recursos de inferencia estadstica que, partiendo de la formulacin de dos hiptesis complementarias sobre el posible valor de un parmetro (o de una expresin de varios parmetros), permiten pronunciarse acerca de la veracidad de una de ellas sobre la base de los datos de una muestra. En el planteamiento de un contraste se llama hiptesis nula (H0) a aquella que expresa la afirmacin de que el parmetro (o la expresin de varios parmetros) cumple determinada condicin y se llama hiptesis alternativa (H1) a la que expresa lo contrario, la negacin de H 0. El contraste implica la comparacin de estas dos hiptesis a la luz de la informacin muestral y la eleccin adecuada entre las dos. Cuando se realiza una prueba de hiptesis, la decisin acerca de la veracidad de la hiptesis nula puede conducir a cometer dos tipos de errores:

Error de tipo I: consiste en rechazar la hiptesis nula cuando es cierta. La probabilidad de incurrir en este error se denomina nivel de significacin y se denota por . El valor 1- expresa, por tanto, la probabilidad de no rechazar una hiptesis que es cierta y se conoce como el nivel de confianza de la prueba. Error de tipo II: consiste en aceptar la hiptesis nula cuando sta es, en realidad, falsa. La probabilidad de cometer este error se denota por ; y el valor 1- que expresa la probabilidad de rechazar la hiptesis nula cuando es falsa, se conoce como la potencia de la prueba.

Nota: Usualmente el investigador termina rechazando H0 o no rechazando H0. Aunque este es el lxico en boga actualmente (debido a consideraciones que escapan al contenido de esta ayuda), cabe advertir que la definicin original de Pearson y Neyman no aluda a no rechazo sino a aceptacin de H0.

15

En un contexto de contraste de hiptesis, por tanto, el tamao muestral est determinado por el nivel de confianza y la potencia de la prueba, adems de otros elementos que dependen del diseo y de la prueba concreta que se vaya a aplicar. Epidat 3.1 permite calcular tamaos de muestra de una forma flexible, generando una tabla de valores para la potencia y proporcionando el tamao de muestra correspondiente a cada uno de esos valores. La tabla se define partiendo de un valor mnimo y aumentando a intervalos regulares de incremento hasta llegar al valor mximo. Por ejemplo, si se definen mnimo=80, mximo=90 e incremento=5, se obtiene una tabla con los valores 80, 85 y 90 para la potencia y los correspondientes tamaos de muestra. Un recurso que incorpora Epidat 3.1 y que puede ser de utilidad en ciertas situaciones es la posibilidad de realizar el clculo inverso, es decir, determinar la potencia asociada a una prueba de hiptesis en funcin del tamao de muestra disponible. Igual que en la situacin inversa, el clculo es flexible, permitiendo definir una tabla de valores para el tamao de muestra a partir de un mnimo, un mximo y un incremento, y proporcionando la potencia que le corresponde a cada uno.

Advertencias y recomendaciones

La determinacin a priori de los valores que intervienen en las frmulas del tamao muestral es una decisin esencialmente subjetiva. El clculo del tamao de muestra requerido en una investigacin clnica o estudio epidemiolgico debe basarse en la prueba estadstica que se prevea utilizar en la fase de anlisis. Sin embargo, es habitual en la mayora de los estudios aplicar diferentes pruebas, adems de la tomada como referencia para calcular el tamao muestral. Las frmulas en que se basa el clculo del tamao de muestra asumen, por lo general, que la seleccin de los individuos se realizar bajo un MSA, circunstancia poco frecuente en la epidemiologa.

Una abarcadora reflexin sobre las implicaciones que tienen estas circunstancias sobre el clculo del tamao de muestra puede verse en el captulo 12 del libro Diseo razonado de muestras y captacin de datos para la investigacin sanitaria3.

Comparacin de medias. Grupos independientes


En Epidat 3.1, el clculo del tamao de muestra para la comparacin de medias de datos cuantitativos, cuando los dos grupos son independientes, asume que los datos siguen una distribucin normal y se basa en la prueba t de Student. Los factores que intervienen en el clculo son:

La desviacin estndar de cada grupo. Es muy habitual en la prctica asumir que los dos valores son iguales y adelantar una estimacin para ese valor comn. Machin y cols.16 sugieren, cuando no se conoce la magnitud de la desviacin estndar, una aproximacin que consiste en dividir por 4 el recorrido (diferencia entre el mximo y el mnimo) de las observaciones, cantidad que suele ser ms fcil de estimar o conocer de antemano.

La diferencia de medias esperada entre los dos grupos.

16

Esta cantidad representa la magnitud mnima de la diferencia que se considera clnicamente relevante y que se quiere poder declarar, en caso de que exista, como estadsticamente significativa, con el nivel de confianza y la potencia prefijadas. Es lo que, en ensayos clnicos, se conoce como tamao del efecto. Un ndice que cuantifica la magnitud de la diferencia entre los grupos, pero que es independiente de las unidades de medida, es la denominada diferencia estandarizada de medias (), y que resulta de dividir la diferencia de medias, en valor absoluto, entre la desviacin estndar comn de los dos grupos. Esta alternativa es la utilizada por Machin y cols.16 para generar tablas de tamaos muestrales, en el caso de comparacin de medias independientes, que sean de uso general. Los valores tabulados de , siguiendo las recomendaciones de Cohen17, oscilan entre 0,05 y 1,50. Segn este autor, para un efecto pequeo se puede definir =0,2 y si el efecto es grande se puede tomar =0,8. En Epidat 3.1 se puede seleccionar entre dos opciones excluyentes relativas a la varianza de los dos grupos:

Varianzas conocidas: en este caso, los valores que pide el programa son las desviaciones estndar de cada grupo, que pueden ser iguales o no, y la diferencia de medias. Varianzas desconocidas pero iguales: en este caso se asume que los dos grupos tienen la misma desviacin estndar, que no se conoce, y el valor que pide el programa es la diferencia de medias estandarizada.

Razn entre los tamaos de muestra de los dos grupos Habitualmente, el diseo de un estudio para la comparacin de medias en dos grupos independientes contempla la seleccin de dos muestras de igual tamao, pero puede ocurrir que esto no sea as. En Epidat 3.1, es necesario especificar la razn entre los tamaos de muestra de los dos grupos.

Si se selecciona la opcin de calcular tamaos de muestra, el resultado que produce Epidat 3.1 es el tamao de cada uno de los grupos en funcin del valor o valores de potencia especificada. En el caso contrario, cuando se pide calcular potencia, el dato de entrada debe ser el tamao de muestra total, es decir, la suma de los dos grupos. Ejercicio En un ensayo clnico sobre el uso de una droga en embarazos gemelares, un toclogo desea demostrar que hay un aumento significativo en la duracin del embarazo al usar la droga frente a un placebo. El toclogo estima que la desviacin estndar de la duracin de los embarazos es de 1,75 semanas. Cuntos embarazos debe observar como mnimo en cada grupo si considera que una semana es un aumento clnicamente importante en la duracin del embarazo y quiere operar con una confianza del 95% y una potencia del 80%? Nota: Este ejercicio puede resolverse utilizando cualquiera de las opciones relativas a las varianzas de los grupos, y puede observarse que se obtienen idnticos resultados. La diferencia estandarizada de medias es 1/1,75=0,57 y la razn entre los tamaos de muestra de cada grupo es 1, ya que los dos tendrn el mismo tamao.

17

Resultados con Epidat 3.1, con varianzas conocidas


Tamaos de muestra y potencia para comparacin de medias independientes Desviacin estndar esperada Poblacin A: Poblacin B: Diferencia de medias esperada: Razn entre muestras (B/A): Nivel de confianza: Potencia (%) -----------80,0 1,750 1,750 1,000 1,000 95,0%

Tamao de muestra Poblacin A Poblacin B ----------------------49 49

Resultados con Epidat 3.1, con varianzas desconocidas pero iguales


Tamaos de muestra y potencia para comparacin de medias independientes Diferencia de medias estandarizada: Razn entre muestras (B/A): Nivel de confianza: Potencia (%) -----------80,0 0,570 1,000 95,0%

Tamao de muestra Poblacin A Poblacin B ----------------------49 49

Comparacin de medias. Grupos emparejados


En Epidat 3.1, el clculo del tamao de muestra para la comparacin de medias de datos cuantitativos, cuando los dos grupos de observaciones estn emparejadas, asume que los datos siguen una distribucin normal y se basa en la prueba t de Student para una muestra aplicada a las diferencias entre los pares de observaciones. Los factores que intervienen en el clculo son:

La desviacin estndar de cada grupo. Es muy habitual en la prctica asumir que los dos valores son iguales y adelantar una estimacin para ese valor comn. Machin y cols.16 sugieren, cuando no se conoce la magnitud de la desviacin estndar, una aproximacin que consiste en dividir por 4 el recorrido (diferencia entre el mximo y el mnimo) de las observaciones, cantidad que suele ser ms fcil de establecer.

El coeficiente de correlacin de Pearson entre los valores de la variable resultado en los dos grupos, que debe ser un valor entre 1 y 1. Estos tres datos son necesarios para obtener una estimacin de la desviacin estndar de las diferencias individuales entre los pares de observaciones.

La mnima diferencia de medias entre los dos grupos que se considere cualitativamente relevante. Esta cantidad representa la magnitud mnima de la diferencia que se concepta como clnicamente relevante y que se quiere poder detectar, en caso de que exista, como estadsticamente significativa, con el nivel de confianza y la potencia prefijadas. Es lo que, en ensayos clnicos, se conoce como tamao del efecto.
18

Ejercicio Un investigador quiere valorar la diferencia entre el valor de la presin sistlica en sangre en personas de mediana edad, antes y despus de la prctica de ejercicio fsico. Si el investigador aspira a poder declarar una diferencia de 2,6 mm Hg como significativa, con un nivel de confianza del 95% y una potencia del 80% cuntos pacientes deber incluir en el estudio? Suponga que se estima una desviacin estndar de 11,0 mm Hg y un coeficiente de correlacin de 0,70 entre los valores de la presin sistlica antes y despus del ejercicio. Resultados con Epidat 3.1
Tamaos de muestra y potencia para comparacin de medias emparejadas Desviacin estndar esperada Poblacin A: Poblacin B: Diferencia de medias esperada: Coef. de correlacin entre A y B: Nivel de confianza: Potencia (%) -----------80,0 Nmero de pares ---------------85 11,000 11,000 2,600 0,700 95,0%

Estudios de casos y controles. Grupos independientes


En Epidat 3.1, el clculo del tamao de muestra necesario para estudiar si existe asociacin entre la exposicin y la enfermedad en un estudio de casos y controles, cuando los dos grupos son independientes, se basa en la prueba Ji-cuadrado de Pearson, con o sin correccin de Yates. Los factores que intervienen en el clculo son:

Proporcin de casos expuestos o prevalencia de la exposicin en los casos (P1), Proporcin de controles expuestos o prevalencia de la exposicin en los controles (P2), Odds ratio esperado (OR) Estos tres valores estn relacionados entre s del modo siguiente: P (1 P2 ) OR = 1 , P2 (1 P1 ) por lo que, especificando dos de estos parmetros, el otro queda perfectamente determinado. Epidat 3.1 permite que el usuario decida cul pareja de valores desea introducir y calcula automticamente el tercero.

Nmero de controles por caso: La determinacin del nmero de controles es una cuestin muy importante al planificar un estudio de casos y controles. Generalmente se utiliza igual nmero de controles que de casos. Se ha demostrado que hay muy poca ganancia en la precisin de un estudio cuando la razn (n controles)/(n casos) supera el valor 411. No obstante, Epidat 3.1 admite que se establezcan hasta 10 controles por caso.

Si se selecciona la opcin de calcular tamaos de muestra, el resultado que produce Epidat 3.1 es el tamao de cada uno de los grupos, casos y controles, por separado. En el caso contrario, cuando se pide calcular potencia, el dato de entrada debe ser el tamao de la muestra de casos.

19

Ejercicio Usted desea realizar un estudio de casos y controles, con 3 controles por caso, para analizar la influencia del consumo de alcohol en la aparicin de cncer de esfago. Cuntos sujetos debe estudiar si quiere poder declarar como significativo un OR de 2,5 o mayor y sabe que la exposicin entre los controles es del 60%? (Suponga un nivel de confianza del 95% y una potencia del 80%). Resultados con Epidat 3.1
Tamaos de muestra y potencia para estudios de casos y controles independientes Proporcin de casos expuestos: 78,947% Proporcin de controles expuestos: 60,000% OR esperado: 2,500 Controles por caso: 3 Nivel de confianza: 95,0% Potencia (%) Ji-cuadrado ---------------- ------------------------80,0 Sin correccin Correccin de Yates Tamao de muestra Casos Controles ---------- ---------63 189 70 210

Estudios de casos y controles. Grupos emparejados


En Epidat 3.1, el clculo del tamao de muestra para estudiar si existe asociacin entre la exposicin y la enfermedad en un estudio de casos y controles, cuando los dos grupos estn emparejados, se basa en la prueba de McNemar18. Los factores que intervienen en el clculo son:

Proporcin de casos expuestos o prevalencia de la exposicin en los casos (P1), Proporcin de controles expuestos o prevalencia de la exposicin en los controles (P2), Odds ratio esperado (OR) Estos tres valores estn relacionados entre s del modo siguiente: P (1 P2 ) OR = 1 , P2 (1 P1 ) por lo que, especificando dos de estos parmetros, el otro queda perfectamente determinado. Epidat 3.1 permite que el usuario decida cul pareja de valores desea introducir y calcula automticamente el tercero.

Ejercicio Usted va a disear un estudio de casos y controles emparejado para valorar la influencia de tabaquismo en el cncer de laringe utilizando controles poblacionales. Suponiendo que la prevalencia del hbito tabquico en la poblacin es del 45%, cuntos pares de casos y controles necesitar para poder declarar que es significativa una OR de 2 o mayor con un nivel de confianza del 95% y una potencia del 85%?

20

Resultados con Epidat 3.1


Tamaos de muestra y potencia para estudios de casos y controles emparejados Proporcin de casos expuestos: 62,069% Proporcin de controles expuestos: 45,000% OR esperado: 2,000 Nivel de confianza: 95,0% Potencia (%) -----------85,0 Nmero de pares ---------------155

Estudios de cohortes
En Epidat 3.1, el clculo del tamao de muestra para estudiar si existe asociacin entre la exposicin y la enfermedad en un estudio de cohortes se basa en la prueba Ji-cuadrado de Pearson, con o sin correccin de Yates. Los factores que intervienen en el clculo son:

Riesgo en expuestos (P1), Riesgo en no expuestos (P2), Razn entre el nmero de no expuestos y el de expuestos (R): Cuando se plantea el diseo de un estudio de cohortes, generalmente no se conoce de antemano el nmero de sujetos expuestos en la poblacin que se estudia. Usualmente, se selecciona aleatoriamente una muestra de la poblacin y posteriormente se determina cules individuos que conforman la cohorte estn expuestos. En esa situacin, la proporcin de expuestos en la cohorte ser aproximadamente igual a la prevalencia de la exposicin en la poblacin de la que procede la muestra. A partir de esta prevalencia (P) puede estimarse la razn entre el nmero de no expuestos y expuestos que conformarn la cohorte: R=(1-P)/P, valor que interviene en el clculo del tamao de muestra mnimo para que la prueba tenga la potencia exigida16. Tambin puede darse la situacin de que la exposicin se conozca previamente a la seleccin de los sujetos y desee seleccionarse, por ejemplo, el mismo nmero de expuestos que de no expuestos. En ese caso, la razn tomar el valor 1.

Si se selecciona la opcin de calcular tamaos de muestra, Epidat 3.1 presenta como resultado los tamaos de expuestos y no expuestos por separado, para el caso en que interesa realizar la seleccin de modo independiente en cada grupo. En el caso contrario, cuando se pide calcular potencia, el dato de entrada debe ser el tamao de la muestra de expuestos. Ejercicio Un grupo de investigadores desea llevar a cabo un estudio de cohortes que exige determinar si existe asociacin entre la infeccin crnica por Chlamydia pneumoniae y los eventos coronarios en varones adultos con un primer diagnstico de angina inestable. Se sabe, por estudios previos, que la prevalencia de la exposicin (infeccin) en este grupo (anginosos) est alrededor del 40%, que la proporcin esperada de eventos coronarios es del 38% en el grupo de expuestos y del 32% en el grupo de no expuestos Cul es el tamao de muestra necesario para contrastar la hiptesis nula de que no existe asociacin entre la infeccin y los eventos coronarios, con un nivel de confianza del 95% y una potencia del 80%?
21

Nota: Si la prevalencia de la exposicin es del 40% (P=0,4), la razn de no expuestos con respecto a los expuestos ser de (1-0,4)/0,4=1,5. Resultados con Epidat 3.1
Tamaos de muestra y potencia para estudios de cohortes Riesgo en expuestos: Riesgo en no expuestos: Razn no expuestos/expuestos: Nivel de confianza: 38,000% 32,000% 1,500 95,0% Tamao de muestra Expuestos No expuestos ---------- --------------823 1235 851 1277

Potencia (%) Ji-cuadrado ---------------- ------------------------80,0 Sin correccin Correccin de Yates

Comparacin de proporciones. Grupos emparejados


En Epidat 3.1, el clculo del tamao de muestra necesario para comparar dos proporciones, cuando los grupos estn emparejados, se basa en la prueba de McNemar18. Los factores que intervienen en el clculo son:

Proporcin en el grupo 1 (P1), Proporcin en el grupo 2 (P2).

Ejercicio Un investigador est diseando un estudio para comparar la capacidad que tienen dos medios, A y B, para detectar la presencia de bacilos de la tuberculosis. Para ello es necesario seleccionar un nmero de muestras de esputo que se cultivarn en cada uno de los dos medios. Por estudios previos, se piensa que aproximadamente el 60% de las muestras son positivas en el medio A y un 45% en el medio B Cul es el tamao de muestra necesario para comparar las dos proporciones con un nivel de confianza del 95% y una potencia del 85%? Resultados con Epidat 3.1
Tamaos de muestra y potencia para comparacin de proporciones emparejadas Proporcin 1: 60,000% Proporcin 2: 45,000% Nivel de confianza: 95,0% Potencia (%) -----------85,0 Nmero de pares ---------------201

Pruebas diagnsticas
En un artculo publicado en 1998, Obuchowsky15 revisa los mtodos que permiten determinar el tamao de muestra necesario para realizar un estudio de evaluacin de pruebas diagnsticas. El clculo del tamao de muestra para comparar dos pruebas diagnsticas a travs de la

22

sensibilidad, la especificidad, o ambos ndices, se basa en la comparacin de dos proporciones. En un diseo con grupos independientes, es decir, si las muestras de sujetos a los que se aplica cada una de las pruebas son independientes, se utiliza la prueba Ji-cuadrado de Pearson, con y sin correccin de Yates. En el caso de observaciones emparejadas, como sucede si se aplican las dos pruebas diagnsticas a la misma muestra de pacientes, el clculo se basa en la prueba de McNemar. Nota: Se asume que las dos muestras, cada una correspondiente a una prueba diagnstica, sern de igual tamao, tanto si los grupos son independientes como emparejados. Adems, cada una de ellas estar compuesta por sujetos enfermos y no enfermos, no necesariamente en la misma proporcin, pero la razn entre el nmero de unos y otros s ser igual en las dos muestras. En las dos opciones, grupos independientes o emparejados, los factores que intervienen en el clculo del tamao de muestra son:

Sensibilidad de cada prueba, en porcentaje. Especificidad de cada prueba, en porcentaje. Es necesario seleccionar al menos una de estas opciones, pero no son excluyentes. Si se seleccionan las dos, el tamao de muestra se calcular por separado para cada uno de los dos parmetros y se adoptar como adecuado el mximo de los dos obtenidos, que es el que presenta Epidat 3.1.

Razn entre los tamaos de muestra de no enfermos y enfermos (R). Prevalencia de la enfermedad. Estos dos ltimos datos son excluyentes (es decir, solo uno de ellos ha de ser comunicado), por las razones que se exponen a continuacin. La seleccin de los pacientes que conformarn cada una de las muestras puede hacerse de varias maneras. La va cannica consiste en seleccionar una muestra de N1 sujetos enfermos y otra de N2 no enfermos diagnosticados por una prueba de referencia, y aplicar la nueva prueba a los N=N1+N2 individuos, de suerte que pueda conformarse una clasificacin cruzada en una tabla de 2x2. En esta situacin, debe especificarse en qu razn estarn los tamaos de los dos grupos de sujetos, no enfermos sobre enfermos: R=N2/N1. Frecuentemente, el investigador desea dos grupos de igual tamao N1=N2, por lo que R ser igual a 1. Con esta opcin, Epidat 3.1 presentar los tamaos de enfermos y no enfermos por separado. Una segunda opcin para el diseo del estudio consiste en obtener una muestra simple aleatoria de N individuos y aplicar a cada uno de ellos tanto el criterio de verdad o prueba de referencia con que se cuenta como la prueba diagnstica que se evala. Este diseo se plantea cuando la verdadera condicin de enfermedad de los sujetos no se conoce en el momento de la seleccin. En esa situacin, la proporcin de enfermos en la muestra ser aproximadamente igual a la prevalencia de la enfermedad en la poblacin de la que proceden los sujetos. A partir de esta prevalencia (P) Epidat 3.1 estima la razn entre el nmero de no enfermos y enfermos que conformarn la muestra: (1-P)/P, valor que se utiliza en el clculo del tamao de muestra.

Potencia de la prueba: el valor ser el mismo para la sensibilidad y la especificidad, en el caso de que el tamao de muestra est basado en los dos parmetros.

Si se selecciona la opcin de calcular tamaos de muestra, Epidat 3.1 presenta los tamaos de enfermos y no enfermos por separado cuando el dato de entrada es la razn entre estos dos valores, y el tamao total en el caso de especificar la prevalencia de la enfermedad. En el caso
23

contrario, cuando se pide calcular potencia, el dato de entrada debe ser el tamao total de la muestra en cualquiera de las dos opciones. Ejercicio Un departamento de radiologa pretende realizar un estudio para comparar la precisin de una radiografa mamogrfica con la misma imagen digitalizada por monitor. La aspiracin con que se realiza este estudio es la de demostrar que es posible sustituir las radiografas por las imgenes, que resultan mucho ms baratas. Un radilogo revisar las radiografas y las imgenes digitales de una nica muestra de mujeres remitidas al hospital a las que se les determinar el verdadero diagnstico mediante biopsia. Se espera que la sensibilidad de las pruebas sea de un 80% en el caso de las mamografas y de un 90% para las imgenes digitales. Calcular el tamao de muestra necesario para comparar las dos pruebas diagnsticas con una confianza del 95% y una potencia del 80%, teniendo en cuenta que se confirma el diagnstico de cncer de mama en un 10% de los casos revisados. Resultados con Epidat 3.1
Tamaos de muestra y precisin para comparacin de pruebas diagnsticas emparejadas -----------Prueba 1 Prueba 2 Sensibilidad --------------80,0% 90,0% 10,0% 95,0%

Prevalencia de la enfermedad en la poblacin: Nivel de confianza: Potencia (%) Total ---------------- --------------80,0 2021

Calidad de lotes
El muestreo de aceptacin de lotes, en ingls Lot Quality Assurance Sampling (LQAS), es un mtodo de control de calidad desarrollado en la industria que puede resultar de gran utilidad para la monitorizacin en servicios de salud19-21. La evaluacin peridica sobre el comportamiento de indicadores mediante mtodos de muestreo tradicionales, donde se plantea la obtencin de estimaciones precisas, es una tarea que requiere de una importante cantidad de recursos humanos y materiales. Una alternativa consiste en aplicar tcnicas alternativas, tales como el plan de muestreo por lotes, el cual ofrece la posibilidad de utilizar muestras pequeas con el fin de tomar decisiones sobre el nivel de cumplimiento de indicadores en un lote o poblacin. Tal como se define en la literatura sobre control de calidad en la industria, el muestreo para la aceptacin de lotes es el proceso de evaluar una porcin de un lote de un determinado producto con el propsito de aceptar o rechazar el lote en su totalidad. Para la aplicacin de esta tcnica se requiere:

Definir la caracterstica que va a ser observada: variable dicotmica que permite identificar cada elemento del lote como defectuoso o no. La decisin de aceptar o rechazar el lote se basar en el porcentaje de elementos defectuosos en la muestra.

24

Definir el lote o poblacin, que debe ser lo ms homogneo posible respecto a la caracterstica que se pretende evaluar. Definir los parmetros:

Proporcin umbral de defectuosos: es un valor que define mala calidad y por encima del cual se considera que un lote es inaceptable. La proporcin complementaria (porcentaje de no defectuosos) se denomina nivel de calidad rechazable (NCR), y define un umbral inferior de cumplimiento de la calidad. Proporcin esperada de defectuosos: la proporcin complementaria se llama nivel de calidad aceptable (NCA) porque es el nivel deseable de cumplimiento del indicador. Riesgo alfa (): probabilidad de que un lote con proporcin de defectuosos inferior al umbral sea valorado como defectuoso. 1- es el nivel de confianza. Riesgo beta (): probabilidad de que un lote con nivel de cumplimiento inferior al NCR sea valorado como bueno. 1- es la potencia. n: Tamao de la muestra. d: Umbral de decisin.

Definir el plan de muestreo que se desea emplear:


El par (n, d) permite tomar la decisin de aceptar o rechazar el lote con los niveles de calidad y riesgos prefijados. La prctica consiste en lo siguiente:

En cada lote se extrae una muestra aleatoria simple de tamao n. Se cuenta el nmero de elementos que no cumplen el requisito de calidad evaluado (defectuosos). Si este nmero es mayor que d, se rechaza el lote, lo que equivale a considerar que la proporcin de defectuosos es superior al umbral. En caso contrario se acepta el lote, es decir, se puede considerar que la proporcin de defectuosos no supera el valor esperado.

Epidat 3.1 permite obtener los valores del par (n, d) para valores especificados de la proporcin umbral y esperada de defectuosos en un lote. La primera debe tomar un valor mayor que la esperada. Ejercicio En su departamento, la cobertura prevista para un programa de tamizaje de cncer de mama es del 70%. Detectadas ciertas deficiencias en el programa usted desea encuestar a mujeres del grupo de edad seleccionado por el programa para que le permita detectar barrios y zonas donde la cobertura es del 45% o menor. Cuntas mujeres habr que encuestar en cada barrio o zona y qu valor umbral habr de utilizarse para contrastar la hiptesis de que la proporcin de mujeres perdidas por el programa no supera el 55%? Usted desea tener una confianza del 95% de que reconocer zonas donde se ha alcanzado la cobertura de tamizaje preestablecida. Resultados con Epidat 3.1
Tamaos de muestra y potencia para evaluacin de calidad de lotes Proporcin esperada de defectuosos en la poblacin: Potencia: 30,000% 80,0% 25

Nivel de confianza: Proporcin umbral Tamao del lote Valor umbral ---------------- ----------------- ----------------55,000 24 10

95,0%

Supervivencia
En muchos ensayos clnicos se realiza un seguimiento de los pacientes asignados a cada tratamiento hasta que ocurre algn suceso crtico, y se utiliza el tiempo de seguimiento para comparar la eficacia de los tratamientos mediante tcnicas de supervivencia. En Epidat 3.1, el clculo del tamao de muestra para comparar curvas de supervivencia se basa en el test logrank16,22, asumiendo un modelo de riesgos proporcionales para los tiempos de supervivencia. Los factores que intervienen en el clculo son:

Nmero de curvas que se comparan. Probabilidad de supervivencia para cada curva, en porcentaje. La proporcin de prdidas en el seguimiento de los pacientes. La razn entre los tamaos de los grupos, en el caso de dos curvas. Si se comparan tres o ms curvas, se asume que los tamaos de los grupos son iguales.

Ejercicio Se pretende comparar una terapia estndar con un nuevo tratamiento y se sabe, por estudios previos, que las tasas de supervivencia a 5 aos pudieran no estar lejos, respectivamente, del 20% y del 35% Cuntos pacientes deben seleccionarse para comparar los dos tratamientos con un nivel de confianza del 95% y una potencia del 80%? Se espera perder en el seguimiento a un 5% de los pacientes.

Resultados con Epidat 3.1


Tamaos de muestra y potencia para comparacin de curvas de supervivencia Nmero de grupos: Razn entre muestras (grupo 2/grupo 1): Proporcin de Perdidas: Nivel de confianza: Probabilidad de supervivencia Grupo 1 : 35 Grupo 2 : 20 Potencia (%) --------------80,0 Grupo 1 --------------125 Grupo 2 --------------125 2 1,000 5% 95,0%

Coeficiente de correlacin
En Epidat 3.1, el clculo del tamao de muestra para evaluar si un coeficiente de correlacin es diferente de cero asume que los datos siguen una distribucin normal y se basa en un
26

procedimiento iterativo descrito en Machin y cols.16. Adems del nivel de confianza y la potencia, el nico dato necesario es el valor que se anticipa para el coeficiente de correlacin, que debe ser un valor entre -1 y 1. Ejercicio Supngase que la correlacin entre el volumen espiratorio forzado en un segundo y la capacidad vital forzada en individuos sanos es aproximadamente de 0,60. Supngase, adicionalmente, que un grupo de pacientes con una enfermedad de pulmn est accesible en una clnica, e interesa contrastar si hay correlacin entre ambas medidas en esos pacientes. Con un nivel de confianza del 95% y una potencia del 90%, cuntos sujetos se necesitan en la muestra? Resultados con Epidat 3.1
Tamaos de muestra y potencia para evaluacin de coeficiente de correlacin Coeficiente de correlacin a detectar: Nivel de confianza: Potencia (%) Tamao de muestra ---------------- ---------------90,0 21 0,600 95,0%

BIBLIOGRAFA
1. Rothman JK. Modern epidemiology. Boston: Little, Brown and Col; 1982. 2. Silva LC. Cultura estadstica e investigacin cientfica en el campo de la Salud. Una mirada Crtica. Madrid: Daz de Santos; 1997. 3. Silva LC. Diseo razonado de muestras y captacin de datos para la investigacin sanitaria. Madrid: Daz de Santos; 2000.

4. Marrugat J, Vila J, Pavesi J, Sanz F. Estimacin del tamao de muestra en la investigacin clnica y epidemiolgica. Med Clin (Barc) 1998; 111: 267-76. 5. Lwanga SK, Lemeshow S. Determinacin del tamao de las muestras en los estudios sanitarios:
manual prctico. Ginebra: Organizacin Mundial de la Salud; 1991. 6. Surez P, Alonso JC. Sobre el supuesto de mxima indeterminacin, el tamao muestral y otras consideraciones sobre muestreo. Gacet Sanit 1999; 13(3): 243-6. 7. Garca C, Almenara J. Determinacin del tamao de muestra en variables cualitativas en las que se desconoce el valor del parmetro. Med Clin (Barc) 1999; 112: 797-8. 8. Marrugat J, Vila J, Pavesi J. Supuesto de mxima indeterminacin: error absoluto o error relativo en el clculo del tamao de la muestra? Gacet Sanit 1999; 13(6): 491-3. 9. Silva LC. Nueva visita al supuesto de mxima indeterminacin y al empleo de errores absolutos y relativos. Gacet Sanit 2000; 14(3): 254-7.

27

10. Thompson WD. Anlisis estadstico de los estudios de casos y controles. Bol Oficina Sanit
Panam 1996; 121(1): 41-61.

11. Wacholder S, Silverman DT, McLaughlin JK, Mandel JS. Selection on controls in casecontrols studies. III. Design Options. Am J Epidemiol 1992; 135 (9): 1042-9.

12. Fleiss J.L. Statistical methods for rates and proportions. New York: John Wiley & Sons; 1981. 13. Cantor AB. Sample size calculating for Cohens K. Psychol Methods 1996; 1: 150-3. 14. Yerushalmy J. Statistical problems in assessing methods of medical diagnosis, with
special reference to X-ray techniques. Pub Health Rep 1947; 62: 1432-49.

15. Obuchowsky N. Sample size calculations in studies of test accuracy. Stat Methods Med Res
1998; 7: 371-92.

16. Machin D, Campbell M, Fayers P, Pinol A. Sample size tables for clinical studies. 2nd ed.
Blackwell Science; 1997.

17. Cohen J. Statistical Power Analysis for the Behavioural Sciences. 2nd ed. New Jersey:
Lawrence Earlbaum; 1988.

18. Conner R. J. Sample size for testing differences in proportions for the paired-sample
design. Biometrics 1987; 43: 207-11.

19. Corbella A, Fernndez-Fernndez O, Prez-Orcuna X, Grima P. Aplicacin de la tcnica


de planes de muestreo por lotes en la evaluacin de indicadores: asma en pediatra. Rev Calidad Asistencial 2000; 15: 79-87.

20. Saturno PJ. La distribucin binomial y el muestreo para la aceptacin de lotes (LQAS)
como mtodos de monitorizacin en servicios de salud. Rev Calidad Asistencial 2000; 15: 99-107.

21. Lpez-Picazo JJ. Aceptacin de muestras por lotes: aplicabilidad en la evaluacin de


cartera de servicios de Atencin Primaria. Aten Primaria 2001; 27(8): 547-53.

22. Ahnn S., Anderson S. J. Sample size determination for comparing more than two survival
distributions. Stat Med 1995; 14: 2273-82.

SELECCIN MUESTRAL CONCEPTOS GENERALES


Muchas razones prcticas pueden mencionarse para justificar el uso del muestreo. Sin embargo, la fundamental es de naturaleza econmica; por lo general, resulta literalmente imposible estudiar a todos los individuos que integran una poblacin (hacer un censo). El imperativo de hallar recursos metodolgicos que fuesen prctica y econmicamente viables, pero a la vez cientficamente vlidos, es de muy larga data. Sin embargo, no fue hasta la dcada del 30, con un clebre trabajo presentado por el polaco Jerzy Neyman ante la Royal Statistical Society, cuando se comenz a desarrollar una teora orgnica sobre las tcnicas que permiten superar de manera cientfica esa dificultad1.

28

Un paso de medular relevancia en el progreso histrico de consolidacin de la teora del muestreo fue dado con la introduccin del azar en el procedimiento de seleccin muestral. El azar puede intervenir de muchos modos en el proceso, pero se considera que se ha conferido un carcter estadsticamente riguroso al mtodo de seleccin slo cuando se cumplen dos condiciones: que el azar opere de manera tal que el procedimiento otorgue a todos y cada uno de los elementos de la poblacin cierta probabilidad conocida de antemano de integrar la muestra, y que tal probabilidad no sea nula para elemento alguno. En tal caso, se dice que se ha seguido un mtodo probabilstico de muestreo. Los procedimientos probabilsticos satisfacen la exigencia intuitiva de eliminar -o mitigar al menos- la carga subjetiva que podra influir en la eleccin de los elementos que se van a examinar, interrogar o medir (y, por ende, en las conclusiones). Por otra parte, slo cuando el mtodo es probabilstico se podr medir el grado de precisin con que se realizan las estimaciones, que es una de las tareas fundamentales del muestreo. Si la probabilidad de seleccin es la misma para todos los sujetos de la poblacin, entonces el procedimiento es equiprobabilstico. La propiedad ms importante de los diseos muestrales que tienen esta ltima condicin consiste en que, para hacer estimaciones puntuales, no es necesario emplear ponderaciones que corrijan los posibles sesgos introducidos por el hecho de que unos sujetos tengan ms oportunidad de integrar la muestra que otros. Esto quiere decir que, por ejemplo, para estimar la media poblacional (o un porcentaje), si el diseo fue equiprobabilstico, simplemente se utiliza la media muestral (o el porcentaje muestral). En algunas ocasiones se cuenta con listas detalladas de la poblacin que se quiere estudiar, y el proceso de seleccin se realiza entonces directamente haciendo uso de tales listas. Con ms frecuencia, sin embargo, no se dispone de una lista completa de unidades de anlisis. Cuando se da esa situacin se suele emplear el llamado muestreo en etapas o por conglomerados. Este procedimiento, sin embargo, puede emplearse aun cuando se disponga de una lista con vistas a ahorrar recursos en la fase de terreno. Su estructura consiste en lo siguiente: antes de seleccionar la muestra, la poblacin se divide en unidades de primera etapa (UPE), cada una de las cuales contiene un conjunto de varias unidades de anlisis. En cualquier caso, las unidades de muestreo de primera etapa deben cubrir por entero a la poblacin sin intersecarse; o sea, todo miembro de la poblacin o unidad de anlisis pertenecer a una y slo una UPE. Si se admiten en la muestra a todas las unidades de anlisis que integran las UPE elegidas, se ha optado por un muestreo por conglomerados monoetpico. Si, luego de seleccionadas aquellas unidades de primera etapa que aportarn elementos a la muestra, dentro de cada una de ellas se eligen algunas unidades de anlisis, entonces se est ante un muestreo por conglomerados bietpico. Epidat 3.1 contempla slo esas dos modalidades en cuanto al nmero de etapas, pero en la prctica (especialmente para poblaciones muy grandes) se acude ocasionalmente a diseos con 3 o ms etapas (por ejemplo, si se eligen 10 escuelas en una ciudad, 2 grupos en cada escuela elegida y 10 alumnos en cada grupo, se habrn empleado tres etapas para seleccionar una muestra de 200 alumnos de la ciudad). Para tales situaciones Epidat 3.1 puede ser til, pero hay que emplearlo ms de una vez y creativamente en dependencia del diseo de que se trate. Se llama marco muestral al conjunto de listas de todas las unidades de muestreo necesarias para llevar adelante el proceso. El conjunto de listas imprescindibles para la seleccin total (en el ejemplo: una lista de escuelas primero, despus una lista para cada uno de los grupos que tiene cada escuela seleccionada, y finalmente una lista de nios dentro de cada uno de los grupos as elegidos) constituye el marco muestral del estudio. Como ya se seal, en la prctica se dan dos situaciones en relacin al marco muestral: a) se dispone de todo el marco al comienzo del estudio y b) el marco se va conformando en la

29

medida que el muestreo avanza. Las diversas alternativas de seleccin que maneja Epidat 3.1 contemplan las dos posibilidades, siempre suponiendo que en el primero de estos casos el marco se halla volcado en una base de datos creada en Excel, dBase o Access (es decir, en formato xls, dbf o mbd respectivamente). Epidat 3.1 incluye los seis procedimientos de seleccin de muestras equiprobabilsticas ms importantes y brinda los recursos necesarios para aplicarlos a marcos muestrales reales. Los procedimientos incluidos son:

Muestreo simple aleatorio Muestreo sistemtico en fases Muestreo aleatorio estratificado Muestreo por conglomerados monoetpico Muestreo por conglomerados bietpico Muestreo por conglomerados bietpico estratificado

Los tres primeros corresponden a una seleccin directa sobre una lista de unidades de anlisis y los restantes tres son modalidades del muestreo en etapas. A continuacin se explica cmo proceder para seleccionar muestras en cada caso.

MUESTREO SIMPLE ALEATORIO


El Muestreo Simple Aleatorio (MSA) es el procedimiento probabilstico de seleccin de muestras ms sencillo y conocido. Es muy til para obtener muestras de poblaciones pequeas, pero no suele emplearse directamente para seleccionar muestras a partir de listas de unidades de anlisis cuando las poblaciones son muy grandes (por ejemplo, de varios miles), debido tanto a la dificultad o imposibilidad de contar con tales listas como a razones econmicas. En estas situaciones, el muestreo en etapas es mucho ms recomendable. El MSA se utiliza ampliamente, sin embargo, en los estudios experimentales, en lo que constituye el ms importante punto de contacto de la teora de muestreo en poblaciones finitas con la estadstica inferencial clsica. Pero su mayor relevancia la debe al hecho de ser un procedimiento bsico como componente de mtodos ms complejos (muestreo estratificado y en etapas). Cuando se emplea de manera directa sobre un conjunto de unidades, otorga la misma probabilidad de ser elegidos a todos los subconjuntos posibles de ese conjunto que tengan un tamao prefijado, de lo cual se deduce la propiedad de ser equiprobabilstico; es decir, de otorgar igual probabilidad de seleccin a todas las unidades de anlisis que integran la poblacin. El muestreo simple aleatorio slo exige dos datos para proceder: el tamao poblacional y el de la muestra deseada. Tamao poblacional: Entero mayor que cero que identifica el total de unidades de anlisis pertenecientes al universo o poblacin. Tamao de muestra: Entero mayor que cero y no mayor que el valor del tamao poblacional. Indica el nmero de unidades de anlisis que se tomarn de la poblacin para integrar la muestra. Cuando se cuenta con un marco muestral ya volcado en una base de datos, debe comunicarse el nombre y la ubicacin del archivo que la contiene. En este caso, el programa identifica el Tamao poblacional automticamente y este campo se inhabilita, ya que el programa asume que dicho tamao coincide con el nmero de artculos contenidos en el archivo. En tal caso es posible guardar a su vez la muestra resultante de la seleccin en un
30

archivo de datos con la misma estructura del original y con todos los datos ya contenidos en ese archivo para cada una de las unidades de anlisis que hayan resultado seleccionadas. Ejemplo Para ilustrar el empleo del MSA en Epidat 3.1, considrense las dos posibilidades previstas: el caso en que se cuenta con un marco muestral ya volcado en una base de datos, y aquel en que slo se conoce el tamao del futuro listado con que se va a operar (es decir, el tamao poblacional). Supngase que se quiere obtener una MSA de 120 estudiantes de un centro universitario que tiene 966 alumnos registrados. Si no se contara con una base de datos donde se identifique a los 966 alumnos, simplemente se comunicaran esos dos nmeros al programa y ste devuelve la identificacin genrica de los 120 sujetos (entre 1 y 966) resultantes de la seleccin (es decir, simplemente el nmero que corresponde a cada cual):
Muestreo simple aleatorio Archivo de trabajo: C:\Archivos de programa \Epidat 3.1 \Ejemplos \Muestreo \UNIVERSIDAD 1.xls Tamao poblacional: Tamao de muestra: 966 120 44 80 133 178 243 298 369 424 465 526 571 626 677 725 779 873 935 45 91 150 180 256 314 370 429 474 530 578 639 680 728 786 875 938 46 99 152 202 262 323 373 430 480 544 580 642 683 734 787 880 954

Nmero de los sujetos seleccionados 1 3 15 25 60 62 68 70 103 104 116 122 155 161 165 172 206 223 227 239 268 275 287 293 334 342 356 368 379 396 398 410 434 449 453 456 495 508 517 519 558 562 565 570 589 603 609 616 650 654 662 668 687 691 701 709 753 756 762 771 788 827 858 871 892 916 921 932 963

Nota: Obviamente, si el usuario hace esta operacin, los 120 nmeros que obtendr no sern los que figuran en el cuadro precedente sino otros, ya que el ordenador hace una seleccin diferente en cada ocasin. El archivo de ejemplo llamado UNIVERSIDAD 1.xls, el cual se halla dentro del paquete Epidat 3.1, contiene el nombre y la edad de los 966 estudiantes. Indicando este archivo como fuente de datos para la seleccin de 120 alumnos, se obtiene un resultado similar al del caso anterior, pero ahora se tiene la posibilidad de guardar la muestra seleccionada en un archivo que contendr para cada registro (cada estudiante) la misma informacin incluida en UNIVERSIDAD 1.xls, pero slo para los 120 sujetos elegidos, tal y como se aprecia a continuacin:
31

NOMBRE MARIA OTERO OCTAVIO ESPINEL GONZALO PILOTO AURORA NUEZ ... JORGE HERRERA JESUALDO SERRET

EDAD 21 20 21 27 ... 27 27

MUESTREO SISTEMTICO EN FASES


Es un procedimiento alternativo al Muestreo Simple Aleatorio, que se usa para la seleccin de muestras equiprobabilsticas de una poblacin organizada segn cierto orden conocido. Una importante ventaja sobre aqul consiste en que no es estrictamente necesario contar con un marco explcito de todas las unidades de anlisis de la poblacin (podra aplicarse, por ejemplo, a los usuarios de un servicio de urgencias en la medida que van arribando a ste a lo largo de cierto perodo). Por conducto de este procedimiento, la muestra recorre toda la lista o poblacin (por ejemplo, se extiende por todo el lapso durante el cual arriban pacientes al servicio). Al igual que el Muestreo Simple Aleatorio, tambin otorga igual probabilidad de integrar la muestra a todas las unidades de anlisis de la poblacin. El muestreo sistemtico en fases es una variante del muestreo sistemtico convencional formalizada hace relativamente pocos aos2. Los detalles de la forma en que opera (especialmente, en lo que concierne a la definicin de arranques para cada fase) pueden hallarse en Silva3. El muestreo sistemtico slo exige dos datos para proceder: el tamao poblacional y el porcentaje de este total poblacional que se quiere obtener como tamao de muestra. Tamao poblacional: Entero mayor que cero que identifica el total de unidades de anlisis pertenecientes al universo o poblacin. Probabilidad de seleccin: Es la probabilidad comn que se quiere otorgar a cada elemento de la poblacin y que a la vez representa la fraccin del tamao poblacional que quedar en la muestra. Para facilitar el trabajo con este campo, se define como un valor entero mayor que cero y menor que 100 (o sea, en rigor, el valor que ha de teclearse representa la probabilidad de seleccin multiplicada por 100); con esta informacin Epidat 3.1 determina los intervalos de seleccin (nmero que fija uno de cada cuntos han de tomarse) y arranques (valores a partir de los cuales se comienzan a aplicar dichos intervalos) que deben emplearse para aplicar el procedimiento. Cuando se cuenta con un marco muestral ya volcado en una base de datos, debe comunicarse el nombre y la ubicacin del archivo que la contiene. En este caso, el programa identifica el Tamao poblacional automticamente y este campo se inhabilita, ya que el programa asume que dicho tamao coincide con el nmero de artculos contenidos en el archivo. En tal caso es posible guardar a su vez la muestra resultante de la seleccin en un archivo de datos con la misma estructura del original y con todos los datos ya contenidos en ese archivo para cada una de las unidades de anlisis que hayan resultado seleccionadas.

Ejemplo

32

Para ilustrar el empleo del muestreo sistemtico en Epidat 3.1, considrese las dos posibilidades previstas: el caso en que se cuenta con un marco muestral ya volcado en una base de datos y aquel en que slo se conoce el tamao del futuro listado con que se va a operar (es decir, el tamao poblacional). Supngase que se quiere obtener una muestra sistemtica que contenga aproximadamente al 12% de los estudiantes de un centro universitario que tiene 966 alumnos registrados. Si no se contara con un listado en base de datos, simplemente se comunicaran esos dos nmeros al programa y ste devuelve alrededor de 115 nmeros entre 1 y 966 resultantes de la seleccin. Nota: Advirtase que en el muestreo sistemtico la cifra de sujetos elegidos no siempre ser exactamente igual para diferentes aplicaciones aunque se introduzcan los mismos datos iniciales; puede producirse una ligera variacin que es propia del mtodo que se emplea, dependiente de la seleccin aleatoria que se realice; en este ejemplo concreto, dicho nmero puede ser 115 o 116, pues el 12% de 966 es un nmero no entero (115,92). Resultados con Epidat 3.1
Muestreo sistemtico en fases Tamao poblacional: 966 Probabilidad de seleccin: 12% Tamao de muestra: 116 Intervalo 8 -25 Arranque 5 12

Nmero de los sujetos seleccionados 5 61 125 181 237 301 357 413 469 533 589 645 709 765 821 877 941 13 69 133 189 245 309 365 421 477 541 597 653 717 773 829 885 949 21 77 141 197 253 317 373 429 485 549 605 661 725 781 837 901 957 29 85 149 205 261 325 381 437 501 557 613 669 733 789 845 909 965 37 101 157 213 269 333 389 445 509 565 621 677 741 797 853 917 45 109 165 221 277 341 397 453 517 573 629 685 749 805 861 925 53 117 173 229 285 349 405 461 525 581 637 701 757 813 869 933

Al aplicar Epidat 3.1 en esta situacin, el programa ha seleccionado sistemticamente 1 de cada 8 sujetos (empezando con el quinto sujeto como arranque) y, de los as seleccionados, elimina uno de cada 25 (empezando con el arranque 12 en esa segunda fase). Nota: Epidat 3.1 identifica los intervalos de seleccin (8 y 25 en este caso) y elige aleatoriamente los arranques (5 y 12 en este ejemplo). Cuando se cuenta con un marco muestral volcado en una base de datos, debe comunicarse el nombre y la ubicacin de dicha base.

33

El archivo UNIVERSIDAD 1.xls contiene el nombre, y la edad de los 966 estudiantes. Indicando este archivo como fuente de datos para la seleccin del 12% de los alumnos, se obtiene un resultado similar al del caso anterior pero ahora se tiene la posibilidad de guardar la muestra seleccionada en un archivo que retendr la informacin contenida en UNIVERSIDAD 1.xls pero slo para los sujetos que resulten elegidos, tal y como se muestra a continuacin: NOMBRE EVELIO GARRIDO LUIS MONTERDE MAITE PONCE JAVIER RAVELO ... LZARO MARTNEZ ALFREDO MATEOS EDAD 27 27 22 26 ... 25 26

MUESTREO ALEATORIO ESTRATIFICADO


Este diseo muestral se utiliza cuando la poblacin se puede particionar en diferentes grupos de elementos (estratos) cuya representacin en la muestra quisiera asegurarse. La manera natural de lograrlo es construir listas separadas para cada uno de los estratos y proceder a seleccionar submuestras en cada uno de ellos. Con este diseo lo que se procura es obtener una muestra que tenga en s una variabilidad similar a la de la poblacin; lo ideal sera conseguir que los subconjuntos que se definan como estratos fuesen internamente homogneos y diferentes entre s. Dentro de cada uno de los estratos, la muestra de unidades de anlisis es seleccionada por un procedimiento probabilstico; Epidat 3.1 siempre usa Muestreo Simple Aleatorio para ello, y asume que se realizar una asignacin proporcional del tamao muestral a los diferentes estratos. Esto quiere decir que el criterio para determinar los tamaos muestrales dentro de los estratos en un muestreo aleatorio estratificado consiste en dividir el tamao muestral en tantos sumandos como estratos haya y de manera tal que la razn entre el tamao muestral dentro de un estrato y el tamao de todo el estrato sea la misma para todos los estratos. La muestra as elegida resulta ser equiprobabilstica. Como en otros diseos, hay dos situaciones posibles:

a) Cuando la nica informacin disponible es el nmero de estratos y el tamao de cada


uno. En este caso, debe crearse un archivo con tantos registros como estratos, con un campo que identifique el estrato y otro su correspondiente tamao. b) Cuando se dispone de una base de datos que contiene el marco muestral detallado, es decir, cada registro corresponde a una unidad de anlisis de la que se conoce a que estrato pertenece. En este caso no es necesario informar el nmero de unidades existentes en cada estrato (Epidat 3.1 lo hace automticamente); tras aplicar el mtodo, es posible guardar la muestra resultante del procesamiento en un archivo con la misma estructura del original y con todos los datos de cada una de las unidades de anlisis seleccionadas. En ambos casos, se comienza informando el nombre del archivo que contiene los datos, sean agrupados o no. El campo de dicho archivo que identifique los estratos debe ser numrico y

34

asignar nmeros naturales a los estratos; asimismo, el archivo debe estar ordenado por ese campo. Adems, se han de indicar al programa los datos siguientes: Campo que identifica los estratos: Nombre del campo de la base de datos que contiene la identificacin de los estratos en que se encuentra dividida la poblacin. Tamao de muestra: Valor entero mayor que cero y menor que el tamao de la poblacin. Indica el nmero total de unidades de anlisis que se tomarn de la poblacin para integrar la muestra. En el primer caso,(cuando no se cuenta con una base de datos que contiene a todos los elementos de la poblacin) hay que comunicar adems: Campo que identifica los tamaos de los estratos: es el campo de la base donde se consigna el nmero de unidades de anlisis que contiene cada estrato. Ejemplo Supngase que se quiere obtener una muestra de 120 estudiantes de un centro universitario que tiene 966 alumnos registrados, distribuidos en cuatro reas acadmicas con los siguientes tamaos: 1. 2. 3. 4. Ingeniera: Ciencias econmicas: Ciencias exactas: Letras: 264 284 182 236

Se desea que la muestra contemple las reas acadmicas como estratos. El archivo UNIVERSIDAD 2.xls contiene slo cuatro registros, uno por cada rea acadmica, con un campo numrico llamado AREA que contiene su identificacin (del 1 al 4), y otro campo que recoge su tamao. Al aplicar Epidat 3.1 hay que elegir la opcin de datos agrupados y teclear el tamao muestral deseado, que es 120. Con estos datos el programa produce una informacin similar a la siguiente:
Muestreo aleatorio estratificado Archivo de trabajo: C:\Archivos de programa \Epidat 3.1 \Ejemplos \Muestreo \UNIVERSIDAD 2.xls Campo que identifica los estratos: AREAS Campo de agrupacin: TAMAOS Tamao poblacional: 966 Tamao muestral previsto: 120 Estrato Sujetos 1 33 2 35 3 23 4 29 Tamao muestral real: 120 Nmero de los sujetos seleccionados Estrato: 1 10 66 116 172 30 78 140 192 38 85 149 205 48 89 150 214 50 99 157 232 53 105 164 235 60 106 165 237

35

238 Estrato: 2 274 324 396 434 507 Estrato: 3 554 591 634 720 Estrato: 4 732 820 867 919 966

243 301 340 400 445 510 560 599 647 726 738 821 881 920

247 303 358 406 459 522 566 605 684

248 305 369 413 464 523 569 613 694

259 310 370 417 490 536 570 615 697 315 380 420 494 538 585 626 702 321 393 429 500 541 586 629 709

766 825 888 922

789 845 892 928

801 855 897 937

806 861 900 942

808 863 908 952

Nota: Advirtase que el tamao muestral podra no haber sido exactamente 120. Ello se debe a que al intentar distribuir 120 proporcionalmente a los tamaos de los estratos, Epidat 3.1 realiza redondeos que pueden ocasionalmente producir que el tamao muestral global no coincida con el previsto. Naturalmente, en la prctica se usaran los tamaos redondeados aunque la suma no sea igual al tamao de muestra recabado (hecho que virtualmente nunca tiene importancia prctica alguna, ya que la diferencia diferir a lo sumo en una unidad). El archivo UNIVERSIDAD 3.xls contiene los datos (nombre y edad) de cada uno de los 966 estudiantes y el campo AREA donde se consigna el rea Acadmica a la que pertenece cada uno de ellos (codificada como 1, 2, 3 4). Al correr el programa, se obtiene un resultado similar al del caso anterior, pero ahora se tiene la posibilidad de guardar la muestra seleccionada en un archivo que contendr la misma informacin que UNIVERSIDAD 3.xls pero slo para los sujetos que resulten elegidos.

MUESTREO POR CONGLOMERADOS MONOETPICO


Tpicamente, se opta por este mtodo de muestreo cuando no se pueda disponer de un listado de unidades de anlisis y/o cuando se quieren eludir algunos problemas prcticos que supondra el empleo de Muestreo Simple Aleatorio o el Muestreo Sistemtico en Fases, tales como la dispersin geogrfica de las unidades de anlisis a lo largo del territorio en que se halla ubicada la poblacin. Una solucin a este problema sera la seleccin de una muestra por conglomerados monoetpica: se trata de dividir la poblacin en cierto nmero de partes o conglomerados, que se consideran como UPE, e incluir en la muestra a todas las unidades de anlisis pertenecientes a los conglomerados que se elijan. Este procedimiento tambin puede aplicarse en dos posibles situaciones. Estas son:

a) Cuando slo se tienen identificados los conglomerados y sus tamaos; en este caso se
debe conformar un archivo con tantos registros como conglomerados, con un campo

36

que identifique el conglomerado y otro campo que contenga su tamao(nmero de unidades de que consta). Nota: Cuando lo nico disponible es el listado de conglomerados (por ejemplo, una lista donde figuran 45 escuelas con sus nombres y direcciones) pero no se conocen sus tamaos (nmero de alumnos por escuela), la seleccin de conglomerados (escuelas) debe realizarse usando alguno de los procedimientos directos de seleccin (muestreo simple aleatorio de las UPE, o muestreo sistemtico o muestreo estratificado) y en consecuencia, apelar a alguno de los mdulos previamente explicados. El nico aspecto que cabe advertir en este caso es que el usuario debe tomar un nmero de conglomerados aproximadamente igual a la razn entre el tamao de muestra y el nmero medio de unidades de anlisis por conglomerado. Es posible que este ltimo dato no se conozca, pero casi siempre se tiene una idea aproximada del tamao poblacional y, por ende, tambin del promedio por UPE.

b) Cuando se cuenta con un archivo que contiene una base de datos cada uno de cuyos
registros corresponde a una unidad de anlisis (marco muestral detallado) de la que se conoce a qu UPE o conglomerado pertenece. En este caso es posible guardar la muestra resultante del procesamiento en un archivo con la misma estructura del original y con todos los datos de cada una de las unidades de anlisis seleccionadas. En ambos casos se ha de informar a Epidat 3.1 el archivo en que se halla la informacin y los dos datos siguientes: Campo que identifica los conglomerados: Nombre del campo de la base de datos con el cual se identifican los conglomerados que integran la poblacin. Tamao de muestra: Valor entero mayor que cero y menor que el tamao poblacional (si los datos son agrupados, el tamao poblacional no es el nmero de registros de la base, sino la suma de la variable que contiene los tamaos de los conglomerados). Indica el nmero de unidades de anlisis que se tomarn de la poblacin para integrar la muestra. Adems, el archivo debe estar ordenado por el campo que identifica los conglomerados. En el primer caso, hay que comunicar adems: Campo que identifica los tamaos de los conglomerados: es el campo de la base donde se consigna el nmero de unidades de anlisis que contiene cada conglomerado. En caso de tener un marco muestral completo en la base de datos, esta informacin no es necesaria, pues Epidat 3.1 se ocupa de contar el nmero de sujetos en cada UPE. Nota: Debe advertirse que, al examinar la base de datos, el sistema considera como pertenecientes a un mismo conglomerado a todos aquellos registros que tengan un mismo cdigo en el campo que identifica al conglomerado. Esto quiere decir, por ejemplo, que todos los registros para los cuales la variable correspondiente al conglomerado tenga el cdigo 3, sern considerados como integrantes del tercer conglomerado de la poblacin. Si la base de datos estuviera conformada de manera tal que se emplea un mismo nmero para identificar a conglomerados diferentes debido, por ejemplo, a que stos pertenecen a zonas diferentes o a distintas unidades de muestreo de mayor jerarqua, el sistema entender indebidamente que se trata de registros de

37

un mismo conglomerado. Consecuentemente, para evitar esta posible dificultad, es conveniente atribuir siempre un cdigo diferente a cada conglomerado de la poblacin. Por ejemplo, si se tuviera dos manzanas, una con 42 y otra con 23 viviendas (siendo stas los conglomerados), en el campo correspondiente a estos ltimos deben ponerse 65 nmeros diferentes para identificarlos (por ejemplo, los nmeros del 1 al 65) en lugar de emplear los nmeros 1, 2, ..., 42 para la primera manzana y 1, 2, ..., 23 para la segunda. Ejemplo Supngase que se quiere obtener una muestra de aproximadamente 120 estudiantes de un centro universitario que tiene 966 alumnos registrados y que los alumnos estn distribuidos en 52 grupos de tamaos variables y conocidos. El archivo UNIVERSIDAD 4.xls contiene la lista de los 52 grupos y los tamaos de stos. Ntese que el campo que contiene los conglomerados tiene que ser numrico (en este archivo, el campo se llama GRUPO, estos estn identificados por los nmeros del 1 al 52). Se teclea el tamao muestral deseado (120 en este caso) y Epidat 3.1 aplica un muestreo simple aleatorio para seleccionar 7 de los 52 grupos. Este nmero es el resultado de dividir el tamao de la muestra (120) por el nmero medio de unidades de anlisis de las UPE (966/52=18,6) y luego redondear: 120/18,6=6,457. Epidat 3.1 siempre tomar el entero ms pequeo que supere o iguale a esa razn (en el ejemplo previo el menor nmero entero mayor que 6,45 es 7). El resultado sera:
Muestreo por conglomerados monoetpico Archivo de trabajo: C:\Archivos de programa \Epidat 3.1 \Ejemplos \Muestreo \UNIVERSIDAD 4.xls Tamao de muestra: Tamao poblacional: 121 966

Campo que identifica los conglomerados: GRUPO Campo de agrupacin: TAMAO Nmero de conglomerados en la poblacin: Nmero medio de sujetos por conglomerado: Nmero de conglomerados seleccionados: Conglomerado Tamao --------------- -------9 15 23 22 35 17 36 12 37 12 42 31 52 12 52 18,58 7

La muestra estar conformada por los sujetos que pertenezcan a estos 7 conglomerados, 121 en total (ya que los tamaos respectivos son 15, 22, 17, 12, 12, 31 y 12). Ntese que el tamao muestral verdadero raramente coincidir con el deseado (120 en este ejemplo). Este es un rasgo inherente al muestreo monoetpico.

38

Supngase ahora que se cuenta con un archivo que contiene la informacin completa: listado de los 966 sujetos y, para cada cual, el cdigo del grupo al que pertenece. Puede contener, adems, otra informacin sobre los individuos, que no ser empleada en el acto de seleccin. El archivo UNIVERSIDAD 5.xls contiene los datos (nombre y edad) de cada uno de los 966 estudiantes y el campo GRUPO, donde se consigna el grupo al que pertenece cada uno de ellos (codificados como 1, 2, ..., 52). En el archivo UNIVERSIDAD 5.xls los registros estn ordenados segn grupos y, dentro de stos, alfabticamente (tal y como verosmilmente se obtendran de un registro secretarial). Al correr el programa, se obtiene un resultado similar en su estructura al del caso anterior, pero ahora se tiene la posibilidad de guardar el archivo con la base de datos resultante del proceso de seleccin (es decir, la informacin contenida en UNIVERSIDAD 5.xls, pero slo para los sujetos que resulten elegidos). Ntese que tampoco en esta variante el tamao muestral esperado (deseado) coincide con el realmente obtenido. En un diseo como ste, el tamao muestral es aleatorio, ya que depende de cules sean los conglomerados que a la postre resulten seleccionados.

MUESTREO POR CONGLOMERADOS BIETPICO


Este procedimiento de seleccin muestral se utiliza cuando hay gran variabilidad entre los tamaos de los conglomerados, o cuando el tamao poblacional es demasiado grande, casos en que no procede emplear muestreo por conglomerados monoetpico. La poblacin se divide inicialmente en conglomerados, que constituyen las unidades de primera etapa (UPE), parte de las cuales son seleccionadas para ser entonces objeto de subseleccin (cada una de ellas). El muestreo por conglomerados bietpico puede desarrollarse segn muchos esquemas, pero Epidat 3.1 siempre selecciona las UPE con probabilidad proporcional a sus tamaos; posteriormente, y en cada una de las UPE as elegidas, se toma un nmero fijo de unidades de anlisis. La seleccin de las unidades de anlisis se realiza dentro de cada UPE elegida mediante muestreo simple aleatorio. Este procedimiento tambin puede aplicarse segn dos alternativas; en ambos casos hay que contar con un archivo que contenga informacin sobre el marco muestral. Estos casos son:

a) Cuando lo nico disponible es el listado de conglomerados y sus tamaos, en cuyo


caso cada registro de la base de datos corresponde a un conglomerado. Uno de los campos de esta base debe recoger el nmero de unidades de anlisis de la UPE correspondiente (es decir, su tamao).

b) Cuando se cuenta con una base de datos en la que cada uno de cuyos registros
corresponde a una unidad de anlisis (marco muestral detallado). En este caso es posible guardar la muestra resultante del procesamiento en un archivo de datos con la misma estructura del original y con todos los datos de cada una de las unidades de anlisis seleccionadas. Los datos que han de introducirse son: Campo que identifica los conglomerados: Nombre del campo de la base de datos que contiene la identificacin de los conglomerados (UPE) que integran la poblacin. Tamao de muestra: Valor entero mayor que cero y no superior al producto del nmero de conglomerados por el tamao del conglomerado ms pequeo. Sujetos a elegir por conglomerado: Valor entero mayor que cero y menor o igual que el tamao del conglomerado (UPE) ms pequeo con que cuente la poblacin; identifica

39

el nmero de unidades de anlisis que han de seleccionarse dentro de cada uno de los conglomerados. Nota: Advirtase que este ltimo nmero tiene que ser un divisor del tamao de muestra (o, equivalentemente, que el tamao general de muestra tiene que ser mltiplo del que se tomar en cada UPE). Adems, el archivo debe estar ordenado por el campo que identifica los conglomerados. En el primer caso (no se tiene base detallada, sino que slo se cuenta con datos globales) hay que indicar, adems, la informacin siguiente: Campo que contiene el tamao de los conglomerados: Nombre del campo de la base de datos que indica para cada conglomerado o UPE, el nmero de unidades de anlisis que contiene. En caso de tener un marco muestral completo en la base de datos, esta informacin no es necesaria, pues Epidat 3.1 se ocupa de contar el nmero de sujetos en cada UPE. Nota: Debe advertirse que, al examinar la base de datos, el sistema considera como pertenecientes a un mismo conglomerado a todos aquellos registros que tengan un mismo cdigo en el campo que identifica al conglomerado. Esto quiere decir, por ejemplo, que todos los registros para los cuales la variable correspondiente al conglomerado tenga el cdigo 3, sern considerados como integrantes del tercer conglomerado de la poblacin. Si la base de datos estuviera conformada de manera tal que se emplea un mismo nmero para identificar a conglomerados diferentes debido, por ejemplo, a que stos pertenecen a zonas diferentes o a distintas unidades de muestreo de mayor jerarqua, el sistema entender indebidamente que se trata de registros de un mismo conglomerado. Consecuentemente, para evitar esta posible dificultad, es necesario atribuir siempre un nmero diferente a cada conglomerado de la poblacin. Por ejemplo, si se tuviera dos manzanas, una con 42 y otra con 23 viviendas (siendo stas los conglomerados), en el campo correspondiente a estos ltimos deben ponerse 65 nmeros diferentes para identificarlos (por ejemplo, los nmeros del 1 al 65) en lugar de emplear los nmeros 1, 2, ..., 42 para la primera manzana y 1, 2, ..., 23 para la segunda. Ejemplo Supngase que se quiere obtener una muestra bietpica equiprobabilstica de 120 estudiantes de un centro universitario que tiene 966 alumnos registrados. Supngase adems que los alumnos estn distribuidos en 52 grupos de tamaos variables y conocidos y que se ha decidido seleccionar 12 de esos grupos, o equivalentemente, 10 alumnos por grupo. El archivo UNIVERSIDAD 4.xls contiene la informacin necesaria para hacer la seleccin si se est en el primer caso; dicha base consta de 52 registros (tantos como GRUPOS diferentes contiene el centro universitario). El campo TAMAO de la base UNIVERSIDAD 4.xls contiene el nmero de sujetos existentes en cada uno de los 52 grupos. Una vez introducidos los datos correspondientes, Epidat 3.1 produce la siguiente informacin:

40

Muestreo por conglomerados bietpico con asignacin proporcional al tamao de las UPE Archivo de trabajo: C:\Archivos de programa \Epidat 3.1 \Ejemplos \Muestreo \UNIVERSIDAD 4.xls Tamao de muestra: 120 Tamao poblacional: 966 Sujetos a elegir por conglomerado: 10 Campo que identifica los conglomerados: GRUPO Campo de agrupacin: TAMAO Conglomerados seleccionados Conglomerado Sujetos 5 26 10 47 13 22 17 28 22 18 25 21 29 13 33 20 39 21 42 31 47 12 51 12 Nmero de los sujetos seleccionados Conglomerado: 5 65 66 70 73 78 79 80 Conglomerado: 10 156 169 184 188 Conglomerado: 13 230 231 248 249 Conglomerado: 17 294 303 317 318 Conglomerado: 22 386 390 401 402 Conglomerado: 466 483 Conglomerado: 550 559 Conglomerado: 618 632 Conglomerado: 712 725 25 468 484 29 552 560 33 621 633 39 713 726 172 189 235 250 304 319 392 403 470 486 554 561 623 636 715 727 173

74

75

77

175

176

177

237

239

241

242

307

308

309

310

394

395

399

400

472 555 627 716

475 556 628 718

479 557 629 722

480 558 631 723

41

Conglomerado: 42 770 773 793 794 Conglomerado: 47 874 875 882 883 Conglomerado: 51 943 944 951 953

776 795 876 884 945 954

779

790

791

792

878

879

880

881

946

948

949

950

Supngase ahora que se cuenta con un archivo que contiene la informacin completa: listado de los 966 sujetos y, para cada cual, el dato del grupo al que pertenece. Cada registro puede contener o no, adems, otra informacin sobre los individuos, que no ser empleada en el acto de seleccin. El archivo UNIVERSIDAD 5.xls contiene los datos (nombre y edad) de cada uno de los 966 estudiantes y el campo GRUPO, donde se consigna el grupo al que pertenece cada uno de ellos (codificada como 1, 2, ..., 52). En el archivo UNIVERSIDAD 5.xls los registros estn ordenados segn grupos y, dentro de stos, alfabticamente (tal y como verosmilmente se obtendran de un registro secretarial). Al correr el programa, se obtiene un resultado similar al del caso anterior, pero ahora se tiene la posibilidad de guardar el archivo con la base de datos resultante del proceso de seleccin (es decir, la informacin contenida en UNIVERSIDAD 5.xls pero slo para los sujetos que resulten elegidos).

MUESTREO POR CONGLOMERADOS BIETPICO ESTRATIFICADO


Este procedimiento de seleccin muestral se utiliza cuando se quiere aplicar un muestreo bietpico pero habiendo separado antes las UPE segn estratos. Se trata de un mtodo cuyo uso est muy extendido en la prctica. La poblacin tiene que estar inicialmente conformada en estratos. En cada uno de ellos, se consideran conglomerados, que constituyen las unidades de primera etapa, de las cuales se selecciona cierto nmero en cada estrato. De las UPE elegidas se toman las unidades de anlisis que integrarn la muestra; estas ltimas son a su vez las unidades de segunda etapa. El muestreo estratificado por conglomerados bietpico puede desarrollarse segn muchos esquemas, pero Epidat 3.1 siempre selecciona las UPE con probabilidad proporcional a sus tamaos dentro de cada estrato y el nmero de UPE a seleccionar en el estrato es proporcional al nmero de UPE que all existan. Posteriormente, y en cada una de las UPE as elegidas, se toma un nmero fijo de unidades de anlisis. La seleccin de las unidades de anlisis se realiza dentro de cada UPE elegida mediante muestreo simple aleatorio. Este procedimiento tambin puede aplicarse segn dos alternativas; en ambos casos hay que contar con un archivo que contenga informacin sobre el marco muestral. Estos casos son:

a) Cuando slo se dispone de la lista de conglomerados y sus tamaos dentro de cada


estrato; en este caso, cada registro de la base de datos corresponde a un conglomerado. Uno de los campos de tal base debe recoger el nmero de unidades de anlisis de la UPE correspondiente (es decir, su tamao) y otro el estrato al que dicha UPE pertenece.

b) Cuando se cuenta con una base de datos cada uno de cuyos registros corresponde a
una unidad de anlisis (marco muestral detallado). En este caso es posible guardar la muestra resultante del procesamiento en un archivo de datos con la misma estructura
42

del original y con todos los datos de cada una de las unidades de anlisis seleccionadas. Los datos que hay que introducir son: Campo que identifica los estratos: Nombre del campo de la base de datos que contiene la identificacin de los estratos en que est dividida la poblacin. Campo que identifica los conglomerados: Nombre del campo de la base de datos que contiene la identificacin de los conglomerados (UPE) que integran la poblacin. Campo donde se registra el nmero de unidades de anlisis por conglomerado: Nombre del campo de la base de datos que indica para cada conglomerado o UPE que integra la poblacin, el nmero de unidades de anlisis que contiene. Nota: Si se cuenta con una base detallada, este ltimo campo no aparece entre los que hay que rellenar, ya que Epidat 3.1 puede obtener esta informacin de la propia base. Tamao de muestra: Valor entero mayor que cero y no superior al producto del nmero de conglomerados por el tamao del conglomerado ms pequeo. Indica el nmero de unidades de anlisis que se tomarn de la poblacin para integrar la muestra. Sujetos a elegir por conglomerado: Valor entero mayor que cero y menor o igual que el tamao del conglomerado (UPE) que menos unidades de anlisis contenga en la poblacin; identifica el nmero de unidades de anlisis que han de seleccionarse dentro de cada uno de los conglomerados seleccionados. Adems, el archivo debe estar ordenado primero por el campo que identifica los estratos, y despus por el campo que identifica los conglomerados.

Ejemplo Supngase que se quiere obtener una muestra bietpica equiprobabilstica de 120 estudiantes de un centro universitario que tiene 966 alumnos registrados. Supngase adems que hay cuatro reas acadmicas y que en cada una existe cierto nmero de grupos de alumnos (14, 14, 11 y 13 grupos respectivamente) de modo que los alumnos estn distribuidos en 52 grupos de tamaos variables y conocidos. Considrese, finalmente, que se ha decidido seleccionar 12 de esos grupos y 10 alumnos por grupo. El archivo UNIVERSIDAD 6.xls contiene la informacin necesaria para hacer la seleccin cuando no se tiene una base de datos detallada sino datos agrupados; dicha base consta de 52 registros (tantos como GRUPOS diferentes contiene el centro universitario). El campo TAMAO de la base UNIVERSIDAD 6.xls contiene el nmero de sujetos existentes en cada uno de los 52 grupos. Es fcil corroborar que la estructura poblacional reflejada en esa base es acorde con la informacin siguiente:

43

reas acadmicas Ciencias Ciencias Grupos Ingeniera (1) Letras (4) exactas (2) econmicas (3) 1 11 11 13 19 2 16 17 10 17 3 24 28 29 31 4 11 17 16 10 5 26 18 20 34 6 23 16 14 16 7 13 14 17 16 8 13 18 12 12 9 15 22 12 15 10 47 40 18 30 11 11 21 21 12 12 19 17 12 13 22 10 12 14 13 35 Totales 264 284 182 236 Dando los datos correspondientes, Epidat 3.1 produce los siguientes resultados:
Muestreo por conglomerados bietpico estratificado Archivo de trabajo: C:\Archivos de programa \Epidat 3.1 \Ejemplos \Muestreo \UNIVERSIDAD 6.xls Tamao de muestra: Tamao poblacional: 120 966

Campo que identifica los estratos: AREA Campo que identifica los conglomerados: GRUPO Campo de agrupacin: TAMAO Sujetos seleccionados Estrato Sujetos ----------------1 30 2 40 3 20 4 30 Estrato 1 Conglomerados seleccionados Conglomerado Sujetos 3 24 8 13 12 19 Nmero de los sujetos seleccionados Conglomerado: 3 29 30 46 48 Conglomerado: 8 125 126 35 49 127 36 128 38 129 39 131 42 132

44

133

134

137 215 228 217 219 221 223

Conglomerado: 12 213 214 224 226

Estrato 2 Conglomerados seleccionados Conglomerado Sujetos 16 17 20 16 24 40 26 17 Nmero de los sujetos seleccionados Conglomerado: 16 14 17 18 21 26 27 28 Conglomerado: 20 92 93 104 105 Conglomerado: 24 167 170 194 197 Conglomerado: 26 224 225 237 238 94 107 171 199 226 239 95

22

23

25

97

99

100

176

177

181

192

227

231

232

236

Estrato 3 Conglomerados seleccionados Conglomerado Sujetos 30 10 35 17 Nmero de los sujetos seleccionados Conglomerado: 30 14 15 16 17 21 22 23 Conglomerado: 35 108 109 117 118 110 119 112

18

19

20

113

114

115

Estrato 4 Conglomerados seleccionados Conglomerado Sujetos 42 31 45 16 50 12 Nmero de los sujetos seleccionados Conglomerado: 42 38 41 43 48 58 60 66 Conglomerado: 45 112 113 115 116

49 118

51 119

53 121

45

122

125

127 205 212 206 207 208 209

Conglomerado: 50 203 204 210 211

En este ejemplo, se puede apreciar que los cdigos de las UPE aparecen consecutivamente del 1 al 52. Sin embargo, en este caso, podran haberse puesto numeraciones independientes dentro de cada estrato (AREA), lo cual es en cierto sentido ms natural. Es decir, podran haberse numerado los grupos del 1 en adelante dentro de cada rea. Tal es el caso del archivo UNIVERSIDAD 6A.xls, que contiene la misma informacin que el UNIVERSIDAD 6.xls. La nica diferencia radica en que los cdigos de los grupos recomienzan desde el 1 en cada rea. Sin embargo, los nmeros que identifican a los sujetos seleccionados dentro de cada estrato (AREA) s siguen una numeracin que se inicia desde 1 en cada caso. As, por ejemplo, el primer sujeto seleccionado en el estrato 2 aparece con el nmero 58 (es decir, es el 58 sujeto de esa AREA) y no con el 322, que es el lugar que ocupa en un listado general de todos los individuos de la poblacin. Dicho de otro modo, al registro nmero 322 de la base de datos le anteceden los 264 sujetos que integran el estrato 1 y los primeros 57 del estrato 2, pero el nmero con el que se le identifica es el que tiene en su estrato (58) y no el que tiene en toda la poblacin (322). Supngase ahora que se cuenta con un archivo que contiene la informacin completa: listado de los 966 sujetos y, para cada cual, el dato del grupo al que pertenece. Cada registro puede contener o no, adems, otra informacin sobre los individuos, que no ser empleada en el acto de seleccin. El archivo UNIVERSIDAD 7.xls contiene los datos (nombre y edad) de cada uno de los 966 estudiantes y los campos AREA y GRUPO, donde se consigna el grupo al que pertenece cada uno de ellos (codificada como 1, 2, ..., 52) y el rea acadmica al que pertenece (codificada como 1, 2, 3 y 4). Al ejecutar el programa, se obtiene un resultado similar al del caso anterior, pero ahora se tiene la posibilidad de guardar el archivo con la base de datos resultante del proceso de seleccin (es decir, la informacin contenida en UNIVERSIDAD 7.xls pero slo para los sujetos que resulten elegidos). Nota: La observacin acerca del modo de codificar las UPE dentro de los estratos que se hizo para el caso de datos agrupados, tambin vale para este caso en que se cuenta con una base detallada. El archivo UNIVERSIDAD 7 A.xls contiene la misma informacin que UNIVERSIDAD 7.xls salvo que en este ltimo archivo las UPE aparecen con cdigos independientes para cada rea.

BIBLIOGRAFA 1. Neyman J. On the Two Different Aspects of the Representative Method: The Method of
Stratified Sampling and the Method of positive Selection. Journal of the Royal Statistical Society 1934; 25: 558-606.

2. Farias H, Silva LC. Seleccin equiprobabilstica mediante muestreo sistemtico para una
probabilidad prefijada. Revista Investigacin Operacional 1984; 5: 51-77 (Cuba).

3. Silva LC. Diseo razonado de muestras y captacin de datos para la investigacin sanitaria. Madrid:
Daz de Santos; 2000.

46

ASIGNACIN DE SUJETOS A TRATAMIENTOS CONCEPTOS GENERALES


Como es bien conocido, la metodologa de los ensayos clnicos controlados reposa sobre dos pilares fundamentales: el enmascaramiento de los tratamientos y la asignacin aleatoria de los sujetos a las distintas alternativas teraputicas en juego. El primero de estos recursos no es de ndole estadstica, sino estructural: concierne al hecho de que los pacientes involucrados no conozcan cul de los tratamientos posibles es el que le ha correspondido 1. Cuando esto se consigue, se dice que el estudio es "ciego". Nota: Variantes ms sofisticadas involucran otros niveles de enmascaramiento: si los que evalan los resultados tambin ignoran el tratamiento que corresponde a cada paciente, el estudio es "doble ciego"; y si otro tanto ocurre, adems, con los que administran el tratamiento (los propios terapeutas), se dice que es "triple ciego". Sin embargo, lo que se relaciona directamente con el muestreo es la tarea de asignar los sujetos a los grupos experimentales. Los cnones universalmente aceptados exigen que tal distribucin se realice al azar. De modo que el objetivo de este componente es facilitar la asignacin de sujetos experimentales a grupos, en especial de los pacientes que tomarn parte en un ensayo clnico con varios tratamientos. En principio, puede plantearse lo ms natural: tomar un tamao inicial y repartirlo por igual entre el nmero de grupos de tratamientos existentes. Sin embargo, tal estrategia puede no ser acorde con las circunstancias o restricciones reales. Ocasionalmente no se puede delimitar de antemano con exactitud cuntos pacientes quedarn en el estudio. Eso ocurre, por ejemplo, si en lugar de precisar el nmero de individuos que quedarn incluidos, lo que se fija es un lapso durante el cual se irn incorporando pacientes al ensayo. Puesto que es conveniente que cuando se haga el anlisis, los grupos tengan tamaos similares entre s, una manera de ayudar a conseguirlo consiste en asignar los pacientes del modo siguiente: el sujeto se asigna al grupo con probabilidad variable, ms concretamente: menor cuanto mayor sea el nmero de sujetos ya asignados a dicho grupo hasta ese momento. Esto quiere decir que se aplica un algoritmo tal que cada vez que se va a asignar un nuevo sujeto a algn grupo, la probabilidad de que ese sujeto quede asignado a dicho grupo sea inversamente proporcional al nmero de individuos incluidos en l hasta ese momento. De ese modo, la asignacin va prosperando "equilibradamente". Epidat 3.1 contiene un mdulo destinado a dar solucin al problema arriba descrito. A continuacin se enumeran y explican los datos que han de introducirse: Nmero de tratamientos: Valor entero mayor que uno y menor o igual que 5. Identifica cuntos grupos hay que formar. Tipo de grupos a crear: Debe seleccionarse de qu forma se van a crear los grupos de sujetos; existen dos posibilidades: grupos de igual tamao o grupos equilibrados. La activacin de una de estas opciones inhabilita la otra. Nmero de sujetos: Valor entero igual o mayor que el nmero de tratamientos considerados. En caso de que se opte por formar grupos de idntico tamao, este nmero ser igual al producto de dicho tamao por el nmero de tratamientos. Consecuentemente, bajo esta opcin el nmero de sujetos tiene que ser un mltiplo del nmero de tratamientos.

47

Ejemplo Supngase que se planifica un ensayo clnico para evaluar la eficacia de la homeopata en la curacin de cierto tipo de conjuntivitis, y que se compararan tres tratamientos: un colirio convencional (A), cierto remedio homeoptico (B) y agua destilada (C). Supngase que se ha decidido aplicar cada uno de ellos a 20 pacientes. Asmase que es entonces necesario distribuir aleatoriamente a cada uno de los prximos 60 portadores de esa forma de conjuntivitis que acudan a la consulta a uno de los tres tratamientos, y hacerlo de modo que queden 20 en cada cual. Aplicar una asignacin aleatoria a los tres grupos en las condiciones mencionadas no es otra cosa que lo siguiente: primero, sacar una muestra simple aleatoria de tamao 20 de dicho listado y asignarle el tratamiento A a sus integrantes; luego obtener otra muestra simple aleatoria de los 40 que restan y asignar el tratamiento B a stos, y finalmente ubicar en el C a los 20 pacientes que no fueron elegidos hasta entonces. El procedimiento es algo engorroso, aun contando con un programa informtico que realice una seleccin simple aleatoria dentro de un listado. En efecto, despus de seleccionar el primer grupo de 20 habra que renumerar del 1 al 40 a los sujetos no elegidos, y aplicar entonces por segunda vez el programa. Por eso es conveniente contar con programas ad hoc para realizar la asignacin, aunque lo que hacen en esencia tales programas es aplicar sucesivamente el MSA. En Epidat 3.1 se puede escoger en este caso la alternativa de formar 3 grupos de tamao 20 (Grupos iguales). Resultados con Epidat 3.1
Asignacin de sujetos a tratamientos Nmero de tratamientos: 3 Tamao de muestra: 60 Tratamiento: 1 Nmero de los sujetos seleccionados: 2 4 7 9 29 38 40 43 57 60 Tratamiento: 2 Nmero de los sujetos seleccionados: 15 16 20 22 33 34 35 48 58 59 Tratamiento: 3 Nmero de los sujetos seleccionados: 1 3 5 6 19 21 25 26 44 47 20

12 45

13 46

18 50

23 51

28 56

24 49

20

27 52

30 53

31 54

32 55

8 36

20

10 37

11 39

14 41

17 42

Si se hubiera optado por el recurso de formar grupos equilibrados, los subconjuntos que define Epidat no necesariamente tendrn 20 sujetos exactamente como ocurre en el que se acaba de ver, sino que la distribucin ser slo aproximadamente equitativa.

BIBLIOGRAFA 1. Hulley SB, Cummings SR. Designing Clinical Research: An Epidemiological Approach.
Baltimore: Williams and Wilkins; 1988.
48

You might also like