Modulo Biometria PDF

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Agrícolas, Pecuarias y del Medio Ambiente

Contenido didáctico del curso BIOMETRIA Y DISEÑO DE EXPERIMENTOS
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS AGRICOLAS PECUARIAS Y DEL MEDIO
AMBIENTE
203018 – BIOMETRIA Y DISEÑO DE EXPERIMENTOS
JOHN ALEXANDER MORENO SANDOVAL
LILIANA VALENCIA TRUJILLO

(Director Nacional)
Retomado por:
ALBERTO CASTELLANOS RIVEROS

MVZ.Esp.Msc.
Bucaramanga
2013
INDICE DE CONTENIDO
INTRODUCCIÓN ..................................................................................................... 5
UNIDAD 1. BIOMETRIA......................................................................................... 9
CAPITULO 1: LA BIOESTADÍSTICA EN LA INVESTIGACIÓN PECUARIA......... 9
LECCIÓN 1: HISTORIA DE LA BIOESTADÍSTICA ............................................................ 9
LECCIÓN 2: USOS E IMPORTANCIA DE LA BIOMETRÍA EN EL SECTOR AGROPECUARIO ... 10
LECCIÓN 3: MÉTODO CIENTÍFICO ........................................................................... 11
LECCIÓN 4: CONCEPTOS ....................................................................................... 12
LECCIÓN 5: INVESTIGACIÓN CIENTÍFICA................................................................... 16
CAPITULO 2: ESTADÍSTICA DESCRIPTIVA ...................................................... 17
LECCIÓN 6: MEDIDAS DE TENDENCIA CENTRAL ........................................................ 17
LECCIÓN 7: DISTRIBUCIÓN DE FRECUENCIAS .......................................................... 33
LECCIÓN 8: GRÁFICAS .......................................................................................... 46
LECCIÓN 9: PRINCIPIOS DE PROBABILIDAD .............................................................. 51
LECCIÓN 10: MUESTREO ....................................................................................... 55
CAPITULO 3: INFERENCIA ESTADÍSTICA ........................................................ 67
LECCIÓN 11: INFERENCIA PUNTUAL ........................................................................ 67
LECCIÓN 12: PRUEBAS DE HIPÓTESIS ..................................................................... 82
LECCIÓN 13: COMPARACIÓN DE DOS MEDIAS MUESTRALES ...................................... 91
LECCIÓN 14: ANÁLISIS DE VARIANZA....................................................................... 98
LECCIÓN 15: ANÁLISIS DE COVARIANZA ................................................................ 100
UNIDAD 2. DISEÑO DE EXPERIMENTOS........................................................ 102
CAPITULO 4: DISEÑO DE EXPERIMENTOS .................................................... 102
LECCIÓN 16: EL EXPERIMENTO Y SUS ELEMENTOS................................................. 102
LECCIÓN 17: ORIENTACIONES GENERALES EN LA EXPERIMENTACION
AGRICOLA ...................................................................................................... 105
LECCIÓN 18: DISEÑO EXPERIMENTAL. .................................................................. 107
LECCIÓN 19: MODELO ESTADÍSTICO ..................................................................... 114

LECCIÓN 20: TRANSFORMACIÓN DE DATOS ........................................................... 116
CAPITULO 5: CLASES DE DISEÑOS EXPERIMENTALES .............................. 117
LECCIÓN 21: DISEÑO COMPLETAMENTE AL AZAR ................................................... 117
LECCIÓN 22: DISEÑO EN BLOQUES COMPLETOS AL AZAR ....................................... 122
LECCIÓN 23: EXPERIMENTOS FACTORIALES .......................................................... 126
LECCIÓN 24: OTRAS CLASES DE DISEÑOS EXPERIMENTALES ................................. 128
LECCIÓN 25: BÚSQUEDA DE UNIDADES PERDIDAS (MÉTODO YATES) ....................... 130
CAPITULO 6: ANÁLISIS ESTADÍSTICO ........................................................... 132
LECCIÓN 26: USOS DE LAS COMPARACIONES MÚLTIPLES DE MEDIAS ........................ 132
LECCIÓN 27: PRUEBA DE TUKEY .......................................................................... 133
LECCIÓN 28: PRUEBA DE RANGO MÚLTIPLE DE DUNCAN ......................................... 140
LECCIÓN 29: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN ......................................... 144
LECCIÓN 30: ANÁLISIS DE VARIANZA PARA LA REGRESIÓN ...................................... 147
FUENTES BIBLIOGRAFICAS ............................................................................ 151
ASPECTOS DE PROPIEDAD INTELECTUAL Y VERSIONAMIENTO
El contenido didáctico del curso académico: BIOMETRIA Y DISEÑO DE

EXPERIMENTOS fue diseñado inicialmente en el año 2008 por el zootecnista
John Alexander Moreno Sandoval. Tutor de la UNAD, ubicado en el CEAD de
Bogotá. Es Zootecnista especialista en estadística aplicada.
La siguiente corrección la realiza Liliana Valencia, Zootecnista magister en

producción animal, quien está a cargo actualmente como directora del curso.
Posteriormente en el año 2010 el curso es retomado por el docente Alberto

Castellanos Riveros MVZ. Especialista en docencia universitaria y magister en
microbiología.
INTRODUCCIÓN
En el mundo se está tomando conciencia que todas las producciones, sin importar
su naturaleza y en especial las de principios biológicos o ambientales deben ser
analizadas numéricamente, no solo para determinar el estado de desarrollo, sino
las proyecciones o correcciones que se puedan hacer tanto para lograr beneficios
económicos como sociales o ambientales. La bioestadística como rama de la
estadística, es una herramienta que se puede usar de manera sencilla sin
necesidad de profundizar en ella, ni de dedicar toda una carrera profesional al
estudio de esta, no queriendo decir que no se deben conocer algunos principios y
procedimientos básicos.
Por lo anterior, las profesiones relacionadas con el campo como Zootecnistas,

Médicos Veterinarios, Ingenieros Agrónomos, Ingenieros Agrícolas, Forestales,
Ambientales y muchas otras, para cumplir satisfactoriamente con las tareas
profesionales, implica el uso de métodos estadísticos que además de hacerlo más
eficiente, le facilitan el trabajo. La mayor ventaja que puede tener un profesional
“del campo” que estudie y maneje la estadística como herramienta para el análisis
de variables biológicas es que lo hace único en el entendimiento de la relación que
tiene estas dos ciencias y de la forma de explicarse una con la otra.
Este modulo, pretende de forma resumida y con algunos ejemplos aplicados

presentar a los profesionales del campo la información que enseña y facilita el uso
de la bioestadística como herramienta útil. Es preciso aclarar que el modulo trata
de dejar el componente matemático “complicado” de un lado y únicamente
presenta los modelos listos para reemplazar y hacer el cálculo que interesa al
“profesional del campo”; sin profundizar en el origen de estos modelos. La
estructura del módulo se divide en dos unidades; la primera se titula Bioestadística
y la segunda Diseño Experimental.
La unidad de Bioestadística comprende desde los conceptos fundamentales, el

manejo y presentación de datos, principios de probabilidades, muestreo e
inferencia estadística. Todos los capítulos anteriormente mencionados son de gran
relevancia y su importancia aumenta cuando se empieza a entender su uso, tal es
el caso de las probabilidades que son de gran ayuda para los procesos de
mejoramiento genético.
La segunda unidad de Diseño Experimental, muestra en sus capítulos los diseños

más usados en los procesos de investigación biológica y da las pautas para el
análisis de datos. Conocimiento destacado en las personas que se dedican a los
procesos investigativos, tanto así, que para entender la mayoría de la literatura
científica es imprescindible haberlo estudiado. Es preciso resaltar que la
importancia de la Bioestadística o Biometría depende del uso y buena aplicación
que se le de a los conceptos matemáticos que implican, es así como, cuando se
cometen equivocaciones en la aplicación, se pretende justificar que el error de los
resultados dependen de la ciencia como tal y no por la persona que la aplica;
diciendo que la estadística es mentirosa.
UNIDAD 1
Nombre de la Unidad BIOMETRIA

Introducción La unidad de Bioestadística comprende
desde los conceptos fundamentales, el
manejo y presentación de datos, principios
de probabilidades, muestreo e inferencia
estadística. Todos los capítulos
anteriormente mencionados son de gran
relevancia y su importancia aumenta cuando
se empieza a entender su uso, tal es el caso
de las probabilidades que son de gran
ayuda para los procesos de mejoramiento
genético..
Intencionalidades Formativas 1. Dar a conocer la historia, usos y
conceptos de la bioestadística.
2. Enseñar las principales formas de tomar,
resumir y presentar un conjunto de datos en
forma numérica o gráfica.
3. Estudiar los principios básicos de
probabilidades y la aplicabilidad de en áreas
relacionados con variables biológicas o
ambientales.
4. Estudiar las principales distribuciones de
probabilidades y el uso dentro de la
inferencia.
Denominación de capítulo 1 La Bioestadística en la investigación
pecuaria
Denominación de Lección 1 Historia de la bioestadística
Denominación de Lección 2 usos e importancia de la biometría en el

sector agropecuario
Denominación de Lección 3 Método Científico
Denominación de Lección 4 Conceptos
Denominación de Lección 5 Investigación científica
Denominación de capítulo 2 Estadística Descriptiva

Denominación de Lección 6 Medidas de tendencia central
Denominación de Lección 7 Distribución de Frecuencias
Denominación de Lección 8 Gráficas
Denominación de Lección 9 Distribución estándar
Denominación de Lección 10 Muestreo
Denominación de capítulo 3 Inferencia estadística

Denominación de Lección 11 Interferencia puntual
Denominación de Lección 12 Pruebas de hipótesis
Denominación de Lección 13 Comparación de dos medias muestrales
denominación de lección 14 Análisis de varianza
denominación de lección 15 Análisis de Covarianza
UNIDAD 2
Nombre de la Unidad DISEÑO DE EXPERIMENTOS

Introducción Esta unidad muestra en sus capítulos los diseños
más usados en los procesos de investigación
biológica y da las pautas para el análisis de datos.
Conocimiento destacado en las personas que se
dedican a los procesos investigativos, tanto así,
que para entender la mayoría de la literatura
científica es imprescindible haberlo estudiado. Es
preciso resaltar que la importancia de la
Bioestadística o Biometría depende del uso y
buena aplicación que se le dé a los conceptos
matemáticos que implican, es así como, cuando
se cometen equivocaciones en la aplicación, se
pretende justificar que el error de los resultados
dependen de la ciencia como tal y no por la

persona que la aplica; diciendo que la estadística
es mentirosa.
Intencionalidades Formativas 1. Formarse en la aplicación de diseños
experimentales como una herramienta en para los
procesos de investigación.
2. Conocer algunos métodos de comparación
múltiple de medias que permitan analizar,
recomendar y tomar decisiones en procesos
productivos o investigativos.
3. Estudiar el uso y cálculo de las regresiones, en
especial la regresión lineal.
Denominación de capítulo 4 Diseño de experimentos
Denominación de Lección 16 El experimento y sus elementos
Denominación de Lección 17 La replicación
Denominación de Lección 18 La aleatorización
Denominación de Lección 19 Modelo estadístico
Denominación de Lección 20 Transformación de datos
Denominación de capítulo 5 Clases de Diseños experimentales

Denominación de Lección 21 Diseño Completamente al azar
Denominación de Lección 22 Diseño en Bloques Completos al azar
Denominación de Lección 23 Experimentos factoriales
Denominación de Lección 24 Otras Clases de diseños experimentales
Denominación de Lección 25 Búsqueda de unidades perdidas (Método Yates)
Denominación de capítulo 6 Análisis estadístico

Denominación de Lección 26 Usos de las comparaciones múltiples de medias
Denominación de Lección 27 Prueba de Tukey
Denominación de Lección 28 Prueba de rango múltiple de Duncan
Denominación de Lección 29 Análisis de regresión y Correlación
Denominación de Lección 30 Análisis de varianza para la regresión

UNIDAD 1. BIOMETRIA
CAPITULO 1: La Bioestadística en la investigación pecuaria
Lección 1: Historia de la bioestadística
La estadística que muchos creen como algo nuevo, es tan antigua como la misma
humanidad, ya que hay vestigios de su inicio antes de Cristo, como en China
donde el emperador Yao (2.238 a.c) dispuso la realización de un censo en su
imperio. Algo similar ocurrió en la época del Rey Herodes, relacionado con un
empadronamiento cuando nació Cristo.
La Estadística como disciplina tuvo su inicio en Alemania a mediados del siglo

XVII, en el reinado de Godofredo de Achenwall (1719-1772), cuando utilizó la
palabra Estadística y la separó de la Sociología.
En América precolombina se había desarrollado notablemente la estadística,

especialmente en México y Perú. La estadística del imperio de los incas era tan
completa como la actual, aunque ese pueblo no usaba la escritura, empleaba para
sus cómputos un sistema de cordones de variados colores, armados y
combinados para conservar en ellos las cuentas extensas y complicadas;
conocían así la población distribuida por localidades, sexos y condición civil,
averiguaban el número de nacimientos y muertes, conocían el número de hombre
aptos para la guerra y la cantidad de provisiones con que contaban. En general
conocían muchos aspectos sobre su Imperio (Suárez 1999).
La palabra Estadística para algunos proviene de la palabra Status, cuyo

significado es Estado. Para otros se deriva del vocablo Griego Statera que
significa balanza, o quizá la más confiable, proviene de la palabra Alemana Stara
que significa Estado, encargado de hacer Estadística. (Martínez 2005).
En los tiempos modernos, donde la Estadística tiene funciones importantes dentro

de otras ramas, no sólo en lo social, en los censos o en la organización de
cualquier Estado, si no que hace parte fundamental de los procesos de
investigación, se ha denominado la BIOESTADISTICA como la ciencia encargada
de analizar datos relacionados directamente con variables biológicas, su
importancia, influencia, relación o diferencia, etc y que permiten conocer o tomar

decisiones acerca del comportamiento de los seres vivos bajo condiciones
estipuladas.
Charles Darwin (1809-1882), siendo un biólogo, dio gran importancia a la

estadística dentro de la formulación de sus teorías. Kart Pearson (1857-1936)
dedicó gran parte de su vida al estudio de la estadística y fundó la biometría,
impulsando así el uso de esta herramienta. Fisher (1980-1962) inició la relación
entre los métodos estadísticos y la agricultura, genética y biología.
De esta forma la BIOESTADÍSTICA o BIOMETRÍA (medición de variables

biológicas) se ha vuelto una herramienta indispensable para ramas tan
importantes como la genética, nutrición, alimentación y muchas otras que son
componentes de profesiones que trabajan con seres vivos y factores que los
afecten. Es así como en todos los procesos de educación donde se tenga como
prioridad el estudio de variables biológicas, se hace indiscutible el uso de métodos
estadísticos que aportan al conocimiento de los organismos vivos.
Lección 2: usos e importancia de la biometría en el sector agropecuario
La bioestadística es una herramienta que le sirve a todo profesional que tenga

relación con los seres vivos, no solo en el campo investigativo, sino también de
producción animal, análisis ambientales, poblaciones humanas, producciones
agrícolas, etc. Con el fin ampliar el conocimiento sobre aspectos que permitan de
una u otra forma tomar decisiones sobre los que interesa al desarrollo de la
humanidad y del planeta.
Es frecuente escuchar el argumento que la estadística es un “sofisma de

distracción” o que “es mentirosa”. En realidad, como se vio desde el principio de la
humanidad, se ha utilizado la estadística y hoy en día una de sus denominaciones
“la bioestadística”, la cual no es el proceso o el método el que dice mentiras, si no
el mismo analista el que cambia los conceptos y hace mal uso de la herramienta,
acomodándola y argumentándola a su beneficio. En pocas palabras, estos
argumentos no se deben a la ciencia como tal, sino al hombre que no sabe aplicar
el método preciso y mucho menos interpretarlo para dar suficiente importancia y
concordancia con los que suceden en la naturaleza.
Es así como se debe tener mucho cuidado en el uso de esta herramienta, la cual
es base para el entendimiento de procesos biológicos y que si es usada
correctamente se vuelve indispensable para formular y comprobar hipótesis,
teorías, modelos e incluso leyes, que conlleven a ampliar otras ciencias como la
nutrición, alimentación, genética, fisiología, ecología, geología, botánica, y muchas
otras más relacionadas con la naturaleza del hombre, los animales, las plantas,
microorganismos y en general con el medio ambiente.
Lección 3: Método Científico
Permite recolectar las observaciones mediante registros que se ordenan,

clasifican, cuantifican y se interpretan mediante cuadros y/o gráficas, permitiendo
la depuración de datos en dos aspectos, en su presentación clara y en su
simplificación, ya que facilita manejar grandes cantidades de información
presentadas de manera resumida, tarea que realizamos a través de la estadística
descriptiva, luego con la inferencia estadística y además permite el análisis y la
búsqueda de relaciones que puedan existir entre ellas.
El proceso de elaboración estadística se puede dividir en seis fases: (Martínez,

2005)
1. Planeamiento o preparación.
2. Recolección.
3. Crítica y codificación.
4. Procesamiento.
5. Análisis e interpretación.
6. Publicación.
En cuanto al planeamiento o preparación, un proyecto o plan estadístico debe

contemplar los siguientes aspectos:
a. El objeto de la investigación
b. La finalidad
c. La fuente de información
d. Los procedimientos
e. El material
f. El costo y financiación.
Es importante tener en cuenta que todo procedimiento de investigación debe

acogerse a los siguientes criterios:
Claridad. Toda investigación en todos sus pormenores, debe ser clara y conocida
por todos los que en ella vayan a intervenir. La claridad está ligada directamente
con la comprensión. La estadística en el periodo de investigación, en el de
elaboración en la presentación y análisis, debe ser entendida por todo el mundo:
investigador(es), lectores, quienes vayan a utilizar los resultados, etc.
Sencillez. En el proyecto en las instrucciones, en la finalidad, en los objetivos, en

la toma de datos, en los cuadros de exposición, en los comentarios literarios de
análisis, en las operaciones de cálculo, en los gráficos, en todo. La sencillez es un
método para brindar claridad.
Utilidad. Toda estadística que se inicie debe tener alguna aplicación práctica de
interés. De otro modo nos hallaremos ante una acumulación molesta de datos que
perjudicarán por muchos motivos, a la información realmente aprovechable.
Lección 4: Conceptos
ESTADÍSTICA. Es un campo del estudio relacionado con 1) el sistema o método

utilizado para la recolección, organización, análisis, descripción y resumen de
datos y 2) la obtención de inferencia acerca de un conjunto de datos cuando solo
se observa una parte de ellos.(Daniel, 1990 & Martínez, 2005.)
BIOESTADÍSTICA. Cuando los datos que se recopilan y analizan corresponden a

disciplinas que forman parte de las ciencias biológicas, como la Veterinaria,
Zootecnia, Agronomía, Ecología, etc. Se utiliza el término Bioestadística para
diferenciar a esta aplicación particular de herramientas y conceptos estadísticos.
(Suárez, 1999).
VARIABLE. Cuando se observa una característica medible y esta toma valores

distintos entre individuos, lugares, condiciones de producción o a través del
tiempo, se dice que ésta característica es una variable. Esto explica que la
característica varía por algún efecto y por tanto es lógico llamarla variable. Son
ejemplos de esto, la altura de plantas de maíz en un cultivo (presentan diferentes
alturas entre ellas por efectos diferentes), la ganancia de peso de algunos
animales (varían por raza, sexo, edad, lugar, alimentaciónV), la cantidad de

aportes nutricionales del suelo de una granja (varía por efectos edáficos,
estructuras físicas y composiciones químicas del mismo).
Si analizamos o describimos una variable, característica o atributo en forma

independiente, nos referimos a distribuciones univariantes, si relacionamos dos
Características entre sí sería bivariante y si es el caso de relacionar más de dos

características se diría que la distribución es multivariante.
Las variables, dependiendo de los tipos de datos que la componen se puede

clasificar en variables cuantitativas y cualitativas, y a su vez las cuantitativas
pueden ser discretas o continuas.
Variables cuantitativas. Son las características mensurables y se describen

numéricamente, tales como altura, peso, valor, producción, ventas, pluviosidad,
etc.
Variables cualitativas. Son las que se expresan mediante palabras por no ser
mensurables, pero si cuantificables, tales como raza, marca, posición
socioeconómica, clima, etc.
Variable Discreta. Se refiere a aquellas que solo pueden tomar unos determinados
valores, siendo imposible que lleguen a tomar valores intermedios entre dos
consecutivos, es decir toma únicamente valores enteros: 1, 2, 3,V, tal es el caso
del número de lechones por camada, cantidad de colonias de bacterias en un
cultivos de agar, número de peces muertos por contaminación del agua, número
de huevos viables para incubar, etc.
Variable Continua. Se toman todos los valores infinitos posibles de un intervalo, es

decir, se admiten valores fraccionarios. Por ejemplo el peso de terneros al
nacimiento, altura alcanzada por plantas de sorgo, velocidad del viento, etc.
Variable aleatoria. Cada vez que se determina un dato en un individuo, planta,

lote, zona, etc., se dice que son el resultado de factores fortuitos y por tanto se ha
tomado de forma aleatoria. Los valores que resultan de los procesos de medición
suelen conocerse como observaciones o simplemente como medidas. Todos los
procesos investigativos en variables biológicas deben garantizar que las
observaciones o mediciones que se hayan tomado en individuos, zonas, lotes,
plantas, etc., sean el producto de una selección aleatoria.
Variable nominal. Se obtiene cuando se definen las categorías y se cuenta el

número de observaciones que quedan en cada una. Las variables nominales
comprenden las categorías como sexo (macho, hembra), color, raza, tamaño
(grande, mediano, pequeño). Ninguna de las características anteriores es

numérica por naturaleza, sin embargo cuando se aplican ya sea en una población
o en una muestra, es posible asignar a cada individuo una categoría.
Variables jerárquicas. Constan de valores relativos asignados para denotar orden:

primero, segundo, tercero y así sucesivamente.
POBLACIÓN. Llamada también universo, se define como el mayor grupo de

elementos por los cuales se tiene un cierto interés en un momento dado. Las
características primordiales de una población son: su naturaleza, su magnitud, el
espacio y el tiempo.
Si se lleva a cabo una medición de alguna variable sobre cada uno de los
elementos de una población, se obtiene una población de valores definida como el
mayor grupo de valores de una variable aleatoria, por los cuales se tiene un cierto
interés en un momento dado. (Daniel, 1990).
Las poblaciones pueden ser finitas o infinitas. Si una población de valores consta
de un número fijo de estos valores, se dice que la población es finita. Por otra
parte si una población consta de una sucesión sin fin de valores, dicha población
es infinita. Por ejemplo: si se desea hacer un estudio sobre la población bovina de
un país, se sabe por censo o registros, un número determinado de la población y
se convierte en una población finita. Por el contrario, si se desea estudiar la
presencia de un hongo en las mazorcas que se producen en un cultivo de maíz,
no se sabe el número determinado de mazorcas producidas y por tanto es una
población infinita, o mejor aún, si el estudio pretende determinar la presencia de
hongo en una bodega de granos, no se sabe cuántos granos están almacenados
en la bodega.
MUESTRA. Una muestra puede definirse como una parte de una población. La
muestra es un subconjunto de la población. Cuando la población es relativamente
pequeña, es posible estudiar a todos los individuos que la integran, pero cuando la
muestra corresponde o representa a una población grande o infinita, normalmente
en estadística, esta se debe tomar al azar, ya que todos los individuos de la

población tienen la misma oportunidad de conformar la muestra de estudio y el
resultado de esta muestra en el correspondiente estudio, representa el
comportamiento de toda la población. De no cumplirse esto se tomaría como una
muestra sesgada y se denomina muestra no probabilística.
La muestra no probabilística corresponde a la selección de unidades o elementos,

según el criterio o conveniencia del investigador. En estos casos algunas unidades
Tienen mayor posibilidad que otras de ser seleccionadas; por tal razón no se
puede determinar la validez, ni la confiabilidad que merecen dichos resultados.
Casi por lo general, las unidades se seleccionan de forma caprichosa.
Al proceso de determinar el tamaño y selección de una muestra, se le llama

muestreo y depende directamente de la naturaleza de la población. Existen varios
métodos de muestreo que permiten dar confiabilidad en los resultados de un
estudio.
UNIDAD EXPERIMENTAL. Una unidad experimental es un individuo de los que

conforman una muestra o una población, es decir, las muestras o las poblaciones
se componen de unidades experimentales. El conjunto de unidades
experimentales es lo que se simboliza estadísticamente como (N) si es una
población o (n) si es una muestra. En la presentación de muchas investigaciones,
una de las preguntas comunes por los auditores corresponde a ¿cuántas unidades
experimentales estudió?
Una unidad experimental puede estar compuesta por un individuo o por un grupo
de individuos, es decir; individuales o grupales. Las unidades experimentales
individuales, como su nombre los indica son aquellas que están compuestas por
cada uno de los individuos de la muestra o de la población. Las unidades
experimentales grupales son las que por facilidad de trabajo o conveniencia del
estudio se trabajan en grupo. Por ejemplo: en un estudio de incidencia y
prevalencia de Influenza Equina, se toma como unidad experimental cada uno de
los equinos a los que se estén haciendo las pruebas, entonces se estaría
hablando de unidades experimentales individuales. Mientras que en un estudio
para determinar la ganancia de peso de caracoles bajo ciertas dietas, para facilitar
el trabajo se pesan los caracoles en grupos de 10, lo cual cada grupo corresponde
a una unidad experimental grupal y los resultados se presentan para grupos de 10
caracoles.
Esta última forma de definir las unidades experimentales puede provocar un error
si los individuos que la conforman no son lo suficientemente homogéneos y
causan diferencia con otras unidades experimentales grupales.
HIPÓTESIS. Es un supuesto que se asume tentativamente para representar un

resultado que se pretende probar.
Lección 5: Investigación científica
No existe investigación, proceso o trabajo encaminado a obtener información

cuantitativa en general, en la que la estadística no tenga una aplicación. La
estadística no puede ser ignorada por ningún investigador, aún cuando no tenga
ocasión de emplear la Estadística Aplicada en todos sus detalles y ramificaciones.
Los resultados de una investigación agrícola reflejan los efectos de tratamiento, de
diseño, e incluso de factores biológicos, ambientales y de manejo que los afectan.
Es una característica común en los experimentos, en muy diversos campos de la
investigación, que los efectos de los tratamientos experimentales varían de un
ensayo a otro, cuando se repiten. Esta variación introduce ciertos grados de
incertidumbres en cualquiera de las conclusiones que se obtienen de los
resultados.
La estadística ha ayudado al investigador en proyectos muy variados en el campo

de la agricultura, tales como el ensayo de maquinarias para escardar, ciertos
aspectos económicos en la electrificación de granjas, comparación de varios
métodos para secado de semillas, determinación de los efectos de las diferentes
diferentes velocidades de secado del maíz para "palomitas", investigaciones en
regadío, estudio del techado de fincas rurales, y en métodos de cultivo. La
Estadística cuando se usa adecuadamente, hace más eficientes las
investigaciones, es aconsejable que todos los investigadores se familiaricen con
las técnicas y conceptos básicos de esta ciencia tan útil. El papel de la estadística
en la investigación es, entonces, funcionar como una herramienta en el diseño de
investigaciones, en el análisis de datos, y en la extracción de conclusiones a partir
de ellos. Escasamente podrá preverse un papel mayor y más importante. De
utilidad en las investigaciones, la Estadística únicamente va precedida por las
Matemáticas y el sentido común, de los cuales se deriva.
CAPITULO 2: Estadística descriptiva
Lección 6: Medidas de tendencia central
En muchas ocasiones, si no son todas, no vemos obligados a representar un

conjunto o (población) o un subconjunto de datos (muestra) con pocos valores que
permitan dar a conocer en forma resumida la descripción de los mismos. Es así
como se puede hacer uso de las medidas descriptivas.
Las medidas descriptivas, son el resultado de cálculos matemáticos sencillos

que tienen como objetivo representar o describir en forma muy resumida un grupo
de datos que componen una variable. Dependiendo de los datos que se quieren
representar; estos toman el nombre de Parámetros si proviene de una población
o de Estimadores si son originados por una muestra.
Medias
descriptivas
Población Muestra
Parámetros Estimadores
Características de las medidas descriptivas.
Las características de las medidas descriptivas están en función de que le valor

obtenido cumpla con la función para lo cual fue calculado (Martínez, 2005).
• Debe estar representada por un solo valor.

• Debe ser objetiva y definida por una fórmula algebraica, de tal manera que
cualquiera que sea la persona que trabaje con los datos, obtenga siempre el
mismo valor.
• Debe ser descriptiva de los datos en forma que su significancia sea fácil de
entender.
• No debe ser una abstracción matemática, que únicamente pueda ser
entendida por personas muy versadas en esta ciencia, ya que una de las
funciones de la estadística es simplificar los datos y no hacerlos más
complejos.
• Debe ser fácil de calcular.
• Debe ser calculada con todos los elementos del grupo de datos.
• Debe depender de todo el grupo de datos, de tal manera que si se altera uno
de estos, consecuentemente se altera el valor obtenido.
• A pesar de que cada uno de los valores del grupo de datos, debe tener
influencia sobre la medida obtenida, ésta debe ser de tal calidad que no vea
influenciada en gran medida por el cambio de algunos pocos datos.
• Debe ser de uso fácil para cálculos matemáticos posteriores.
De otra forma, dependiendo su naturaleza y función, las medidas descriptivas se
pueden clasificar en:
• Medidas de tendencia central

• Medidas de dispersión
• Medidas de forma
• Medidas de posición
Notación Sigma.
Antes de iniciar la presentación de las medidas descriptivas, se debe estar en

capacidad de de entender el uso del símbolo matemático ∑ (sigma); el cual es uno
de los símbolos más frecuentes en las fórmulas estadísticas.
∑ (sigma); significa sumatoria, es decir; que se debe sumar el grupo de datos con
el que se cuenta.
n
Si se tiene la notación: ∑ yi = y
i =1
1 + y2 + ... + yn ; donde:
∑ Es el operador de la suma.
yi Es la variable que se va a sumar.
i Es el índice de la suma
1 Designa el número límite inferior de donde se debe iniciar la suma de los

datos.
n Designa el número límite superior de donde se debe iniciar la suma de los

datos
n
∑ yi
i =1
Indica; “súmese todos los valores observados de una variable cuyos
subíndices están comprendidos entre 1 y n”
Ejemplo: dado el conjunto de datos 1, 2, 3, 4, 5; los cuales quieren decir y1=1, y2

=2, y3=3, y4=4 y5=5.
5
• ∑ yi = y
i =1
1 + y2 + y3 + y4 + y5 ∑i =1
yi = 1 + 2 + 3 + 4 + 5 = 15
5 5
• ∑ yi = y
i=2
2 + y3 + y4 + y5 ∑ yi = 2 + 3 + 4 + 5 = 9
i=2
5 5
• ∑y
i =1
2
i = y 12 + y 22 + y 23 + y42 + y 25 ∑y
i =1
2
i = 12 + 2 2 + 32 + 4 2 + 52 = 55
2 2
 5   5 
•  ∑ yi  = ( y1 + y2 + y3 + y4 + y5 )  ∑ yi  = (1 + 2 + 3 + 4 + 5) = (15) 2 = 225
2 2
 i =1   i =1 
5
• ∑ ( yi − 3) = (1 − 3) + (2 − 3) + (3 − 3) + (4 − 3) + (5 − 3)
i =1
5
• ∑ ( yi − 3)
i =1
2
= (1 − 3) 2 + (2 − 3) 2 + (3 − 3) 2 + (4 − 3) 2 + (5 − 3) 2
5
• ∑ 3 yi = 3(1) + 3(2) + 3(3) + 3(4) + 3(5)
i =1
Medidas de tendencia central.
Es una forma útil de describir mediante un solo dato, la totalidad de un grupo de

datos. Como su nombre lo indica es un dato hallado en el centro de la distribución;
es el punto central o medio entre el conjunto de datos. En Bioestadística se usan
varios tipo de datos como medida de tendencia central; cada una de ellas con sus
ventajas y desventajas si de compararlas se trata, las cuales marcan la
confiabilidad o no del dato obtenido.
Las principales medidas de tendencia central son:

Media Aritmética.
Media Ponderada.
Media Geométrica.
Mediana.
Moda.
Media Aritmética: es la medida de tendencia centrada más utilizada, la más

conocida y sencilla de calcular. Generalmente se le denomina “media” , “promedio”
ó “media para datos no agrupados” y se define como la suma de un conjunto de
datos u observaciones, dividido entre el número total de observaciones que
conforman el grupo sumado. Si corresponde a la media de una población se
denomina con el símbolo µ, mientras que para una muestra se simboliza x̂ ó ŷ; por
lo que la fórmula sería:
n n
∑ xi ∑x i
Para una población: µ = i =1
Para una muestra: xˆ = i =1
n n
x1 + x2 + x3 + ... + xn
En forma aplicable µ =
n
Ejemplo: la media aritmética del conjunto de observaciones 2, 5, 7, 6, 4, 8, sería:
2 + 5 + 7 + 6 + 4 + 8 32
µ= = = 5.33
6 6
Propiedades de la media aritmética:
• Se expresa en las mismas unidades de medida en que fueron tomados los

datos originales.
• La media aritmética de una constante es igual a la constante. Ejemplo. Si se
pesan un grupo de 4 conejos y todos pesan 300 gramos; la media aritmética
es 300 gramos
300 + 300 + 300 + 300 1200
xˆ = = = 300 gramos
4 4
• La suma algebraica de las diferencias de los valores con respecto a la media

aritmética, debe ser igual a cero*.
• La suma de los cuadrados de las diferencias con respecto a la media

aritmética es menor que la suma de de los cuadrados de las diferencias con
respecto a cualquier otro valor**.
Ejemplo de las propiedades. Si se tiene el siguiente conjunto de datos. 3, 5, 7, 8,

4, 5, 6, 3, 8, 7, 5; entonces:
CONJUNTO DE DATOS
Diferencias Diferencias diferencias Diferencias

Datos con el al con otro ala
promedio cuadrado valor cuadrado
Xi Xi - x̂ D2 Xi – 3 D2
x1 3 -2,55 6,48 0 0
x2 5 -0,55 0,30 2 4
x3 7 1,45 2,12 4 16
x4 8 2,45 6,02 5 25
x5 4 -1,55 2,39 1 1
x6 5 -0,55 0,30 2 4
x7 6 0,45 0,21 3 9
x8 3 -2,55 6,48 0 0
x9 8 2,45 6,02 5 25
x10 7 1,45 2,12 4 16
x11 5 -0,55 0,30 2 4
5,55 0,00 32,73 28,00 104,00
*Suma **suma **suma de
suma de
algebraica algebraica las
las
Promedio de las de las diferencias
diferencia
x̂ diferencias diferencias (con el
con el
debe ser 0, ala valor 3) al
valor 3
0 cuadrado cuadrado
Ventajas de la media aritmética:
• Es la medida más fácil de calcular y más comúnmente usada.

• Esta medida se define mediante una ecuación matemática muy fácil de
entender y aplicar. Esto implica que su resultado es fácil de analizar y explicar.
• Es una herramienta para cualquier otro tipo de cálculo.
• Es susceptible de graficar o representar con ilustraciones.
Desventajas de la media aritmética:
• Es sensible a valores extremos (muy altos o muy bajos) en los cuales un solo
valor puede causar una media aritmética no representativa para un grupo de
datos. Ejemplo. Si se tienen los valores 5, 4, 7, 5, 18. la media aritmética sería
7,8; lo cual indica un valor muy alto para el grupo de datos y que está
influencias por el dato extremo 18.
• Por la forma como se distribuyen los datos de una variable, no es
representativa para resumirlos y se puede concluir mal sobre dicho dato. En
este caso, depende de la habilidad del investigador para dar la validez al valor
de la media.
Cuando las observaciones se han presentado en una tabla de frecuencias, el valor
aproximado de la media aritmética, que se llamaría media aritmética de datos
agrupados, se puede obtener mediante la siguiente ecuación:
)
x=
∑xn i i
=
x1n1 + x2 n2 + ... + xn nn
n n1 + n2 + ...nn
Donde; xi corresponde a las marcas de clase y ni corresponde a las frecuencias

absolutas que se han determinado para cada clase. Para los valores de la tabla de
frecuencia se podría determinar como aproximación de la media aritmética el
siguiente valor.
87.5 x9 + 95.5 x11 + 97.5 x14 + 102.5 x 20 + 107.5 x 27 + 112.5 x 22 + 117.5 x19
)
x=
∑xn i i
=
+ 122.5 x16 + 127.5 x12
n 9 + 11 + 14 + 20 + 27 + 22 + 19 + 16 + 12
) 16353
x= = 109.02
150
Media Ponderada: A veces diferentes valores que se promedian, tiene

importancia desigual dentro del conjunto de datos, por lo cual es recomendable
tener en cuenta la importancia relativa dentro de todo el conjunto de datos.
Si W es la importancia relativa del valor de ni, entonces la media ponderada está

dada por:
)
xw =
∑wn i i
∑n i
Ejemplo: En un producción de mango Tommy, los frutos se distribuyen según su

calidad en tres clasificaciones, A, B, C, D. Cada una de estas clasificaciones
permite un precio en el mercado y se desea saber cuál es el precio promedio de
toda la producción de un lote.
PRECIO PROMEDIO DE TODA LA PRODUCCIÓN DE UN LOTE
Precio Producción
Clasificación (Kg) (Kg) wi x ni
WI ni
A 3.000 1.200 3.600.000
B 2.800 2.500 7.000.000
C 2.500 3.450 8.625.000
D 1.800 6.420 11.556.000
13.570 30.781.000
∑n i ∑n × w
i i
)
xw =
∑wn
i i )
xw =
30.781.000
= 2.268,31 Kg de mango.
∑n i
13.570
Esto indica que en promedio, el kilogramo de mango a esos precios (de acuerdo a
las clasificaciones) se venderá a 2.268,31 pesos.
La mediana: es el valor que se ubica en el centro de un conjunto de datos,

cuando las observaciones está organizadas de forma ascendente o descendente
(por magnitud). De otra forma, se podría definir como el valor de la variable que
supera a no más de la mitad de las observaciones y al mismo tiempo es superada
por no más de la mitad de las observaciones.
Propiedades de la mediana:
• Es el punto central de los datos cuando son ordenados por magnitud.

• Se dan en las mismas unidades en que fue medida la variable.
• No está influencia por valores repetidos.
Ventajas de la mediana:
• Es un concepto claro y fácil de entender por su simple empleo matemático.

• Es un valor insesgado cuando se refiere a la influencia de datos extremos; es

decir, no es afectada por la presencia de datos extremos, como le sucede a la
media aritmética.
Desventajas de la media aritmética:
• Es necesario ordenar los datos por magnitud (ascendente o descendente).

• No se adapta a cálculos posteriores, por cuanto solo sirve como medida de
descripción o resumen.
• No es sensible a cambio de valores entre el grupo de datos.
Para hacer el cálculo de la mediana, como primera media se debe conocer el
número de datos con que se compone la variable a analizar (conocer n) y
segundo, determinar la posición del dato central en toda la variable. Para cumplir
con el primer requisito, es indispensable contar los datos. Para el segundo
requisito se puede hacer uso de la siguiente fórmula:
 n   1 
Me = Y   +  
 2   2 
Para un conjunto de elementos donde se tienen 8 datos, 4, 5, 7, 9, 10, 11, 12, 14;
la mediana estaría ubicada en:
 8   1  9
Me = Y   +   = = 4,5 Indicando que la mediana se ubicaría entre el 4 y 5
 2   2  2
dato.
Otro punto a saber para poder determinar la mediana, es diferenciar si el conjunto

de datos tiene como n un número par o un número impar. Para calcular la
mediana de un conjunto de datos impar, se ordenan los datos por magnitud y se
busca el número central en la distribución.
Ejemplo. Si se tiene los datos 2, 14, 4, 11, 7. Al ordenarlos por magnitud de

menor a mayor, quedarían: 2, 4, 7, 11, 14. Cuando se busca el dato central se
n 1 5 1 6
diría que   +   =   +   = = 3 ; por lo tanto la mediana sería el dato que se
2 2 2 2 2
ha ubicado en el tercer lugar por magnitud, es decir la mediana corresponde a 7
(Me=7)
2, 4, 7, 11, 14
(Me=7)
Cuando el número de observaciones es par, la mediana es igual al promedio

aritmético de las dos observaciones centrales, es decir, el valor resultante de la
suma de los dos valores centrales, está dividida por dos.
La moda: cuando la frecuencia de un valor en una distribución de frecuencias es

mayor que la de otros valores; dicho valor constituye la moda. En general, la moda
(Mo) de un conjunto de datos, es el valor (si existe) que más se repite. Cuando en
un conjunto de datos se encuentra que solo un dato tiene un máximo de
repeticiones dentro del conjunto, se llamaría una distribución unimodal, si se
presentan dos datos con la misma cantidad de veces que se repiten se denomina
bimodal, y si es el caso de tres datos que se repiten la misma cantidad de veces
sería trimodal y así sucesivamente para clasificarse como multimodal.
Ejemplo. En el caso de los datos (1, 4, 3, 1, 2, 5,), la moda sería 1; es el dato que
más se repite en el conjunto y en este caso es una distribución unimodal. Para el
conjunto (2, 4, 2, 3, 1, 5, 1), los números 1 y 2 ocurren con la misma frecuencia y
por tanto la distribución es bimodal.
Se debe tener en cuenta y como sucede en los ejemplos anteriores, la moda no

siempre es una medida de tendencia central y puede incluso, ubicarse en unos de
los extremos de la distribución de datos. Es una medida fácil de hallar por qué no
necesita de cálculos matemáticos, pero si requiere de una persona que conozca la
distribución de los datos y más cuando el n es grande.
Medidas de dispersión
Las medidas que se han visto anteriormente carecen de validez para indicar si son
representativas para un conjunto de dato o no. Tal es el siguiente ejemplo, donde
se tiene el conjunto de datos (3, 6, 3, 45, 32, 80, 20, 5,), donde el promedio es
24,5, el cual no es representativo por la variabilidad de los datos por esta razón se
han diseñando los cálculos de las medidas de dispersión. Estas medidas indican
el grado de variabilidad entre las observaciones, las más comunes son:
• Amplitud.
• Varianza
• Desviación estándar.
• Coeficiente de varianza.
Al calcular un promedio, por ejemplo la media aritmética, no sabemos su
representatividad para ese conjunto de datos. Por esto se hace necesario
determinar si hay concentración de datos alrededor del promedio, lo cual nos
indicaría una buena aplicación en su uso, por el contrario una gran dispersión
estaría indicando poca representatividad, reduciendo la confiabilidad. El estudio de
la dispersión o separación de los datos de la serie se conoce con el nombre de

teoría de la dispersión.
Amplitud: es la medida de dispersión más simple de calcular y se obtiene con la

diferencia entre el mayor y el menor de los valores del conjunto de las
observaciones. También es llamado rango o recorrido. Se usa ocasionalmente,
pero en la mayoría de los casos está influenciada por datos extremos.
Si se denota la amplitud, rango o recorrido como R, el mayor valor como XL y el

menor como XS, entonces:
R = XL − XS
Utilizando los datos de la tabla 10, la amplitud, rango o recorrido es:
Dato mayor = 129 Dato menor = 85
R = 129– 85
R = 44
La utilidad del recorrido es limitada. El hecho de que sólo tome en cuenta dos
valores, hace que sea una medida pobre en cuanto a dispersión. La ventaja
principal de utilizarla es su sencillez de cálculo.
Varianza. Cuando los valores de un conjunto de observaciones están muy

próximas a su media, la dispersión es menor que cuando están distribuidos sobre
un amplio recorrido. La varianza se define como la media aritmética de los
cuadrados de las diferencias (desviaciones) entre los valores que toman la
variable y su media aritmética. De otra forma es la suma de cuadrados de las
desviaciones de las observaciones con respecto a su media, dividida por el
número de observaciones.
Si se observan las dos definiciones anteriores, aunque indican lo mismo, en la

primera lectura, no son muy claras; por lo que es preciso saber como se calcula
para facilitar su comprensión.
Su símbolo es S2 en una muestra y σ 2 (sigma al cuadrado) para una población.

Para calcularla, se resta la media a cada uno de los valores, se elevan al cuadrado
las diferencias. Estas diferencias se suman para dividirla entre el tamaño de la
muestras (menos 1) o de la población. De esta forma la ecuación es:
( ∑ xI − X ) 2
Para una muestra S2 =
n −1
∑x
2
i −X
Para una población σ =2
Procedimiento de cálculo.
• Se calcula la media aritmética.

• Se establece la diferencia entre los valores de la variable y la media
aritmética.
• Se elevan al cuadrado los valores obtenidos como diferencia.
• Se suman las diferencias elevadas al cuadrado.
• La suma obtenida se divide en n-1 para una muestra o N en para una
población.
Ejemplo. Se desea conocer la varianza de los siguientes elementos: 3, 6, 7, 8, 2,
5, 6. de acuerdo a los pasos anteriores, se puede construir una tabla.
DATOS DE VARIANZA
Diferencias
Valores Diferencias
al
cuadrado
Xi d
d2
3 -2,3 5,4
6 6,0 36,0
7 7,0 49,0
8 8,0 64,0
2 2,0 4,0
6 6,0 36,0
n 194,4
∑x
i =1
i 32
Suma de
5,3 d2
Promedio (∑ xI − X ) 2
( ∑ xI − X ) 2
194,4
Entonces; S 2 = S2 = S 2 = 5,46
n −1 6 −1
La razón de que en un muestra se divida entre n-1, en lugar de n, es por la

consideración teórica conocida como grados de libertad y a un ajuste para que el
resultado sea representativo para la población. Cuando el número de
observaciones es muy grande, puede resultar tedioso el uso de las ecuaciones
anteriores y por tanto se puede facilitar el trabajo de la siguiente forma.
2
n
 n 
n∑ xi −  ∑ xi 
2
Para una muestra S 2 = i =1  i =1 

n(n − 1)
Propiedades de la varianza.
• La varianza debe ser siempre un valor positivo.

• La varianza de una constante es igual a cero.
• La varianza de un conjunto de datos no tiene interpretación sobre las
unidades de medida en que fueron tomados los datos ya que corresponde a
un potencialización (elevados al cuadrado) de las diferencias entre los
datos con el promedio; simplemente es una medida que sirve como índice
de variabilidad y su valor matemático aumenta cuando es utilizada para
otros cálculos.
Desviación típica o estándar. La desviación típica es la raíz cuadrada de la

varianza, considerada siempre con signo positivo. Es la medida de dispersión más
extensamente aplicada. En el caso de una muestra se denota con la letra s y para
una población σ .
( ∑ xI − X ) 2
Para una muestra s= en forma resumida s = S 2
n −1
( ∑ xI − X ) 2
Para una población σ = en forma resumida σ = σ 2
N
De esta forma, la desviación estándar para el ejemplo anterior, corresponde a:
s = S2 s = 5,46 s = 2,33
Lo cual indica que el promedio del conjunto de datos es de 5,33 ± 2,33.
Propiedades de la desviación típica o estándar.
• Es un cálculo real de las unidades en que fue medida la variable.

• Se expresa en las mismas unidades en que fue medida la variable.
• Para mencionarse en documentos cinéticos o de carácter investigativos
debe colocar el promedio ± desviación estándar ( X ± s )
• Puede decirse que para cualquier distribución normal, la media aritmética
oscila entreV
Coeficiente de variación. Más conocido como Coeficiente de Varianza (CV) o
Variación relativa. La desviación estándar es útil como una medida de variación
dentro de un determinado conjunto de datos. Sin embargo, cuando se desea
comparar la dispersión de dos conjuntos de datos, el comparar las dos
desviaciones puede conducir a resultados ilógicos y más aún cuando estas han
sido medidas en diferentes unidades. Por ejemplo. Se desea saber si la ganancia
de peso de terneras de leche con determinado alimento es menos o más variable
que la producción de leche en vacas alimentadas con la misma ración.
Aún cuando se utilice la misma unidad de medición, las dos medias pueden ser
distintas. Si se compara la desviación estándar de la ganancia de peso de terneros
destetos (kg) con la desviación estándar de la ganancia de peso de terneros al
año, puede encontrarse en éstos últimos, un valor de desviación numéricamente
mayor que la de los primeros debido a que lo propios pesos son mayores y no
porque la dispersión sea mayor.
El coeficiente de variación se expresa en porcentaje y por tanto es un índice de

fluctuación de la media aritmética que da un valor entre 0,0% y 100%. Para esto la
ecuación es:
s
CV = (100)
X
Para el ejemplo que se ha venido trabajando, el coeficiente de varianza

corresponde a:
s 5,46
CV = (100) CV = (100) CV = 1,025
X 5,33
Esto indica que el grupo de datos tiene un CV de 1,025%. Se puede determinar

que el conjunto de datos es homogéneo ya que tiente como coeficiente de
varianza un valor inferior al 12%. En el caso de ser mayor al 12%, se califica como
una distribución heterogénea.
Ejemplo. Un granjero produce hortalizas en dos lotes diferentes. En el lote A se

tiene una producción promedio de 14.450 kg y en el lote B de 18.750 kg. Ambos
lotes tienen como tamaño 1 hectárea. En el primer lote se tiene una desviación
estándar de 2.950 kg y en el segundo 3.120 kg. El granjero tiene como prioridad
establecer solo la producción en el lote que tenga menor variabilidad entre los
ciclos de producción y así poder sacar al mercado hortalizas más homogéneas.
De esta forma se puede determinar la variabilidad así:
s 2950
CV = (100) Lote A: CV = (100) CV = 20,41%
X 14.450
3.120
Lote B: CV = (100) CV = 16,64%
18.750
El resultado determina que el lote B es el que menor variabilidad presenta entre

los ciclos de cultivo y por tanto, para el interés del productor es el mejor lote.
Medidas de posición
Deciles, Cuartiles y Percentiles. Cuanto la distribución contiene un número alto

de intervalos o marcas de clase y se quiere obtener un promedio de una parte de
ella, se puede dividir la distribución en cuatro, diez o cien partes. En el primer caso
se denominan Cuartiles, en el segundo se denomina Deciles y en el tercero
Percentiles.
Cuartil. Se denomina a la medida central que divide la distribución en cuatro

partes iguales, mostrando el comportamiento promedio de la cuarta parte de la
población o muestra analizada; medida que es análoga a la mediana, variando
simplemente los puntos de referencia. El cuartil se simboliza con la letra Q i el
subíndice i que determina el orden, a que pertenece.
Q1. Representa el primer cuartil o el promedio del 25% de la población

analizada y su punto de referencia es n/4.
1(n + 1)
Para datos no agrupados Q1 =
n
n 
 4 − N k −1 
Para datos agrupados Q1 = L1 +  ×C
 nk 
 
Donde: n/4; es el punto de referencia del cuartil.
L1; corresponde en la tabla de frecuencias al límite inferior donde

se ubica el punto de referencia.
N k −1 ; es la frecuencia absoluta acumulada en el intervalo anterior

donde está ubicado el punto de referencia.
nk ; es la frecuencia absoluta en el intervalo donde se ubica el

punto de referencia.
Q2. Representa el segundo cuartil o el promedio del 50% de la población

analizada y su punto de referencia es 2n/4.
2(n + 1)
n
 2n 
 4 − N k −1 
 nk 
 
Q3. Representa el tercer cuartil, mostrando el comportamiento promedio del

75% de la población y su punto de referencia es 3n/4.
3(n + 1)
n
 3n 
 4 − N k −1 
 nk 
 
Ejemplo para datos no agrupados. Si se tiene los siguientes valores 16, 10, 4, 8,
12, 10, 8, 20, 4, 13, 12, 22, 16, 26, 20, calcular el primero, segundo y tercer cuartil.
Para entender el conceptos se ordenan los datos de menor a mayor 4, 4, 8, 8, 10,

10, 12, 12, 13, 16, 16, 20, 20, 22, 26.
1(n + 1) 1(15 + 1) 16
Q1 = Q1 = Q1 = Q1 = 4
n 4 4
El primer cuartil está ubicado en el cuarto lugar y por tanto corresponde al valor 8.
1(n + 1) 2(15 + 1) 32
Q2 = Q2 = Q2 = Q2 = 8
n 4 4
El segundo cuartil está ubicado en el octavo lugar y por tanto corresponde al valor
12
1(n + 1) 3(15 + 1) 48
Q3 = Q3 = Q3 =
n 4 4
Q3 = 12
El tercer cuartil está ubicado en el decimosegundo lugar y por tanto corresponde al

valor 20.
Estadígrafo de forma
Con estos estadígrafos se pretende determinar si una distribución es simétrica o
asimétrica. Si la distribución es simétrica se dice que corresponde a una
distribución normal cuya curva representativa es la campana de Gauss.
Cuando una distribución es normal, la media aritmética, la mediana y la moda son

iguales. Cuando la media aritmética es menor que la mediana y ésta, a su vez,
menor que la moda, la distribución es sesgada a la izquierda o asimétrica
negativa. Si la media aritmética es mayor que la mediana y ésta es mayor que la
moda, decimos que la distribución es sesgada a la derecha o asimétrica positiva.
Para calcular el grado de asimetría denominado sesgo, se utiliza el coeficiente de

Pearson (S´) con cualquiera de las siguientes ecuaciones:
media − mod a X − Mo
S´= S´=
desviación típica s
3(media - mediana) X − Me
S´= S´=
desviación típica s
Para su interpretación se debe tener en cuenta la siguiente clasificación:

• Si el sesgo (S´) es igual a cero, la distribución es simétrica o normal (S´= 0).

• Si el sesgo (S´) es menor a cero, la distribución es sesgada a la izquierda o
asimétrica negativa (S´< 0).
• Si el sesgo (S´) es mayor que cero, la distribución es sesgada la derecha o
asimétrica positiva (S´> 0).
Grafica 7. Representaciones de simetría
Lección 7: Distribución de Frecuencias
La primera etapa del análisis y la interpretación de un conjunto de datos es la

reducción del número de observaciones en un conjunto de estadísticas
descriptivas que presenten las características importantes de los datos, ya sea de
una muestra o de una población. Dicho resumen se hace con un cuadro llamado
cuadro de distribución de frecuencias y posteriormente con gráficas como los
histogramas, polígonos, pictogramas, diagramas circulares, etc.
La distribución de frecuencias es un método utilizado para organizar y resumir

datos. Bajo este método los datos que componen una serie se clasifican y
ordenan, indicándose el número de veces que se repite. La distribución nos
permite manejar gran cantidad información en espacios pequeños.
Pasos para elaborar una tabla de frecuencias:
1. Estimar el rango (R)

2. Determinar el número de clases (m)
3. Estimar el ancho de cada clase (amplitud de intervalo, C)
4. Estimar límite inferior y superior de cada clase (xi-1 – xi)
5. Estimar las marcas de clase (Xi).
6. Determinar la frecuencia absoluta (ni)

7. Determinar la frecuencia absoluta acumulada (Ni)
8. Determinar la frecuencia relativa (hi)
9. Determinar la frecuencia relativa acumulada (Hi)
1. Estimación del rango (R). El rango o recorrido es el valor que se obtiene de la
distancia entre el menor y el mayor valor de las observaciones.
Ejemplo: si se tiene el siguiente conjunto de datos. 74, 71, 65, 72, 67, 79, 88, 66,
99, 40, 52.
El rango o recorrido se obtendría:
Dato mayor = 94 Dato menor = 40
R = 94 – 40
R = 50
2. Estimación del número de clases (m). Para elaborar una tabla de frecuencias,
se establece cierto número de clases (denotada con la letra m) en los valores
observados. Dicho número por lo general varía entre 5 y 15 a mayor número de
datos, debe disponerse de mayor número de clases. Se debe tener en cuenta que
si el número de clases es muy pequeño, se podría estar encubriendo
características importantes de los datos debidos al agrupamiento; si se tienen
demasiadas clases, pueden aparecer clases vacías y la información no se resume
de forma clara.
Existen dos formas de obtener el número de clases a utilizar en un cuadro de

frecuencias; partiendo ambos de la cantidad de datos con que se cuenta (en el
caso de ser una muestra n o en el caso de ser una población N).
a. Sabiendo que se recomienda tener un número de clases entre 5 y 15, el

investigador puede definir de acuerdo al número de datos que tenga,
cuantas clases puede manejar.
b. Si se quiere ser más preciso, se puede utilizar la formula Sturges, la cual
dice que m=1+3,322(log n); donde m es el número de intervalos de clase.
En la mayoría de los casos, la aplicación de esta fórmula da número
decimales, por lo que es necesario aproximar para tomar un número entero
de clases. Por ejemplo, si la fórmula da que debe tomar 7,8 clases se
aproximaría a 8 clases.
Por ejemplo. Si se ha tomado el diámetro en la base de 758 árboles de un
bosque que se componía de 14.250 árboles, el número de clases quedaría
así:
m=1+3,322(log n)
m=1+3,322(log 758)
m=1+3,322(2,8796)
m=1+9,5662
m=10,5662
m=11 clases.
Para justificar cualquiera de los dos métodos siendo más usado el primero, es
preciso que la decisión sea tomada por una persona que conozca muy bien los
datos y el uso que se les va a dar.
3. Estimación del ancho de cada clase (amplitud de intervalo, C). Es el valor que
va a tener como amplitud en cada una de las clases que se han establecido. Es
recomendable estimar un solo valor de amplitud para todas las clases que se
pretendan manejar en la tabla de frecuencias, esto le da más confiabilidad y
presentación al resumen de datos que se pretende hacer. El ancho de la clase se
obtiene dividiendo el rango entre el número de clases.
Ejemplo. Si el rango de un conjunto de datos es 176, y se pretende que en la

tabla de frecuencias se presenten 8 clases, entonces, el ancho de cada clase
corresponde a:
R 176
C= ; C= ; C = 22
m 8
Esto implica que cada una de las 8 clases tendrá un ancho o amplitud de 12
unidades.
En muchos casos al efectuar la división anterior, se obtienen número decimales,

por lo que se aconsejan dos decisiones:
a. Cambiar número de clases por uno que permita obtener valores enteros.
b. Aproximar el ancho de clase a un valor por encima del valor que se obtiene
para evitar que en momento de agrupar los datos se queden datos sin
representar.
Ejemplo: si se tiene un rango de 425 y se pretende dividir en 6 clases, el
ancho de las clases quedaría así:
R 425
C= ; C= ; C = 70,8
m 6
Esto equivaldría, para facilitar los cálculos y organización de la tabla a 71.
c. En algunos casos se hace necesario ajustar tanto el número de clases

como aproximar el ancho de estas para evitar que la última clase quede con
muy pocos números que lo representan. Esto recordando que la división de
los intervalos está dada en función del rango y este a su vez por el dato
mayor y el dato menor del conjunto.
Ejemplo: si se tiene un rango de 254 y se pretende dividir en 9 clases, la
amplitud de cada clase sería:
R 254
C= ; C= ; C = 28,22
m 9
Si se toma como amplitud de cada clase 28, se perderían 0,22 unidades en

cada clase, los que indica que en las 9 clases se perdería (0,22 x 9)= 1,98
unidades. Esto implica que al hacer la tabla de frecuencias se queden datos
por fuera, incluido el dato máximo que permitió sacar el rango.
Por otro lado, si se aproxima el 28,22 a 29, se estaría aumentando por cada
clase (29-28,22) = 0,78 unidades, que en las 9 clases sería (0,78 x 9)=7,02
unidades. Esto implica que en la última clase del cuadro se tenga un
espacio perdido que está por encima del dato mayor con el que se sacó el
rango.
En este caso la mejor solución es, hacer un cambio en la cantidad de clases

a trabajar y a este nuevo ancho de clase aproximar para evitar lo expuesto
anteriormente.
4. Estimar límite inferior y límite superior de cada clase (xi-1 – xi). Una vez
determinado el ancho de cada clase, se puede estimar el límite inferior y el límite
superior en cada una de las clases. Este se obtiene tomando el dato menor del
conjunto de datos (que sería el límite inferior de la primera clase) y sumándole el
ancho de clase, este resultado sería el límite superior de dicha clase.
Este último valor obtenido sería el punto de partida (límite inferior) de la siguiente
clase, el cual, al sumarle el ancho de clase marcaría el límite superior de la clase
correspondiente. En forma sucesiva se sigue haciendo esta operación hasta
calcular los límites para todas las clases propuestas, teniendo en cuenta que la
última clase debe contener el valor máximo del conjunto de datos.
Ejemplo. Si se tienen las siguientes condiciones:
Dato menor 25
Dato mayor 125
Rango 100
Número de clases 5
Ancho de clase 20
Los límites serian:
Clase limites
(C) (xi-1 – xi)
1 25 - 45
2 45 - 65
3 65 - 85
4 85 - 105
5 105 - 125
Como se puede ver, existe un problema en los límites señalados anteriormente. El

problema es que si en el conjunto de datos aparece 45, ¿dónde ubico este valor?
En la clase 1 o en la clase 2. Para solucionar esto se tiene dos propuestas:
a. Que los intervalos a partir de la segunda clase, se manejen con números

decimales en su límite inferior.
Clase limites
(C) (xi-1 – xi)
1 25 - 45
2 45.1 - 65
3 65.1 - 85
4 85.1 - 105
5 105.1 - 125
b. Que los límites en cada una de las clases se clasifique como intervalos cerrados
[ ] o intervalo abierto ( ), o sus combinaciones [ ) ó ( ] , esto implica que cada en
cada intervalo se coloque el signo respectivo. En el caso de ser un intervalo
cerrado en el límite inferior [ indica que si se tiene el número igual al límite inferior,
este se ubica en dicho intervalo; pero si el intervalo es abierto ( , no se tiene en
cuenta.
Clase limites
(C) (xi-1 – xi)
1 [25 - 45)
2 [45 - 65)
3 [65 - 85)
4 [85 - 105)
5 [105 - 125]
Se puede observar que en la última clase, el límite superior están como intervalos
cerrado, ya que se está seguro que no existen datos por encima de este dato.
5. Marcas de clase. Corresponden al punto central en cada una de las clases que
se han tomado. Se obtiene sumando en cada clase el límite inferior y el superior
para luego dividirlo en dos.
Con los datos anteriores se tendía como ejemplo:
EJEMPLO DE MARCAS DE CLASE.
Clase limites marcas de clase
(C) (xi-1 – xi) Xi
1 25 - 45 35 = ((25+45)/2)
2 45 - 65 55
3 65 - 85 75
4 85 - 105 95
5 105 - 125 115
6. Frecuencias absolutas (ni). Se define como el número de veces que se repite

un fenómeno. Corresponde al número de unidades experimentales que están en
cada uno de los intervalos.
Tal vez la tarea más difícil de hacer es la distribución de frecuencia, ya que

implica hacer una clasificación de todos los datos en cada una de las clases en las
que se están resumiendo. Como se trata de estimar frecuencias, se tienen las
siguientes propiedades:
• Las frecuencias absolutas son siempre números enteros.

• La suma de las frecuencias absolutas es igual a n si es una muestra, o N si es
una población.
n
∑n
i =1
i = n1 + n2 + n3 + ... + nm = n
7. Frecuencias absolutas acumuladas (Ni). A menudo es importante tener las

frecuencias acumuladas entre algunas clases, esto facilita la interpretación y toma
de decisiones. Por ejemplo. Si las clases corresponden a edades de un grupo de
terneros para engorde y se quiere hace una clasificación de los que son aptos
para la etapa de levante, es importante tener definido hasta cierta edad (límite de
clase) cuantos animales corresponden o se pueden clasificar en levante.
N i = n1 + n2 + n3 + ... + nm
Esto implica que el valor acumulado en el último intervalo de clase corresponde al

total de observaciones o datos que se están trabajando.
8. Frecuencias relativas (hi). Corresponde a la proporción o porcentaje de los

valores que se incluyen en los distintos intervalos de clase. Se puede obtener
dividiendo la frecuencia absoluta de cada intervalo (ni) sobre el número total de
observaciones (n). La multiplicación, de una de estas divisiones, por cien la
convierte en un porcentaje sobre el total de casos.
Las frecuencias relativas sin haberse multiplicado por cien, siempre dan un valor
decimal y la suma de todas estas debe dar 1.
ni
hi =
n
∑h
i =1
i = h1 + h2 + h3 + ... + hm = 1
9. Frecuencias relativas acumuladas (Hi). Es la suma sucesiva de las

frecuencias relativas obtenidas en cada intervalo de clase.
H i = h1 + h2 + h3 + ... + hm
Para ilustrar todo el proceso completo se presenta el siguiente ejemplo adaptado

de Suárez, 1999: Suponiendo los pesos en kilos de los cerdos inscritos en la feria
de exposición porcina en un municipio, en determinado año. Con estos puntajes,
los directivos de la feria quieren preparar una distribución de frecuencias. Los
datos obtenidos fueron:
PESO EN KILOS DE CERDOS INSCRITOS EN LA FERIA
88 91 104 113 125 101 114 105 101 88 126 118
100 111 125 119 91 106 120 129 120 109 104 112
101 113 100 106 105 121 93 89 124 96 105 95
91 106 93 88 89 100 115 98 108 99 120 101
108 118 118 113 114 109 91 104 109 110 113 119
106 106 97 104 105 122 112 124 108 121 96 97
99 101 116 102 127 121 116 100 95 89 103 115
113 129 91 85 108 103 108 98 108 114 102 96
99 108 114 121 107 122 100 116 111 109 104 113
118 110 129 124 105 93 115 120 97 112 94 113
114 106 105 115 98 112 103 92 125 107 115 118
128 92 85 108 114 125 121 122 117 109 128 88
119 119 116 113 122 126
1. Estimar el rango (R).

El examen de los datos revela que los puntajes, más bajos y más altos son 85 y
129 kilos, respectivamente. Entonces, el intervalo inferior de clase debe empezar
desde 85 y el intervalo mayor debe tener un límite no menor a 129.
ato mayor = 129 Dato menor = 85
R = 129– 85
R = 44
2. Determinar el número de clases (m)

m=1+3,322(log n)
m=1+3,322(log 150)
m=1+3,322(2,17609)
m=1+7,2289
m=8,22
m=9. Clases.
3. Estimar el ancho de cada clase (amplitud de intervalo, C)

R 44
C= ; C= = 4,88 ; C=5
m 9
4. Estimar límite inferior y superior de cada clase (xi-1 – xi)

LÍMITES DE CONFIANZA
Clase limites
(C) (xi-1 – xi)
1 [85 - 90)
2 [90 - 95)
3 [95 - 100)
4 [100 - 105)
5 [105 - 110)
6 [110 - 115)
7 [115 - 120)
8 [120 - 125)
9 [125 - 130]
5. Estimar las marcas de clase (Xi).

Marcas de clase.
Clase limites marcas de clase
(C) (xi-1 – xi) Xi
1 [85 - 90) 87,5
2 [90 - 95) 92,5
3 [95 - 100) 97,5
4 [100 - 105) 102,5
5 [105 - 110) 107,5
6 [110 - 115) 112,5
7 [115 - 120) 117,5
8 [120 - 125) 122,5
9 [125 - 130] 127,5
6. Determinar la frecuencia absoluta (ni)

Frecuencias absolutas.
Clase limites marcas de clase frecuencias absolutas
(C) (xi-1 – xi) Xi ni
1 [85 - 90) 87,5 9
2 [90 - 95) 92,5 11

3 [95 - 100) 97,5 14
4 [100 - 105) 102,5 20
5 [105 - 110) 107,5 27
6 [110 - 115) 112,5 22
7 [115 - 120) 117,5 19
8 [120 - 125) 122,5 16
9 [125 - 130] 127,5 12

n
∑n
i =1
i = n1 + n2 + n3 + ... + nm = n
n = 150
7. Determinar la frecuencia absoluta acumulada (Ni).

Frecuencias absolutas acumuladas.
Clase limites marcas de clase Frecuencias absolutas

Frecuencias abs. Acumuladas
(C) (xi-1 – xi) Xi ni Ni
1 [85 - 90) 87,5 9 9
2 [90 - 95) 92,5 11 20
3 [95 - 100) 97,5 14 34
4 [100 - 105) 102,5 20 54
5 [105 - 110) 107,5 27 81
6 [110 - 115) 112,5 22 103
7 [115 - 120) 117,5 19 122
8 [120 - 125) 122,5 16 138
9 [125 - 130] 127,5 12 150

8. Determinar la frecuencia relativa (hi)

FRECUENCIAS RELATIVAS
Clase limites marcas Frecuencias Frecuencias

Frecuencias
de clase absolutas abs. Acumuladas

Relativas
(C) (xi-1 – xi) Xi ni Ni hi
1 [85 - 90) 87,5 9 9 0,06
2 [90 - 95) 92,5 11 20 0,0733
3 [95 - 100) 97,5 14 34 0,0933
4 [100 - 105) 102,5 20 54 0,1333
5 [105 - 110) 107,5 27 81 0,18
6 [110 - 115) 112,5 22 103 0,1466
7 [115 - 120) 117,5 19 122 0,1266
8 [120 - 125) 122,5 16 138 0,1066
9 [125 - 130] 127,5 12 150 0,08

n
∑h
i =1
i = h1 + h2 + h3 + ... + hm = 1
9. Determinar la frecuencia relativa acumulada (Hi)

FRECUENCIAS RELATIVAS ACUMULADAS.
Clase limites marcas Frecuencias Frecuencias Frecuencias

Frecuencias
de clase absolutas abs. acum.. Relativas

Relat. acum.
(C) (xi-1 – xi) Xi ni Ni hi Hi
1 [85-90) 875 9 9 0,06

0,06
2 [90-95) 92,5 11 20 0,0733

0,1333
3 [95 -100) 97,5 14 34 0,0933

0,2266
4 [100-105) 102,5 20 54 0,1333

0,3599
5 [105-110) 107,5 27 81 0,18 0,5399
6 [110-115) 112,5 22 103 0,1466

0,6865
7 [115-120) 117,5 19 122 0,1266

0,8131
8 [120-125) 122,5 16 138 0,1066

0,9197
9 [125-130] 127,5 12 150 0,08 1
Con esta última tabla se puede iniciar un análisis que permita determinar lo
siguiente:
• El peso en el que mayor número de cerdos se presentaron a la feria esta

entre [105 y 110) kilos (en valores reales sería entre 105 y 109,99.
• El peso en el que menor cantidad de cerdos se presentó está entre 85 y
89,9 kilos; con solo 9 animales que corresponden al 6% de todos los cerdos de la
feria. Esto permite saber que es muy poca la cantidad e cerdos con pesos entre
este intervalo y que por ejemplo, la junta de ferias no tomaría consideraciones
sobre este pesaje.
• Se podría decir que el 22,66% de lo cerdo (34) están con un peso inferior a
99,9 kilos.
De esta forma se pueden sacar varias conclusiones de un grupo de datos y se
pueden presentar de forma resumida, resaltando la importancia desde el punto de
vista productivo, económico, de impacto ambiental, etc., sin olvidar que estos
resultados o comportamientos de los datos tiene una explicación y/o justificación,
la cual solo el profesional correspondiente al área de trabajo estaría en capacidad
de argumentar. Desde este punto de vista, la bioestadística deja de ser el uso de
simples métodos de cálculo para convertirse en una herramienta de
argumentación en el comportamiento o resultado de variables biológicas.
Lección 8: Gráficas
Con frecuencia, el significado de los datos se puede comunicar más efectivamente

por medio de gráficos que por medio de tablas. Existe una gran variedad de
formas para presentar los datos de una distribución de frecuencias; entre los más
conocidos se encuadran:
• Histogramas
• Polígonos de frecuencias
• Ojivas
• Diagrama circular o pastel
• Pictogramas
Martínez 2005, presenta como recomendaciones para la elaboración de gráficas
lo siguiente:
• La mejor gráfica es la más simple

• Las gráficas deben ser tan sencillas y claras, de tal manera que sean
comprensibles sin la ayuda de las descripciones del texto.
• Las gráficas nunca sustituyen al cuadro, al contrario, deben complementarse.
• La finalidad de la gráfica es visualizar mejor la información.
• La gráfica es considerada como el medio de expresión de la estadística, más
llamativa, sugestiva a la vez que presenta la ventaja de dejar en la memoria
una expresión más duradera que los cuadros o el texto, en un menor tiempo
de lectura.
El histograma.
Es un tipo especial de gráfica de barras para representar distribuciones de

frecuencias absolutas o relativas. Tiene las siguientes características:
• Los valores de la variable que se está considerando se representan en el eje

horizontal (eje x o independiente). Las frecuencias absolutas o relativas se
representan en el eje vertical (eje y o dependiente).
• Cada intervalo de clase tomado en la distribución de frecuencias implica una
sección sobre el eje horizontal.
• Por encima de cada intervalo de clase sobre el eje horizontal se levanta una
barra rectangular, de modo que su altura corresponde con la frecuencia
correspondiente.
Ejemplo. Se presenta el histograma para la distribución de frecuencias realizada

con el peso de cerdos y se tendría en valores absolutos:
GRÁFICA 1. HISTOGRAMA DE FRECUENCIAS ABSOLUTAS PARA EL

PESO (KG) DE CERDOS INSCRITOS EN LA FERIA
cantidad de cerdos
30
25
20
15
10
0
85 90 95 100 105 110 115 120 125 130
Peso de los cerdos (kg)
Grafica 2. Histograma de frecuencias relativas para el peso (kg) de cerdos

inscritos en la feria
porcentaje de cerdos 0,2

0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
85
85 90 90 95 100
95 105
100 110105 115 110
120 125 130120
115 125 130
Serie1 Peso de los cerdos (kg)
De los histogramas que se realicen a partir de una tabla de frecuencias, sin

importar si son con frecuencias absolutas o con frecuencias relativas, deben tener
una interpretación que cumpla con los objetivos del trabajo que se haya planteado
como investigación.
Polígono de frecuencias.
Se construye localizando el punto medio de cada intervalo de clase (marcas de

clase) en el eje X y marcando un punto al a altura de la frecuencia correspondiente
en el eje Y. Uniendo los puntos medios de las alturas se obtiene un polígono. Es
decisión del investigador si inicia o cierra la línea trazada sobre el eje X; esto
mostraría hipotéticamente que la frecuencia de un intervalo inferior y uno superior
a los que se tomaron, sería cero.
Ejemplo.
Gráfica 3. Polígono de frecuencias absolutas para el peso de cerdos inscritos en

una feria.
cantidad de cerdos 30
25
20
15
10
0
87,5 92,5 97,5 102,5 107,5 112,5 117,5 122,5 127,5
peso de los ceredos (kg)
En el ejemplo anterior se puede ver que la línea graficada se ha cerrado al inicio y

al final como si los intervalos anteriores y posteriores a los considerados en el
estudio tuvieran una frecuencia de cero. De la misma forma como se presenta
este polígono de frecuencias absolutas, se puede hacer con frecuencias relativas.
Otra forma de resumir los datos en una gráfica, es la combinación de un

histograma y un polígono de frecuencias. Para el ejemplo que se ha venido
trabajando, se tendría la siguiente gráfica.
Gráfica 4. Histograma y polígono de frecuencia para el peso de cerdos inscritos en

una feria.
Ojiva:
Es una representación gráfica para las frecuencias absolutas o relativas

acumuladas de una variable continua. Para ello se determinan los puntos de
intersección entre cada valor de la variable y su respectiva frecuencia; luego se
unen los trazos rectilíneos. Prácticamente es un polígono de frecuencias, con la
diferencia de ser aplicado a una tabla de frecuencias acumuladas.
Ejemplo.
Gráfica 5. Ojiva de frecuencias absolutas acumuladas para el peso de cerdos

inscritos en una feria.
Diagrama circular, de pastel o torta: en este tipo de gráficas los datos viene
sustituidos por superficies de áreas proporcionales al número a representar. Las
gráficas son particularmente útiles para visualizar las diferencias en frecuencias
entre algunas teorías del nivel nominal. Como ejemplo se puede tomar la siguiente
tabla donde se catalogan los cerdos según el peso.
CATALOGO DE LOS CERDOS SEGÚN EL PESO
Clase limites frecuencias absolutas
(C) (xi-1 – xi) ni
Livianos [110 - 115) 22
Semi-livianos [115 - 120) 19

Pesados [120 - 125) 16
Muy pesado [125 - 130] 12
Diagrama circular de clasificación de cerdos según el peso (kg).
Gráfica 9. Clasificación de cerdos según el peso (kg).
Lección 9: Principios de probabilidad
Generalmente en la cotidianidad se maneja el concepto de probabilidad, no solo

en lo relacionado con los juegos de azar sino en muchos otros aspectos. Por
ejemplo. Cuando se afirma “el consumo excesivo de fibra causa timpanismo en
rumiantes”, “es probable que hoy dé cría la yegua que está preñada”, “es probable
que hoy llueva”, “caen rayos cuando llueve”. Lo cual indica que el conocimiento
que tiene el hombre sobre los fenómenos es generalmente impreciso o incierto.
Esta falta de certeza sobre el resultado de un proceso es lo que ha generado el
concepto de fenómeno aleatorio, el cual puede decirse que es aquel cuyo
resultado no se pude conocer ni predecir con certeza. Los fenómenos aleatorios
no son del todo explicable debido, a que generalmente no se conocen en forma
exacta los factores que lo determinan y las leyes que los rigen.
La estadística asigna a este grado de incertidumbre un valor entre 0 y 1, de tal

modo que resulta posible cuantificar aunque sea en forma relativa, que tan
probable o improbable es una determinada afirmación.
El estudio clásico de la probabilidad nace aproximadamente en el siglo XVII, en

especial del trabajo de dos matemáticos, Pascal y Fermat. Gran parte de la teoría
se desarrolló a través de los dados.
Para entender los principios de las probabilidades, es necesario conocer con

anterioridad algunos conceptos relacionados con la teoría de conjuntos.
Experimento. Es un proceso por medio del cual se obtiene una observación o

medición. Un experimento aleatorio es aquel cuyos resultados no pueden
predecirse y por lo tanto están sujetos al azar.
Espacio muestral. Es el conjunto formado por todos los resultados posibles de un

experimento, generalmente se indica con la letra S.
Ejemplo: se toma una semilla al azar y se le hace prueba de viabilidad. El

resultado puede ser: viable (V) o no viable (N); entonces el espacio muestral es:
S = {V , N }
Si en el caso anterior se toman tres semillas, el espacio muestral será:
S = {VVV , NVV ,VNV ,VVN ,VNN , NVN , NNV , NNN }
Se pretende determinar el número de conejos enfermos en un conjunto de 8

animales. El espacio muestral sería:
S = {1,2,3,4,5,6,7,8}
Si con el caso anterior de los conejos, se pretende estimar el porcentaje de

conejos enfermos:
S = {X / 0 ≤ X ≤ 100}
Si se pretende estimar el peso de uno de los conejos enfermos
S = {X / X > 0}
Eventos o sucesos. Es un conjunto de un espacio muestral. Ejemplo. El hecho

de que se encuentren tres o más conejos enfermos en el espacio muestral donde
se determinan el número de conejos enfermos de los ocho que tiene el conjunto.
S = {1,2,3,4,5,6,7,8}
A = {3,4,5,6,7,8} Obsérvese que S contiene a A

Si se divide el espacio muestral en un serie de eventos A1, A2, A3, V An y además

A1 ∪ A2 ∪ A3 ∪ V ∪ An= S, entonces esta división se denomina partición del
espacio muestral.
Un suceso que no puede ser descompuesto se denomina suceso simple; por

ejemplo al tomar una semilla, esta puede ser viable o no viable. Se indican con Ei
los sucesos simples:
E1 Semilla viable
E2 Semilla no viable
Para el espacio muestral de la viabilidad de tres semillas, los sucesos simples

serían
E1 VVV E5 VNN
E2 NVV E6 NVN
E3 VNV E7 NNV
E4 VVN E8 NNN
De este modo, el espacio muestral es el conjunto de todos los puntos muestrales

de un experimento y un suceso es un colección específica de puntos muestrales.
Se pueden considerar como sucesos compuestos a la unión o intersección de

otros sucesos.
Unión de sucesos. Sean A y B dos sucesos de un espacio muestral S. la unión

de A y B (A ∪ B) se define como el suceso que contiene todos los puntos
muestrales que están en A, en B o en ambos.
Intersección de sucesos. La intersección de A y B es el suceso formado por

todos los puntos muestrales que están en A y en B, (A ∩ B) o simplemente AB.
Complemento de un suceso. El complemento de un suceso A ( A ) es la

colección de todos los puntos muestrales en S que no están en A.
Sucesos mutuamente excluyentes. Se dice que dos sucesos son mutuamente

excluyentes si el suceso de AB (A ∩ B) no contiene ningún punto muestral, lo cual
equivale a que no se pueden dar los dos eventos simultáneamente. Así como un
animal esté enfermo o no.
Definición de probabilidad clásica. Si un evento puede ocurrir en N maneras

mutuamente exclusivas e igualmente probables y si m de éstas posee una
característica E, la probabilidad de ocurrencia de E es:
m
P( E ) =
N
Esta definición clásica o a priori, tiene serias limitaciones pues implícitamente

contiene el concepto de “igualmente probable”; queriendo decir que de un conjunto
de elementos donde se pretende seleccionar uno, todos tiene la misma
probabilidad de ser seleccionados. De la misma forma considera a priori que
todos los eventos tienen la misma probabilidad de ocurrir. Es así como muchos
otros problemas quedarían sin respuesta. Como por ejemplo: ¿cuál es la
probabilidad de que un río aumente su caudal a más de 1000 litros por segundo?,
¿cuál es la probabilidad de que bovino aumente más de 850 gramos por día?,
¿cuál es la probabilidad de que un cultivo de arroz de una variedad específica, en
cierto tipo de suelo, condiciones de manejo y fertilización produzca más de 40
bultos por hectárea?
La aproximación de la frecuencia relativa a la probabilidad depende de la

repetición de algún proceso y de la capacidad de contar el número de
repeticiones, así como del número de veces que ocurre algún evento de interés.
En este contexto la probabilidad de observar alguna característica E, de un
evento, puede definirse como probabilidad frecuentista textualmente quedando:
Si un evento se repite n veces y hay m resultados a favor de un evento E,

entonces una estimación de la probabilidad frecuentista de ese evento es
m
P( E ) = .
n
Ejemplo. Si se hace un muestreo en ardillas de cola roja y se encuentra que de

las 80 capturadas, 55 están contaminadas con Salmonella. ¿Cuál es la
probabilidad de que al capturar otra ardilla, esta esté contaminada con
Salmonella?
De la información se tiene que el evento se repite 80 veces (n=80), de los cuales

el resultado “favorable” para Salmonella es de 55 veces (m=55); entonces, la
probabilidad de capturar una ardilla con Salmonella P(E) es de:
55
P (E ) = = 0,68.
80
Este punto de vista sostiene que la probabilidad mide la confianza que tiene un
determinado individuo en la veracidad de una proposición particular.
Probabilidad bajo un concepto axiomático. Este concepto fue formalizado por el

ruso A.N. Kolmogorov. La base de este concepto de probabilidad, se considera
desde el cumplimiento de tres axiomas relacionados con la teoría de conjuntos:
1. Todos los eventos deben tener una probabilidad mayor o igual a cero, lo
cual es un argumento razonable en vista de la dificultad de obtener una
probabilidad negativa. Dicha probabilidad del evento tampoco puede ser
mayor a 1.
P ( E ) =≥ O 0 ≤ P( E ) ≤ 1
2. la suma de todas las probabilidades de todos los eventos mutuamente

excluyentes es igual a 1.
P(S ) = 1
Esta es la probabilidad de exhaustividad y se refiere al hecho de que el

observador de un proceso probabilístico debe tomar en cuenta todos los
eventos posibles y cuando se toman en su totalidad, la suma es 1.
1. Si se tiene dos eventos mutuamente excluyentes, Ei y Ej. La probabilidad

de que ocurran, es igual a la suma de sus probabilidades individuales.
P ( Ei ) ∪ P ( E j ) = P ( Ei ) + P ( E j )
Las probabilidades se expresan en proporciones de 0 a 1 o en porcentajes

equivalentes de 0 a 100%.
Lección 10: Muestreo
En muchos casos, si no es en la mayoría, el investigador de cualquier campo se

encuentra con la imposibilidad de estudiar toda una población (todos y cada uno
de los elementos que la componen); razón por la cual se han formulado una serie
de métodos que permitan determinar el tamaño de una porción de la población,
llamada muestra y con la cual es representativo analizar e inferir sobre la
población. Una población debe estudiarse bien sea a través de un censo (estudio
de toda la población) o en base a una muestra (parte de una población).
El muestreo, técnica para seleccionar el tamaño de la muestra representativa de

una población y forma como se selecciona cada uno de los integrantes de la
muestra, es una herramienta útil para cualquier estudio de aspecto social, de
salud, educación, ambiental, agrícola, pecuario, financiero e incluso de mercadeo
entre otros. Ésta es la técnica base para que se utilice la inferencia estadística y
con la cual se pueden analizar, concluir y argumentar aspectos relevantes de la
población en estudio.
Es preciso determinar el tamaño y forma de seleccionar las unidades que

componen la muestra, cuando:
1. La población es grande y su estudio completo excede los recursos asignados.
2. Existe suficiente homogeneidad en las unidades de la población con respecto a

lo que se quiere medir, locuaz permite que una muestra adecuada contenga la
información suficiente para el interés del estudio.
3. El proceso de selección de la muestra es destructivo, lo cual obliga hacer el

estudio sólo en una parte de la población. Ejemplo. Cuando se pretende estudiar
la calidad de la carne en animales y por tanto es necesario sacrificarlos. O cuando
se pretende estudiar el desarrollo radicular de una especie de plantas y por
consiguiente es necesario arrancarlas para tomar las correspondientes medidas.
El muestreo, en general, tiene como objetivo agilizar los procesos de

investigación, controlar los gastos excesivos de recursos financieros, humanos y
de tiempo, pero también en algunos casos evitar que se creen impactos negativos
sobre poblaciones vulnerables al estudio planteado; como sucede cuando se
estudian especies silvestres o se hacen muestreos destructivos.
Existe, adicionalmente, otra razón de peso para hacer uso del muestreo
estadístico y es el estricto control que se puede ejercer sobre la recolección de la
información, muy superior al que se lograría en el caso de un censo (toda la
población). Los errores en el estudio, especialmente aquellos conocidos como
errores muestrales (no respuesta, inconsistencia, codificación errada, etc.)
disminuyen considerablemente cuando se realiza un muestreo en vez de un
censo.
En las ciencias agropecuarias y ambientales, donde la mayoría de los estudios de

investigación se enfocan en la aplicación de tratamientos, es preciso, por costos,
aplicación de los mismos tratamientos y facilidad en la toma de datos, incluso de
control de algunos factores, tomar parte de la población para la experimentación y
luego inferir.
Las etapas principales en la planificación y ejecución de un muestreo son:
a. Planteamiento de los objetivos. Es necesario definir los objetivos. Por lo

general éstos se relacionan con la estimación de los parámetros de interés
(usualmente medias y varianzas) o prueba de hipótesis sobre ellos.
b. Definición de la población a ser muestreada. De acuerdo a los objetivos, debe
identificarse claramente la población sobre la cual se desea hacer la inferencia.
c. Establecer el tipo de datos que deben recolectarse y los métodos de medición.
De esta manera se asegura la obtención de la información que sea pertinente
de acuerdo a los objetivos planteados y se evita la tendencia a recolectar datos
innecesarios.
d. Selección de la muestra. La cual incluye la selección de la unidad de muestreo,
la definición del tamaño de la muestra y la forma como sería seleccionada esta.
e. Ejecución del muestreo. En esta fase, una de las más importantes y de la que
depende la confiabilidad de los resultados, se hace la localización de las
unidades que componen la muestra. Se hace necesario planear de forma
detallada el proceso a seguir para la ejecución del muestreo. Para esto se
debe formalizar un cronograma a cumplir por personas idóneas y con
conocimiento del estudio para que le brinden responsabilidad y criterio
profesional, cumpliendo con lo programado.
f. Análisis de datos. Por lo general las estimaciones se dan por medio de
intervalos de3 confianza para los parámetros. El conocimiento de las varianzas
permite además planear ajustes o mejores alternativas para los futuros
esquemas de muestreo. En el caso de investigaciones experimentales, el
análisis debe estar encaminad a la aplicación de modelos matemáticos que
permitan cumplir con los objetivos planteados en la investigación.
De cualquier población de tamaño N, pueden extraerse cierto número de muestras
distintas de tamaño n. Haciendo esta afirmación bajo la hipótesis que N es lo
suficientemente grande como para garantizar el muestreo. Por razones obvias, las
poblaciones pequeñas no se muestrean, sino que se estudia la población
completa.
De esta forma el muestreo se puede resumir en la siguiente gráfica:
Forma de muestreo:
De esta forma, se definen las medidas de una población como parámetros y las de
una muestra como estimadores, teniendo para cada una y de acuerdo al tipo de
medida una simbología.
SÍMBOLOS DE PARÁMETROS ESTIMADORES
MEDIDA POBLACIÓN MUESTRA

(Parámetros) (Estimadores)
V. continua V. Binomial V. continua V. Binomial
TAMAÑO N N n N
PROMEDIO µ P X ó Y p
DESVIACIÓN σ σ s s
VARIANZA σ2 σ2 s 2 s2
Muestreo probabilístico.
Existen condiciones que deben cumplirse para poder hablar de una muestra
probabilística. Ellas son:
1. poder definir el conjunto total de muestras posibles que pueden seleccionarse

de una población de acuerdo con el procedimiento muestral.
2. Conocer para cada una de las muestras posibles la probabilidad de que sea
seleccionada (π(s)).
3. el procedimiento utilizado debe dar a cada elemento de la población una
probabilidad de selección diferente de 0.
4. la selección, debe ser aleatoria, esto es, el mecanismo de probabilidad
diseñado para la selección, de tal manera que cada multar posible tenga la
probabilidad de selección asignada previamente (π(s)).
Muestreo no probabilistico.
Una muestras probabilística es una muestra que es extraída de una población, de

tal manera que todo miembro de esta última tenga una probabilidad conocida de
estar dentro de la muestra.
En general todo muestreo que no cumpla con alguna de las condiciones

enumeradas anteriormente es un muestreo no probabilístico. Se cumpliría lo
siguiente:
1. La muestra se restringe a una parte de la población que es fácilmente

accesible.
2. La muestra es seleccionada teniendo en cuenta el azar, más no la aleatoriedad
(se seleccionan los elementos que estén más a la mano).
3. Con una población heterogénea y pequeña, el muestrista inspecciona la
población y selecciona una multar pequeña de unidades “tipo” (cercanas a la
impresión que pueda tener de la media general o a un criterio justificado por la
profesión).
4. La muestra se compone esencialmente de unidades voluntarias o impuestas.
Bajo condiciones apropiadas, cualquiera de los casos anteriores, pueden
presentar resultados útiles. Sin embargo, en ellos no se puede aplicar
estrictamente la teoría del muestreo ya que ella se basa en el supuesto de
selección aleatoria donde todas las unidades tienen una probabilidad de ser
seleccionadas.
Al muestrear poblaciones finitas hay tres maneras bien distintas de hacer la

selección:
1. Muestreo aleatorio. Puede introducirse en e procedimientote muestreo de varias

maneras que nos dan diversos diseños de muestra. Gracias a la aleatorización
pueden obtenerse estimaciones validas del error. Se puede aplicar la teoría de
probabilidades u se pueden sacar conclusiones válidas.
2. Muestreo sistemático. Se usa cuando cada uno de los individuos de una

población se incluye en la muestra, tal procedimiento es fácil pero insatisfactorio si
en la población se presentan tendencias o ciclos no reconocidos aun. Dado que
las poblaciones se deben enumerar antes del muestreo, pueden introducirse en
forma inconsistente ciertas relaciones entre una o más características investigadas
y orden de numeración. En general, no es seguro suponer que no existe tal
relación. El muestreo sistemático puede efectuarse en forma tal, que puede
obtenerse una estimación no sesgada de error de muestreo. Esto requiere de más
de una muestra sistemática.
3. Muestreo autoritario. Exige que una persona, bien familiarizada con el material
que va a muestrearse, extraiga la muestra sin tener en cuenta la aleatorización.
Tal procedimiento depende completamente del conocimiento y pericia de la
persona que hace el muestreo. Puede producir buenos resultados en algunos
casos, pero rara vez se recomienda.
Muestreo aleatorio simple.
Este esquema constituye la base de la mayoría de todos los muestreos los

muestreos. Si se estudia una población dividida en n unidades de muestreo
(árboles, parcelas, individuos, animales, etc.), el método consiste en tomar a l azar
n unidades de las n, de tal manera que cada combinación posible de las n
unidades tengan la misma probabilidad de ser escogida. Las unidades de
muestreo se extraen de forma independiente.
Una manera de seleccionar una muestra aleatoria simple es utilizar una tabla de
números aleatorios simples.
NÚMEROS ALEATORIOS SIMPLES.
Supóngase que la población de interés consta de N cantidad de valores. Se

desea extraer de esta población una muestra de tamaño 15, utilizando los
números aleatorios. Como primer paso, se debe localizar un punto de partida
aleatorio en la tabla. Esto puede hacerse de varias formas; una de las cuales es
quitar la vista de la página, mientras que se toca con la punta de un lápiz. El punto
de partida aleatorio es el dígito más próximo al punto donde el lápiz tocó la página.
Supóngase que, siguiendo este procedimiento, se llegó a un punto de partida
aleatorio en la intersección de renglón 15 con la columna 20. El dígito en este
punto es 3. Dado el número N de valores, sólo se puede elegir este número en
aleatorios (de 1 a N); en ocasiones es necesario elegir número de dos, tres o más
dígitos. Para el caso de tres dígitos se buscarían números de 0001 a N que no
sería mayor a 999. El primer valor aleatorio inicia en el punto de partida,
seleccionándose para la muestra los que correspondan de 001 a N, recorriendo la
columna hacia abajo. Cuando se termia la columna de selección y no se ha
completado el tamaño de la muestra, se puede continuar en la siguiente columna
de abajo hacia arriba o de arriba hacia abajo; hasta completar el n, en esta caso
15.
La varianza muestral de la media. Cuando el muestreo es con reemplazo o la

población muestreada es muy grande, la varianza de promedios o error estándar
está dad por:
s2
sx =
n
Si el muestreo es sin reemplazo es error estándar es:
s2  n
sx = 1 − 
n  N
 n
En donde el término 1 −  constituye un factor de corrección por finitud. Cuando
 N
N→α o la fracción n/N es menor que 0,05, se ignora el factor por finitud.
Cuando se estudian proporciones, la varianza de la media está dada por:
Pq  n
s 2p = 1 − 
n  N
Tamaño de la muestra. Para estimar el tamaño de la muestra es necesario

decidir que tan grande es el error que se está dispuesto a tolerar con el estimador,
de acuerdo a la precisión exigida por el investigador.
Considerando una población normal o aproximadamente normal:

X −µ
~N
sx
Si se desea cierta precisión en la estimación de µ, de tal modo que X − µ = E sea

el máximo error de muestreo permisible, entonces utilizando un nivel de
confiabilidad de 1-α, se plantea:
E E s 2 tα / 2
= tα / 2 ⇒ = tα / 2 por lo cual: n =
sx s E2
n
En donde n es el tamaño mínimo de la muestra requerido para garantizar la

precisión deseada bajo la confiabilidad de 1-α.
La ecuación anterior supone que la población finita; cuando se justifique utilizar el

factor de corrección por finitud se pude obtener un tamaño de muestra más
ajustado mediante la siguiente relación:
n0
n=
n
1+ 0
N
En donde n0 es la primera estimación de tamaño de muestra utilizando la

expresión anterior.
Cuando la población en estudio no se comporta de forma aproximada a la

distribución normal, se puede justificar el muestreo por el teorema central de límite
y de lamisca forma se puede analizar bajo cualquier modelo estadístico. Por otro
lado, teniendo en cuenta que para determinar el tamaño de la muestra, es
necesario contar con un valor de varianza de la población, que en la mayoría de
los casos no se tiene, éste se puede obtener a partir de la información de estudios
previos o con un muestreo preliminar.
Cuando no se cuenta con la disponibilidad e un valor de varianza (estimador), se

puede utilizar la fórmula de Freese, con la cual se puede aproximar al valor real.
2
R
s2 =  
4
Donde, R corresponde al rango (dato mayor – dato menor) de la distribución de

datos encontrados en una información previa.
Para obtener el tamaño adecuado de la muestra, el valor de E es fijado por el

investigador, lo mismo que el nivel de confianza 1-α. Pero para obtener el valor de
tα/2 se requiere contar con los grados de libertad (n-1), lo cual se conoce el valor
de n y esto no es posible. Para solucionar este impace, se sugiere utilizar el valor
de t aproximado y con base en este, se obtiene:
• Cuando 1-α = 0,95, el valor de aproximado es t ≈ 2 .

• Cuando 1-α = 0,99, el valor de aproximado es t ≈ 3 .
Ejemplo. Un Ingeniero Agrónomo se enfrenta a realizar un estudio de
productividad de tomate de árbol en un cultivo, por costo y facilidad en la toma de
datos, el Ingeniero necesita estimar una muestra confiable que le permita inferir
sobre la población. La variable de estudio corresponde a la cantidad de producción
(peso en Kg.) que puede tener cada uno de los árboles. Para ello estima un error
E de 0,5 kg. de producción por árbol y una confiabilidad de 1-α = 0,95. El
investigador ha realizado un estudio preliminar y ha determinando que la varianza
de producción de árboles de de 5,32.
Datos obtenidos.
E = 0,5
1 − α = 0,95
s 2 = 5,32
tα / 2 = 2
Y la ecuación de tamaño de muestras es:
s 2 (tα / 2 ) 2
n1 =
E2
5,32 2 (2) 2
n1 =
0,5 2
28,3024(4)
n1 =
0,25
113,2096
n1 =
0,25
n1 = 452,83 ≈ 453
Si se quiere, como ya se tiene un n para los grados de libertad (n-1), se puede

ajustar el valor de tα/2 con el valor real de la distribución teniendo en cuanta que
tα / 2 (4532) = 2,24
5,32 2 (2,24) 2
n=
0,5 2
28,3024(5,01)
n=
0,25
142 , 01
n =
0 , 25
n = 568,04 ≈ 568
De la aplicación de método se puede determinar que para la confiabilidad de 1-α

=0,95 y un error de 0,5 kg., el estudio necesita tomar una muestra de 568 árboles,
los cuales serían confiable para calcular estimadores e inferir sobre la población.
Si el número total de la población fuera de 10000 árboles, entonces se debe

corregir el valor de n con la ecuación para muestras de poblaciones finitas. En
este caso sería:
n0
n=
n
1+ 0
N
568
n=
568
1+
10000
n = 537,507 ≈ 538
De esta forma, para que la muestra sea confiable en una población de 10000
árboles, es necesario tomar una muestra de 538 árboles.
Otra expresión para estimar el tamaño del a muestra puede obtenerse cuando se
fija la precisión de P (probabilidad de éxito) deseada como un proporción de la
media y se utiliza el coeficiente de variación en lugar de la varianza.
E
P= ⇒ E = PX
X
s
CV = ⇒ s = CVX
X
Sustituyendo estos valores en la fórmula para el tamaño de la muestra se tiene:
s 2 t 2 (CV ) X 2 t 2 (CV ) t 2
2 2
n= = =
E2 p2 X 2 p2
Ejemplo. Si se tiene una población de cerdos en una región, donde se pretende

estudiar la ganancia diaria de peso en esta producción y hacer un estudio de
competitividad, la cual para dicha variable (ganancia de peso) tiene un coeficiente
de varianza estimado en 42,5% y se desea una precisión de P=0,2. Estimar el
tamaño de la muestra necesaria para dar confiabilidad al estudio de 0,95.
Se tiene que:
CV = 42,5%
P = 0,2
T0,05/2 = 2
Entonces:
n=
(CV )2 t 2
p2
n=
(0,425)2 2 2
0,2 2
n=
(0,1806 )4
0,04
0,7225
n=
0,04
n = 18,06 ≈ 19
Si la población de cerdos en la región de estudio es de 30000, el ajuste por finitud

corresponde a:
n0
n=
n
1+ 0
N
18,06
n=
18,06
1+
30000
n = 18,05 ≈ 19
Si la variable corresponde a una variable binomial, la estimación del tamaño de la

muestra de una población por proporciones corresponde a:
Z α2 / 2 pˆ qˆ
n=
E2
En donde p̂ y q̂ son estimadores obtenidos en muestras preliminares y E es la

precisión o máximo alejamiento deseado entre la proporción estimada en la
muestra y la verdadera proporción de la población.
CAPITULO 3: Inferencia estadística

Lección 11: Inferencia puntual
El objeto de la inferencia estadística es la de recoger información mediante la

realización de una muestra, con el fin de utilizarla en el cálculo de estimaciones y
así obtener conclusiones respecto los valores estadísticos de la población; en
otras palabras, es poder afirmar acerca de una población basándose en la
información contenida en una muestra.
La inferencia puede ser de dos tipos: pruebas de hipótesis sobre los parámetros y
estimaciones sobre el valor de los mismos. La clase de inferencia depende de los
objetivos que tenga el investigador con respecto a las poblaciones de estudio.
Partiendo de esto, en inferencia se pueden considerar dos formas de estimación:
puntual y por intervalos. La estimación puntual utiliza la información contenida en
la muestra para llegar a un solo número o punto que estima el parámetro de
interés. La estimación por intervalo determina el rango en el que se encuentra el
parámetro con cierta probabilidad.
Simbología que se utilizará
MEDIDAS POBLACIÓN MUESTRA

Parámetros Estimadores
Media Aritmética µ X
Varianza σ2 s2
Desviación Típica Σ s
Tamaño N n
Inferencia por estimación puntual.

La estimación puntual se realiza con base en el valor de un estimador obtenido a
partir de una muestra. El estimador es estadístico, o sea una función de las
observaciones que se espera refleje las características del parámetro
desconocido. Por ejemplo, la media aritmética X es un estimado de µ el
parámetro de la población.
Es posible proponer varios estimadores para u parámetro dado y además, como

variable aleatoria, los estimadores tienen distribuciones de probabilidades; por lo
cual el estimado de un parámetro puede estar muy cerca o muy lejos del valor
verdadero. Por esto es importante seleccionar un estimador que esté cerca del
valor verdadero del parámetro. Para hacer una buena selección de un estimador,
se deben seguir por lo menos dos criterios.
a. Insesgamiento. Sea a. el estimador del parámetro A; se dice que a es un

estimador insesgado de A si la esperanza matemática de la variable aleatoria a es
igual a A. Esto es:
E (a) = A
De lo contrario, se dice que el estimador es segado y está dado por:
Sesgo de a = E (a-A).
Cuando se manejan muestras muy grandes, los estimadores generalmente no son

insesgados y en el caso de presentarse un grado de sesgo, este es muy pequeño;
es decir, es más confiable trabajar con muestras grandes. El concepto de sesgo
no es el único, ni el más importante para poder hacer estimación puntual, para
esto se debe tener en cuenta también:
b. Eficiencia. Con este criterio se pretende estimar el grado de explicación que

cubre un estimador sobre una población. En muchas ocasiones cuando se tiene
dos estimadores y por lo general uno es más eficiente que el otro.
La varianza del estimador nos indica el grado de dispersión de los diferentes

valores que pueden tomar alrededor del parámetro. Es por esto que la varianza es
un indicador de la eficiencia, deduciendo que entre menor sea la varianza, mayor
es la eficiencia que se tiene con el estimador. Este es quizá el mejor indicador
para iniciar una estimación puntual.
Estimación puntual del promedio.

Como se ha visto hasta el momento, el promedio es la medida más susceptible de
trabajar para representar un grupo de datos sin importar si son de una población o
de una muestra. Por eso la estimación puntual se hace para el promedio pero no
para la varianza.
Si se tiene una población de tamaño N y de esta se toma una primera muestra de

tamaño n1, se obtendría un promedio X 1 , si se tomara una muestra de tamaño n2
(que no puede ser del mismo tamaño de n1), se obtendría un promedio X 2 y así
sucesivamente hasta tener Xn promedios; el promedio de todos estos promedios
sería la estimación del parámetro de la población µ. En pocas palabras, el
promedio de los promedios es una representación puntual del parámetro.
Esquemáticamente sería:
N
⇓
n1 ⇒ X 1
n2 ⇒ X 2
n3 ⇒ X 3
.
.
.
nn ⇒ X n
∑X
Xn
N⇒ µ
Ejemplo. Si se tiene una población de 200 terneros de los cuales se requiere

estimar el promedio de peso al nacimiento, por facilidad de trabajo se toman
muestras que se promedian para luego calcular una estimación puntual del
parámetro.
De acuerdo a las muestras, los promedios obtenidos fueron:
DATOS OBTENIDOS.
Muestra Promedio (Kg/animal)

Muestra 1 (n=10) 44
Muestra 2 (n=15) 40
Muestra 3 (n=10) 42
Muestra 4 (n=20) 44
Muestra 5 (n=12) 43
Promedio de promedios 42,6
Esto quiere decir que el promedio para la población es de 42,6 kilos/animal al
nacimiento. Se debe aclarar que para validar como apropiados los promedios
muéstrales y poder sacar un promedio poblacional, se debe tener en cuenta la
variabilidad de cada uno de estos ya sea con la desviación estándar o con la
varianza.
Estimación puntual para varianza.
Lo contrario a lo que sucede con la media aritmética, la varianza no se puede

calcular por promedio del resultado de algunas muestras. Para comprobar esta
teoría, se presenta el siguiente ejemplo. Si se tienen 4 elementos en un espacio
muestral (a, b, c, d) de los cuales se quieren sacar muestras de a 2 elementos.
Todas las muestras posibles de tamaño 2 sin importar el orden, corresponde a:
Muestras posibles = [ ] = 2!4×!2! = 122 = 6

4
2
Las 6 muestras serían:
a,b a,c a,d b,c b,d c,d
Si de cada una de estas muestras, en el caso de ser numéricas, se calculará la

varianza, el promedio de estas varianzas no es representativo para la población, o
sea que no se puede hacer inferencia con este para decidir sobre la población. Es
por esto que si se trata de una muestra, y para que esta sirva para inferir en la
población, se ajusta la fórmula tradicional con n-1 en el dividendo.
s 2
=
∑xi
2
−X
n −1
Inferencia por estimación de intervalos.
La inferencia estadística está basada en el supuesto de tomar muchas muestras,

todas con igual probabilidad de ser seleccionadas y a través de una de ellas
calcular datos que representen la población para poder tomar decisiones,
interpretar o analizar según el comportamiento de la variable. No se quiere decir
con esto, que siempre se obtengan los resultados esperados o los que mejor
representen a la población, ya que desde el punto de vista teórico y práctico, esto
también depende de una distribución de probabilidades.
Cualquier inferencia que se haga sobre una población siempre tiene un error, de lo
contrario, la varianza del dato que se obtiene debería ser 0 lo cual nunca sucede.
Por tal razón, y para asegurar la validez del estimador sobre el parámetro, en
muchas ocasiones si no son todas, es preciso hacer inferencia por intervalos, en
los cuales se calculen un límite superior y un límite inferior que enmarcan el
parámetro esperado que representa la población. Sin embargo, esto límites
siempre siguen guardando un error sin importar si son para promedio, varianza o
proporciones.
Para hacer más preciso el cálculo de intervalos para medias aritméticas y

proporciones, se han propuesto dos distribuciones de probabilidades que son
útiles para tal fin. En el caso de tener muestras grandes (n > 30) se dispone de la
distribución normal o Gaussiana, mientras que para muestras pequeñas (n ≤ 30) se
cuenta con la distribución t-student; la cual no se ha tratado hasta el momento y
que se explicará cuando corresponda. En el caso de hacer inferencia para
varianza, se utiliza la distribución F (de Fisher) o ji-cuadrado.
Estimación de intervalos para grandes muestras.
A pesar de que la X y la s2 son estimadores de µ y σ2, sería sorprendente que

fueran realmente µ y σ2 en cambio de encontrarse la aproximación de éstos. Esto
permite deducir que puede ser más apropiado dar un intervalo en torno a la X y la
s2 y decir que se está razonablemente confiado en que µ y σ2, se encuentran en
ese intervalo. Esto puede hacerse con la ayuda de la distribución normal para
cuando se tienen muestras grandes (n > 30). Además del tamaño de la muestra,
en otro criterio para inclinarse por el uso de la distribución norma, es cuando se
conoce la varianza de la muestra.
Se usa distribución Z (normal o Gaussiana) cuando:
1. La varianza de la muestra (σ2) se conoce.

2. La varianza de la muestra se desconoce, pero n >30
Se usa distribución t cuando:
1. La varianza de la muestra se desconoce (σ2)

2. El tamaño de la muestra es menor a 30 (n ≤ 30)
Los intervalos, en la estadística se denominan intervalos de confianza. Este
concepto permite que el investigador asocie el valor de una probabilidad con el
intervalo aleatorio de tal modo que la probabilidad de que un intervalo de
confianza incluya el parámetro sea relativamente alta; este valor se conoce como
coeficiente de confianza.
Si se tiene la muestra aleatoria procedente de una población con parámetro A,

entonces un intervalo de confianza (L1 y L2) para dicho parámetro es:
P (L1 ≤ A L2 ) = 1 - α
Donde:
L1 y L2 Se conocen como límites del intervalo y son estadísticos obtenidos

de la muestra aleatoria.
1-α Es el coeficiente de confianza.
α Es el error que se permite como probabilidad de que el valor del

parámetro no esté entre el intervalo hallado.
El intervalo debe interpretarse como la probabilidad de que se contenga al

parámetro en 1-α y no “la probabilidad de que el parámetro caiga en el intervalo”
porque A es un número fijo. Se puede considerar que si se toman muestras
repetidas de la misma población y se obtienen los intervalos de confianza
respectivos para el parámetro A entonces se espera que (1 – α) por ciento de
estos intervalos incluirán a A.
Intervalo de confianza para la media.
Considerando una población normal en donde se ha tomado una muestra grande

para estimar los parámetros, los límites de confianza para el coeficiente de
confianza 1-α, tendría como base la distribución normal.
X −µ
Z= ~ N(0,1)
σX
Si se indica como zα/2 el valor de la tabla Z tal que el área de la derecha zα/2 es
igual a α/2, entonces P(Z< -zα/2) = α/2 por la simetría de la curva.
P (-zα/2< Z < zα/2) = 1-α
Gráfica . Intervalo de confianza a dos colas
De acuerdo con lo anterior:
P (-zα/2< Z < zα/2) = 1-α
P ( σ X x zα/2 < X -µ < σ X zα/2) = 1-α
P ( X - σ X ) x zα/2 < -µ < ( X + σ X ) x zα/2) = 1-α
P (L1< µ < L2) = 1-α
En donde:
σ
L1 = X − σ X z α / 2 = X − × zα / 2
n
σ
L2 = X + σ X z α / 2 = X + × zα / 2
n
Con las ecuaciones L1 y L2 se han obtienido los intervalos con una confianza de 1-
α para el parámetroµ. Los estadísticos L1 y L2 se denominan intervalos de
confianza inferior y superior.
Ejemplo. En un cultivo de sorgo (Sorgum bicolor) se quiere promediar la altura

alcanzada por las plantas cuando el fruto se encuentra en estado de leche. Del
cultivo, se ha tomado una muestra aleatoria de 250 plantas de la cuales se tiene
que el promedio de altura en centímetros fue de 135, con un desviación estándar
de 15 centímetros. Como el tamaño de la muestra se pude catalogar como
grande, se usa la distribución Z para calcular los intervalos de confianza e inferir
entre cuanto está el promedio de altura de todo el cultivo con una confiabilidad del
95%, es decir 1-α =. 1-0.95= 0.05.
σ
L1 = X − × zα / 2
n
σ
L2 = X + × zα / 2
n
Como es claro que la confiabilidad es del 95% y el error del 5%, para cumplir con
el α/2, el error se debe dividir en dos colas, lo que quiere decir que el error en
cada punta o cola de la gráfica de la distribución estándar es de 0,025 o lo mismos
que 2,5%.
X = 135
σ = 15
α = 0.05/2 =0.025
1-α = 0,95
n = 250
σ 15
L1 = X − × zα / 2 L1 = 135 − × 1,96
n 250 L1 = 133,14
σ 15 L2 = 136,85
L2 = X + × zα / 2 L2 = 135 + × 1,96
n 250
Con este resultado, se estima que la altura promedio de todo el cultivo de sorgo
está entre 133,4 y 136,85 centímetros, con un coeficiente de confianza de 0.95.
Este coeficiente de confianza explica que al repetirse el muestreo se espera que el
95% de los intervalos obtenidos en esta forma contengan a µ.
De esta forma se pude resumir que la ecuación para hallar límites de confianza
cuando se tienen muestras grandes corresponde a:
σ
LC = X ± × zα / 2
n
Se debe notar que uno de los principales factores que afecta la amplitud de los
límites es la variabilidad de los datos expresada en la desviación estándar, la cual,
entre mayor sea la desviación para un conjunto de datos, mayor es la amplitud de

los límites. Otro factor que influye en la amplitud de los límites es la confiabilidad
con la que se quiera trabajar; es decir, si 1-α es la confiabilidad para zα/2 a
medida que esta aumente mayor es la amplitud.
Por ejemplo. Si se quiere tener una confiabilidad del 95% (0,95) donde 1-α
corresponde al 5% (0,05) y zα/2 sería 2,5% (0,025) no es lo mismo que si exige
una confiabilidad del 99% (0.99) donde 1-α corresponde al 1% (0,01) y zα/2 sería
0,005% (0,005). En el primer caso se deja un mayor espacio o para el error que en
el segundo y por eso, en el segundo, por ser más preciso implica que el intervalo
sea más amplio.
Es posible que aún se tenga duda sobre el valor de zα/2 utilizado para calcular los
límites de confianza. Este valor se toma como una constante calculada con la
distribución Z, y los cuales se expresan en la siguiente tabla.
VALORES DE ERROR Y CONFIABILIDAD
Coeficiente de Error
Confianza α
(1-α) a una cola a dos colas zα/2
Porcentaj Probabilida Porcentaj Probabilida Porcentaj Probabilida
e d e d e d
90 0,90 10 0,10 5 0,05 1,6
4
95 0,95 5 0,05 2,5 0,025 1,9
6
99 0,99 1 0,01 0,5 0,005 2,5
8
Para aclarar de donde salen los valores de zα/2; se estima que en la distribución
normal, para que se incluyan el 90% de los datos de una muestra o población, se
le debe restar o sumar 1,64 desviaciones estándar y crear un intervalo. Si el
requerimiento es tener el 95% de los datos, al promedio se le debe sumar y restar
1,96 desviaciones estándar y si se quiere tener el 99% de los datos dentro de un
intervalo, se debe sumar y restar 2,58 desviaciones estándar.
De forma resumida, para obtener intervalos estrechos o cortos se deben cumplir

uno más de las siguientes condiciones.
1. Si aumenta el tamaño de la muestras n el valor del X debería estar más

cercano al parámetroµ, por lo cual es de esperar un intervalo más estrecho.
2. En poblaciones más uniformes (con menor varianza) los intervalos de
confianza son más cortos, lo que hace que la estimación de la media
poblacional sea más precisa.
3. La elección del valor 1-α depende del grado de confiabilidad que desee el
investigador en su estimación. Por fines prácticos, en la mayoría de los
casos se estiman con 0.95; lo cual no indica que no es posible aplicar otro
valor. Esto implica que entre menos confiabilidad se desee, más estrecho
es el intervalo.
Es posible que se tengan muestras, las cuales no se comportan de forma
aproximada a la distribución normal, sin embargo, si son muestras grandes, se
puede aplicar el teorema central de límite y desarrollar la metodología propuesta
Intervalos de confianza para varianza.
Como se ha venido trabajando y demostrando, la varianza es una medida

importante para el cálculo de otros valores y como no tiene interpretación ni
unidades reales, se puede transformar en desviación estándar y así determinar la
variabilidad de un conjunto de datos. Por esta razón, es importante en muchas
ocasiones encontrar límites de confianza para la varianza y así poder inferir desde
una muestra en una población. Tal es el caso de las empresas productoras de
farmacéuticos, vacunas, alimentos, y muchos otros, que deben garantizar baja
variabilidad del resultado obtenido por usar el producto. Para esto, se hacen las
pruebas en una muestra y luego se infiere sobre el total de la población que usaría
el producto. En el caso de procedimientos de mejoramiento genético, son
importantes ya que a pesar de la influencia de muchos factores incluidos lo
ambientales, los resultados a obtener en una población dependen de la
variabilidad de los ensayos con las muestras.
En la parte inicial de este modulo se estudiaba que la varianza de una población y

de una muestra cambiaban en su notación para hacer el cálculo y que
correspondía a:
∑(X
2
i − X)
Para una muestra s 2
=
n −1
∑(X
2
− X)
Para una población σ
i
2
=
n
En donde n es el tamaño de la muestra y s2 es el valor de un estimador insesgado

de la varianza poblacional (parámetros) σ2.
Si se extraen muestras de tamaño n de una población con distribución normal,

esta cantidad tiene un distribución conocida como distribución ji-cuadrada con n-1
grados de libertad, la cual sigue la cantidad (n-1)s2/σ2 y es útil para encontrar
intervalos de confianza para σ2 cuando se cumple la hipótesis de que la población
tiene una distribución aproximadamente normal.
Es claro que para la obtención de un intervalo de confianza para σ2 se utiliza la

distribución ji cuadrado o chi-cuadrado (χ2), la cual se es necesaria de describir
por lo menos en forma breve.
Distribución chi cuadrado.
La distribución χ2 puede deducirse a partir de la distribución normal. Supóngase

que a partir de una variable aleatoria Y distribuida normalmente con media µ y
varianza σ2 se seleccionan aleatoria e independientemente muestras de tamaño n
= 1. Cada valor seleccionado pude transformase en la variable normal unitaria z a
través de la fórmula ya conocida:
x−µ
z=
σ
Cada valor de z puede elevarse al cuadrado para obtener z2. Cuando se estudia la
distribución muestral de z2, se encuentra que sigue una distribución χ2 con un
grado de libertad. Es decir:
2
x−µ
χ 2
=  =z
2
 σ 
(1)
Si se seleccionaran aleatoria e independientemente muestras de tamaño n = 2 de

la población de valores Y con distribución normal. Dentro de cada muestra, puede
transformarse cada valor x en una variable normal unitaria z y elevarla al cuadrado
como antes. De esta forma quedaría:
2 2
 x1 − µ   x 2 − µ 
χ (22 ) =   +  = z1 + z 2
2 2
 σ   σ 
Puede repetirse el procedimiento para cualquier tamaño de n de muestras. En

cada caso, la suma de los valores z2 resultantes se distribuirá como una
distribución χ2, con n grados de libertad, para obtener en general:
1 1
f (u ) = × u ( k / 2) −1 × e − (u / 2)
k  2 k/2
 − 1 !
2 
Donde e es el número irracional 2,71828, k es el número de grados de libertad. La

variable u se designa por la letra griega ji (χ) y en consecuencia la distribución se
conoce como distribución χ2. Para evitar complicaciones con su cálculo, esta
distribución se ha tabulado.
PERCENTILES DE LA DISTRIBUCIÓN JI-CUADRADO
La media y la varianza de la distribución χ2 son, respectivamente k y 2k. el valor

modal de esta distribución es k – 2 para valores de k mayores o iguales a 2 y es
de 0 para k = 1. La forma de la distribución para varios valores de k corresponde
a:
Gráfica Distribución ji-cuadrado para varios valores de grados de libertad k.

En esta gráfica se observa que las formas para k = 1 y k = 2 son bastante distintas
a la forma cuando k>2. También se observa que la distribución toma valores
desde cero hasta el infinito. No puede tomar valores negativos ya que es la suma
de los valores de z elevados al cuadrado.
INTERVALOS DE CONFIANZA si se ha obtenido una muestra aleatoria de

tamaño n a partir de una población normal, es posible determinar que:
(n − 1) s 2
~ χ 2 ( n −1)
σ
Teniendo en cuenta esta propiedad, es posible derivar un intervalo de confianza

para la varianza de la población. Utilizando la tabla χ2(n-1) se encuentran valores
χ 2 y χ 22 tales que:
1
p ( χ 12 ≤ χ 2 ≤ χ 22 ) = 1 − α
Los valores χ 12 y χ 22 corresponde en la tabla a:
χ2 = χ2
1 α
(1 − )( n −1)
2
χ 22 = χ 2 (
α
)( n −1)
2
Por lo cual
 (n − 1) s 2 
p χ 12 ≤ ≤ χ 22  = 1 − α
 σ 2

 (n − 1) s 2 (n − 1) s 2 
p ≤ σ 2
≤  = 1 − α
 χ2 χ 12
2

De donde:
(n − 1) s 2
L1 =
χ 22
(n − 1) s 2
L2 =
χ 12
Ejemplo. (Adaptado de Gómez, 2007). Se desea evaluar un método para la

determinación de aflatoxinas en cereales almacenados. Para ello se efectuó una
contaminación previa de 100 ppm (partes por millón) en una porción de material.
Después de homogeneizar la sustancia se obtienen 10 determinaciones, cuyos
valores en partes por millón fueron: 104, 96, 102, 99, 103, 100, 98, 103, 97, 102.
Se desea obtener el intervalo de confianza para la varianza la 90% de
confiabilidad.
Se podría desarrollar por pasos.
1. Calcular el valor de varianza (s2) y determinar el n.

n = 10 s2 = 7,82
2. Determinar la confiabilidad deseada (1-α) y el error (α).

1-α = 0,90 α = 0,10
3. Encontrar en la tabla χ2 los valores de χ 12 y χ 22 .
χ2 = χ2
1
( 1−
α
)( n −1) χ 2 = χ 2 0,95( 9) χ 2 = 3,32
2 1 1
χ 22 = χ 2 (
α
)( n −1)
χ 22 = χ 2 0,05(9 ) χ 22 = 16,92
2
Para encontrar los valores de la tabla, se debe buscar dependiendo si es

χ 12 ó χ 22 . Para el caso del primero se busca en la parte superior el valor de
1-α/2 y en la primera columna los grados de libertad (n-1). Para el caso del
segundo valor de la distribución, se busca en la parte superior el α/2 y en la
primera columna los grados de libertad (n-1). En algunos textos, se
simbolizan los grados de libertad como v.
4. Calcular los límites de confianza para el parámetro σ2.

(n − 1) s 2 9 × 7,82
L1 = L1 = = 4,15
χ 2
2 16,92
(n − 1) s 2 9 × 7,82
L2 = L2 = = 21,20
χ 12 3,32
5. Con los cálculos, se ha estimado que al 90% de confiabilidad la varianza

del método para estimar aflatoxinas en cereales almacenados (σ2) se
encuentra entre los valores de (4,15 y 21,20). En algunos casos,
recordando el paso de varianza a desviación (sacar raíz cuadrada), se
puede dar el resultado en desviaciones. De esta forma quedaría: con un
90% de confiabilidad, el método para determinar aflatoxinas, siempre y
cuando se aplique bajo las mismas condiciones tiene una desviación
estándar de entre 2.04 y 4.6 ppm.
Lección 12: Pruebas de hipótesis
Desde cuando se inició la inferencia estadística se planteó que la otra forma de

hacerla, es por medio de las pruebas de hipótesis. La inferencia está basada en el
supuesto de tomar muchas muestras, todas con igual probabilidad de ser
seleccionadas y a través de una de ellas determinar aproximaciones de los
parámetros de la población, permitiendo hacer aseveraciones, estableciendo un
error, incluso en algunos casos incorrectos. En esta parte del módulo se prenderá
a identificar, si el valor del estimador obtenido en la muestra es representativo del
parámetro o valor estadístico poblacional de la cual se extrajo.
La prueba de hipótesis denominada también prueba de significancia, tiene como

objeto principal evaluar suposiciones o afirmaciones acerca de los valores
estadísticos de la población, denominados parámetros.
Estas suposiciones se llaman hipótesis estadísticas, las cuales son supuestos

acerca de un parámetro o de algún valor estadístico de una población. Esto quiere
decir que no todas las hipótesis son estadísticas. Se debe tomar un parámetro
como referencia, ya sea una media, una proporción, una varianza, etc.
La hipótesis estadística, también puede considerarse, como la afirmación acerca

de una característica ideal de una población sobre la cual hay inseguridad en el
momento de formularla y que, a la vez, es expresada de forma que puede ser
rechazada.
De esta forma, se puede aclarar que los investigadores tratan con dos tipos de
hipótesis: la hipótesis de investigación y la hipótesis estadística. La hipótesis de
investigación es la conjetura o suposición que motiva la investigación. Puede ser
el resultado de años de observación por parte del investigador. Un Médico
Veterinario por ejemplo, puede haber notado que ciertos equinos respondieron
más rápidamente a un tratamiento para cólico. Los proyectos de investigación
suelen resultar del deseo de los profesionales para determinar si sus teorías o sus
sospechas pueden ser apoyadas o no cuando se someten a los rigores de la
investigación científica.
Las hipótesis de investigación conducen directamente a hipótesis estadísticas. Las

hipótesis estadísticas se establecen de tal forma que pueden ser evaluadas a
través de técnicas estadísticas apropiadas. En este módulo las hipótesis que se
estudiarán serán de este tipo.
Es importante, sin decir que es camisa de fuerza, tener en cuenta algunos pasos o
aspectos para poder aplicar pruebas de hipótesis estadísticas.
1. Datos. Debe comprenderse la naturaleza de los datos que forman la base

de los procedimientos de prueba, ya que estos determinan la particularidad
que debe utilizarse.
2. Suposiciones. Un procedimiento general se modifica, dependiendo las
suposiciones. Se ha visto que éstas incluyen, entre otras, suposiciones de
la normalidad de la distribución de la población, igualdad de varianzas e
independencia de las muestras.
3. Hipótesis. En la prueba de hipótesis se trabaja con dos supuestos o
hipótesis estadísticas que deben enunciarse explícitamente. La primera es
la hipótesis que debe probarse, por lo común conocida como hipótesis
nula y que se designa con el símbolo Ho. Esta hipótesis se conoce por
algunos autores como hipótesis de no diferencia, ya que es una proposición
de conformidad con (o no diferencia respecto de) condiciones verdaderas
en la población de interés. En general, la hipótesis nula se establece con el
propósito expreso de ser rechazada. En consecuencia, el complemento de
la conclusión que el investigador desea alcanzar se convierte en el
enunciado de la hipótesis nula. En el proceso de la prueba, la hipótesis nula
se rechaza, o bien, no se rechaza. Si la hipótesis nula no se rechaza, se
dirá que los datos sobre los cuales se basa la prueba no proporcionan
evidencia suficiente que provoque el rechazo. Si el procedimiento del
aprueba conduce al rechazo, se concluye que los datos disponibles no son
compatibles con la hipótesis nula, pero son apoyo de alguna otra hipótesis.
Esta otra hipótesis se conoce como hipótesis alternativa y puede
designarse con el símbolo Ha.
Debe señalarse que, en general, la prueba de hipótesis o la inferencia,

simplemente indican si esta es apoyada o no por los datos disponibles. Por lo
tanto cuando no es posible rechazar esta hipótesis nula, no se dice que es
verdadera, si no que puede ser verdadera.
4. Estadística de prueba. Es alguna estadística que puede calcularse a partir

de los datos de la muestra. Como regla, existen muchos valores posibles
que pueden tener la estadística de prueba, dependiendo del valor particular
observado de la muestra particular extraída. La estadística de prueba sirve
como un producto de decisión de rechazar o no la hipótesis nula. En forma
general, se puede representar bajo una fórmula que resume cualquier tipo
de estadística para aplicar en pruebas de hipótesis.
estadística relevante − parámetro sup uesto
estadística de prueba =
error estándar de la estadística relevante
Un ejemplo de ésta puede ser:
X −µ
z=
σ
n
Donde: X Es la estadística relevante.
µ Es el supuesto
σ
Es el error estándar de la X
n
5. Distribución de la estadística de prueba. La clave de la inferencia

estadística es la distribución muestral. Esto hace necesario que se
especifique cuál es la distribución de probabilidad que se usará para
satisfacer las suposiciones. (distribución N, t, χ2, etc).
6. Regla de decisión. Todos los valores posibles de la estadística de prueba
puede tener puntos sobre el eje horizontal de la gráfica de la distribución y
se dividen en dos grupos; uno de los grupos constituye lo que se conoce
como región de rechazo y el otro grupo forma la región de aceptación.
Gráfica Regiones de aceptación y de rechazo.
La regla de decisión señala que se rechaza Ho si el valor calculado de la

estadística de prueba cae en la región de rechazo y se acepta Ho si cae en
la región de aceptación. Esta regla establece que se calcule un valor de
estadística de prueba a partir de los datos de la muestra y que se rechace
Ho si se obtiene un valor igual o mayor 1,96 o, igual o menor a -1,96.
Entonces se aceptaría Ho, si se obtiene cualquier otro valor.
El valor del error (α) y en consecuencia, la regla de decisión, debe

establecerse antes de reunir los datos. Esto evita que los resultados de la
muestra influyan sobre la decisión que se va a tomar. Esta condición, por su
importancia e ingerencia, debe conservarse en todas las pruebas.
Otra forma de tener una regla de decisión, sin importar el estadístico de

prueba, es bajo los siguientes preceptos:
• Si el valor calculado es menor que el valor de la tabla, se acepta Ho.

• Si el Valor calculado es mayor que el valor de la tabla, se rechaza
Ho.
7. Conclusión. Se concluye dependiendo de la hipótesis aceptada. Es preciso
concluir si el estimador es igual al parámetro o no en el caso de rechazar
Ho. La conclusión debe tener coherencia con criterios, conceptos, teorías,
postulados, leyes, etc. que expliquen la respuesta; para esto se deben tener
en cuenta argumentos que se presentarán en el análisis de resultados y
recomendaciones extraídas de cualquier trabajo de investigación.
8. Análisis. Una vez aplicada alguna de las formas de tomar la decisión, ésta
se debe ser analizada bajo los conceptos teóricos o prácticos que existan y
que puedan fortalecer la hipótesis que se ha aceptado. Es de gran
importancia, para el profesional cumplir con este punto, ya que le permite
conocer de forma conceptual o práctica el resultado de la investigación que
se esté realizando y es así como se puede justificar la inferencia

estadística.
9. Conclusiones. Todos los puntos planteados hasta el momento deben llevar
a que el investigador esté en capacidad de organizar una conclusión,
basándose especialmente en la hipótesis que acepta y en el análisis que se
haya hecho.
Prueba de hipótesis para la media de una población.

Se desea estudiar la hipótesis de que la media de la población es igual a un valor
dado (µ0) frente a una alternativa conveniente. Para esto, como se ha venido
estudiando, se plantean dos hipótesis:
Ho: µ = µ0
HA: µ ≠ µ0 (prueba a dos colas)
o bien: Ho: µ = µ0
HA: µ > µ0 (prueba a una cola)
HA: µ < µ0
Debe notarse que, cuando la hipótesis alternativa se plantea como un

desconocido para el parámetro (µ), el cual tiene como resultado un dato mayor y/o
menor que el estimador (µ0) y se simboliza con diferente a (≠); en este caso, la
distribución se trabaja a dos colas (bilateral). En el caso contrario, cuando se
tiene un punto de referencia para decir en la hipótesis alternativa que, el
parámetro es mayor que (>) el estimador o que el parámetro es menor que (<) el
estimador, se trabaja la distribución a una cola (unilateral).
Ejemplo. Si se sabe que en unas condiciones específicas, el cultivo de maíz para

ensilar da un rendimiento de 20 toneladas por hectárea y se pretende probar la
hipótesis alterna de obtener un resultado diferente con el aumento de la densidad
de plantas sembradas; El resultado obtenido no se estima si es mayor o menor a
las 20 toneladas que ya se sabe normalmente se obtiene, por tanto la hipótesis se
indica con el símbolo ≠. Si el estudio consistiera en manejar el cultivo bajo las
mismas condiciones pero agregándole un fertilizante foliar, se sabe por efecto del
proceso fisiológico que se obtendría un mayor rendimiento, por lo tanto la hipótesis
a probar sería que la nueva producción es mayor que la tradicional y se simboliza
con (>)
Una vez definido el nivel de significancia α, la metodología para adelantar la

prueba consiste en obtener la muestra, calcular el estadístico de prueba y verificar
si este se ubica dentro de la región de rechazo o aceptación, la cual definirá a
aceptar o rechazar la H0. Los estadísticos usuales son:
X − µ0
t= Para muestras pequeñas,
SX
X − µ0
z= Para muestras grandes o con σ conocida.
σX
PRUEBA DE UNA COLA. También llamada prueba unilateral, es aquella en la

cual la zona de rechazo o zona crítica está completamente comprendida en uno
de los dos extremos de la distribución. La prueba es unilateral a la derecha (de la
curva); cuando la hipótesis alternativa de los que se quiere probar, hace mención
a que el parámetro es mayor que (>) el estimador. Si por lo contrario la hipótesis
alternativa se refiere a que el parámetro es menor que el estimador,
corresponderá a una prueba unilateral izquierda.
Prueba unilateral a la derecha: Ho: µ = µ0
HA: µ > µ0
Prueba unilateral a la izquierda: Ho: µ = µ0
HA: µ < µ0
El estadístico a utilizar depende de la cantidad de datos que se tengan, tal como

se determinó para los límites de confianza o como se explicó anteriormente;
dependiendo del tamaño de la muestra o del conocimiento de la varianza. En este
caso se puede definir entre la distribución t-student o la distribución normal (Z).
Para hacer la demostración se hará con la distribución t-student por dos razones:
a. El tamaño de la muestra es pequeña.

b. No se tiene una varianza conocida y se debe hallar de los valores
obtenidos.
X − µ
t = 0
SX
El valor de t en las tablas que define la zona de aceptación o rechazo es tα, de

este modo la región de rechazo es:
{
R = t / t ≥ tα (n −1) }
Si t ∈ R entonces se rechaza Ho
Si t ∈ R entonces se acepta Ho
Ejemplo. El contenido de proteína cruda (PC) del pasto estrella morado (Cynodon
nlefluencis) es de 8% en prefloración. Por procesos de fertilización en el suelo de
acuerdo los requerimientos se supone que aumenta el nivel de proteína
comparado con el cultivo tradicional. Se toman aleatoriamente 15 muestras y se
determina el contenido de PC para cada una. De los valores encontrados se tiene
que el promedio nuevo de proteína es de 12%, con una varianza de 48.
X = 12%
s 2 = 48
Se desea saber si el contenido de proteína cruda (PC) sí ha cambiado o no; por

tanto las hipótesis a plantear son:
Ho: µ = µ0
HA: µ > µ0
Se puede notar que se usa la prueba unilateral a la derecha por que se pretende
probar si el nuevo valor promedio encontrado de proteína cruda (PC) es mayor
que el obtenido bajo condiciones normales o no.
Para calcular el valor estadístico t, primero se debe obtener el valor de error

estándar de la media sx .
s2 48
sx = = = 1,78
n 15
X − µ 0 12 − 8
tc = = = 2.24
SX 1.78
Si se toma un error de experimentación al 5% (α=0,05), se tiene el valor en la

tabla t con (n-1 grado de libertad) es de 1,7613
t 0.05(14 gl ) = 1.7613
Es importante tener en cuenta que en la tabla se busca a una sola cola (unilateral);
para el ejemplo del 0.05 como α, se busca al 95% de confiabilidad.
Para facilitar la interpretación de la parte superior de la tabla t se puede tener en

cuenta el siguiente cuadro.
FORMAS DE SIMBOLIZAR LAS COLUMNAS EN LA TABLA T.
Formas de simbolizar las columnas en la tabla t

Una cola (Unilateral) Dos colas (Bilateral)
Confia P** P**
b* % P** % % % P**
err error Confiabili confiabili err error confiabili confiabili
or ( ) dad dad or ( ) dad dad
90 10 0,1 90 0,90 5,0 0,05 95 0,95
95 5 0,05 95 0,95 2,5 0,025 97,5 0,975
99 1 0,01 99 0,99 0,5 0,005 99,5 0,995
* Confiabilidad
** Probabilidad
En vista de que |tc| > t0.05(14), entonces se rechaza Ho con un nivel de significancia
del 0.05 y se puede afirmar que con un nivel de confiabilidad del 95%, el nivel de
proteína de pasto estrella morado (Cynodon nlefluencis) fertilizado de acuerdo a
los requerimientos del suelo es mayor que cuando se tiene como un cultivo
convencional sin fertilización.
PRUEBA DE DOS COLAS. También llamada bilateral, es aquella en la cual la

zona de rechazo se divide en los dos extremos de la distribución (cola de la
derecha y cola de la izquierda). Se utiliza esta prueba de hipótesis cuando no se
tiene referencia de un dato mayor o menor del promedio obtenido en el estudio; es
decir, cuando en la hipótesis alterna se plantea que el promedio de la población es
diferente al obtenido (sin saber si es mayor o menor).
Ho: µ = µ0
HA: µ ≠ µ0 ; no se podría plantear de la forma µ > µ0 ó µ < µ0
Los estadísticos de prueba siguen siendo t-Student o Z (normal) dependiendo de

las condiciones de tamaño de muestra o de la disponibilidad de varianza.
X − µ0
t= Para muestras pequeñas,
SX
X − µ0
z= Para muestras grandes o con σ conocida.
σX
Es importante tener en cuenta que, en este caso, como se tienen dos posibles
respuestas simbolizadas en la hipótesis al decir que es diferente sin saber si es
mayor o menor que el parámetro de comparación, se debe trabajar la distribución
de forma bilateral; donde el nivel de significancia α es divido en dos partes (α/2)
que indican la porción de rechazo en la distribución de los datos; tal como se
muestra en la siguiente gráfica.
Gráfica. Región de aceptación y rechazos en una prueba a dos colas
En este caso la región crítica R está formada por dos partes: R1 y R2,
donde;
R1 = {t / t ≤ −tα / 2}
R1 = {t / t ≥ tα / 2}
Ejemplo. El historial de una finca ganadera muestra que los animales que se
encuentran en ceba tienen como promedio de ganancia de peso 930 g/día/animal.
Para evaluar un lote que está en esta etapa de producción y saber si se encuentra
dentro de los parámetros de producción de la finca, se hace un muestreo aleatorio
de 15 animales, obteniéndose los siguiente valores como ganancia diaria de peso:
740, 890, 910, 915, 1000, 980, 960, 870, 856, 798, 979, 863, 982, 791, 916.
Las hipótesis a probar son:
Ho: µ = 930
HA: µ ≠ 930 (prueba a dos colas)

Para hacer los cálculos con la distribución t se deben hallar los valores de
promedio y error estándar de la media sx .
X = 896,67
s 2 = 6112,09
X − µ0 s2 16112,09
t= donde; sx = = = 20,18 entonces;
SX n 15
X − µ 0 896,67 − 930
tc = = = −1,65
SX 20,18
Si se usa un α de 0,05, se tiene que el valor de la distribución t corresponde se

buscaría con tα/2, o sea 0,025 y con n-1 grados de libertad.
t0,025 (14) = 2,14
Teniendo en cuenta que |t| < tα/2 entonces, se acepta la hipótesis nula (Ho) con una
confiabilidad del 95% y se puede concluir que: Estadísticamente al 95% de
confiabilidad, la ganancia de peso del lote de ceba en la finca está acorde con el
promedio que se tiene como registro.
Lección 13: Comparación de dos medias muestrales
La prueba de hipótesis que comprende la diferencia entre la media de dos

poblaciones de utiliza con más frecuencia para determinar si es razonable o no
concluir que las dos son distintas. En tales casos, se podrían plantear una de las
siguientes hipótesis:
H 0 : µ1 − µ 2 = 0, H A : µ1 − µ 2 ≠ 0
H 0 : µ1 − µ 2 ≥ 0, H A : µ1 − µ 2 < 0
H 0 : µ1 − µ 2 ≤ 0, H A : µ1 − µ 2 > 0
Así como se muestra, es posible probar que la diferencia es igual a, mayor que, o
menor o igual que algún valor distinto a cero.
Comparación cuando el muestreo es a partir de una población normal y las

varianzas de las poblaciones son conocidas:
Ejemplo. Un investigador desea saber si los datos tomados en un lote de novillos

alimentados con ensilaje amonificado, proporcionan evidencia suficiente para
indicar una diferencia en las concentraciones de Nitrógeno Ureico en Sangre
(BUN) entre los individuos que no recibían la fuente de Nitrógeno No proteico
(NNP) y los que sí. Para hacer la prueba correspondiente, se plantean 9 pasos a
seguir:
1. Arreglo de campo. Los datos corresponden a las lecturas de BUN hechas a

12 novillos suplementados con fuente de NNP y 15 novillos que no recibían
este tipo de suplementación. Con los datos se obtiene que los grupos
suplementados con NNP tenían un promedio de 4,5 niveles de BUN (mg de
nitrógeno/ ml de sangre), mientras que los novillos sin suplementar tenían
en promedio 3,4 mg/ml sangre.
2. Supuestos. Los datos constituyen dos muestras aleatorias independientes,
cada una extraída de una población con distribución normal y varianza igual
a 1.
3. hipótesis.
H0 : µ1 − µ2 = 0, H A : µ1 − µ2 ≠ 0
Una forma alternativa de enunciar las hipótesis sería:
H 0 : µ1 = µ 2 0, H A : µ1 ≠ µ 2
4. Estadístico
Z=
(x1 − x2 ) − (µ1 − µ 2 )
σ 12 σ 22
+
n1 n2
En este caso, se supone que la diferencia entre los dos promedios de la

población (µ1-µ2) es cero (0).
Z=
(4,5 − 3,4) − (0) = 1,1
= 2,82
1 1 0,39
+
15 15
5. Regla de decisión. Decidiendo probar con α = 0,05, los valores críticos de Z

son 1.96; por tanto:
Zcalculado = 2,82 Zcrítico = 1,96
2,82 > 1,96; por tanto se rechaza H0
6. Conclusión. se puede concluir que, con un nivel de confianza del 95% el

nivel de urea en sangre de novillos suplementados con ensilaje amonificado
es diferente a cuando no se suplementan con esta fuente de NNP.
Comparación cuando el muestreo es a partir de una población normal y las
varianzas de las poblaciones son desconocidas:
Cuando se desconocen las varianzas de las poblaciones, pero se supone que son
iguales, éstas se pueden hallar de la siguiente forma:
s 2p =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n 2 − 2
Una vez halladas las varianzas, se puede proceder como en el caso anterior,
utilizando el valor hallado para reemplazar en la ecuación de la distribución Z.
Comparación cuando el muestreo es a partir de una población que no se comporta

aproximadamente a la distribución normal.
Cuando el muestreo se realiza a partir de una población que no presenta

distribución normal, pueden utilizarse los resultados del teorema central de límite
si el tamaño de la muestra es grande. Esto indica que, si la muestra es grande, se
puede utilizar el teorema normal.
Z=
(x1 − x2 ) − (µ1 − µ 2 )
σ 12 σ 22
+
n1 n2
Comparación en parejas (comparación de dos medias muestrales)

En los procesos prácticos o de investigaciones en el área agropecuaria es común
tener que efectuar comparaciones entre dos medias de muestras aleatorias de
una misma o diferente población bajo algún parámetro de estudio. Por ejemplo, el
comportamiento bajo una dieta para machos y hembras de una especie; el criollo
de maíz de una zona contra algún material mejorado o la comparación entre razas
de animales. Esto implica la utilización de algún estadístico de prueba que nos
permita definir sobre una hipótesis planteada
Ho: µi = µj.
Lo primero y más importante por hacer es identificar si la muestra corresponde a

muestras apareadas o a muestras no apareadas y para ello se deben seguir los
siguientes criterios.
Muestras apareadas.
• Tienen igual número de elementos entre las dos muestras.

• Una muestra depende de la otra, es decir, se analiza el mismo grupo con el
efecto de dos tratamientos. Cuando se habla de dependencia, no se refiere a
variables dependientes e independientes en modelos lineales; esto hace
referencia a que una muestra fue tomada después de terminar de aplicar la
anterior y en los mismos ejemplares, terreno, etc.
Muestras no apareadas.
• Puede contener igual o diferente número de datos entre las dos muestras.
• Siempre se refiere a la aplicación de tratamientos o medidas en dos grupos
diferentes.
Comparación de medias para dos grupos con datos apareados

En este caso, trataremos con muestras del mismo tamaño; además, cada valor de
la primera muestra corresponde precisamente un valor de la segunda.
Comúnmente, a este tipo de comparaciones se le denomina observaciones
apareadas, en virtud de que los elementos de una muestra son homogéneos
respecto de la contrastante o son los mismos; sólo que el estímulo o tratamiento
es diferente. En lugar de llevar al análisis con observaciones individuales, se utiliza
como variable de interés la diferencia entre pares individuales de observaciones.
Sucede con frecuencia que no hay diferencias reales entre las poblaciones en lo
que respecta a la variable de interés, pero la presencia de fuentes extrañas de
variación provocan el rechazo de la hipótesis nula de no diferencia. Por otra parte,
las diferencias reales pueden también ser enmascaradas por la presencia de
factores extraños.
El objetivo en las pruebas de comparaciones apareadas es eliminar un número

máximo de fuentes de variación extraña, haciendo a las parejas semejantes con
respecto a tantas variables como sea posible. Las observaciones apareadas
pueden obtenerse de varias formas. Los individuos pueden registrarse antes y
después de recibir algún tratamiento. Camadas del mismo sexo pueden ser
asignadas al azar para que reciban algún tratamiento. Parejas de gemelos o
hermanos pueden ser asignados al azar para que reciban dos tratamientos. O
siendo más explícitos; la respuesta de un cordero a una dieta antes y después de
la aplicación de un medicamento; o la producción de un árbol antes y después de
la poda. La hipótesis planteada lógicamente será la misma:
Ho: µi = µj
Ha: µi ≠ µj
Pasos Para Realizar Prueba De Medias Apareadas
1. Identificar los tipos de muestra.

2. Cálculos estadísticos
• Calcular la media para cada uno de los grupos Y i y Yj
• Calcular diferencias d = y i − y j
• Calcular diferencias al cuadrado d2

• Hallar sumatoria de d y d2
• Hallar promedios para d (d )
3. Planteamiento de hipótesis para medias
Ho=µi = µj
Ha=µi ≠ µj
4. Comparación de medias (t-student)

d
tc = tα= (n-1)gl
(∑ d i ) 2
∑d
2
i −
n
n(n − 1)
5. Comparación y regla de decisión.

6. Análisis y Conclusiones.
Ejemplo. Las curvas de crecimiento de plantas de sorgo forrajero (Sorgum bicolor)
arrojaron los siguientes datos como máximo de altura prefloración (cm), para
identificar si existe diferencia en producción de forraje entre plantas germinadas y
plantas rebrotadas después del primer corte. Cabe anotar que para el estudio se
tuvieron en cuenta las mismas plantas.
1. Identificación de la muestra. Teniendo claro que se utilizaron las mismas

plantas en el mismo cultivo y por tanto se guarda homogeneidad en las unidades
experimentales, se pude clasificar esta comparación de dos muestras con
observaciones apareadas.
2. Cálculos estadísticos.
OBSERVACIONES DE DOS MUESTRAS APAREADAS.
Germinadas Rebrotadas Diferencias

d2
(yi) (yj) (d) Yi –Yj
105 96 9 81
89 90 -1 1
78 92 -14 196
120 98 22 484
115 94 21 441
114 90 24 576
102 96 6 36
87 93 -6 36
95 97 -2 4
96 94 2 4
105 96 9 81
79 89 -10 100
88 91 -3 9
92 90 2 4
103 92 11 121
106 96 10 100
112 98 14 196
97 95 2 4
102 94 8 64
n n n n
∑ yi = 1885
1= n
∑ yj = 1781
1= n
∑ d i = 104
1= n
∑d
1= n
i
2
= 2538
Yi = 99,21 Y j = 93,74 d i = 5,47 d i2 = 133,58
3. Planteamiento de hipótesis: a partir de este tema, es necesario iniciar el

proceso de formulación y redacción de hipótesis. Para el ejemplo, se presentan
dos formas de plantear las hipótesis.
Ho=µi = µj.
• La altura máxima promedio de crecimiento (cm) de sorgo forrajero

germinado y rebrotado en el primer corte es igual estadísticamente.
• Se estima que la altura (cm) de crecimiento máximo en prefloración de
plantas sorgo forrajero germinado y los mismas rebrotadas después del
primer corte no tienen diferencias estadísticamente significativas.
Ha: µi ≠ µj:
• La altura máxima promedio de crecimiento (cm) de sorgo forrajero

germinado y rebrotado en el primer corte es diferente.
• Se estima que la altura (cm) de crecimiento máximo en prefloración de
plantas de sorgo forrajero germinado y los mismas rebrotadas después
del primer corte tienen diferencias estadísticamente significativas.
4. Comparación de medias (t-student)
d
tc = tα (n-1gl)
(∑ d i ) 2
∑d
2
i −
n
n(n − 1)
5,47
tc = t0.05(18)=2.10
104 2
2538 −
19
19(19 − 1)
5,47
tc =
10816
2538 −
19
19(19 − 1)
5,47
tc =
1968,73
342
5,47
tc =
5,756
5,47
tc =
2,39
tc = 2,27
5. Comparación y regla de decisión.
tc =2,27 > t0.05(18)=2,10; por lo tanto se rechaza H0
6. Análisis y Conclusiones.
Estadísticamente al 95% de confiabilidad, se estima que la altura máxima

promedio (cm) alcanzada por el sorgo antes de cortar y en el rebrote del primer
corte es estadísticamente diferente. Esto indica que si se tiene en cuenta que el
sorgo antes de cortar tiene un promedio de 99,21±11,85 cm, es mayor que en el
rebrote 93.74±2.86; lo cual significa que con la primera producción se puede
obtener mayor cantidad de forraje, pero también con mayor variabilidad como lo
muestra la desviación estándar.
Lección 14: Análisis de varianza
El análisis de varianza fue ideado por Sir Ronald Fisher en 1925. Esta técnica
estadística ha resultado de gran aplicación en aquellas investigaciones que tienen
como propósito analizar los efectos de uno o más factores sobre el
comportamiento de una cierta característica. En sus inicios se aplico básicamente
en el campo de la experimentación biológica, y muy especialmente en la
agricultura; pero hoy en día es utilizada con éxito en diferentes ramas del trabajo
experimental. Puede considerarse además, que esta técnica ha contribuido al
desarrollo de algunos métodos estadísticos, entre ellos, en los llamados métodos
de regresión, y que una de sus más frecuentes aplicaciones se encuentra en el
propio diseño de experimentos.
Su aplicación en el diseño de experimentos se debe a que el análisis de varianza

es considerado como una de las técnicas más útiles para aumentar la sensibilidad
de dicho diseño, ya que a través de él se puede suprimir las variables que
intervienen en un fenómeno dado y que no son de la importancia experimental.
El análisis de varianza, es esencialmente un procedimiento aritmético que

descompone una suma total de cuadrados en componentes asociados con
fuentes de variación reconocida. Se ha usado con provecho en todos los
campos de la investigación en los que los datos se miden cuantitativamente.
Supuestos del análisis de Varianza
• Aditividad.
La aditividad se refiere a que los efectos de las diferentes fuentes de variación

pueden sumarse para explicar la variabilidad entre las observaciones. De este
modo, cualquier unidad experimental puede considerarse como una suma de

componentes a través de un modelo lineal aditivo. Un caso común de no
aditividad se presenta cuando los efectos son de tipo multiplicativo. La falta de
aditividad en los efectos conduce a cierto grado de heterogeneidad en el error,
no permitiendo estimar una varianza común para todos los tratamientos, por lo
cual puede ocasionar niveles falsos de significancia para la comparación de los
efectos de tratamiento. La falta de aditividad puede probarse mediante el
método propuesto por Tukey (1949).
• Normalidad. Los errores experimentales y por lo tanto las observaciones

deben presentar distribución normal. Este supuesto se requiere para
sustentar las pruebas de hipótesis y los intervalos de confianza aunque no
es necesario para la estimación de las varianzas. Afortunadamente en la
mayor parte de los casos prácticos este supuesto se cumple en
forma aproximada, lo cual se debe a que la distribución normal es muy
común en la naturaleza, especialmente cuando se estudian variables
continuas, además, el teorema del límite central permite aproximar a la
normal la mayor parte de los promedios.
• Independencia. Se supone que los errores que afectan las unidades

experimentales son independientes. La distribución al azar (aleatorización)
de los tratamientos sobre las unidades experimentales (teniendo en cuenta
las restricciones de cada diseño), se considera como una medida adecuada
para garantizar este supuesto.
• Homogeneidad de varianzas. Supone que las varianzas dentro de cada

tratamiento son homogéneas, o sea que constituyen estimaciones de una
varianza común de errores.
Cuando se presenta la heterogeneidad de varianzas puede ser de dos

tipos, regular o irregular. En el tipo regular generalmente existe cierta
relación funcional entre las medias de los tratamientos y las varianzas, por
ejemplo en las ciencias biológicas se encuentra con alguna frecuencia una
correlación positiva entre la media y la varianza, o sea que grupos de
organismos con medias grandes tienden a tener varianzas grandes y
viceversa. Este problema puede solucionarse aplicando una transformación
apropiada a los datos, de tal manera que en la variable transformada
resulten independientes (o casi independientes) estos parámetros.
En el tipo irregular, ciertos tratamientos poseen considerablemente mayor

variación que otros sin que exista una relación clara entre media y
varianzas. En este caso a veces es posible descartar ciertos tratamientos
responsables de la heterogeneidad y analizar los restantes o dividir el error

en grupos y hacer las comparaciones entre los tratamientos de cada grupo
donde las varianzas resulten homogéneas.
Para verificar si se cumple el supuesto de homogeneidad de varianzas se

han propuesto diferentes pruebas, tales como la de Hartley descrita en
forma detallada por Gill (1978) que involucra la relación entre la varianza
mayor y la varianza menor de los diferentes grupos. Sin embargo la más
generalizada es la de Barlett (1937) que puede utilizarse para tratamientos
con desigual numero de replicaciones.
Lección 15: Análisis de Covarianza
El análisis de covarianza es un procedimiento muy importante en experimentación.

Utiliza el análisis de varianza y el de regresión para eliminar la variabilidad que
existe en la variable independiente X; también ajusta medias de tratamiento y así
estima mucho mejor el efecto de la variable independiente X sobre la variable
dependiente Y.
El análisis de covarianza trata de dos o más variables medidas y donde cualquier

variable independiente medible no se encuentra a niveles predeterminados, como
en un experimento factorial. Este aparte trata de la covarianza lineal. A menudo,
una relación lineal es una aproximación razonablemente buena para una relación
no lineal con tal que los valores de las variables independientes no cubran un
intervalo muy amplio.
La variable independiente X es una observación hecha en cada unidad

experimental antes de aplicar los tratamientos, e indica hasta cierto grado la
respuesta final Y de la unidad experimental. Por ejemplo, en un experimento con
cerdos se tienen pesos iniciales X, y consumo de alimento Y; si se hubieran
usado varias raciones las diferencias entre sus efectos podrían o no ser
significativas, es decir, puede o no haber diferencias en cuanto a la calidad de las
raciones. Sin embargo, antes de llegar a conclusiones hay que preguntarse, de
existir la variación de los pesos iniciales de las camadas, la diferencia en los
pesos finales de los cerdos se puede atribuir a la bondad de alguna de las
raciones?, O alguna parte en las diferencias en los pesos finales se debe a la
diferencia en los pesos iniciales de dichas camadas? Con respecto a esta ˙última
pregunta se sabe que los lechones de mayor peso al nacer son más agresivos y,
en consecuencia, consumen mayor cantidad de alimento y aumentan de peso con

mayor facilidad que los lechones pequeños de poco peso.
Al ajustar los valores de Y, de acuerdo con los valores correspondientes de X, es

posible analizar con mayor precisión los resultados del ensayo. Por medio del
análisis de covarianza se puede calcular y eliminar la parte correspondiente a las
diferencias en los pesos iniciales. En general, en ensayos de alimentación con
animales, las diferencias entre medias de tratamiento no ajustadas se deben al
valor nutritivo de las raciones, a la cantidad consumida por los animales, o a
ambas causas. Si se ajustan las diferencias de aumento de peso a un peso inicial
común y se aplican las raciones, las medias ajustadas indicaran si en realidad las
dietas tienen valor nutritivo diferente.
Usos del análisis de Covarianza
Los usos más importantes del análisis de covarianza son:
1. controlar el error y aumentar la precisión
2. Ajustar medias de tratamientos de la variable dependiente a las diferencias en

conjuntos de valores de variables independientes correspondientes.
3. Ayudar en la interpretación de los datos, especialmente en lo concerniente a la

naturaleza de los efectos de los tratamientos.
4. Particionar una covarianza total o suma de productos cruzados en

componentes.
5. Estimar datos faltantes.

UNIDAD 2. DISEÑO DE EXPERIMENTOS
CAPITULO 4: Diseño de experimentos
Lección 16: El experimento y sus elementos
¿Qué es un experimento?
Experimento, tiene dos acepciones, una general y una particular. La regla general
se refiere a "tomar una acción" y después observar las consecuencias. Se
requiere la manipulación intencional de una acción para analizar sus posibles
efectos y la aceptación particular (sentido científico). "Un estudio de investigación
en el que se manipulan deliberadamente una o más variables independientes
(supuestas efectos), dentro de una situación de control para el investigador".
¿Cuál es el primer requisito de un experimento puro?
El primer requisito es la manipulación intencional de una o más variables

independientes. La variable independiente es considerada como supuesta causa
en una relación entre variables; es la condición antecedente, y al efecto provocado
por dicha causa se le denomina variable dependiente (consecuente). El
investigador no puede incluir en su estudio a dos o más variables independientes.
Un experimento se lleva a cabo para analizar si una o más variables

independientes afectan a una o más variables dependientes y por qué lo hacen.
En un auténtico experimento, la variable independiente resulta de interés para el
investigador por ser la variable hipotética, que será una de las causas que
producen el efecto supuesto. Para obtener respuesta de esta relación causal
supuesta, el investigador manipula la variable independiente y observa si la
dependiente varía o no. Manipular es hacer variar o dar distintos valores a la
variable independiente.
La variable dependiente se mide, no se manipula. Se mide para ver el efecto de

que la manipulación de la variable independiente tiene de ella.
La manipulación o variación de una variable independiente puede realizarse en

dos o más grados. El nivel mínimo de manipulación es dos: presencia-ausencia de
la variable independiente. Cada nivel o grado de manipulación implica un grupo en

el experimento.
Presencia-ausencia implica, un grupo a la presencia de la variable independiente y

otro no. Luego los dos grupos son comparados para ver si el grupo que fue
expuesto a la variable independiente difiere del grupo que no fue expuesto. Al
primer grupo se le conoce como "grupo experimental" y al segundo se le
denomina "grupo de control".
A la presencia de la variable independiente se le llama "tratamiento experimental"

o "estímulo experimental".
En general, en un experimento puede afirmarse lo siguiente: si en ambos grupos

todo fue "igual" menos la exposición a la variable independiente, es muy razonable
pensar que las diferencias entre los grupos se deban a la presencia-ausencia de la
variable independiente.
Manipular la variable independiente en varios niveles tiene la ventaja de que no

sólo se puede determinar si la presencia de la variable independiente o
tratamiento experimental tiene un efecto, sino también si distintos niveles de la
variable independiente se producen diferentes efectos. Es decir, si la magnitud del
efecto (Y) depende de la intensidad del estímulo (X1, X2, X3, etcétera). Debe
haber al menos dos niveles de variación y ambos tendrán que diferir entre sí.
Cuantos más niveles mayor información, pero el experimento se va complicando:
cada nivel adicional implica un grupo más.
En ocasiones, la manipulación de la variable independiente conlleva una

combinación de cantidades y modalidades de ésta. Finalmente, es necesario
insistir que cada nivel o modalidad implica, al menos, un grupo. Si tiene tres
niveles (grados) o modalidades, se tendrán tres grupos como mínimo.
Experimento aleatorio.
La investigación en las ciencias agropecuarias se caracteriza en parte porque se

puede repetir bajo las mismas condiciones siguiendo un procedimiento estándar.
En el caso de la aplicación de un insumo (nutrimento, fungicida, fitohormona, etc.)
a una especie vegetal. De la única forma como un investigador puede obtener
información de tal acción es inmediata la ejecución de un EXPERIMENTO. Cada
experimento termina con un “resultado”, pero la característica de estos
experimentos es que el “resultado final” no se puede predecir con seguridad, sino

hasta la realización del experimento.
Esta clase de experimento, con tres características esenciales: repetición bajo las
mismas condiciones, desconocimiento del “resultado final” y conocimiento de
todos los posibles resultados antes de la ejecución del experimento, se conoce
como experimento aleatorio.
El propósito fundamental de la estadística es el de proveer modelos matemáticos

para estos experimentos aleatorios. Una vez que se provee el experimento
aleatorio de tal modelo, el estadístico y el investigador puede realizar la inferencia
(inducción–deducción), acerca del experimento aleatorio en cuestión. Un alto
porcentaje de la generación de tecnología en las ciencias agropecuarias está
basado en experimentos aleatorios. Con estas notas se buscará
fundamentalmente, establecer los diferentes modelos estadísticos que se adecuan
a este tipo de experimentos.
Además de la caracterización del experimento aleatorio. Se define el concepto de

experimento como tal. La palabra EXPERIMENTO, para nuestro propósito, es un
ensayo físico, planeado con el fin de confirmar los resultados de experimentos
anteriores o como resultado de la formulación de una hipótesis a ser probada
mediante procedimientos experimentales. Con los experimentos se genera la
tecnología, los cuales contribuyen a la solución de los problemas del sector
agropecuario.
Los experimentos, en general se pueden dividir en tres amplias categorías, así:

básicos, críticos y demostrativos. En un experimento básico el investigador prueba
un gran número de tratamientos con el objetivo de tener guía para trabajos futuros
o bien es aquel que conduce a la obtención de nuevos conocimientos a partir de
los cuales se desarrolla la investigación aplicada.
En experimentos críticos, el investigador compara la respuesta diferentes

tratamientos, usa un mayor número de observaciones para asegurar mas la
bondad de un conjunto de tratamientos sobre otro conjunto particular, se busca
obtener conocimiento de origen: nuevos insumos, bienes o servicios, los cuales
conducen a que se incorpore una tecnología y practicas adecuadas dentro de los
diferentes sistemas de producción.
Los demostrativos ocurren ya con agentes de extensión donde se compara lo

obtenido en una granja experimental contra un estándar regional de amplio uso; es
una etapa fundamental dinámica y se basa en adecuar la tecnología básica a nivel
de los sistemas de producción local.
Se puede agregar que cada experimento es un conjunto de respuestas a una o

más preguntas. Con esto en mente el investigador decide qué comparación de
tratamientos produce la información más relevante. Se conduce entonces un
experimento para medir o probar hipótesis sobre diferencias entre los tratamientos
bajo condiciones comparables, se toman observaciones y medidas sobre el
material experimental.
En general, el objetivo de un experimento agropecuario o ambiental es obtener

información (datos) que resuelva un limitante tecnológico en una especie animal,
vegetal parámetro ambiental o dar solución a un interrogante ya planteado en
investigaciones anteriores. En consecuencia, un buen diseño experimental es el
resultado de un análisis muy preciso del problema o limitando tecnológico. Al
estadístico con frecuencia se le solicitara asesoría para hacer inferencias
(inducciones y deducciones) de los resultados experimentales. Puesto que las
inferencias que se puedan hacer dependen solamente de la forma como se
ejecuto el experimento, el asesor requerirá de una descripción detallada del
ensayo y sus objetivos. Entonces es posible que no se puedan hacer las
inferencias requeridas y aquellas variables no responden a los interrogantes
planteados por el investigador; es decir, un refinamiento que se proponga en la
técnica estadística, no sustituye la claridad que se tenga a la problemática. La
estadística provee de herramientas que facilitan y otorgan medios a la solución del
interrogante planteado, pero no que decida sobre el problema como tal.
En un diseño de experimentos, se establecen los objetivos, se clasifican los

interrogantes, se plantean las hipótesis, se estiman los efectos, se jerarquizan los
objetivos y finalmente con base al análisis se producen las recomendaciones.
Lección 17: ORIENTACIONES GENERALES EN LA EXPERIMENTACION

AGRICOLA
En la planificación agrícola o biológica y en el desarrollo de una investigación en
particular, son de interés las siguientes aspectos:
a. Especificar los problemas, con el fin de probar hipótesis o encontrar

respuestas. Es necesario considerar que los experimentos sean:
Experimentos simples, cuando se estudia un solo factor de variación; por

ejemplo, probar cinco variedades de sorgo, estudiar cinco dosis de
nitrógeno en trigo, etc.
Experimentos factoriales, cuando se estudian simultáneamente dos o más

factores que influyen en la producción; por ejemplo, estudiar tres
variedades, cada una sembrada a tres densidades de siembra, o bien

tratamientos de fósforo, nitrógeno y potasio, cada uno a cuatro dosis por
unidad de superficie.
b. Ubicar el lugar adecuado para la realización de los experimentos, para lo cual

se debe elegir una localidad accesible y representativa de áreas agrícolas, de
suelo uniforme, con unidades experimentales lo más uniforme posible, y escoger
el material adecuado para experimentos, de manera que pueda estratificarse
(agruparse unidades experimentales con características homogéneas) el terreno
correctamente para formar grupos uniformes y de fácil manejo.
c. Reducir las fuentes de error, tanto del experimento como de aquellos errores o
equivocaciones operacionales. Es muy importante que en la selección de datos,
muestreo, etc., el personal responsable esté constituido por técnicos o personas
con entrenamiento.
d. Mantener constante los diversos factores que pueden afectar a la producción o

a la calidad del producto, de manera que los únicos factores de variación sean los
tratamientos objeto de estudio.
e. Extremar precauciones y ser cautos en los resultados experimentales,

considerando que un experimento es una observación de una muestra en una
población de experimentos.
f. Repetir experimentos uniformes en diferentes localidades, suelos y años.
g. Tener conocimiento de la tecnología de campo y saber cuáles son los

problemas del productor.
En la planeación o diseño de un experimento agronómico, es necesario aplicar un

conjunto de disciplinas y conocimientos biológicos con el fin de encontrar una
respuesta correcta a un problema específico. Por ejemplo, si se comparan
diversas variedades de trigo, todos los factores de la producción que influyen en el
comportamiento de las variedades deben permanecer constantes y las únicas
fuentes de variación o diferencias serán presentadas por las variedades de trigo, si
tales fuentes existen. Para lograr lo anterior, es necesario contar con ciertos
conocimientos sobre:
a) Suelos, a fin de elegir el terreno más uniforme y adecuado para realizar el

experimento.
b) Fertilización, para cuando sea necesario planear experimentos con

fertilizantes químicos orgánicos o abonos orgánicos.
c) Topografía e hidráulica, para trazar parcelas, niveles, riegos, etc.
d) Especialidades afines como: Botánica, entomología, fitopatología, fisiología,

genética, ecología, etc. para poder trabajar con seres vivos.
e) Tecnologías de Cultivos, sistemas agroforestales, agrosilvo pastoriles y

zootecnia, para manejar las unidades experimentales.
f) Estadística (biometría o bioestadística), para evaluar y separar las diversas

causas de variación y para realizar la interpretación de los resultados
experimentales.
Pasos al planear un experimento:
El método científico sugiere que en el planeamiento de la experimentación se

debe tener presente las siguientes etapas:
• Definir el problema: En esta etapa se debe determinar los antecedentes,

importancia, objetivos, hipótesis a probar y revisión de la bibliografía.
• Planeamiento y diseño del experimento: En esta etapa se debe tener en

cuenta: Lugar de ejecución del experimento, tamaño de la parcela o unidad
experimental, número de repeticiones por tratamiento, equipos e
instrumentos a utilizar y métodos de evaluación de los resultados
• Ejecución del experimento.
• Recolección de datos del experimento.
• Ordenamiento de la información experimental.
• Discusión de los resultados obtenidos.
• Análisis económico de los tratamientos que se probaron y utilidad práctica.
• Conclusión final y recomendación.
Lección 18: Diseño experimental.
Kempthorne (1952) plantea que el experimento general del método científico es

formular hipótesis y después verificarlas mediante la experimentación o medir sus
consecuencias. Para hacer la verificación se requiere de la observación y es el
diseño de experimentos quien señala la forma como provienen esas

observaciones. El diseño experimental permite establecer si una hipótesis puede
ser verificada o no, de si las observaciones que se toman son relevantes con la
hipótesis y capaces de dar las respuestas correctas a lo que se plantea.
Observaciones que se toman de cierta forma no proveen la información necesaria
para probar una hipótesis, mientras que si se toma de otra forma sirven para la
verificación de la hipótesis. Kempthorne, agrega que una investigación
estadísticamente diseñada consistiría de los siguientes pasos:
1- Establecer el problema.
2- Formular las hipótesis.
3- Señalar la técnica y el diseño experimental.
4- Examinar los posibles resultados y revisar las razones del problema, para
asegurarse de que el experimento le provee de la información adecuada a sus
interrogantes.
5- Considerar los resultados desde el punto de vista de los procedimientos

estadísticos que serian aplicados, para asegurarse de las condiciones necesarias
para que estos sean validos.
6- Realizar el experimento.
7- Aplicar las técnicas estadísticas de los datos experimentales.
8- Obtener conclusiones, de acuerdo con la estimación estadística que se

haga; se debe tener consideración cuidadosa de la validez de las conclusiones de
acuerdo con la población para la cual se aplica.
9- Evaluación de toda la investigación, especialmente con otras

investigaciones realizadas con el mismo o problemas similares.
Por diseño experimental se entenderá la forma o procedimiento de cómo se

asignan los tratamientos a las unidades experimentales o bien la restricción que se
hace al asignar los tratamientos a las unidades experimentales.
Unidad experimental y tratamiento
Una unidad experimental es una unidad material (física biológica) a la cual se

aplica un tratamiento el tratamiento es un procedimiento o estimulo, cuyo efecto se
desea medir o comparar con otra serie de tratamiento.
La unidad experimental puede ser un animal (vaca, novilla, pollo, árbol, muestra
de agua, muestra de suelo, etc.) o grupo de las anteriores especies, una parcela,
plantas de maíz, fríjol, naranja, etc. Al seleccionar un conjunto de tratamientos es
importante definirlos clara y precisamente con cada uno de ellos y considerarlos
uno con respecto a los demás y así dar una respuesta eficiente a los objetivos de
experimentación.
Error experimental
En general una característica de las unidades experimentales usadas en

investigaciones agropecuarias, es la variación existente en las unidades cuando
se ejecutan las medidas pertinentes. La variabilidad de las unidades
experimentales en las ciencias agropecuarias es el producto de su misma
constitución: son seres vivos y en ellos su condición natural es la variabilidad,
dinámicos en su expresión, los resultados finales de un experimento son inciertos,
se requiere de la probabilidad para medir su incertidumbre y en consecuencia de
modelarlos a través de los así llamados experimentos aleatorios. A esta
variabilidad Cochran y Cox (1952) la denominaron variabilidad inherente o propia
del material experimental. La incertidumbre del resultado final o variabilidad propia
de las unidades experimentales, se conoce estadísticamente como error
experimental. También se interpreta como error experimental al hecho por el cual
las unidades experimentales no producen los mismos resultados aun así estén
tratadas igualmente y manejadas bajo las mismas condiciones experimentales.
Existe otra variabilidad en la experimentación agropecuaria y es la resultante de
no conducir técnica o adecuadamente el experimento, son los errores de
medición, de atención, de la falla en la técnica experimental de campo o
laboratorio que ocurre al desarrollo de un experimento. Es de vital importancia
hacer todos los esfuerzos posibles para reducir el error experimental, para mejorar
así la eficiencia de la investigación y asegurar el éxito de la misma. Esto se puede
obtener si se considera:
1- Tomar material experimental en el cual la variabilidad que lo caracteriza sea

mínimo.
2- Refinar la técnica experimental de campo o laboratorio.

Replicación y su función
Cuando un tratamiento se aplica más de una vez, se dice que el tratamiento se ha

replicado.
Las funciones de la replicación son:
1- Proveer de un estimativo del error experimental.
2- Mejorar la precisión del experimento al reducir el error estándar del

promedio de un tratamiento.
3- Aumentar el alcance de la inferencia del experimento, seleccionar y usar el

número apropiado de unidades experimentales.
La estimación del error experimental es necesaria para ejecutar las pruebas de

hipótesis y para establecer los intervalos de confianza para los promedios. Un
experimento en el cual el tratamiento aparece solo una vez se dice que es un
experimento y una replicación o repetición; de este experimento no se logra una
estimación del error experimental; aquí es posible observar la diferencia entre
tratamientos es debida a la naturaleza de una unidad experimental. En otras
palabras, cuando no exista un, método de estimar el error experimental no hay
forma de determinar si las diferencias observadas son debidas a los tratamientos o
son causa de la estructura de la unidad experimental.
Cuando el número de replicaciones se incrementa, los estimadores de los

promedios son más precisos, así si n aumenta y el error tiende a decrecer.
En cierto tipo de experimentos, la replicación indica un enlace mayor de la

inferencia estadística. Por ejemplo, deseamos saber si existe un efecto real de un
nutriente sobre dos razas diferentes. Si el objetivo del experimento es sacar
conclusiones sobre ambas razas, es obvio que dichas razas deben estar en un
periodo de años. La razón es obvia puesto que las condiciones varían de un año a
otro y es importante conocer el efecto de los años sobre los diferentes
tratamientos, puesto que las recomendaciones usualmente son hechas para los
años futuros. Igualmente se usan diferentes localidades para evaluar los
tratamientos bajo los diferentes ambientes. Las replicaciones en el tiempo (años) y
en el espacio (localidades) son consideradas como “repeticiones” y su propósito
es el de aumentar el alcance de la inferencia. Los mismos principios se usan con
frecuencia en experimentos de laboratorio.
Control del error experimental.
El error experimental puede ser disminuido mediante los siguientes pasos:
1. Diseño experimental.
2. Uso de información adicional.
3. Tamaño y forma de la unidad experimental.
1. El uso del diseño experimental como un medio de reducir el error

experimental ha sido ampliamente investigado desde los años veinte del año
actual. Esta es una materia de alta discusión y solo se presenta y solo se
presentan principios básicos. Para ver Cochran y Cox, Federer y Kempthorne.
El control del error por medio del diseño consiste en planear de tal forma que la
variación natural en las unidades experimentales no contribuyan a falsear la
diferencia debido a tratamientos cuando, por ejemplo, las unidades experimentales
se agrupan en bloques (un bloque que posea todos los tratamientos), de tal forma
que la variación entre las unidades del bloque sea menor que entre bloques, la
precisión del error experimental incrementa. Tales bloques se denominan
replicaciones. El error experimental se basa el la variación de las variación de las
unidades dentro del bloque, puesto que la variación entre bloques puede ser
eliminada.
Cuando el número de tratamientos se aumenta, el número de unidades por bloque

se incrementa.
Ciertos diseños permiten dividir los bloques en sub-bloques los cuales poseen una
porción total de tratamientos. Tales diseños se denominan diseños de bloques
incompletos donde la precisión de ciertas comparaciones se incrementa a
expensas de otras
2. Uso de información adicional. En muchos experimentos la precisión se

puede aumentar mediante el uso de una técnica estadística llamada covarianza.
Unos de los principales ejemplos de covarianza es el peso inicial de los animales,

la edad de los animales y el número de partes al inicio del ensayo.
3. Tamaño y forma de la unidad experimental. El tamaño óptimo de una

parcela en la experimentación de un cultivo particular depende de factores como la
forma de la variabilidad del suelo y el costo de los procedimientos experimentales,
los cuales son determinados por los tratamientos, se debe agregar que existe
variación de año a año en las parcelas donde se experimenta, como resultado de

las condiciones ambientales que interactúan con la fertilidad natural de las
parcelas.
En los experimentos agronómicos existen los llamados ensayos en blanco o de

uniformidad los cuales conducen a determinar el tamaño y la forma de la parcela
experimental, al igual que el número de repeticiones. Otros factores de
importancia son la clase de cultivos, el número de variedades o tratamientos, clase
de maquinaria agrícola a usar, costo de mano de obra y presupuesto con que se
cuenta.
Parcelas pequeñas serian convenientes, cuando un número alto de tratamientos

se están comparando, o cuando por ejemplo se dispone de muy poca cantidad de
semillas.
Selección de tratamientos
En casi la totalidad de las investigaciones agropecuarias y ambientales (variables

biológicas), los tratamientos son los entes que van a solucionar los limitantes
tecnológicos planteados en el estudio; son hasta cierto punto la hipótesis o
supuestos del problema. En consecuencia, son muy importantes en el concepto de
la investigación; se requiere un serio análisis para su selección, debe dedicarse un
buen tiempo de reflexión, revisión bibliográfica, para tener antecedentes de los
mismos y así hacer una buena decisión de aquellos que hagan parte de la
experimentación final. El investigador debe plantearse una pregunta como: ¿es
necesario testigo?, ¿Cuál?, ¿el del productor convencional?, ¿el comercial?, ¿se
adiciona o sustrae A o B tratamientos, se resuelven las hipótesis planteadas?, ¿o
hacen más complejos los interrogantes?.
La consulta al estadístico, en esta etapa de la experimentación, es de fundamental

importancia y de gran ayuda para el investigador.
La selección de tratamientos es substancial para la precisión y conclusiones a

llegar; en general, es el investigador quien mejor conoce sus tratamientos, este
conocimiento es el que ayuda a menudo a decidir sobre la cantidad de dosis de un
tratamiento particular.
Técnica experimental de campo
Una técnica cuidadosa en la conducción física del ensayo es básica para las
conclusiones y recomendaciones finales del mismo. Es la responsabilidad del
investigador que cada paso de la experimentación debe ser ejecutado con el

mayor cuidado posible para asegurarse así de buenos resultados. En general, la
variación resultante de la no atención adecuada del experimento no es una
variación aleatoria por tanto no sujeta las leyes de probabilidad en las cuales esta
basada la inferencia estadística. Esta variación puede denominarse “incapacidad
técnica”, en contraste con las variaciones mencionadas. Entonces se debe ser
cuidadoso en:
• Tener unidades uniformes en el caso de que el diseño así les exija.
• Precisión en las cantidades de raciones o fertilizantes al suministrarlas a las

unidades experimentales.
• Es fundamental el manejo uniforme a todo grupo de unidades del

experimento.
• Asegurarse en que los técnicos ejecuten las medidas con la precisión

necesaria.
• Tomar las observaciones en el momento adecuado y preciso (las plantas y

los animales no tienen días festivos)
• Asegurarse de que se transcriban correctamente las informaciones

tomadas.
Aleatorización
La principal función de la aleatorización es la de proporcionar estimadores

insesgados para los promedios y la validez de las pruebas de hipótesis. La
aleatorización es una de las nuevas características de los modernos diseños
experimentales. La idea y estructuración de la misma se debe a Fisher.
Generalmente envuelve procedimientos como el lanzamiento de una moneda, o el
uso de tablas de números aleatorios y se define como el procedimiento mediante
el cual se asignan los tratamientos a las unidades experimentales según el diseño
empleado.
Hay que tener en cuenta que cada tratamiento debe tener igual oportunidad de ser
asignado a cualquier unidad experimental, sea ella favorable o no. Cochran y Cox
señalan: “la aleatorización es análoga a un seguro, en el sentido de que es una
precaución contra eventualidades que pueden o no ocurrir y que pueden ser o no
serias si ocurren”.
La Idea De Significancia Estadística
Pearse (1976) presenta el siguiente razonamiento al término estadístico

“significativo y no significativo”. Suponga que en un experimento se encontraron
diferencias estadísticas al nivel del 1%. Esto entonces significa que el investigador
tiene que escoger una de dos alternativas completamente incompatibles y tiene
que aceptar que la diferencia se debe al efecto de los tratamientos o que el
resultado es una coincidencia de uno en cien. En efecto, un nivel de significancia
indica que una probabilidad muy baja de que tal coincidencia ocurra, lo cual es
diferente a lo que se espera como resultado de tratamientos.
Para mayor claridad, significativo al 1% no quiere decir que existe una

probabilidad del 99% de que las diferencias corresponden a lo encontrado en el
experimento.
Por otra parte, cabe anotar que la selección que haga el investigador dependerá
de la naturaleza de los tratamientos y de sus conocimientos. Así por ejemplo
suponga que a un grupo de plantas se les ha humedecido un tratamiento y que
estas produjeron más que el grupo control. Si dicho tratamiento hubiese sido una
invocación y una danza ritual a la diosa luna un investigador podría en algún
momento pensar en la invocación y danza ritual a la diosa luna como explicación
al mayor rendimiento.
El investigador daría el redimiendo por la aplicación de sulfato de amonio y no por

la invocación claro que es visto que las dos razones tienen su interpretación. En
general si (p < 0,05) la evidencia en favor de una diferencia verdadera, es
suficientemente fuerte para merecer su publicación.
1. si (p < 0,01) el efecto se considera bien establecido.
2. si (p < 0,001) la evidencia se considera como real
Lección 19: Modelo estadístico
TIPOS DE MODELOS ESTADISTICOS
De acuerdo a la selección de los tratamientos y otros factores se tiene la siguiente

clasificación:
Modelo I (Efectos Fijos):

Se presenta cuando los tratamientos y demás factores que intervienen en un

experimento son fijados por el investigador; es decir, no se efectúa una elección
aleatoria. En estos casos las conclusiones del análisis de variancia solamente son
válidas para los tratamientos y otros factores usados en el experimento. En el
presente trabajo se ha considerado únicamente el caso de modelo de efectos fijos,
por ser el que se presenta con mayor frecuencia en la experimentación agraria.
Modelo II (Efectos aleatorios):
Se presenta cuando los tratamientos y demás factores que intervienen en un

experimento son elegidos al azar de una población. En estos casos las
conclusiones del análisis de variancia son válidos, tanto para los tratamientos y
demás factores usados, asi como para todas las poblaciones de tratamientos y
factores.
Modelo III (Modelo Mixto):
Este modelo es la combinación de los dos anteriores y se presenta cuando

algunos factores son fijados y otros son elegidos al azar. En estos casos las
conclusiones del análisis de variancia se- rán válidas para toda la población de
factores cuando estos son elegidos al azar, y solamente para los factores usados
cuando estos son fijados
SUPUESTOS ACERCA DEL MODELO ESTADISTICO
Los supuestos necesarios del modelo estadístico son:
Aditividad: Los factores o componentes del modelo estadístico son aditivos,

es decir la variable respuesta es la suma de los efectos del modelo
estadístico.
Linealidad: La relación existente entre los factores o componentes del

modelo estadístico es del tipo lineal.
Normalidad: Los valores resultado del experimento provienen de una

distribución de probabilidad «Normal» con media y variancia 2 .
Independencia: Los resultados observados de un experimento son

independientes entre sí.
Variancias Homogéneas (Homocedasticidad): Las diversas poblaciones

generadas por la aplicación de dos o más tratamientos tienen variancias
homogéneas (variancia común).
Lección 20: Transformación de datos
La razón principal de la transformación de datos es que de llevarse a cabo un

análisis esta- dístico con resultados que no cumplan con los supuestos acerca del
modelo estadístico, se puede llegar a una conclusión equivocada.
Un cambio de escala puede variar la media y la variancia de la variable así

como su relación con respecto a otras variables. La forma de la distribución de una
variable cambia con la escala. Mediante una transformación adecuada puede
conseguirse que un variable que no se distribuye normalmente pase a tener una
distribución casi normal. Las poblaciones con variancias desiguales pueden
convertirse en homocedásticas (variancias homogéneas) mediante una
transformación apropiada.
Las transformaciones más usadas son:
a. Transformación logarítmica
El modelo lineal (por ejemplo Yij = µ + i + j + eij) indica que el efecto del bloque ,
el efecto del tratamiento y el error experimental, son todos ellos aditivos. Si los
bloques y los tratamientos aumentan o disminuyen las mediciones en un
determinado porcentaje en lugar de una determinada cantidad, entonces se dice
que los efectos son multiplicativos y no aditivos. En estos casos, una
transformación logarítmica transformará en aditiva la relación multiplicativa y en
consecuencia el modelo lineal podrá ser aplicado a los nuevos datos.
Para ciertos tipos de análisis, el investigador prefiere la escala que

elimina las interacciones mientras que para otras puede preferir la escala que
restituye los efectos lineales. Lo que hay que recordar es que la relación entre las
variables está muy influenciada por las escalas con las que se miden dichas
variables. Las interpretaciones de los datos sólo son válidas en relación con la
escala particular adoptada en un caso determinado.
b. Transformación de la raíz cuadrada
Cuando los datos están dados por números enteros procedentes del conteo de
objetos, como por ejemplo el número de manchas en una hoja o el número de
bacterias en una placa, los números observados tienden a presentar una
distribución de Poisson más que una distribución normal. Las consideraciones
teóricas conducen a la transformación de la raíz cuadrada de los números

observados. Normalmente esta transformación determina que las variancias de los
grupos sean más iguales. También es aplicable a las distribuciones sesgadas
puesto que acorta la cola larga.
Si y es el número observado, para el análisis estadístico y la prueba de

significación utiliza- remos y1/2 . Cuando los números observados son pequeños
(de 2 a 10), se prefiere la transformación (y+0.5)1/2, en especial cuando algunos
de los números observados son cero.
CAPITULO 5: Clases de Diseños experimentales
Lección 21: Diseño Completamente al azar
Características generales del diseño completamente al azar
En la actualidad los investigadores de las ciencias agrícolas, pecuarias y

ambientales (en general las que tengan están relacionadas con variables
biológicas) están interesados en detectar diferencias estadísticas, tan pequeñas
como sean posibles. Para su obtención se requiere del uso eficiente de diseño
experimentales y métodos estadísticos, que reduzcan lo más efectivamente le
error experimental. En el logro de este propósito, el análisis de varianza es una de
las principales herramientas del investigador. Esta técnica se aplican en una
amplia gama de experimentos, los cuales van desde la simple comparación de un
par de tratamientos, hasta ensayos más complejos que envuelven varios factores
como por ejemplo: raza, sexo, ambiente, manejo, especie, edad, finca, lote. La
simple extensión de comparar tres o más tratamientos, constituyen el diseño
experimental al azar.
El diseño completamente al azar es el más simple de todos los diseños que se

utilizan para comparar dos o más tratamientos, dado que solo considera dos
fuentes de variabilidad: Los tratamientos y error aleatorio. Por eso es común
encontrar casos de uso y abuso de esta diseño en situaciones en las que no eran
lo más adecuado, sobre todo porque había la presencia de otras fuentes
importantes de variabilidad (Factores de bloque por ejemplo),por lo que al final se
tienen comparaciones burdas y no confiables de los tratamientos objeto del

estudio.
Este diseño se llama completamente al azar por que todas las corridas
experimentales se realizan en orden aleatorio completo, ya que al no haber
bloques (generados por otro factor adicional al factor de interés), no existe ninguna
restricción a la aleatorización. Más específicamente, si durante el estudio se
hacen en total N pruebas estas se corren al azar, de manera que los posibles
efectos ambientales y temporales se vayan repartiendo equitativamente entre los
tratamientos.
Este tipo de diseño es el más simple de todos y también se le conoce con los
nombres de diseño completamente randonizado o diseño completamente aleatorio
o diseño de una sola vía. En él se asignan al azar los tratamientos a un grupo de
unidades experimentales previamente determinadas. Asimismo todas las
variables, excepto las que están en estudio, se mantienen constantes. Sin
embargo R. A. Fisher señala que claramente que este tipo de diseño es
inadecuado para muchos problemas de investigación, en virtud de que las leyes
naturales de hecho son controladas e influenciadas por causas (variable)
Este diseño se puede aplicar a ensayos de campo cuando se cuente con

condiciones de suele y ambientes relativamente uniformes. También en útil en
experimentos con animales cuando existe cierta uniformidad bien sea genética,
por peso, edad, etc.
En general este diseño no es el más adecuado para la experimentación de campo

con plantas o animales mayores, pero es el más funcional para la evaluación de
cierto tipo de tratamientos en laboratorios e invernadero o cuando dichos
tratamientos son aplicados a unidades experimentales homogéneas.
El diseño experimental proporciona el máximo número de grados de libertad para

la estimación del error experimental; además no requiere estimar datos faltantes;
es decir el diseño puede analizarse con igual número de repeticiones por
tratamiento (diseño balanceado) o diferentes números de repeticiones por
tratamiento (diseño desbalanceado).
Ventajas
• No tiene límite en el número de tratamientos (tres o más), según se hayan

planteado los objetivos de la investigación.
• El número de repeticiones puede variar dentro de cada tratamiento, aunque

es preferible que el número sea igual.
• El análisis estadístico es sencillo aún cuando se hayan perdido una o más

unidades experimentales.
• En condiciones homogéneas, se puede aplicar cuando aún cuando el

material experimental es escaso.
• En cierta media, aunque puede ser una desventaja en confiabilidad, no

requiere la medición de variables que influyen sobre los resultados y que pueden
ser costosas o difíciles de medir por el uso de equipos o materiales
especializados.
Desventajas
• La principal desventaja consiste en que a veces resulta ineficiente ya que

toda la variabilidad resulta de unidades experimentales (exceptuando los
tratamientos) y esta pasa a formar parte del error experimental.
• El grado de precisión de los resultados se pueden reducir por el efecto de

aleatorización de las unidades experimentales, evitando que los tratamientos sean
aplicado a unidades similares u homogéneas.
• Cuando el investigador no tiene experiencia en la decisión del modelo

(diseño) a aplicar, tiende a tomar como única alternativa el Diseño completamente
al alzar, sin ser el más confiable para el tipo de experimentación propuesta. En
estos casos, se puede desconfiar de los resultados y creer que es el método el
ineficiente, cuando realmente es que se ha tomado la decisión errada en la
selección de método base de experimentación.
Modelo estadístico
Para este tipo de diseño (con igual o diferente número de repeticiones) se plantea
estadísticamente el siguiente modelo matemático:
i =1,2,..,r repeticiones y
j = 1,2, Vt tratamientos.
Representa la observación de la repetición i-ésima en el tratamiento j-ésimo.

Es la media global de las poblaciones combinadas
Es el efecto producido por el tratamiento j-ésimo
Es el error experimental aleatorio en la observación
Llámese error a la cantidad en la que cualquier valor difiere de la media de su

grupo y se representa con el símbolo εij. El término error no significa
equivocación. Este término se utiliza para referirse a la variación no controlada
que existe entre los miembros de cualquier población. Dada la población de
plantas de maíz para ensilar (72 días), por ejemplo, se sabe que la altura de
algunas plantas está por arriba de la altura media verdadera de la población,
mientras que algunas alturas muestran lo contrario. Esta variación se debe a
diversos factores hereditarios y ambiéntales. Si cualquier media de grupo, µj se le
agrega un error dado, εij, el resultado será Yij, la observación que se desvía de la
media del grupo por la cantidad εij.
Hipótesis y regla decisión
El propósito principal del análisis de varianza es descubrir las posibilidades entre

los tratamientos para lo cual se requiere plantear una hipótesis nula y una alterna.
Hipótesis nula Ho. T = T. (igualdad)
Hipótesis alterna Ha T ≠ T (desigualdad)
Como regla de decisión se tendría.
Si Fc > Ft (α) se rechaza Ho
Si Fc < Ft (α) se rechaza Ha
Análisis de varianza.
FV 1-α
GL SC CM FC 0,05 0,01
Tratamientos t-1 t
yi
2
y 2 ... SCttos CMttos
Entre, factor A
∑
i =1 r
−
tr
t −1 CMee
Error n-t SCtotal – SC SCee

experimental tratamientos (n − t )
Total n- r k
y 2 ...
∑∑ Yij −
2
1 i =1 j =1 n
Se cataloga como diseño completamente al azar desbalanceado el que por

algunas circunstancias se han perdido unidades experiméntales o que al iniciar la
experimentación se han tomado tratamientos con diferentes números de
repeticiones. Como se puede ver en el análisis de varianza presentado
anteriormente, la suma de cuadrados del error experimental está dividida sobre el
número de repeticiones; el cual para un diseño balanceado sería uno solo, pero
para un diseño desbalanceado, cada sumatoria se dividiría entre el número de
repeticiones.
Una vez planteada la investigación, planteado el problema y definido el método

estadístico a segur para el análisis de datos; incluido el diseño experimental, en
forma práctica, se plantea una secuencia para desarrollar los cálculos del diseño
experimental seleccionado. Estos pasos funcionan para todos los diseños que se
plantearán en este módulo y es una metodología que aunque en algún momento
para el experto puede resultar engorrosa, para el aprendizaje es válida ya que
deja ver la secuencia de cálculos y facilita el entendimiento del proceso.
Es preciso recalcar que estos pasos se aplican una vez se hayan tomado los
datos para aplicar los cálculos, aceptar o rechazar hipótesis y presentar
resultados. A media que el investigador se vuelve experto en el manejo de datos,
planteamiento y desarrollo de diseños, se pueden obviar pasos de los que se
proponen a continuación:
1. Arreglo de campo.
2. Planteamiento de Hipótesis.
3. Cálculo del análisis de varianza.
4. Regla de decisión.
5. Comparación.
6. Conclusión.
7. Otros estadísticos (desviación estándar y coeficiente de varianza).
8. Cuadro de promedios.
9. Gráficas.
10. Análisis, conclusiones y recomendaciones.
Lección 22: Diseño en Bloques Completos al azar
Características del diseño de bloques aleatorizado.
De todos los diseños experimentales que se utilizan en la actualidad, parece ser

que el Diseño de Bloques Completos Aleatorizados es el que hasta ahora se
utiliza con mayor frecuencia. Este diseño fue desarrollado por el año de 1925 por
R. A. Fisher, quien estaba buscando métodos para mejorar los experimentos en el
campo de la agricultura. El nombre del diseño refleja su origen en los
experimentos agrícolas, donde la tierra se dividía en bloques y éstos en parcelas
que recibían los tratamientos bajo investigación.
El Diseño en Bloques Completos Aleatorizados (DBCA), también conocido como

Diseño de Bloques Completamente Randonizados o diseño de dos vías, es un
diseño en el que las unidades experimentales a las que se les aplican los
tratamientos, se subdividen en grupos homogéneos llamados bloques, de modo
que el número de unidades experimentales en un bloque es igual número de
tratamientos que se están estudiando. Se asigna entonces al azar los
tratamientos a las unidades experimentales dentro de cada bloque. Debe tenerse
en cuenta que cada tratamiento aparece en todos los bloques y que cada bloque
recibe todos los tratamientos.
El objetivo de utilizar el diseño en bloques completos aleatorizados es aislar y

eliminar del término de error la variación atribuible a los bloques, a la vez que se
asegura que las medias de los tratamientos estén libres de los efectos de bloque.
La efectividad del diseño depende de la habilidad para lograr bloques
homogéneos de unidades experimentales. La habilidad para formar bloques
homogéneos depende del conocimiento del investigador sobre el material
experimental. Cuando el diseño se utiliza apropiadamente, disminuye el cuadrado
medio del error (CMEE) en la tabla ANAVA, aumenta la Razón de Varianzas (FC)
y mejora la oportunidad de rechazar la hipótesis nula.
En experimentos con animales, si se tiene la sensación de que las diferentes

razas de animales responderán de manera distinta al mismo tratamiento, la raza
del animal puede utilizarse como factor para formar bloques. Las camadas pueden
utilizarse también como bloques, caso en el cual un animal de cada camada recibe
un tratamiento. En experimentos en los que intervienen seres humanos, si se
desean eliminar las diferencias que resultan de la edad, pueden agruparse
entonces los individuos de acuerdo con su edad, de modo que una persona de
cada edad reciba cada tratamiento. El diseño en bloques completos aleatorizados
puede utilizarse también convenientemente cuando un experimento debe llevarse
a cabo en más de un laboratorio (bloque), fincas, zonas, o cuando se requieren
varios días (bloques) para concluirlo.
Se pueden resumir las características en:
• Los BLOQUES son conjunto de unidades experimentales seleccionadas

con anterioridad.
• La variabilidad es minimizada dentro de los bloques (homogeneidad dentro

de los elementos de cada uno) y maximizado entre bloque y bloque (se busca
heterogeneidad).
• Los tratamientos se deben aplicar al mismo tiempo en cada bloque y el

mismo número de veces.
• Los grados de libertad se reducen para controlar el error.
• La variabilidad del bloque se elimina a partir del error experimental. Cuando

encontremos mayor variabilidad entre bloques mayor es la posibilidad de
encontrar diferencia entre los tratamientos.
• Una vez conformados los bloques es aconsejable manejar cada uno de

ellos como una unidad experimental para mantener su homogeneidad interna.
• El número de tratamientos debe ser el menor posible.
• En posible trabajar con bloques de igual número de elementos para evitar la

variabilidad dentro del bloque.
• Es bueno diferenciar entre bloques, repeticiones o réplicas: Repeticiones:

tiene que ver con el número de repeticiones de los tratamientos en un
experimento. Bloques: implican la agrupación de unidades y se debe procurar la
menor variabilidad dentro de cada uno.
• El número de repeticiones es igual al número de bloques
• En el análisis de varianza se consideran tres fuentes de variabilidad, el

factor de tratamientos, el factor de bloques y el error aleatorio.
Ventajas
Algunas de las ventajas del diseño en bloques completos aleatorizados

comprenden el hecho de que es fácil de comprender y sencillo de calcular.
Además, ciertas complicaciones que pueden surgir en el curso de un experimento
se resuelven fácilmente cuando se utiliza este diseño.
• En general es posible agrupar las unidades experimentales de modo que se

logre mayor precisión con el diseño completamente aleatorizado.
• No hay restricción en cuanto al número de tratamientos o de bloques.

Si se desea usar repeticiones adicionales para cientos tratamientos, esto se puede
aplicar a dos o más unidades por bloque con aleatorización adecuada para dar un
diseño de bloques completo al azar aleatorizado.
• Si faltan datos de unidades individuales pueden estimarse fácilmente de tal

manera que no se pierda la comodidad en los cálculos.
• Si el error experimental es heterogéneo, puede obtenerse componentes no

sesgados aplicables de comparaciones específicas.
Desventajas
La principal desventaja de los bloques completos al azar es que cuando la

variación entre unidades experimentales dentro de un bloque es grande, resulta un
término de error considerable. Esto ocurre frecuentemente cuando el número de
tratamientos es grande; así puede no ser posible asegurar grupos de unidades
suficientemente uniformes para los bloques. En tal situación, se dispone de otros
diseños para controlar una mayor proporción de la variación.
Modelo estadístico.
Cuando se decide utilizar un diseño de bloques al azar el experimentador piensa

que cada medición será el resultado del efecto del tratamiento donde se
encuentre, del efecto del bloque al que pertenece y de cierto error que se espera
sea aleatorio. Si actuara otro tipo de efecto o factor adicional a estos tres, dicho
efecto se carga en el error, el cual deja de ser aleatorio y como consecuencia
puede enmascarar el efecto del factor de interés al realizar el ANAVA.
De aquí la importancia de aplicar el principio de bloqueo evitando que otro factor

no contemplado en el experimento afecte los datos del experimento
El modelo es semejante al modelo para Diseño Completamente Aleatorizado

(DCA), la única diferencia es que se le agregado el efecto de los bloques.
Yij =µ + βi +τj +εij
i =1,2,..,n repeticiones
j = 1,2Vk tratamientos.
Yij = Es un valor típico de la población total.
µ = Es la media global de las poblaciones combinadas.
βi = Representa el efecto del bloque, que refleja el hecho de que la unidad

experimental cayó en el i-ésimo bloque
τj = Representa el efecto del tratamiento, que refleja el hecho de que la unida

experimental recibió el j-ésimo tratamiento.
εij = Es un componente residual que representa todas las fuentes de variación

que no sean los tratamientos ni los bloques.
Hipótesis y regla decisión
La afirmación a probar es que las respuestas de media poblacional lograda con

cada tratamiento es la misma para los k tratamientos y que por tanto cada
respuesta media si es igual a la media global poblacional, De otra forma, se
puede afirmar que todos los efectos de tratamiento sobre la variable de respuesta
son nulos, por que cuando el efecto ti:µi-µ=0, entonces necesariamente la
respuesta media del tratamiento es igual a la media global µi=µ.
Teniendo en cuenta que se analizan los tratamientos, sería:
Como hipótesis alterna, se tendría que por lo menos el promedio obtenido por un
tratamiento es diferente a los demás o de otra forma se podría afirmar que por lo
menos el promedio de un tratamiento e diferente al promedio de toda la población.
Como el diseño implica el análisis de un factor más que influye sobre los
resultados de la experimentación, es necesario plantear hipótesis para este factor.
Por lo tanto las hipótesis para los bloques, siendo similares las de tratamientos
serían:
Como regla de decisión se tendría para tratamientos y para bloques.
Si Fc > Ft (α) se rechaza Ho
Si Fc < Ft (α) se rechaza Ha
Análisis de varianza.
1-α
FV GL SC CM FC 0,05 0,01
Tratamientos, t-1 t
yi
2
y 2 ... SCttos CMttos
factor A ∑
i =1 b
−
tb
t −1 CMEE
Bloques, b-1 2 SCbloques CMbloques

t yj y 2 ...
factor B ∑
i =1 t
−
tb
t −1 CMEE
Error (t-1)(b-1) SCT–SCttos– SCEE

SCbloques.
Experimental (n − t )
n-1 r k
y 2 ...
∑∑Yij −
2
i =1 j =1 n
Total
Lección 23: Experimentos factoriales
El experimento factorial puede ilustrarse mediante un ejemplo. Considérese

un experimento para evaluar rendimientos de variedades de pastos. En el caso de
un solo factor, todas las variables diferentes a las variables se mantienen tan
uniformes como sea posible, esto es, se escoge un solo nivel de los otros
factores. Supóngase que también es de interés un segundo factor, distancia
entre surcos. Se puede planear un experimento con dos factores en que los
tratamientos consisten en todas las combinaciones entre las variedades y los
espaciamientos elegidos de los surcos, esto es, cada variedad se encuentra
presente en todos los espaciamientos de surcos. En un experimento de un solo
factor, todas las variedades se sembraran a un solo espaciamiento de un surco,
o una sola variedad en todos los espaciamientos entre surcos. En suelos, puede
diseñarse un experimento para comparar todas las combinaciones de varios
niveles de fertilizante de fósforo y potasio. En un experimento de nutrición animal,
los factores en consideración pueden ser las cantidades y clases de suplementos

de proteínas.
El termino nivel se refiere a los diferentes tratamientos dentro de un factor. Se

deriva de alguno de los primeros experimentos factoriales. Estos trataban de
fertilidad de suelos donde las combinaciones de diferentes cantidades, o niveles,
de los diferentes fertilizantes eran los tratamientos. Hoy esa palabra tiene un
sentido más general, que implica una cantidad o estado dados de un factor. Así,
si se comparan 5 variedades de un cultivo, usando tres diferentes practicas de
manejo, el experimento se llama experimento factorial 5 x 3, con cinco niveles
del factor variedad y tres niveles del factor manejo. El número de factores y niveles
que pueden compararse en un solo experimento solo se limita por consideraciones
prácticas.
Así, un experimento factorial es aquel en el que el conjunto de tratamientos

consiste en todas las combinaciones posibles de los niveles de varios factores. En
la palabra factorial está implicado el concepto de diseño de tratamientos.
Notación y definiciones
Los sistemas de notación que se usan en experimentos factoriales son similares,

pero presentan diferencias suficientes como para que el lector tenga que
comprobar con cuidado cuando utilice nuevas referencias. Se sigue una notación
parecida en muchos aspectos a la sugerida por Yates (1933). Las tres letras
mayúsculas se usan para designar factores,
Arreglos Factoriales
A los diseños completamente aleatorios, bloques completos al azar, cuadrados

latinos, cuadrados grecolatinos, e hipergrecolatinos se pueden utilizar para
estudiar el efecto de un solo factor y eliminar el efecto de otros factores externos.
A un experimento, con la característica anterior, se lo denominamos experimento

unifactorial. Cuando nos interesa estudiar el efecto simultaneo de dos o más
factores, con diferentes niveles, a los cuatro diseños anteriores debemos
agregarle lo que se denomina arreglo factorial o simplemente factorial.
Un investigador interesado en conocer, por ejemplo, el efecto de tres factores que

tienen dos niveles, cada uno, tiene que recurrir a los experimentos
factoriales. Si analizamos varios factores simultáneamente obtenemos mayor
información que si estudiamos los factores en forma individual. Cuando
utilizamos los arreglos factoriales tenemos la oportunidad de analizar las
interacciones entre los factores.
Ventajas de la experimentación factorial cuando los factores son independientes.
Las ventajas de la experimentación factorial dependen naturalmente de la finalidad

del experimento. Supóngase por ahora, que el propósito es investigar los efectos
de cada factor, sobre algún intervalo preasignado que está cubierto por los niveles
de ese factor usados en el experimento. En otras palabras: el objeto es obtener un
cuadro amplio de los efectos de los factores, más bien que encontrar, por ejemplo,
la combinación de los niveles de los factores que dan una respuesta máxima. Un
procedimiento para esto es conducir experimentos separados, cada uno de los
cuales considere un solo factor. Otro procedimiento es incluir todos los factores
simultáneamente por medio de un experimento factorial.
Si todos los factores son independientes en sus efectos, el método factorial

significara un ahorro considerable de tiempo y material dedicado a los
experimentos. El ahorro se deriva de dos hechos: primero como se ha visto,
cuando los factores son independientes todos los efectos simples de un factor son
iguales a su efecto principal, de tal manera que los efectos principales son las
˙nicas cantidades necesarias para describir completamente las consecuencias de
las variaciones en el factor. Segundo, en un experimento factorial cada efecto
principal se estima con la misma precisión que si todo el experimento se
hubiese dedicado a ese solo factor.
Lección 24: Otras Clases de diseños experimentales
Existen otras clases de diseños que sirven de apoyo a la labor investigativa, y su

aplicación está relacionada con situaciones más específicas de investigación. La
bibliografía complementaria amplia las aplicaciones de estos diseños, los cuales
se mencionan de manera bosquejada.
Diseño Cuadrado grecolatino:
Podríamos definir un cuadrado grecolatino como el producto de dos cuadrados

latinos, este tipo de producto da origen a un tipo de investigación entre los
especialistas conocido como teoría de grupos de Galois. La cual después de una
amplia sofisticación, permite extender los factores no homogéneos a los que se
deseen. Esta extensión es muy utilizada en experimentos en genética y se sale de
nuestros objetivos.
El diseño de cuadrado grecolatino, se considera un diseño de agrupamiento

triple, como producto de la superposición de dos cuadrados latinos, se denota
uno con letras griegas y otro con letras latinas, de tal modo que el par
correspondiente que se obtiene, no se repite, ni por fila ni por columna.
Diseño Bloques Incompletos
Existen ciertos experimentos, en particular aquellos que se utilizan en fitogenética,

que tienen muchas líneas. Por tal motivo, es necesario encontrar las más
representativas para cierta zona de estudio. En dichos experimentos se presenta
un alto número de tratamientos y es imposible trabajarlos mediante un diseño de
bloques completos al azar, porque no se podría controlar la variación existente
dentro de cada bloque.
Ya se dijo que cuando existe un gran número de factores y tratamientos se recurre

al principio de confundido para tratar de confundir varias interacciones, al dividir
cada repetición en varios bloques incompletos para disminuir la excesiva
heterogeneidad existente en el suelo debido al alto número de tratamientos, y así
evitar bloques muy grandes.
Diseño Parcelas Divididas
En la lección anterior sobre experimentos factoriales, se suponían que el conjunto

de todas las combinaciones de tratamientos se aplicaba a las unidades
experimentales de acuerdo con el proceso de Aleatorización apropiado para el
diseño completamente aleatorio, de bloque completos aleatorizados o de
cuadrado latino. Pero son posible s otros procesos de Aleatorización. Una de las
aleatorizaciones alternas da lugar al diseño de parcelas divididas, que es una
clase especial de diseño de bloques incompletos. El de parcelas divididas y
algunas de sus aplicaciones es el tema siguiente.
Al aumentar la complejidad de un diseño, disminuyen los grados de libertad del

error. Esto se debe al incremento de las fuentes de variación de los diseños que
repercuten en los grados de libertad del error.
Al usar el diseño de parcela dividida, los decrementos no suceden para la

subparcela o parcela chica, sino que son iguales a medida que aumentan dichos
diseños experimentales. La razón como se menciono previamente es que la
primer aparte del diseño de parcela dividida es el diseño completamente al azar,
bloques al azar o cuadro latino, y la segunda parte es el arreglo factorial, o sea
que la parcela dividida está formada por un arreglo con su respectiva distribución.
Lección 25: Búsqueda de unidades perdidas (Método Yates)
Cuando por efectos ajenos al tratamiento nos encontramos con unidades

experimentales perdidas será necesario calcular estas antes de iniciar el análisis
de datos. El método considera que si falta una observación en la variable
respuesta, entonces se debe:
a) Estimar la información completa.
b) Imputar el dato faltante.
La justificación del procedimiento se basa en dos ventajas:
1. Produce estimaciones correctas vía mínimos cuadrados
2. Se logra una estimación correcta de la suma de cuadrados de los errores.
Existen varias maneras de calcular las observaciones perdidas a través de

promedios, ya sean entre bloques, tratamientos o con el total; sin embargo, estos
procedimientos incrementan en gran forma el error, lo cual resta eficiencia en el
análisis de los datos.
El método de YATES, que se definirá a continuación, es el que menos incrementa

el error al calcular los datos faltantes. De acuerdo con este método, cuando falta
una observación se aplica la formula siguiente:
Cuando falta una observación.
Donde:
x = la observación faltante.
b = número de bloques.
B = suma de las observaciones presentes en el bloque donde falta la observación.
t = número de tratamientos.
T = suma de las observaciones presentes en el tratamiento donde falta la

observación.
G = suma del total de las observaciones presentes en el cuadro de concentración

donde faltan la observación.
Una vez calculado el dato, se sustituye en el cuadro de concentración para

analizar los datos, reduciendo en uno los grados de libertad del error y del total al
efectuar el análisis de varianza.
Cuando son dos las observaciones que faltan, estas pueden ser del mismo
tratamiento, del mismo bloque o de diferente bloque y diferente tratamiento.
Cuando faltan dos observaciones del mismo tratamiento:
En este caso se debe definir si los dos datos corresponden a un solo tratamiento,
a un solo bloque o a un tratamiento y un bloque diferentes. Los datos faltantes se
catalogan como x1 y x2; para lo cual:
Si los datos faltantes corresponden al mismo tratamiento.
Donde:
T12 = Suma de las observaciones presentes en el tratamiento donde falta x1 y x2.
B1 = Suma de las observaciones presentes en el bloque donde falta x1.
B2 = Suma de las observaciones presentes en el bloque donde falta X2.
Si los datos faltantes corresponden al mismo bloque.
Donde:
B12 = total de las observaciones presentes en el bloque donde faltan x1 y x2.
T1 =total de las observaciones presentes en el tratamiento donde falta x1.
T2 = total de las observaciones presentes en el tratamiento donde falta x2

Si los datos faltantes corresponden diferente bloque y diferente tratamiento:
Donde:
En muchas situaciones experimentales, la misma unidad experimental recibe dos

o más tratamientos en periodos diferentes; cuando esto sucede, el diseño
experimental se conoce como crossover, el cual puede estudiarse en Jones &
Kenward (2003).
CAPITULO 6: Análisis estadístico
Lección 26: usos de las comparaciones múltiples de medias
Cuando en el diseño se rechaza la hipótesis nula, parecería innecesario plantear

más preguntas. Sin embargo, considerar solo con el ANAVA el conjunto de
tratamientos en el experimento, hace pensar que ésta es una simplificación
exagerada. Por lo general, el investigador se haría la pregunta ¿dónde están las
diferencias reales?
Tradicionalmente, la técnica frecuente del análisis de los datos, recurre a un

análisis de varianza con su correspondiente prueba de F. sin embargo, por sí
misma la prueba no proporciona diferencia sobre comparaciones específicas entre
los grupos que a menudo son de interés. En la práctica, algunas de las
comparaciones pueden ser planeadas o preespecíficadas (antes de observar los
datos), mientras que otras pueden ser no planeadas o seleccionadas luego de
examinar los datos (seleccionadas post-hoc).
Los diseños permiten comparar la diferencia entre tratamientos a nivel de un

conjunto, sin embargo, en ocasiones es conveniente hacer comparaciones
particulares con el fin de determinar la eficiencia precisa de los diferentes
tratamientos aplicados en un experimento, por tanto, se recurre al método de
comparación múltiple de medias.
Este método se puede efectuar aplicando varias pruebas realizadas por algunos
estadísticos. Se debe buscar la más adecuada para cada uno de los casos. Las
recomendaciones para hacer comparaciones múltiples en pruebas de hipótesis

son las siguientes:
1. Llevar a cabo la prueba F para igualdad de medias (ANAVA).
2. Si el estudio F es significativo al 5%, lleve a cabo las comparaciones

planeadas que quiera, usando la metodología de los contrastes ortogonales o el
método de Diferencia Mínima Significativa. Si se tiene igual número de
repeticiones por tratamiento, puede usarse el método de Duncan.o Tukey.
3. Si el estadístico F para igualdad de medias no es significante, el

experimentador aún podrá considerar las comparaciones planeadas pero deberá
usar el método de t-multivariado o el método de Bonferoni. En este caso no debe
hacerse ningún tipo de selección post-hoc o comparaciones sugeridas de los
resultados. En realidad, dado que la prueba F no es significante para igualdad de
medias, la prueba de comparación múltiple no producirá ninguna diferencia
significativa.
Lección 27: Prueba de Tukey
El procedimiento de Tukey, también llamado HDS de Tukey (Diferencia

Verdaderamente Significativa de Tukey) ó DSH de Tukey (Diferencia significativa
Honesta de Tukey). Este método hace uso de la amplitud “estudentizada” y es
aplicable a pares de medias; necesita de un solo valor para juzgar la significancia
de todas las diferencias y por tanto es fácil y rápido de usar. Ya que solo se hacen
comparaciones por pares, el valor crítico es menor que el exigido por otros
métodos.
Para efectuar la prueba se utiliza la tabla de “puntos porcentuales superiores de

amplitud estudentizada” o de “Tukey”. Con un número de tratamientos y los grados
de libertad del error experimental se obtiene el valor T.
Pasos para aplicar el método Tukey.
1 Para facilitar la comparación de datos es aconsejable ordenar las medias de

forma decreciente.
2. Determinar el número de comparaciones posibles.
a (a − 1)
n°compraciones =
2
3. Calcular el valor teórico común, mediante la aplicación de la siguiente ecuación.
w = T αs x
CMEE
sx =
r
Tά = valor estándar de la tabla teniendo como gl (ttos y (n°datos –ttos), es

decir; en el numerador en número de tratamientos y en el denominador, los grados
de libertad del error experimental.
4. Comparación de las medias:
Diferencia entre medias.

• Si D(diferencia entre medias) >= w la diferencia se debe considerar

significativa
• Si D(diferencia entre medias) < w, la diferencia se debe considerar no
significativa.
COMPARACIÓN DIFERENCIA (D) DECISIÓN TUKEY

RESULTADO
A vs B X1 – X2 = d >, ≥ ó < valor W NS

ó *, **
A vs C X1 – X3 = d >, ≥ ó < valor W
A vs D X1 – X4 = d >, ≥ ó < valor W
B vs C X2 – X3 = d >, ≥ ó < valor W
B vs D X2 – X4 = d >, ≥ ó < valor W
C vs D X3 – X4 = d >, ≥ ó < valor W
En la columna de resultados, NS representa la no diferencia significativa; * indica

que existe diferencia significativa al 95% y ** representa diferencia significativa al
99%
5. Representación de resultados.
a. Cuadro de diferencias de medias.
Promedios X1 X2 X3 X4
X4 0
X3 0
X2 0
X1 0
b. Con líneas.
c. Con letras.
d. con gráficas y letras.
6. Comparación de medias en forma decreciente.
Medias Xn Xn Xn Xn Xn
% relativo % % % % %
El último valor o menor, se toma como 100% y luego se saca por regla de tres el
valor en % para los demás.
Ejemplo. Un zootecnista tiene como estudio comparar la ganancia de peso de

terneros destetos hasta el sacrificio suplementando con diferentes fuentes
nitrogenadas que faciliten la formación de proteína bacteriana.
Como se sabe que entre el destete y sacrificio la edad del animal implica
fisiológicamente cambios en la eficiencia digestiva el zootecnista decide hacer
grupos de animales por edades y poderlos comparar además de los
tratamientos.
Ganancia de peso (g/dia/animal) de terneros Suplementados con NNP, del

destete al sacrificio
EDAD
MESES TESTIGO UREA AMONIACO GALLINAZA
8....12 605 720 740 740
12....16 630 750 760 780
16.....20 650 790 800 815
20....24 670 800 805 832
24......26 615 750 790 790
Estadísticos para la ganancia de peso (g/día/animal) de terneros Suplementados
con NNP de acuerdo a la edad.
EDAD Cuenta Suma Promedio Varianza

8....12 4 2805 701,25 4206,25
12....16 4 2920 730 4600
16.....20 4 3055 763,75 5856,25
20....24 4 3107 776,75 5262,25
24......26 4 2945 736,25 6889,58333
Estadísticos para la ganancia de peso (g/día/animal) de terneros Suplementados
con NNP de acuerdo a los tratamientos
TRATAMIENTOS Cuenta Suma Promedio Varianza

TESTIGO 5 3170 634 692,5
UREA 5 3810 762 1070
AMONIACO 5 3895 779 780
GALLINAZA 5 3957 791,4 1244,8
Análisis de varianza para la ganancia de peso (g/día/animal) de terneros
suplementados con NNP
Grado
s de Suma de Promedio de
Origen de las liberta cuadrado los Probabilida Valor crítico
variaciones d s cuadrados F d para F
39,104502 3,2591600
Edad 4 14069,8 3517,45 5 8,598E-07 5
Tratamiento 26454,533
s 3 79363,6 3 294,10265 1,708E-11 3,4902996
Error 12 1079,4 89,95
Total 19 94512,8
Teniendo en cuenta que se encontró significancia para el factor edad (bloques) y

para el factor tratamientos, se deben hacer las comparaciones múltiples de medias
para los dos factores; pero para ejemplarizar el procedimiento, se tomará
únicamente el efecto de los tratamientos.
Comparación de medias para tratamientos por el método de Tukey.
1. Ordenar los promedios de forma decreciente.
GALLINAZA AMONIACO UREA TESTIGO

791,4 779 762 634
2. Determinar el número de comparaciones posibles.
a (a − 1)
n°compraciones =
2
4(4 − 1)
n°compraciones = =6
2
1. Gallinaza-amoniaco 4.Amonicao-urea 6. Urea-testigo
2. Gallinaza-urea 5.Amoniaco-testigo
3. Gallinaza-testigo
3. Cálculo del valor teórico.

w = T αs x
CMEE
sx =
r
89,95
sx =
5
sx = 4,24 w = T α sx T0,05 = 3,80
w = (3,80)(4,24)
w = 16,11
4. Comparación de las medias.
COMPARACION DIFERENCIA DECISION W RESULTADO

Gallinaza-amoniaco 12,4 < 16,11 NS
Gallinaza-urea 29,4 > 16,11 *
Gallinaza-testigo 157,4 > 16,11 *
Amoniaco-urea 17 > 16,11 *
Amoniaco-testigo 145 > 16,11 *
Urea-testigo 128 > 16,11 *
5. Representación de resultados.
a. Cuadro de diferencias de medias.
Promedios Gallinaza Amoniaco Urea Testigo

Gallinaza 0
Amoniaco 12,4 NS 0
Urea 29,7* 17* 0
Testigo 157,4* 145* 128* 0
b. Con líneas.
Gallinaza Amoniaco Urea Testigo
791,4 779 762 634
c. Con letras.
Gallinaza Amoniaco Urea Testigo

791,4 779 762 634
a b c d
d. Con gráficas y letras.
900
791,4 a 779 a
800 762 b
700 634 c
600
500
400
300
200
100
0
GALLINAZA AMONIACO UREA TESTIGO
6. Comparación de medias en forma decreciente.
Gallinaza Amoníaco Urea Testigo

791,4 779 762 634
124,82% 122,87% 120,19% 100%
Lección 28: Prueba de rango múltiple de Duncan
La prueba de Amplitudes Múltiples de Duncan es la más popular por su sencillez

y aunque no es muy rigurosa, utiliza ciertos niveles de protección para las
comparaciones entre las medias de los tratamientos que están más alejados entre
sí, una vez que se han ordenado por la magnitud de sus medias. De esta manera
se busca obviar las diferencias en cuanto a nivel de significación que pueden
existir al comparar los promedios que están alejados. Sin embargo, la solución al
problema es solo parcial y algunos autores prefieren recomendar pruebas más
rigurosas como la de Tukey o la de Sceffe.
A continuación se describen los pasos a seguir para efectuar la prueba, utilizando

las tablas de Amplitudes Estudiantizadas Significativas o tablas de Duncan
1. Calcular el error estándar de los promedios.
CME
Sx =
r
2. Con los grados de libertad del error se consultan las tablas de Amplitudes
Estudiantizadas Significativas de Duncan ó A.E.S. escogiendo el nivel de
significancia deseado (α = 0,05 ó 0,01) y se buscan los valores de hilera
correspondiente hasta un "p" (grado de separación entre los promedios que se
comparan) igual al número de tratamientos.
P2: tDuncan, P3: tDuncan, P4: tDuncan, V Pn: tDuncan,
Estos valores son multiplicados por el error estándar de los promedios S x con el
fin de obtener los valores de amplitudes límites de significación de Duncan ó
A.L.S.; tal como se presenta en la siguiente tabla.
Valores de A,E.S. y A.L.S. para efectuar la prueba de Duncan.
Valores de P. 2 3 4
A.E.S. tDuncan tDuncan tDuncan
A.L.S. = A.E.S x S x Duncan Duncan Duncan
3. Se organizan en orden creciente los promedios de los tratamientos, tal como se

indica a continuación:
4. Se efectúan las comparaciones en el siguiente orden: el promedio más bajo

con los que están a su derecha, luego el siguiente promedio con los que están a
su derecha y así sucesivamente. En cada comparación de promedios se evalúa si
la diferencia (D) entre el par de promedios supera al A.L.S. correspondiente. Si la
diferencia D > A.L.S., entonces se concluye que los promedios difieren
significativamente. Si D < A.L.S., la diferencia no es significativa.
En cada comparación el A.L.S. escogido tiene en cuenta la ubicación de los

promedios en el arreglo ordenado, así:
A.L.S. con P = 2: Cuando los promedios que se comparan son

consecutivos. Por ejemplo A vs B, B vs C, C vs D.
A.L.S. con P = 3. Cuando entre los promedios que se comparan hay un

tratamiento de por medio. Por ejemplo A vs C, B vs D.
A.L.S. con P = 4. Cuando entre los promedios que se comparan existen

dos tratamientos de promedio. Por ejemplo A vs D.
y así sucesivamente.
A continuación se indica el detalle de la prueba para el ejemplo

planteado:
COMPARACIÓN DIFERENCIA (D) DESICIÓN A.L.S. RESULTADO
A vs B X1 – X2 = d >, ≥ ó < valor DUNCAN NS

ó *, **
A vs C X1 – X3 = d >, ≥ ó < valor DUNCAN
A vs D X1 – X4 = d >, ≥ ó < valor DUNCAN
B vs C X2 – X3 = d >, ≥ ó < valor DUNCAN
B vs D X2 – X4 = d >, ≥ ó < valor DUNCAN
C vs D X3 – X4 = d >, ≥ ó < valor DUNCAN
Para indicar todas las comparaciones entre los promedios se puede utilizar una
notación resumida a base de líneas o letras, así:
a. Utilizando líneas. Los promedios ordenados por magnitud se subrayan con

líneas así: Los promedios que no sean significativamente diferentes se subrayan
con una línea común; los promedios que difieren no aparecen unidos. Para el
ejemplo anterior, la notación queda en la siguiente forma:
Tratamientos
A B C D V
Promedios prom 1. prom 2. prom 3. prom 4. V
_________________________
De acuerdo con la prueba de Duncan el tratamiento D, es diferente a los

tratamientos restantes. Entre los tratamientos A, B, C no se encontró
diferencia significativa.
b. Utilizando letras. En este caso, los promedios que no difieren significativamente
aparecen con una letra en común. Los promedios que difieren significativamente
no tienen letras en común. Así:
A B C D
x. prom 1. Prom 2. prom 3. prom
4.
a a A b
El uso de letras para resumir las comparaciones tiene la ventaja de que los
tratamientos pueden presentarse en el orden que interese al investigador, en
cambio para "la notación con líneas se requiere ordenar los promedios por
magnitud.
C. cuadro de diferencias de medias.
Promedios X1 X2 X3 X4
X4 0
X3 0
X2 0
X1 0
Comparación de medias en forma decreciente.
Medias Xn Xn Xn Xn Xn
% relativo % % % % %
• El último valor o menor, se toma como 100% y luego se saca por

regla de tres el valor en % para los demás.
Para ilustrar más detalladamente estos sistemas de notación consideremos el
siguiente ejemplo: Al estudiar comparativamente 7 tratamientos bajo un D.C.A.
con replicaciones se obtuvo los siguientes promedios:
TRATAMIENTOS
A B C D E F G
75,18 63,75 60,18 64,18 92,1 67,68 80,0
Los valores de A.L.S. obtenidos en la prueba de Duncan con α= 0.05
fueron:
P 2 3 4 5 6 7
A.L.S. 10.63 11.17 11.49 11.71 11.88 11.99
Utilizando el sistema de líneas con los promedios ordenados por magnitud se

obtiene:
C B D F A G E
60.18 63.75 64.18 67.68 75.18 80.0 92.1
______________________
_________
_________
Puede observarse que el tratamiento E supera a los restantes en forma

significativa. El tratamiento G supera a los tratamientos F, D, B, e, pero no al
tratamiento A. A su vez A supera a D, B, y C pero no a F. Finalmente no se
encuentra diferencia significativa entre C, B, D, y F.
Utilizando el sistema de letras, la prueba queda en la siguiente forma:
C B D F A G E
60.18 63.75 64.18 67.68 75.18 80.0 92.1
A a a ab bc c d
Lección 29: Análisis de regresión y Correlación
El análisis de regresión, trata de establecer la naturaleza de la relación entre

variables es decir, estudiar la relación funcional entre las variables y, por tanto,
proporcionar un mecanismo de predicción, o pronostico. El segundo, análisis de
correlación, tiene como objetivo determinar el grado de relación entre variables.
El análisis de regresión y correlación es el estudio de la relación entre varias

variables. El conocimiento de esta relación nos permite pronosticar el
comportamiento de un evento cuando sospechamos que está siendo afectado por
otro u otros eventos.
El análisis de regresión consiste en generar un modelo o ecuación que nos

permita pronosticar, aproximadamente, el valor de la variable dependiente Y a
través de valores conocidos de X.
TIPOS DE REGRESIÓN:
Graficas:
Regresión lineal: Es un modelo matemático mediante el cual es posible inferir

datos acerca de una población. Se conoce como regresión lineal ya que usa
parámetros lineales. Sirve para poner en evidencia las relaciones que existen
entre diversas variables.
Característica:
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos
parámetros.
Determina la relación de dependencia que tiene una variable respecto a otra.
Ecuación: y = a + bx
Donde:
y = valor esperado
a = intercepto entre la línea proyectada en el eje y
b = pendiente de la línea proyectada

x = cualquier valor sobre el eje x
Grafica:
En la regresión lineal interesa cuantificar la intensidad de la relación entre dos

variables (dependiente e independiente). El parámetro que nos da tal
cuantificación es el coeficiente de correlación lineal o coeficiente de de correlación
de Pearson, cuyo valor oscila entre -1 y 1.
Como se observa en los diagramas anteriores, el valor de r se aproxima a +1

cuando la correlación tiende a ser lineal directa mayores valores de (X implican
mayores valores de Y) y se aproxima a -1 cuando la relación tiende a ser inversa.
Esquema de interpretación de correlaciones.
Coeficiente de correlación. Es el grado de asociación entre las variables. Se

simboliza con la letra griega p (rho), para el parámetro, y "r" para el estimador.
El coeficiente de correlación varia entre -1 y 1; en símbolos: -1< r S 1. Valores muy

cercanos a -1 y 1 indican un alto grado de asociación entre las variables, por el
contrario, valores cercanos a cero. Se interpretan como un bajo grado de relación
entre las variables.
Observamos entonces que hay coeficientes negativos y positivos. Un coeficiente

de correlación negativo significa que la relación entre las variables es inversa; esto
quiere decir que al incrementarse la variable x", se produce una disminución de
"y"; por otra parte, una correlación positiva, significa una relación directa: un
incremento de "x" produce un crecimiento en los valores de "y"
Coeficiente de Determinación (r2). Se calcula elevando al cuadrado el

coeficiente de correlación,
Por ejemplo si el coeficiente de correlación calculado es de 0.965, el coeficiente de

determinación es = 0.965)2 = 0.9312.
Esto significa que el 93.12% de las variaciones en la variable dependiente son

debidas a cambios en la variable independiente, y el resto 6.88% son cambios
debidos a errores de muestreo, o mediciones mal hechas.
Lección 30: Análisis de varianza para la regresión
El análisis de varianza nos permite conocer las diferencias, si las hay, entre dos o
más tratamientos y así estaremos en capacidad de seleccionar la mejor
metodología bajo estudio. Si no hay diferencia entre los tratamientos la técnica
estatifica nos está indicando que es indiferente utilizar cualquiera de ellos.
Ejemplo: se tienen el Peso promedio X y consumo de alimento Y de 50

gallinas provenientes de 10 razas White leghorn Periodo 350 días
Peso del Consumo de

Cuerpo Alimento
X X¥ = X- 4.0 Y Y¥ = Y- 80
4.6 0.6 87.1 7.1

5.1 1.1 93.1 13.1
4.8 0.8 89.8 9.8
4.4 0.4 91.4 11.4
5.9 1.9 99.5 19.5
4.7 0.7 92.1 12.1
5.1 1.1 95.5 15.5
5.2 1.2 99.3 19.3
4.9 0.9 93.4 13.4
5.1 1.1 94.4 14.4
Σ (X- X)2 = 1.536 Σ (Y- Y)2

=135.604
Cada una con 9 gl
Fuente: Steel Y Torrie,

1990)
Vemos que hay una relación bastante definida entre las dos variables. Como
observamos antes, de los datos de la tabla 6.1 podemos obtener diagrama de
dispersión, recta de mínimos cuadrados, coeficientes de regresión, e
determinación, y también realizar una análisis de varianza a la regresión.
Para Nuestro caso la recta de regresión, de mejor ajuste o de mínimos

cuadrados para el ejemplo anterior es: Y= 55.26 +7.69 X, que significa que para
aumentar una libra de peso, el consumo de alimento debe ser de 7.69 libras de
alimento.
Las fuentes de variación que afectan una variable no siempre son controlables
mediante un plan experimental. Cuando el plan no puede efectuar el control, es
posible medir algunas características de la fuente de variación. Por ejemplo, la
cantidad de alimento consumido por las gallinas es una variable de importancia
económica. Sería de esperar que se viera afectada por otras variables
medibles, tales como el peso del cuerpo y el número y peso de los huevos
puestos. Para los datos de la tabla anterior, el peso del cuerpo fácilmente
explica la mayor variabilidad en el alimento consumido. La importancia
económica es obvia.
Ahora usamos la tabla anterior para ilustrar el control estadístico de una fuente de
variabilidad mediante el uso de una observación concomitante. La
desviación estándar de Y antes de la variación en X es √Σ(Y-Y)2 /(n-1)
=√135.604/9 =3.88 lbs. Hemos visto que luego de ajustarla es Sy.x = 2.37 lbs.
La parte de la suma de cuadrados de Y atribuible a la variación en X la da la

ecuación siguiente:
Reducción en SC = SC (regresión = SC (Y/X) = [Σ (X - X) (Y-Y)]2 =

(11.812)2
Σ (X-X)2 1.536
= 90.386
Para nuestro ejemplo, tiene un grado de libertad. También podemos observar que
la proporción de la suma de cuadrados de Y atribuible a la variación en Y es
[Σ (X ñ X) (Y- Y)]2 / Σ (X ñ X)2 = 90.386 = 0.67 (o 67 por

ciento)
Σ (Y ñ Y)2 135.604
La suma de cuadrados de Y reducida o residual se encuentra por diferencia y

tiene n-2 grados de libertad.
SC (residual para Y) = 135.604 ñ 90.836 = 44.768 con 8 grados de libertad.
A continuación se presenta la tabla de análisis de varianza de los datos de las

gallinas.
Análisis de varianza para la regresión:
Fuente gl Sc simbólica Ejemplo

gl Sc CM F X
1[(∑X−X)(Y−Y)] /Σ(X−X)
2 2 1 90.836 90.836 16.22**
Residual n−2 por sustracción 8 44.768 5.60
Total n−1 ∑(Y−Y)2 9 135.604

FUENTES BIBLIOGRAFICAS
American Association for the Advancement of Science. La naturaleza de la

ciencia.
http://www.project2061.org/esp/publications/sfaa/online/chap1.htm. Accesado
Junio 2005.
Box, G.E.P., Hunter, W.G.S., y Hunter, J.S. 1993. Estadística para investigadores:
Introducción al diseño de experimentos, análisis de datos y construcción de
modelos. Edit. Reverte, España. 422 p.
Bunge, M. La ciencia, su método, y su filosofía. Ediciones Siglo XX. Buenos Aires.

1972.
Cabria, S. (1994). Filosofía de la estadística. Servicio de Publicaciones de la

Universidad de Valencia
Chou, Ya-Lun. An•lisis estadÌstico. Edit. Mc Graw Hill, MÈxico. 1992. 808 p.
Clarke, G and Kempson, R. E. 1997. Introduction to the design and analysis of

experiments, Arnod, London.
Cliford, G.J. A history of the impact of research on teaching. In R. M.W. Travers

(Ed), Second handbook of research on teaching. Chicago: Rand Mc nally,1973, pp
1-46.
Cooper H, Hedges LV. The Handbook of Research Synthesis. New York:

Russell Sage Foundation, 1993.
Collins, C. Statistical Experiment Design and interpretation. An introduction

with agricultural examples. Wiley& Sons, New York, 1999
Cochran, W.G. y , y G.M. Cox. Diseños Experimentales, Ed. Trillas, México,1989.

661 p.
Dean, A and S. Voss, D. Design and Analysis of experiments. Springer Editors,

new York, 1999.
De La Loma, J.L. Experimentación Agrícola, 2 ed. Uteha, México. 1966. 493 p.

Dixon ,J.W. y Massey, F.J. Introducción al análisis estadístico. Edit. McGraw

Hill.1965. 489 p.
Domínguez, C. D. Diseño Experimental para Zootecnistas

UNAD, Ediformas.2001.127 p.
Gómez, H. Estadística Experimental Aplicada a las Ciencias Agrícolas.

Universidad Nacional de Colombia, Medellín, Colombia. 1997. 571 p.
Guenther, W.C. Introducción a la inferencia estadística. Edit. McGraw Hill.

1977. 357 p.
Infante, S. G, y Zarate de Lara, G.P. Métodos Estadísticos: Un Enfoque

Interdisciplinario. Edit. Trillas, México, México. 1984. 643 p.
Kuehl, R. O.2001. Diseño de Experimentos: Principios estadísticos de diseño y

Análisis de investigación Thompson Learning, México.
Lastra, O. J. Estadística al alcance de todos: Un dialogo autodidacta. Orlastra

Bogotá D.C. 2004. 486 p.
Little, M. T. y Jackson, F.H. Métodos Estadísticos Aplicados a la Investigación en

Agricultura. Ed. Trillas, Mexico.1976. 270 p.
Martínez, B. C. Estadística. Ecoe, Bogotá- 1992. 774 p.
Martínez, G. A. Diseños experimentales: Métodos y Elementos de teoría. Ed.

Trillas, MÈxico.1988. 756 p.
Martínez, B. R., y Martínez, B. N. Diseño de experimentos: Análisis de datos

estándar y no estándar. Editora Guadalupe. Fondo Nacional Universitario.
Universidad Nacional de Colombia. Bogotá D.C. 1997. 479 p.
Montgomery, D.C. 2002. Diseño y análisis de experimentos. Edit. Limusa,

México. 686 p.
Moore, D. S. (1992). Teaching statistics as a respectable subject. In F. Gordon &

S. Gordon (Eds.), Statistics for the twenty-first century (pp. 14-25).
Washington, DC: Mathematical Association of America.
Morris, T.R. Experimental Design and Analysis in Animal Sciences. Cabi

Publishing, Reading, UK.1999. 208 p.
Munch, L. y Ángeles, E. Métodos y Técnicas de Investigación. Ed. Trillas,

Mexico.1993. 166 p.
Reyes, C. P. Bioestadística Aplicada: Agronomía, Biología, Química. Edit.

Trillas, México. 1995. 216 p.
Reyes, C. P. Diseño de Experimentos Aplicados. Ed.Trillas, México. 1989. 348

p.
Rodríguez Del ángel, J. Métodos de Investigación Pecuaria. Ed. Trillas,

México, 1990. 208 p.
Steel. G. D. R. y Torrie, H. J. Bioestadística: Principios y Procedimientos. Ed.

McGraw Hill, México. 1990. 622 p.
Susan J.M. Estadística para Biología y Ciencias de la Salud. McGraw-Hill

Interamericana.2001. 592 p.
Tamayo, T. M. El Proceso de La Investigación científica. Ed. Limusa, México.

1993. 161p.
Tamayo, T. M. Diccionario de la Investigación Científica, edit. Blanco. Bogotá

D.C. 1984.
Towsend, J. C. (1993). Introduction to Experimental Method.. New York: Mc Graw

Hill.
Wayne, W. D. Bioestadística: Base para el análisis de las ciencias de la salud.

Edit. Limusa, México. 1990. 667p.

Modulo Biometria PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modulo Biometria PDF

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD

Escuela de Ciencias Agrícolas, Pecuarias y del Medio Ambiente

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

203018 – BIOMETRIA Y DISEÑO DE EXPERIMENTOS

JOHN ALEXANDER MORENO SANDOVAL

LILIANA VALENCIA TRUJILLO

ALBERTO CASTELLANOS RIVEROS

LECCIÓN 19: MODELO ESTADÍSTICO ..................................................................... 114

ASPECTOS DE PROPIEDAD INTELECTUAL Y VERSIONAMIENTO

El contenido didáctico del curso académico: BIOMETRIA Y DISEÑO DE

La siguiente corrección la realiza Liliana Valencia, Zootecnista magister en

Posteriormente en el año 2010 el curso es retomado por el docente Alberto

Por lo anterior, las profesiones relacionadas con el campo como Zootecnistas,

Este modulo, pretende de forma resumida y con algunos ejemplos aplicados

La unidad de Bioestadística comprende desde los conceptos fundamentales, el

La segunda unidad de Diseño Experimental, muestra en sus capítulos los diseños

Nombre de la Unidad BIOMETRIA

Denominación de Lección 2 usos e importancia de la biometría en el

Denominación de Lección 3 Método Científico

Denominación de Lección 4 Conceptos

Denominación de Lección 5 Investigación científica

Denominación de capítulo 2 Estadística Descriptiva

Denominación de Lección 7 Distribución de Frecuencias

Denominación de Lección 8 Gráficas

Denominación de Lección 9 Distribución estándar

Denominación de Lección 10 Muestreo

Denominación de capítulo 3 Inferencia estadística

Denominación de Lección 12 Pruebas de hipótesis

Denominación de Lección 13 Comparación de dos medias muestrales

denominación de lección 14 Análisis de varianza

denominación de lección 15 Análisis de Covarianza

Nombre de la Unidad DISEÑO DE EXPERIMENTOS

dependen de la ciencia como tal y no por la

Denominación de Lección 16 El experimento y sus elementos

Denominación de Lección 17 La replicación

Denominación de Lección 18 La aleatorización

Denominación de Lección 19 Modelo estadístico

Denominación de Lección 20 Transformación de datos

Denominación de capítulo 5 Clases de Diseños experimentales

Denominación de Lección 22 Diseño en Bloques Completos al azar

Denominación de Lección 23 Experimentos factoriales

Denominación de Lección 24 Otras Clases de diseños experimentales

Denominación de Lección 25 Búsqueda de unidades perdidas (Método Yates)

Denominación de capítulo 6 Análisis estadístico

Denominación de Lección 27 Prueba de Tukey

Denominación de Lección 28 Prueba de rango múltiple de Duncan

Denominación de Lección 29 Análisis de regresión y Correlación

Denominación de Lección 30 Análisis de varianza para la regresión

CAPITULO 1: La Bioestadística en la investigación pecuaria

Lección 1: Historia de la bioestadística

La Estadística como disciplina tuvo su inicio en Alemania a mediados del siglo

En América precolombina se había desarrollado notablemente la estadística,

La palabra Estadística para algunos proviene de la palabra Status, cuyo

En los tiempos modernos, donde la Estadística tiene funciones importantes dentro

importancia, influencia, relación o diferencia, etc y que permiten conocer o tomar

Charles Darwin (1809-1882), siendo un biólogo, dio gran importancia a la

De esta forma la BIOESTADÍSTICA o BIOMETRÍA (medición de variables

Lección 2: usos e importancia de la biometría en el sector agropecuario

La bioestadística es una herramienta que le sirve a todo profesional que tenga

Es frecuente escuchar el argumento que la estadística es un “sofisma de

Lección 3: Método Científico

Permite recolectar las observaciones mediante registros que se ordenan,

El proceso de elaboración estadística se puede dividir en seis fases: (Martínez,