Professional Documents
Culture Documents
La validez de los instrumentos de medicin tiene que ver con lo que miden y
con qu tan bien lo hacen; nos indican qu se puede inferir a partir de sus
resultados. A este respecto, debe tenerse el cuidado de no aceptar el nombre
la prueba o el test como indicador de lo que mide, pues aunque son ttulos
cortos, convenientes para propsitos de identificacin, casi todos son
demasiado generales y vagos para indicar el rea que cubren; no obstante,
cada vez son mayores los esfuerzos por utilizar nombres ms especficos y que
puedan definirse de manera emprica. El rasgo medido por determinada prueba
slo puede definirse mediante el examen de las fuentes objetivas de
informacin y las operaciones empricas utilizadas para establecer su validez.
Ms an, la validez no puede expresarse en trminos generales, no es posible
decir en abstracto que es alta o baja, sino que hay que referirse al uso
particular para el que se planea utilizar el instrumento.
En principio, todos los procedimientos utilizados para determinar la validez se
interesan en las relaciones entre la ejecucin en las pruebas y otros factores
observados independientemente de las caractersticas de la conducta
considerada. Para investigar estas relaciones se han empleado distintos
mtodos, cuyos nombres tradicionalmente se han concentrado en aspectos de
la validez que son importantes para distintos uso de la prueba. En la medida en
que se han desarrollado y expandido las aplicaciones de los instrumentos,
tambin se han modificado los conceptos de validez (Anastasi, 1986a; Messick,
1988, 1989)
EVOLUCION DE LOS CONCEPTOS DE VALIDEZ DE LAS PRUEBAS
Uno de los primeros usos de las pruebas fue la evaluacin de lo que los
individuos haban aprendido en determinadas reas de contenido. En la
actualidad, se aplican a los exmenes escolares de fin de cursos y las pruebas
presentadas para obtener la licencia de manejo o para desempear ciertas
ocupaciones. En general, para evaluar esta categora de pruebas se compara
su contenido con el del rea que pretenden probar. La aproximacin descriptiva
sigue siendo importante en la validacin de los instrumentos para algunas
aplicaciones, la veremos en otra seccin de este captulo.
Cuando la examinacin pas a su segunda etapa, el nfasis cambi a la
prediccin, cmo respondern diferentes personas a una situacin dada,
ahora o en algn momento futuro?, cmo reaccionar este individuo en
diferentes situaciones especficas? Se design como criterio al desempeo en
la situacin para la cual se pretende predecir la conducta. En este caso, la
validez del instrumento generalmente se informa como el coeficiente de
correlacin entre los resultados del test y una medida de criterio directa e
independiente. Este proceso es en especial apropiado para el uso de las
pruebas en la seleccin o colocacin de individuos en programas educativos,
empleos o programas particulares de tratamiento. De este modo, para una
Validez de facie.
La validez de contenido no debe confundirse con la validez
de facie (conocida tambin como validez aparente). Esta ltima no es validez
en el sentido tcnico, es decir, no se refiere a lo que la prueba verdaderamente
mide, sino a lo que parece medir. La validez de facie alude a si la prueba
parece vlida a los examinados que la presentan, al personal administrativo
que decide sobre su uso y a otros observadores sin capacitacin tcnica. En
esencia, la cuestin de la validez de facie tiene que ver con el rapport y las
relaciones pblicas. Aunque el uso comn del trmino validez a este respecto
puede resultar confuso, la validez de facie es en s misma un rasgo deseable de
los instrumentos; as, cuando las pruebas originalmente diseadas para nios
y formuladas dentro de las aulas empezaron a extender su uso a los adultos,
fue comn que enfrentaran crticas y resistencia por carecer de validez de
facie. Es indudable que si el contenido de la prueba parece irrelevante,
inapropiado, tonto o infantil, el resultado sea una pobre cooperacin,
cualquiera que sea su verdadera validez. En particular en la evaluacin de
adultos, para que una prueba funcione no basta con que sea objetivamente
vlida, tambin debe parecerlo. La validez de facie tambin influye en la
aceptacin de la prueba en decisiones legislativas y judiciales, as como en el
juicio que de ella haga el pblico en general.
En un innovador programa de investigacin sobre el punto de vista del
examinado (citado en el captulo 1), Baruch Nevo y sus asociados incluyeron la
investigacin de la validez de facie (B. Nevo, 1985, 1992; B. Nevo y Sfez,
1985). Al principio les llam la atencin observar que, a pesar de su probable
contribucin a las actitudes prevaleciente hacia las pruebas, eran muy pocas
las investigaciones sobre la validez de facie. Propusieron luego una evaluacin
cuantitativa de la validez aparente al hacer que examinados y otros
interesados sin conocimiento psicomtrico calificaran la conveniencia de cierta
prueba para determinado uso; los mismos procedimientos pueden emplearse
para calificar reactivos de una sola prueba o una batera. A este respecto
resultan ilustrativos los datos obtenidos al analizar las repuestas de 1.385
estudiantes israeles a un cuestionario de retroalimentacin de examinados
aplicado despus de un examen de admisin en la universidad compuesto por
ser pruebas. Los resultados mostraron un prometedor acuerdo entre
calificadores, confiabilidad en el retest y diferenciacin entre pruebas y entre
subgrupos de aspirantes que planeaban especializarse en distintas reas. Se
recomend que los manuales incluyeran regularmente datos cualitativos y
cuantitativos sobre la validez de facie.
La validez de facie o aparente a menudo puede mejorarse mediante el simple
recurso de replantear los reactivos de modo que parezcan relevantes y
plausibles en el medio particular en el que sern usados; por ejemplo, si se
construye una prueba simple de razonamiento aritmtico para aplicarla a
maquinistas, los reactivos deben plantearse en trminos de operaciones con
las mquinas y no de cuantas naranjas pueden comprarse con X pesos u
que se emplean para diagnosticar el estado actual ms que para predecir los
resultados futuros. La diferencia puede ilustrarse al preguntar califica Ortega
como un buen piloto? o posee Ortega los requisitos para convertirse en un
buen piloto?. La primera pregunta requiere de validacin concurrente; la
segunda, de validacin predictiva.
Como el criterio para la validacin concurrente siempre est disponible en el
momento de aplicar el examen, podra cuestionarse qu funcin cumple la
prueba en esas situaciones. Bsicamente, los instrumentos proporcionan un
sustituto ms simple, rpido y menos costoso para los datos del criterio; por
ejemplo, si el criterio consiste en la observacin continua de un paciente
durante dos semanas de hospitalizacin, una prueba que pueda distinguir a los
casos normales de los casos perturbados o dudosos reducira notablemente el
nmero de personas que requieren tan prolongada observacin.
Contaminacin del criterio. Una precaucin esencial al encontrar la validez
de una prueba consiste en asegurar que sus propios resultados no influyan en
la condicin del criterio de cualquier individuo; por ejemplo, si un maestro o el
supervisor de una planta industrial saben que determinado individuo obtuvo un
psimo resultado en un test de aptitud, ese conocimiento puede influir en la
calificacin que otorguen al estudiante o en la clasificacin que asignen al
trabajador; en contraste, quien obtuvo una puntuacin elevada puede recibir el
beneficio de la duda cuando se preparan sus calificaciones acadmicas o
clasificaciones laborales. Es evidente que estas influencias elevarn la
correlacin entre los resultados obtenidos en la prueba y el criterio de una
manera por completo espuria o artificial.
Esta posible fuente de error en la validacin de la prueba se conoce como
contaminacin del criterio, ya que las calificaciones del criterio quedan
contaminadas por el conocimiento que el calificador tiene de los resultados
del instrumento. Para evitar este error es absolutamente esencial que ninguna
de las personas que participan en la asignacin de las calificaciones del criterio
tenga conocimiento alguno de los resultados obtenidos por los examinados en
la prueba. Es por ello que los resultados que se emplean para evaluarla deben
mantenerse estrictamente confidenciales. En ocasiones resulta difcil
convencer a los maestros, empleadores, oficiales del ejrcito, etc., de que esa
precaucin es esencial. En su prisa por utilizar toda la informacin disponible
para tomar decisiones prcticas, pueden no percatarse de que los resultados
deben dejarse a un lado hasta que los datos del criterio maduren y pueda
supervisarse la validez.
Medidas de criterio.
Una prueba puede validarse si se la compara con
tantos criterios como usos especficos existan para ella. Cualquier mtodo
utilizado para evaluar la conducta en cualquier situacin puede brindar una
medida de criterio para algn propsito particular; sin embargo, los criterios
empleados para encontrar las distintas clases de validez que se informan en
los manuales caen en unas cuantas categoras comunes. Entre los criterios ms
otros que generalmente son conocidos por ostentar puntos de vista distintos
sobre ciertos temas.
En la validacin emprica de las pruebas referidas a dominio, adems de los
procedimientos comunes de validacin de contenido, se han utilizado varias
adaptaciones del mtodo de grupos contrastados (Hambleton, 1984b). Con
este propsito se compara el desempeo en la prueba de grupos que difieren
en el nivel de educacin relevante. Si se emplea una calificacin de habilidad
puede hacerse un anlisis 2x2, que compara la proporcin de resultados de
xitos y fracaso antes y despus de la instruccin (Panell y Laabs, 1979). Puede
hacerse comparaciones similares si la prueba se aplica a escolares de un grado
inferior y uno superior al grado en el que se ensea el concepto o la habilidad
particular que evala la prueba. Si se dispone de los resultados despus de
diferentes perodos de educacin, se encontrar la correlacin entre el
desempeo real y la cantidad de instruccin.
En el desarrollo de ciertos tests de personalidad, el diagnstico psiquitrico se
utiliza como base para la seleccin de reactivos y como evidencia de la validez
del instrumento. El diagnstico psiquitrico puede ser un criterio satisfactorio
siempre que se funde en la observacin prolongada y la historia de caso
detallada ms que en una entrevista o un examen psiquitrico superficial. En el
ltimo de los casos, no hay razn para esperar que el diagnstico psiquitrico
se utiliza como base para la seleccin de reactivos y como evidencia de la
validez del instrumento. El diagnstico psiquitrico puede ser un criterio
satisfactorio siempre que se funde en la observacin prolongada y la historia
de caso detallada ms que en una entrevista o un examen psiquitrico
superficial. En el ltimo de los casos, no hay razn para esperar que el
diagnstico psiquitrico sea superior al resultado de la prueba como indicador
de la condicin emocional del individuo. No debe considerarse al diagnstico
psiquitrico como medida de criterio, sino como un indicador o predictor cuya
propia validez tiene que ser determinada.
Ya hablamos, en relacin con otras categoras de criterios, de las valoraciones
de los maestros, instructores de cursos especializados y supervisores laborales.
A stas pueden agregarse las opiniones oficiales en situaciones militares, las
calificaciones que los consejeros escolares dan a los estudiantes y las
valoraciones de los compaeros de trabajo, de la escuela, del club, etc. Las
apreciaciones o calificaciones que hemos visto representan simplemente una
tcnica complementaria para obtener informacin respecto a criterios como el
rendimiento acadmico, el desempeo en la capacitacin especializada o el
xito en el trabajo. Ahora, se est considerando su uso como el ncleo de la
medida de criterio; en tales circunstancias, son las propias valoraciones o
calificaciones las que definen el criterio. Ms an, dichas calificaciones no se
limitan a la evaluacin de un aprovechamiento especfico, sino que incluyen el
juicio personal de un observador en relacin con cualquier rasgo que las
pruebas psicolgicas pretenden medir. As, los participantes en la muestra de
incluso cuando las funciones del puesto en particular parecan ser muy
distintas entre los puestos. Evidentemente, el desempeo exitoso de una
amplia variedad de tareas ocupacionales depende en un grado sustancial de
un ncleo comn de habilidades cognoscitivas. Las pruebas incluidas en esos
estudios cubran principalmente la clase de contenido y habilidades
muestreadas en las pruebas tradicionales de inteligencia y de aptitud
acadmica. Parecera que este grupo de conocimientos y habilidades
cognoscitivas es un buen predictor del desempeo en las actividades
acadmicas y ocupacionales requeridas en las sociedades tecnolgicamente
avanzadas; no obstante, en general pueden tomarse decisiones de seleccin
ms precisas al considerar los resultados obtenidos en dos o tres grupos
cognoscitivos amplios, de preferencia complementados con las medidas d las
habilidades tcnicas especficas para trabajos particulares (Hartigan y Wigdor,
1989; L. L. Wise, McHenry y Campbell, 1990; Zieidner y Johnson, 1991).
Meta anlisis. Los procedimientos estadsticos empleados para investigar la
generalizacin de la validez permiten integrar los descubrimientos de
diferentes estudios. Estos procedimientos hacen posible combinar los datos de
investigaciones realizadas en momentos o en lugares diferentes, o de
informaciones publicadas en distintos estudios. Tales procedimientos,
inicialmente designados como meta-anlisis, empezaron a usarse en la
investigacin psicolgica durante los setenta (Glass, 1976; Schmidt y Hunter,
1977), aunque en otras ciencias han estado en uso durante varias dcadas
(Hartigan y Wigdor, 1989, captulo 6). En la psicologa, el meta-anlisis ha
recibido cada vez mayor atencin como sustituto de la revisin tradicional de la
bibliografa (Lipsey y Wilson, 1993; Schmidt, 1992). Por lo comn, estas
revisiones sealaban el nmero de estudios que encontraron efectos
estadsticamente significativos en, por ejemplo, las diferencias entre las
medias de los grupos experimental y de control o las correlaciones entre los
resultados de la prueba y otras variables. Con este procedimiento, a menudo
se perdan resultados prometedores porque las muestras empleadas en los
estudios eran demasiado pequeas para arrojar diferencias significativas.
Al combinar los descubrimientos publicados de varios estudios y sopesarlos
hasta donde fuera posible sobre la base de las caractersticas sustantivas y
metodolgicas relevantes de cada estudio, el meta-anlisis puede revelar
descubrimientos positivos sustanciales. Otra ventaja es que permite calcular
los efectos del tamao, la magnitud o la medida. Por razones tanto tericas
como prcticas, la magnitud estimada de una diferencia o una correlacin es
ms til que la simple demostracin de que es significativamente mayor que
cero.
Las dcadas de los ochenta y los noventa han presenciado el rpido
resurgimiento de la investigacin meta-analtica casi en cualquier campo de la
psicologa. Sus aplicaciones a la investigacin de la seleccin y clasificacin de
personal son las que ha atrado la mayor atencin (vanse el captulo 17). El