Validez

VALIDEZ: CONCEPTOS BSICOS
La validez de los instrumentos de medicin tiene que ver con lo que miden y
con qu tan bien lo hacen; nos indican qu se puede inferir a partir de sus
resultados. A este respecto, debe tenerse el cuidado de no aceptar el nombre
la prueba o el test como indicador de lo que mide, pues aunque son ttulos
cortos, convenientes para propsitos de identificacin, casi todos son
demasiado generales y vagos para indicar el rea que cubren; no obstante,
cada vez son mayores los esfuerzos por utilizar nombres ms especficos y que
puedan definirse de manera emprica. El rasgo medido por determinada prueba
slo puede definirse mediante el examen de las fuentes objetivas de
informacin y las operaciones empricas utilizadas para establecer su validez.
Ms an, la validez no puede expresarse en trminos generales, no es posible
decir en abstracto que es alta o baja, sino que hay que referirse al uso
particular para el que se planea utilizar el instrumento.
En principio, todos los procedimientos utilizados para determinar la validez se
interesan en las relaciones entre la ejecucin en las pruebas y otros factores
observados independientemente de las caractersticas de la conducta
considerada. Para investigar estas relaciones se han empleado distintos
mtodos, cuyos nombres tradicionalmente se han concentrado en aspectos de
la validez que son importantes para distintos uso de la prueba. En la medida en
que se han desarrollado y expandido las aplicaciones de los instrumentos,
tambin se han modificado los conceptos de validez (Anastasi, 1986a; Messick,
1988, 1989)
EVOLUCION DE LOS CONCEPTOS DE VALIDEZ DE LAS PRUEBAS
Uno de los primeros usos de las pruebas fue la evaluacin de lo que los
individuos haban aprendido en determinadas reas de contenido. En la
actualidad, se aplican a los exmenes escolares de fin de cursos y las pruebas
presentadas para obtener la licencia de manejo o para desempear ciertas
ocupaciones. En general, para evaluar esta categora de pruebas se compara
su contenido con el del rea que pretenden probar. La aproximacin descriptiva
sigue siendo importante en la validacin de los instrumentos para algunas
aplicaciones, la veremos en otra seccin de este captulo.
Cuando la examinacin pas a su segunda etapa, el nfasis cambi a la
prediccin, cmo respondern diferentes personas a una situacin dada,
ahora o en algn momento futuro?, cmo reaccionar este individuo en
diferentes situaciones especficas? Se design como criterio al desempeo en
la situacin para la cual se pretende predecir la conducta. En este caso, la
validez del instrumento generalmente se informa como el coeficiente de
correlacin entre los resultados del test y una medida de criterio directa e
independiente. Este proceso es en especial apropiado para el uso de las
pruebas en la seleccin o colocacin de individuos en programas educativos,
empleos o programas particulares de tratamiento. De este modo, para una
prueba de aptitud mecnica el criterio puede ser el desempeo laboral como

maquinista; par una de aptitud acadmica, las calificaciones escolares, y para
una prueba de neuroticismo, las valoraciones de los compaeros o alguna otra
informacin disponible sobre el comportamiento del individuo en diversas
situaciones.
La corriente actual en la historia de la evaluacin refleja dos tendencias
principales: (1) un fortalecimiento de la orientacin terica, y (2) una estrecha
vinculacin entre la teora y la verificacin psicolgicas mediante la
comprobacin emprica y la validacin de los instrumentos como en el conjunto
de las otras reas de la psicologa (Anastasi, 1992a, 1992b, 1995). Un
resultado de estas corrientes es el reconocimiento creciente dcel valor de los
constructos para describir y comprender la conducta humana. Los constructos
son categoras amplias que se derivan de los rasgos comunes que comparten
las variables conductuales observables directamente; pero se trata de
entidades tericas que por su parte no pueden ser observadas de manera
directa. El inters en los constructos llev a la introduccin de lo que al
principio se consider la tercera categora de validez, a saber, la validez del
constructo (AERA, APA, NCME, 1985; APA, AERA, NMCE, 1974; Cronbach y
Meehl, 1955). A la larga y en la medida en que especifica lo que la prueba
mide, la validez de constructo lleg a reconocerse como la validez fundamental
e incluyente de concepto. Los procedimientos de validacin predictiva y de
contenido se encuentran entre las muchas fuentes de informacin que
contribuyen a la definicin y la comprensin de los constructos evaluados por
la prueba. Al mismo tiempo, proporcionan informacin que es valiosa por
derecho propio y destacan en la evaluacin de las pruebas para determinados
usos. De ah que los conceptos (y trminos) hayan sobrevivido a pesar de su
integracin en el concepto ms amplio de validez de constructo.
PROCEDIMIENTOS DE LA DESCRIPCION DEL CONTENIDO
Naturaleza. Los procedimientos de validacin por la descripcin del contenido
comprenden principalmente el examen sistemtico del contenido de la prueba
para determinar si cubre una muestra representativa del rea de conducta que
debe medirse. Esta forma de validacin se utiliza sobre todo en los
instrumentos diseados para medir qu tan bien ha dominado el individuo una
habilidad o un curso de estudio.
Puede parecer que basta con la simple inspeccin del contenido de la prueba
para establecer su validez para dicho propsito; por ejemplo, una prueba de
multiplicacin, ortografa o contabilidad parecera vlida por definicin si est
constituida por reactivos de multiplicacin, ortografa o contabilidad. Pero la
solucin no es tan sencilla. Un problema es el muestreo adecuado del universo
de reactivos. El rea de conducta por examinar debe analizarse
sistemticamente para garantizar que los reactivos cubran todos los aspectos
importantes y en la proporcin correcta. Es fcil cargar en excesos las pruebas
con los aspectos del campo que ms se prestan para la preparacin de
reactivos objetivos. Por ello, resulta conveniente describir de antemano toda el

rea considerada en lugar de hacerlo despus de que la prueba est lista; por
ejemplo, un examen educativo bien formulado debe cubrir los objetivos de la
instruccin y no slo su temario. En consecuencia, hay que definir el contenido
de manera amplia para que, adems del conocimiento real, incluya objetivos
importantes como la aplicacin de principios y la interpretacin de datos. Ms
an, la validez depende ms de la relevancia que las respuestas del individuo
tengan para el rea conductual considerada que la importancia aparente del
contenido del reactivo. La simple inspeccin de la prueba no siempre basa para
revelar los procesos empleados por los examinados al presentarla.
En relacin con el rea muestreada por la prueba, es importante prevenir
cualquier tendencia a la sobregeneralizacin; por ejemplo, una prueba de
ortografa compuesta por reactivos de opcin mltiple puede medir la habilidad
para reconocer las palabras correctas e incorrectamente, pero no puede
suponer que tambin mida la habilidad para tomar un dictado, la frecuencia de
los errores ortogrficos en un trabajo de redaccin y otros aspectos de la
habilidad ortogrfica (Ahlstrm, 1964; Knoell y Harris, 1952). Otro problema
procede de la posible inclusin de factores irrelevantes en los resultados; as, la
habilidad para comprender instrucciones verbales o la rapidez para ejecutar
tareas rutinarias sencillas pueden afectar indebidamente una prueba diseada
para medir el aprovechamiento en matemticas o mecnica.
Procedimientos especficos.
La validez de contenido se introduce desde el
inicio en la prueba mediante la eleccin de reactivos apropiados. Para las
pruebas educacionales, la preparacin de los reactivos es precedida por una
revisin cuidadosa y sistemtica de textos y resmenes importantes para el
curso y por la consulta con expertos en la materia. Sobre la base de la
informacin recabada se establecen las especificaciones de la prueba que
deben seguir los redactores de los reactivos y en las que tienen que precisar
las reas o temas del contenido, los objetivos o procesos educativos que han
de probarse y la importancia relativa de temas y procesos individuales. Las
especificaciones finales deben indicar el nmero de reactivos de cada clase
que hay que preparar para cada tema; por ejemplo, la evaluacin de la
habilidad de lectura puede incluir la comprensin del vocabulario en el
contexto, la comprensin literal del contenido y la extraccin de inferencias
correctas de la informacin proporcionada. Tambin puede muestrear material
de diversas fuentes, como ensayos, poemas, artculos periodsticos o
instructivos para manejar equipo. Una prueba de matemticas puede cubrir
habilidades de clculo, la resolucin de problemas presentados verbalmente y
la aplicacin de los procesos aprendidos a contextos nuevos.
La resea de la validacin del contenido en el manual de una prueba educativa
de aprovechamiento debe incluir la descripcin de los procedimientos seguidos
para asegurar que el contenido del instrumento es apropiado y representativo.
Si en la preparacin de ste participaron expertos en la materia, debe
informarse de su nmero y calificacin profesional. Si fungieron como jueces en

la clasificacin de reactivos, es necesario referir las instrucciones que
recibieron as como el grado de acuerdo entre ellos. Como los planes de
estudio y los contenidos de los cursos cambian con el tiempo, es
particularmente deseable proporcionar las fechas en las que se consult a los
expertos. Tambin tiene que proporcionare informacin relacionada con el
nmero y la naturaleza de resmenes y textos consultados, incluidas las fechas
de publicacin.
Para complementar la validacin de contenido de una prueba de
aprovechamiento acadmico suele seguirse una serie de procedimientos
empricos. Puede supervisarse los resultados totales y el desempeo en
reactivos particulares para calificar el progreso. En general, se retienen los
reactivos que muestran las mayores ganancias en los porcentajes de nios que
avanzan de los grados inferiores a los superiores. Cuando resulta apropiado, se
utilizan otros procedimientos complementarios, como el anlisis de las
categoras de errores ms comunes en la prueba y la observacin de los
mtodos de trabajo empleados por los examinados. Para esto ltimo, es posible
pedir a los estudiantes que piensen en vos alta mientras resuelven cada
problema. Para verificar la contribucin de la rapidez se anota el nmero de
quienes no logran terminar la prueba o se aplica alguno de los mtodos ms
refinados que vimos en el captulo 4. Para detectar la posible influencia
irrelevante de la habilidad para leer instrucciones en la ejecucin de la prueba,
las calificaciones obtenidas en el examen se correlacionan con una prueba de
comprensin de lectura. Por otro lado, si la prueba fue diseada para medir la
comprensin de lectura, entregar el cuestionario sin el pasaje de lectura en el
que se bas mostrar cuntas preguntas puede contestar el examinado a partir
de la informacin que ya posea o con la ayuda de otras seales irrelevantes
(Scherich y Hanna, 1977).
Aplicaciones.
En especial, cuando es apoyada por supervisiones empricas
como las ilustradas, la validacin de contenido proporciona una tcnica
apropiada de evaluacin, pues nos permite responder a dos preguntas que son
bsicas para la validez de las pruebas de rendimiento acadmico y
ocupacional: (1) cubre la prueba una muestra representativa de las
habilidades y los conocimientos especificados?, (2) el desempeo en la
pruebas est razonablemente libre de la influencia de variables irrelevantes?
La validacin de contenido es apropiada sobre todo para las pruebas referidas
al dominio que estudiamos en el captulo 3. Como el desempeo en estos
instrumentos se interpreta en trminos de significado del contenido, es
evidente que la validacin de contenido es un requisito primordial para su uso
efectivo; no obstante, otras formas de evidencia de validez tambin son
importantes para una evaluacin completa de su efectividad (vase
Hambleton, 1984b).
La validacin de contenido tambin se aplica a ciertas pruebas ocupacionales

(que se revisan en el captulo 17) diseadas para la seleccin y clasificacin de
personal. Estas evidencias de validacin son adecuadas cuando la prueba es
una muestra del empleo real o de otro que requiera las mismas habilidades y
conocimiento que demanda el puesto. En esos casos, debe realizarse un
anlisis exhaustivo del puesto para demostrar una similitud estrecha entre las
actividades del puesto y la prueba. Schoenfeldt, Schoenfeldt, Acker y Perlson
(1976) ofrecen una clara y detallada explicacin de la aplicacin de esos
procedimientos de validacin al desarrollo de una prueba de lectura industrial.
Trabajando junto a supervisores y empleados, los investigadores analizaron el
nivel de lectura requerido para ingresar a una compaa manufacturera en
trminos del tema y las habilidades de comprensin, y luego formularon
reactivos que correspondieran a dichos requisitos. Esa aproximacin suele
emplearse al elaborar pruebas para los empleados del gobierno
estadounidense a nivel federal y estatal (Hardt, Eyde, Primoff y Tordy, 1981);
Menne, McCarthy y Menne, 1976; Primoff y Eyde, 1988; Tordy, Eyde, Primoff y
Hardt, 1976).
Por otro lado, en el caso de los tests de aptitud y de personalidad, la validacin
de contenido no slo suele ser inapropiada, sino incluso engaosa. Aunque es
obvio que en etapas iniciales de la elaboracin de cualquier instrumento deben
hacerse consideraciones sobre la relevancia y representatividad del contenido,
la validacin final de los tests de aptitud y personalidad debe verificarse
empricamente mediante los procedimientos que describiremos en las
siguientes secciones. En comparacin con las pruebas de aprovechamiento,
estos tests tienen menor parecido intrnseco con el dominio de conductas que
pretenden muestrear. En consecuencia, su contenido hace ms que revelar la
hiptesis que llevaron a quien las realiz a elegir ciertos contenidos para medir
un rasgo especfico. Las hiptesis tienen que ser confirmadas empricamente
para establecer la validez de los instrumentos.
A diferencia de las pruebas de aprovechamiento, los tests de aptitud y de
personalidad no se basan en un curso especfico de educacin o en un conjunto
uniforme de experiencias de las cuales pueda extraerse el contenido del
instrumento; por consecuencia, es probable que en estas pruebas se
encuentren ms diferencias en los mtodos de trabajo o en los procesos
psicolgicos empleados por los individuos al responder a los mismos reactivos.
Ello supone que una misma prueba puede medir funciones diferentes en
distintas personas, lo que hace prcticamente imposible determinar las
funciones psicolgicas medidas por la prueba a partir de la inspeccin de su
contenido; por ejemplo, los estudiantes de posgrado pueden resolver un
problema en trminos verbales o matemticos, mientras que un mecnico
llegar a la misma solucin en trminos de visualizacin espacial; o una prueba
que en estudiantes de secundaria mide el razonamiento aritmtico, cuando se
aplica a universitarios puede medir apenas las diferencias individuales en la
velocidad de los clculos.
Validez de facie.
La validez de contenido no debe confundirse con la validez
de facie (conocida tambin como validez aparente). Esta ltima no es validez
en el sentido tcnico, es decir, no se refiere a lo que la prueba verdaderamente
mide, sino a lo que parece medir. La validez de facie alude a si la prueba
parece vlida a los examinados que la presentan, al personal administrativo
que decide sobre su uso y a otros observadores sin capacitacin tcnica. En
esencia, la cuestin de la validez de facie tiene que ver con el rapport y las
relaciones pblicas. Aunque el uso comn del trmino validez a este respecto
puede resultar confuso, la validez de facie es en s misma un rasgo deseable de
los instrumentos; as, cuando las pruebas originalmente diseadas para nios
y formuladas dentro de las aulas empezaron a extender su uso a los adultos,
fue comn que enfrentaran crticas y resistencia por carecer de validez de
facie. Es indudable que si el contenido de la prueba parece irrelevante,
inapropiado, tonto o infantil, el resultado sea una pobre cooperacin,
cualquiera que sea su verdadera validez. En particular en la evaluacin de
adultos, para que una prueba funcione no basta con que sea objetivamente
vlida, tambin debe parecerlo. La validez de facie tambin influye en la
aceptacin de la prueba en decisiones legislativas y judiciales, as como en el
juicio que de ella haga el pblico en general.
En un innovador programa de investigacin sobre el punto de vista del
examinado (citado en el captulo 1), Baruch Nevo y sus asociados incluyeron la
investigacin de la validez de facie (B. Nevo, 1985, 1992; B. Nevo y Sfez,
1985). Al principio les llam la atencin observar que, a pesar de su probable
contribucin a las actitudes prevaleciente hacia las pruebas, eran muy pocas
las investigaciones sobre la validez de facie. Propusieron luego una evaluacin
cuantitativa de la validez aparente al hacer que examinados y otros
interesados sin conocimiento psicomtrico calificaran la conveniencia de cierta
prueba para determinado uso; los mismos procedimientos pueden emplearse
para calificar reactivos de una sola prueba o una batera. A este respecto
resultan ilustrativos los datos obtenidos al analizar las repuestas de 1.385
estudiantes israeles a un cuestionario de retroalimentacin de examinados
aplicado despus de un examen de admisin en la universidad compuesto por
ser pruebas. Los resultados mostraron un prometedor acuerdo entre
calificadores, confiabilidad en el retest y diferenciacin entre pruebas y entre
subgrupos de aspirantes que planeaban especializarse en distintas reas. Se
recomend que los manuales incluyeran regularmente datos cualitativos y
cuantitativos sobre la validez de facie.
La validez de facie o aparente a menudo puede mejorarse mediante el simple
recurso de replantear los reactivos de modo que parezcan relevantes y
plausibles en el medio particular en el que sern usados; por ejemplo, si se
construye una prueba simple de razonamiento aritmtico para aplicarla a
maquinistas, los reactivos deben plantearse en trminos de operaciones con
las mquinas y no de cuantas naranjas pueden comprarse con X pesos u
otros problemas tradicionales de los textos escolares. De igual modo, es

posible elaborar una prueba de aritmtica para personal naval en la
terminologa nutica sin alterar con ello las funciones medidas. Por supuesto, la
validez de facie no debe considerarse como sustituto de la validez determinada
objetivamente. No puede suponerse que al mejorar la validez de facie de una
prueba mejore su validez objetiva, pero tampoco se puede presumir que
cuando se modifica una prueba para aumentar su validez de facie su validez
objetiva quede inalterada. La validez de la prueba en su forma final siempre
debe verificarse de manera directa.
PROCEDIMIENTOS DE CRITERIO-PREDICCION
Validacin concurrente y predictiva. Los procedimientos de validacin de
criterio-prediccin indican la efectividad de la prueba para predecir el
desempeo del individuo en actividades especficas. La medida de criterio
contra la que se validan los resultados del instrumento puede obtenerse
aproximadamente al mismo tiempo que los resultados de la prueba o despus
de un intervalo establecido. Los estndares de examinacin (Testing
Standards) de 1985 utilizan estas relaciones temporales entre el criterio y la
prueba como base para diferenciar entre la validacin concurrente y la
predictiva. El trmino prediccin se utiliza en sentido amplio para referirse a
la suposicin que puede hacer la prueba sobre cualquier situacin de criterio, o
bien en el sentido ms restringido de anticipacin sobre un intervalo. La
expresin validez predictiva se emplea en este ltimo sentido, y la
informacin que proporciona es muy pertinente para las pruebas usadas en la
seleccin y clasificacin de personal. La contratacin de personal, la seleccin
de estudiantes para su ingreso a la universidad o a escuelas profesionales y la
asignacin de personal militar a programas de capacitacin ocupacional son
algunos ejemplos de las decisiones que requieren el conocimiento de la validez
predictiva de los instrumentos. Otros ejemplos incluyen el uso de las pruebas
para descartar a los individuos que probablemente desarrollen trastornos
emocionales en ambientes de tensin o para identificar a los pacientes
psiquitricos que es ms probable que se beneficien de cierta terapia.
Cuando no es factible extender los procedimientos de validacin por el tiempo
requerido para obtener la validacin predictiva o una muestra adecuada de
preseleccin para los propsitos del examen, se emplea la validacin
concurrente como sustituto. En estos casos, la prueba se aplica a un grupo del
que ya se tienen los datos de criterio; por ejemplo, se comparan los resultados
obtenidos en la prueba por universitarios con su promedio acadmico en el
momento del examen, o los resultados obtenidos por empleados con su xito
actual en el trabajo.
Por otro lado, para ciertos usos de los tests la validacin concurrente resulta
ms conveniente y puede justificarse por derecho propio. La distincin lgica
entre la validacin predictiva y concurrente no se basa en el tiempo, sino en los
objetivos del examen. La validacin concurrente es adecuada para las pruebas
que se emplean para diagnosticar el estado actual ms que para predecir los
resultados futuros. La diferencia puede ilustrarse al preguntar califica Ortega
como un buen piloto? o posee Ortega los requisitos para convertirse en un
buen piloto?. La primera pregunta requiere de validacin concurrente; la
segunda, de validacin predictiva.
Como el criterio para la validacin concurrente siempre est disponible en el
momento de aplicar el examen, podra cuestionarse qu funcin cumple la
prueba en esas situaciones. Bsicamente, los instrumentos proporcionan un
sustituto ms simple, rpido y menos costoso para los datos del criterio; por
ejemplo, si el criterio consiste en la observacin continua de un paciente
durante dos semanas de hospitalizacin, una prueba que pueda distinguir a los
casos normales de los casos perturbados o dudosos reducira notablemente el
nmero de personas que requieren tan prolongada observacin.
Contaminacin del criterio. Una precaucin esencial al encontrar la validez
de una prueba consiste en asegurar que sus propios resultados no influyan en
la condicin del criterio de cualquier individuo; por ejemplo, si un maestro o el
supervisor de una planta industrial saben que determinado individuo obtuvo un
psimo resultado en un test de aptitud, ese conocimiento puede influir en la
calificacin que otorguen al estudiante o en la clasificacin que asignen al
trabajador; en contraste, quien obtuvo una puntuacin elevada puede recibir el
beneficio de la duda cuando se preparan sus calificaciones acadmicas o
clasificaciones laborales. Es evidente que estas influencias elevarn la
correlacin entre los resultados obtenidos en la prueba y el criterio de una
manera por completo espuria o artificial.
Esta posible fuente de error en la validacin de la prueba se conoce como
contaminacin del criterio, ya que las calificaciones del criterio quedan
contaminadas por el conocimiento que el calificador tiene de los resultados
del instrumento. Para evitar este error es absolutamente esencial que ninguna
de las personas que participan en la asignacin de las calificaciones del criterio
tenga conocimiento alguno de los resultados obtenidos por los examinados en
la prueba. Es por ello que los resultados que se emplean para evaluarla deben
mantenerse estrictamente confidenciales. En ocasiones resulta difcil
convencer a los maestros, empleadores, oficiales del ejrcito, etc., de que esa
precaucin es esencial. En su prisa por utilizar toda la informacin disponible
para tomar decisiones prcticas, pueden no percatarse de que los resultados
deben dejarse a un lado hasta que los datos del criterio maduren y pueda
supervisarse la validez.
Medidas de criterio.
Una prueba puede validarse si se la compara con
tantos criterios como usos especficos existan para ella. Cualquier mtodo
utilizado para evaluar la conducta en cualquier situacin puede brindar una
medida de criterio para algn propsito particular; sin embargo, los criterios
empleados para encontrar las distintas clases de validez que se informan en
los manuales caen en unas cuantas categoras comunes. Entre los criterios ms
empleados para validar los tests de inteligencia se encuentra cierto ndice de

aprovechamiento acadmico, razn por la cual a menudo se describen de
manera ms precisa como medida de aptitud acadmica. Los ndices
especficos utilizados como medidas de criterio comprenden, las calificaciones
escolares, los resultados de las pruebas de aprovechamiento, los registros de
promocin y de graduacin, los honores y reconocimientos especiales y las
valoraciones e maestros o instructores sobre la inteligencia de los individuos.
En tanto que es muy probable que las calificaciones obtenidas en un medio
escolar se distorsionen por la ejecucin acadmica del individuo, pueden
clasificarse ms apropiadamente con el criterio de aprovechamiento
acadmico.
Los diversos ndices de aprovechamiento acadmico han proporcionado datos
del criterio en todos los niveles educativos, desde la educacin bsica hasta la
superior. Aunque se emplean principalmente en la validacin de los tests de
inteligencia, tambin se han usado como criterio para ciertos tests de habilidad
mltiple y de personalidad; por ejemplo, en la validacin de cualquiera de las
pruebas de ingreso a la universidad, un criterio comn es el promedio obtenido
durante el primer ao de estudios. Esta medida es la calificacin promedio
obtenida en todos los cursos durante el primer ao; cada calificacin es
sopesada por el nmero de puntos del curso por quienes fue recibida.
En el caso de los adultos que no asisten a al escuela, suelen emplearse los
aos de escolaridad completa como una variante del criterio de
aprovechamiento acadmico. En general, se espera que los individuos ms
inteligentes prolonguen su educacin por ms tiempo y que los otros
abandonen antes la escuela. Esta suposicin fundamenta el criterio de que la
escala educativa funge como una influencia progresivamente selectiva, que
elimina a los que no son capaces de continuar ms all de algn peldao.
Aunque indudablemente es cierto que los graduados universitarios, por
ejemplo, representan un grupo ms selecto que los graduados de la educacin
bsica, la relacin entre la escolaridad y la aptitud acadmica est lejos de ser
perfecta. Especialmente en los niveles educativos superiores, las variables
econmicas, sociales, motivacionales y otros factores no educativos pueden
influir en la continuacin de la educacin del individuo. Ms an con la
validacin concurrente es difcil desentraarlas relaciones causales. En qu
medid las diferencias en los resultados de los tests de inteligencia se deben a
las diferencias en la escolaridad? En qu medida predice la prueba las
diferencias individuales en el progreso educativo subsecuente? Estas preguntas
se responden slo cuando el instrumento se aplica antes de que los datos del
criterio hayan madurado, como en la validacin predictiva.
En el desarrollo de las pruebas de aptitudes especiales, un criterio frecuente se
basa en el desempeo en la capacitacin especializada; por ejemplo, las
pruebas de aptitud mecnica pueden validarse si se compara sus resultados
con el rendimiento final en un curso del oficio. Algunos cursos de escuelas
comerciales, tales como mecanografa o contabilidad, proporcionan criterios
para los tests de aptitud en esas reas. De igual modo, se ha empleado el

desempeo en las escuelas de arte o msica para validar las pruebas de
aptitud musical o artstica. Varias pruebas de aptitud profesional han sido
validadas en trminos de aprovechamiento en las escuelas de leyes, medicina,
odontologa, ingeniera y otras. En el caso de las pruebas elaboradas para
usarse en un programa especfico de examinacin, los registros de la
capacitacin son una fuente frecuente de datos del criterio. Un magnfico
ejemplo es la validacin de las pruebas de seleccin de pilotos para la fuerza
area estadounidense, que compara sus resultados con el desempeo en los
vuelos bsicos de entrenamiento. La ejecucin en los programas de
capacitacin tambin suele utilizarse como criterio para la validacin de las
pruebas en otras especialidades ocupacionales militares y en algunos estudios
de validacin industrial.
Entre los ndices especficos del desempeo en la capacitacin que se utilizan
como criterio pueden mencionarse las pruebas de aprovechamiento
administradas al terminar el curso, las calificaciones formalmente asignadas,
las valoraciones de los instructores y la culminacin exitosa en contraste con la
eliminacin del programa. Para determinar la validez de las bateras de
aptitudes mltiples como predictores diferenciales, es frecuente que se
comparen sus resultados con las calificaciones obtenidas en secundarias o
cursos universitarios especficos, por ejemplo, los resultados en una prueba de
comprensin verbal pueden compararse con las calificaciones obtenidas en los
cursos de redaccin, los resultados de visualizacin espacial con las
calificaciones en geometra, etctera.
En lo que respecta al uso general de los registros de capacitacin como
medidas del criterio, resulta til distinguir ente los criterios intermedios y los
finales. As, en el desarrollo de una prueba de seleccin de pilotos de la fuerza
area estadounidense o de una prueba de aptitud mdica, los criterios ltimos
seran el desempeo en combate y el xito en la prctica mdica. Por
supuesto, se requerira mucho tiempo para la maduracin de esos datos, por lo
que es dudoso que en la prctica pueda obtenerse un criterio ltimo verdadero,
y, aunque fuera posible estara afectado por tantos factores no controlados que
su utilidad sera nula; por ejemplo, sera difcil evaluar el grado relativo del
xito de mdicos de diferentes especialidades que ejercen en diversas partes
del pas. Es por eso que suelen emplearse criterios intermedios sobre medidas,
como los registros del desempeo en alguna etapa de la capacitacin.
Para muchos propsitos, la medida de criterio ms satisfactoria es la que
se basa en registros de seguimiento del desempeo laboral real, un criterio que
hasta cierto punto se ha empleado en la validacin de los tests de inteligencia
general y de personalidad y en mayor medida en la validacin de pruebas de
aptitud especiales. Tambin es un criterio comn en la validacin de
instrumentos diseados para trabajos especficos. Los trabajos en cuestin
varan tanto en nivel como en categora, incluido el trabajo en los negocios, la
industria, las profesiones y las fuerzas armadas. Aunque es probable que casi
todas las medidas del desempeo en el trabajo no representen los criterios

ltimos, si proporcionan un buen criterio intermedio para muchos propsitos de
examinacin, lo que los hace preferibles a los registros de capacitacin. Por
otro lado, la medicin del desempeo en el empleo no permite tanta
uniformidad en las condiciones como es posible en la capacitacin. Ms an,
como por lo general requiere un seguimiento ms prolongado, es probable que
el criterio del desempeo en el trabajo ocasione una disminucin en el nmero
de los participantes disponibles. Debido a la variacin en la naturaleza de
empleos nominalmente similares en distintas organizaciones, los manuales que
informan los datos de validez contra el criterio del puesto no slo deben
describir las medidas de criterio que emplearon, sino tambin las tareas
realizadas por los trabajadores.
La validacin por el
mtodo de grupos contrastados
generalmente incluye un criterio compuesto que refleja las influencias
selectivas acumuladas y no controladas de la vida cotidiana. Este criterio se
basa finalmente en la supervivencia dentro de un grupo particular en
comparacin con la eliminacin de ste; por ejemplo, para comprobar la
validez de una prueba de aptitud musical o mecnica se comparan los
resultados obtenidos por los estudiantes inscritos en una escuela de msica o
de ingeniera, respectivamente, con los resultados de los estudiantes no
admitidos en la segundaria o la universidad. Por supuesto, para seleccionar a
los grupos contrastados puede usarse cualquier criterio (como calificaciones
escolares, valoraciones, desempeo laboral), y se eligen los extremos de la
distribucin de las medidas elegidas; sin embargo, los grupos contrastados que
se incluyen en esta categora se han ido diferenciando gradualmente por la
operacin de las mltiples exigencias de la vida cotidiana. El criterio a
consideracin es, por ende, ms complejo y su definicin resulta menos clara
que los que estudiamos arriba.
El uso del mtodo de grupos contrastados es muy comn en la validacin de
los tests de personalidad; por ejemplo, al validar una prueba de rasgos sociales
puede compararse el desempeo de vendedores o ejecutivos con el de
oficinistas o ingenieros. La suposicin que fundamenta al procedimiento es
que, en relacin con muchos rasgos sociales, los individuos que han ingresado
y permanecido en ocupaciones como las ventas o el trabajo ejecutivo
superarn como grupo a los que se encuentran en campos como el trabajo de
oficina o la ingeniera. De modo similar, los estudiantes universitarios que han
participado en muchas actividades extracurriculares pueden compararse con
los que no han participado en ninguna durante un perodo comparable de
asistencia a la universidad. Los grupos ocupacionales han sido muy usados en
el desarrollo y la validacin de las pruebas de inters, como el Formulario de
Intereses Vocacionales de Strong (Strong Vocational Interest Blank, SVIB), as
como en la preparacin de escalas de actitud. En la validacin de escalas de
actitud se ha empleado, entre otros, grupos polticos, religiosos, geogrficos y
otros que generalmente son conocidos por ostentar puntos de vista distintos
sobre ciertos temas.
En la validacin emprica de las pruebas referidas a dominio, adems de los
procedimientos comunes de validacin de contenido, se han utilizado varias
adaptaciones del mtodo de grupos contrastados (Hambleton, 1984b). Con
este propsito se compara el desempeo en la prueba de grupos que difieren
en el nivel de educacin relevante. Si se emplea una calificacin de habilidad
puede hacerse un anlisis 2x2, que compara la proporcin de resultados de
xitos y fracaso antes y despus de la instruccin (Panell y Laabs, 1979). Puede
hacerse comparaciones similares si la prueba se aplica a escolares de un grado
inferior y uno superior al grado en el que se ensea el concepto o la habilidad
particular que evala la prueba. Si se dispone de los resultados despus de
diferentes perodos de educacin, se encontrar la correlacin entre el
desempeo real y la cantidad de instruccin.
En el desarrollo de ciertos tests de personalidad, el diagnstico psiquitrico se
utiliza como base para la seleccin de reactivos y como evidencia de la validez
del instrumento. El diagnstico psiquitrico puede ser un criterio satisfactorio
siempre que se funde en la observacin prolongada y la historia de caso
detallada ms que en una entrevista o un examen psiquitrico superficial. En el
ltimo de los casos, no hay razn para esperar que el diagnstico psiquitrico
se utiliza como base para la seleccin de reactivos y como evidencia de la
validez del instrumento. El diagnstico psiquitrico puede ser un criterio
satisfactorio siempre que se funde en la observacin prolongada y la historia
de caso detallada ms que en una entrevista o un examen psiquitrico
superficial. En el ltimo de los casos, no hay razn para esperar que el
diagnstico psiquitrico sea superior al resultado de la prueba como indicador
de la condicin emocional del individuo. No debe considerarse al diagnstico
psiquitrico como medida de criterio, sino como un indicador o predictor cuya
propia validez tiene que ser determinada.
Ya hablamos, en relacin con otras categoras de criterios, de las valoraciones
de los maestros, instructores de cursos especializados y supervisores laborales.
A stas pueden agregarse las opiniones oficiales en situaciones militares, las
calificaciones que los consejeros escolares dan a los estudiantes y las
valoraciones de los compaeros de trabajo, de la escuela, del club, etc. Las
apreciaciones o calificaciones que hemos visto representan simplemente una
tcnica complementaria para obtener informacin respecto a criterios como el
rendimiento acadmico, el desempeo en la capacitacin especializada o el
xito en el trabajo. Ahora, se est considerando su uso como el ncleo de la
medida de criterio; en tales circunstancias, son las propias valoraciones o
calificaciones las que definen el criterio. Ms an, dichas calificaciones no se
limitan a la evaluacin de un aprovechamiento especfico, sino que incluyen el
juicio personal de un observador en relacin con cualquier rasgo que las
pruebas psicolgicas pretenden medir. As, los participantes en la muestra de
validacin pueden ser calificados en caractersticas como dominancia, ingenio

mecnico, originalidad, liderazgo u honestidad.
Se han empleado las valoraciones en la validacin de casi cualquier clase de
prueba, pero su utilidad es mayor en la obtencin de criterios para los tests de
personalidad, ya que en esta rea es mucho ms difcil encontrar criterios
objetivos. Esto es cierto sobre todo en el caso de rasgos definitivamente
sociales en los que las calificaciones basadas en el contacto personal pueden
formar el criterio ms lgico. Aunque las valoraciones pueden estar sujetas a
muchos errores de juicio, cuando se obtienen en condiciones cuidadosamente
controladas representan una fuente valiosa de datos del criterio. En el captulo
16 se consideran las tcnicas para mejorar la precisin de las valoraciones y
para reducir las formas ms comunes de error.
Por ltimo, es comn que se citen las correlaciones entre la nueva prueba y
pruebas variadas previamente disponibles como evidencia de validez. Cuando
el nuevo instrumento es una forma abreviada o simplificada de una prueba ya
existente, esta ltima puede considerarse como la medida de criterio. De esta
manera, una prueba de lpiz y papel puede validarse contrastndola con una
prueba de aprovechamiento ms elaborada y cuya validez ya haya sido
establecida, o bien una prueba de grupo se valida comparndola con una
prueba individual; por ejemplo, en repetidas ocasiones se ha empleado el
Standford-Binet como criterio de validacin de tests de grupo. En tales
condiciones, el nuevo instrumento puede considerarse, en el mejor de los
casos, como una aproximacin gruesa del anterior. Debe observarse que a
menos que la nueva pruebas represente un sustituto ms sencillo o ms breve
de la prueba anterior, es inapropiado el uso de la ltima como criterio.
Un avance importante en la elaboracin de tests en las dcadas de los ochenta
y los noventa han centrado su atencin en el anlisis del criterio, un aspecto
tradicionalmente descuidado en la investigacin de las pruebas. Con los aos,
se han elevado voces dispersas para sealar la necesidad de realizar una
investigacin sistemtica de los criterios, pero la puesta en prctica ha dado
pocos frutos (L. R. James, 1973; Tenopyr, 1986). Incluso en los proyectos bien
diseados que emplearon el anlisis cuidadoso del puesto como gua para el
desarrollo del instrumento, los resultados tuvieron poco efecto sobre la medida
de criterio empleada en la validacin subsecuente de la prueba. Por lo general,
se aceptaba que el criterio estaba ah, y con demasiada frecuencia se
representaba con un ndice global del desempeo en el trabajo basado en
calificaciones o registros de produccin total. Ahora se reconoce ampliamente
que la validez de una prueba se explora de mejor manera si primero se
identifican los constructos ms importantes en la realizacin del trabajo y luego
se eligen o elaboran instrumentos cuyos resultados los evalen (J. P. Campbell,
1990a, J. P. Campbell, McHenry y Wise, 1990; L. V. Jones y Appelbaum, 1989;
Messick, 1995). El Proyecto de Seleccin y Clasificacin del Ejrcito
Estadounidense, conocido como Proyecto A (J. P. Campbell, 1990b), es un
buen ejemplo de la investigacin minuciosa del criterio como primer paso en el
desarrollo de una batera de pruebas. Debido a su importancia general para el

uso industrial y organizacional de las pruebas, en el captulo 17, nos
ocuparemos ms a fondo de este proyecto a gran escala de siete aos.
Generalizacin de la validez.
A menudo se utiliza la validez de criterioprediccin en la validacin local de estudios que pretenden evaluar la
efectividad de una prueba para un programa especfico. Es lo que se hace, por
ejemplo, cuando determinada compaa desea evaluar una prueba para la
seleccin de personal para uno de sus puestos o cuando a una universidad le
interesa determinar qu tan bien puede predecir cierta prueba de aptitud
acadmica el desempeo de sus estudiantes. La validez predictiva se
caracteriza mejor como la validez prctica del instrumento para un propsito
especfico.
Cuando en los estudios de validacin industrial se empez a correlacionar las
pruebas estandarizadas de aptitud con el desempeo en los puestos
supuestamente similares, se encontr una gran variabilidad en los coeficientes
de validez (Ghiselli, 1959, 1966). Al emplear como criterio las calificaciones
obtenidas en diversos cursos escolares se observ una variabilidad similar
entre los coeficientes de validez (G. K. Bennett, Seashore y Wesman, 1984).
Estos descubrimientos generaron un enorme pesimismo en torno a la
posibilidad de generalizar la Valdez de la prueba a situaciones distintas. Hasta
mediados de los setenta, la especificidad situacional de los requisitos
psicolgicos era considerada como una seria limitacin de la utilidad de las
pruebas estandarizadas para la seleccin de personal; sin embargo, en un
complejo anlisis estadstico del problema, Schmidt, Hunter y sus colegas
demostraron que gran parte de la varianza entre los coeficientes de validez
puede ser un ardid o engao estadstico que resulta del pequeo tamao de la
muestra, la poca confiabilidad del criterio y la restriccin del rango en las
muestras de empleados.
Las muestras industriales disponibles para la validacin de las pruebas suelen
ser demasiado pequeas para producir una estimacin estable de la
correlacin entre predictor y el criterio. Por la misma razn, los coeficientes
obtenidos pueden ser demasiado pequeos para alcanzar significacin
estadstica en la muestra empleada, por lo que no logran aportar evidencias
sobre la validez del instrumento. Se ha estimado que alrededor de la mitad de
las muestras de validacin usadas en estudios industriales no incluye ms de
40 a 50 casos (Schmidt, Hunter y Urry, 1976). Con muestras tan pequeas,
tcnicamente no es posible aplicar la validacin de criterio-prediccin.
Al aplicar sus tcnicas de reciente desarrollo a los datos de muchas muestras
extradas de un gran nmero de especialidades ocupacionales, Schmidt, Hunter
y sus colaboradores pudieron demostrar que la validez de las pruebas de
aptitud verbal, numrica y de razonamiento puede generalizarse entre
ocupaciones mucho ms de lo que se haba reconocido. La varianza de los
coeficientes de validez que se encontraban en los primeros estudios
industriales demostr no ser mayor a lo que se habra esperado por azar,
incluso cuando las funciones del puesto en particular parecan ser muy
distintas entre los puestos. Evidentemente, el desempeo exitoso de una
amplia variedad de tareas ocupacionales depende en un grado sustancial de
un ncleo comn de habilidades cognoscitivas. Las pruebas incluidas en esos
estudios cubran principalmente la clase de contenido y habilidades
muestreadas en las pruebas tradicionales de inteligencia y de aptitud
acadmica. Parecera que este grupo de conocimientos y habilidades
cognoscitivas es un buen predictor del desempeo en las actividades
acadmicas y ocupacionales requeridas en las sociedades tecnolgicamente
avanzadas; no obstante, en general pueden tomarse decisiones de seleccin
ms precisas al considerar los resultados obtenidos en dos o tres grupos
cognoscitivos amplios, de preferencia complementados con las medidas d las
habilidades tcnicas especficas para trabajos particulares (Hartigan y Wigdor,
1989; L. L. Wise, McHenry y Campbell, 1990; Zieidner y Johnson, 1991).
Meta anlisis. Los procedimientos estadsticos empleados para investigar la
generalizacin de la validez permiten integrar los descubrimientos de
diferentes estudios. Estos procedimientos hacen posible combinar los datos de
investigaciones realizadas en momentos o en lugares diferentes, o de
informaciones publicadas en distintos estudios. Tales procedimientos,
inicialmente designados como meta-anlisis, empezaron a usarse en la
investigacin psicolgica durante los setenta (Glass, 1976; Schmidt y Hunter,
1977), aunque en otras ciencias han estado en uso durante varias dcadas
(Hartigan y Wigdor, 1989, captulo 6). En la psicologa, el meta-anlisis ha
recibido cada vez mayor atencin como sustituto de la revisin tradicional de la
bibliografa (Lipsey y Wilson, 1993; Schmidt, 1992). Por lo comn, estas
revisiones sealaban el nmero de estudios que encontraron efectos
estadsticamente significativos en, por ejemplo, las diferencias entre las
medias de los grupos experimental y de control o las correlaciones entre los
resultados de la prueba y otras variables. Con este procedimiento, a menudo
se perdan resultados prometedores porque las muestras empleadas en los
estudios eran demasiado pequeas para arrojar diferencias significativas.
Al combinar los descubrimientos publicados de varios estudios y sopesarlos
hasta donde fuera posible sobre la base de las caractersticas sustantivas y
metodolgicas relevantes de cada estudio, el meta-anlisis puede revelar
descubrimientos positivos sustanciales. Otra ventaja es que permite calcular
los efectos del tamao, la magnitud o la medida. Por razones tanto tericas
como prcticas, la magnitud estimada de una diferencia o una correlacin es
ms til que la simple demostracin de que es significativamente mayor que
cero.
Las dcadas de los ochenta y los noventa han presenciado el rpido
resurgimiento de la investigacin meta-analtica casi en cualquier campo de la
psicologa. Sus aplicaciones a la investigacin de la seleccin y clasificacin de
personal son las que ha atrado la mayor atencin (vanse el captulo 17). El
inters en el meta-anlisis crece a paso firme y de continuo se establecen

procedimientos ms refinados. Aunque persiste cierta controversia acerca de
las tcnicas, los resultados principales no varan apreciablemente entre
procedimientos.
PROCEDIMIENTOS DE IDENTIFICACION DEL CONSTRUCTO

El trmino de validez de constructo fue oficialmente introducido en el lxico
psicomtrico en 1954 en las Recomendaciones tcnicas para las pruebas
psicolgicas y las tcnicas de diagnstico (APA, 1954), que construyeron la
primera edicin de los cuales Estndares de examinacin. Al ao siguiente
apareci la primera exposicin detallada de la validez de constructo en un
artculo de Cronbach y Meehl (1955). Las controversias sobre la validez de
constructo que siguieron (y que continan hoy con el mismo vigor) han servido
para hacer ms explcitas las implicaciones de sus procedimientos y para
proporcionar una lgica sistemtica de su uso. La validacin de constructo ha
centrado la atencin en la funcin que cumple la teora psicolgica en la
elaboracin de la prueba y en la necesidad de formular hiptesis que puedan
ser comprobadas o refutadas en el proceso de validacin. Tambin ha
estimulado la bsqueda de nuevas formas de obtener los datos sobre la
validez de constructo se conocen desde hace mucho tiempo, el campo de
aplicacin se haampliado para admitir una mayor variedad de procedimeintos.

Validez

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Validez

Uploaded by

Copyright:

Available Formats

VALIDEZ: CONCEPTOS BSICOS

prueba de aptitud mecnica el criterio puede ser el desempeo laboral como

reactivos objetivos. Por ello, resulta conveniente describir de antemano toda el

informarse de su nmero y calificacin profesional. Si fungieron como jueces en

La validacin de contenido tambin se aplica a ciertas pruebas ocupacionales

otros problemas tradicionales de los textos escolares. De igual modo, es

empleados para validar los tests de inteligencia se encuentra cierto ndice de

para los tests de aptitud en esas reas. De igual modo, se ha empleado el

todas las medidas del desempeo en el trabajo no representen los criterios

validacin pueden ser calificados en caractersticas como dominancia, ingenio

desarrollo de una batera de pruebas. Debido a su importancia general para el

inters en el meta-anlisis crece a paso firme y de continuo se establecen

PROCEDIMIENTOS DE IDENTIFICACION DEL CONSTRUCTO

You might also like