|
|
La auditoría de test |
SECCION:
PsiNotes
// PUBLICAT 17/06/2013 16:25:00 |
|
|
|
 |
 |
La auditoría de un test o examen consiste en el proceso
metodológico por el cual se verifican sus cualidades como
instrumento de evaluación. Se trata de hacer el “test del
test” de modo que el profesional-usuario tome
consciencia de los límites técnicos de las
herramientas de medición que utiliza.
La proliferación de todo tipo de test en ámbitos
muy variados hace cada vez más necesario un control de
calidad que garantice su utilidad. En ocasiones se trata de tests
adaptados de un original de otro entorno (idioma, cultura...) siguiendo
un proceso poco riguroso. En otros casos de exámenes o
cuestionarios creados y administrados por primera, y única
vez, sin garantías probadas previas de buen funcionamiento.
Un apartado especial son las pruebas ofrecidas en la Red, a menudo sin
ninguna base metodológica, ni dato técnico, ni
aval que informe de sus cualidades métricas.
Por el contrario, sorprende el crédito y confianza que
muchos usuarios de test otorgan a estos instrumentos. Aceptan que
puntúan con precisión, que sirven para todo tipo
de examinados, que están actualizados, que sus baremos
encajan con el perfil de sus clientes, pacientes, candidatos, etc. La
realidad es que en muchos casos se están evaluando personas
con pruebas poco fiables, de validez dudosa, baremos obsoletos y
preguntas (ítems) defectuosas.
Esta problemática no es nueva pero sí se ha
intensificado especialmente por la creciente cantidad y opacidad de
muchos instrumentos distribuidos online. Las nuevas
tecnologías ofrecen muchas facilidades para la
creación y aplicación de test pero es menos
habitual que estas prestaciones se aprovechen también para
garantizar las cualidades técnicas del instrumento. De nuevo
aquí se está evaluando a personas, a distancia y
sin garantías, obviando además el potencial de la
Red ya que en un proceso de auditoria esta puede ser tanto un problema
añadido como un aliado.
 |
Afortunadamente este
panorama no es generalizado, existen directrices
internacionales de buenas prácticas, recientemente una nueva
ISO, y
también organizaciones que promueven la calidad de la
evaluación
psicológica y educativa. Todo esto sin embargo es
insuficiente para
garantizar la calidad de muchas evaluaciones que ignoran estas
directrices ya sea por desconocimiento de los autores de los
instrumentos o por el de los profesionales que los emplean o por ambas
causas.
En este punto entra la auditoria de tests, como servicio preventivo
requerido tanto por el profesional-usuario como por una
organización
interesada en conocer las garantías de sus instrumentos de
evaluación.
En otras ocasiones es una auditoria reactiva
solicitada por una persona o colectivo que dudan y se ven perjudicados
por el proceso de evaluación que se les ha aplicado. En el
primer caso
la auditoria responde a un interés preventivo por verificar
la calidad
de los instrumentos antes de tomar decisiones sobre los examinados. En
el segundo suele haber una sospecha, no compartida por los
profesionales o autores del test, sobre el mal funcionamiento del
instrumento. Esta última situación es muy
frecuente en exámenes, tests
y cuestionarios construidos para una ocasión concreta y con
repercusiones significativas para el futuro de los examinados. Al no
haberse expuesto antes públicamente muchas carecen de
ensayos piloto y
el riesgo de que produzcan resultados sesgados es elevado. Todo ello
provoca reacciones negativas contra los instrumentos y quienes los
emplean deteriorando su credibilidad y de la profesión.
|
Un
factor que ayuda a explicar esta problemática es la gran
transversalidad de la medición en psicología y
educación. Además, no
siempre quienes utilizan ni diseñan estos instrumentos son
profesionales del sector y sólo una parte de las
herramientas pasan por
un control riguroso en su elaboración y
verificación. No hay que
olvidar que la mayoría de directrices existentes son
propuestas y
estándares de buenas prácticas, no normas de
obligado cumplimiento.
Un proceso de auditoria sigue dos líneas de
actuación: cualitativa
y cuantitativa. En la primera se revisan los aspectos
formales y de diseño de la prueba. Se trata de ver si la
redacción de los ítems y la edición de
la prueba muestran desajustes respecto a las recomendaciones de buenas
prácticas. Muchas disfunciones se deben a problemas en este
primer nivel y es importante considerar el
“escenario” en que se aplica la prueba auditada
(conocer las condiciones en que se administra habitualmente, las
repercusiones de sus resultados, aspectos legales si los hay, costes,
personal implicado en todo el proceso de evaluación, etc.).
En muchas ocasiones esta primera auditoria revela ya suficiente
información como para no abordar la cuantitativa. Son casos
graves, debidos a diseñadores que desconocen los efectos
secundarios de cualquier error de redacción, de
diseño, o de edición de una prueba. Como ejemplo,
se dan casos en que la redacción ambigua en tres preguntas
de un test o examen conlleva desplazar un 20% de examinados del apto al
no apto, o al revés, según si se toman en cuenta
las respuestas a estas preguntas en la puntuación del test.
En otras palabras, el supuesto acierto o error a unas pocas preguntas
que no representan tener más o menos conocimiento sobre el
tema evaluado puede llevar a sesgos importantes en la
evaluación y en las decisiones que se deriven sobre los
examinados.
En cuanto a la auditoria cuantitativa es de carácter numérico,
se trata de analizar las respuestas de una muestra de examinados que ha
respondido al test. Para este análisis es necesario disponer
de software especializado y de todas las respuestas de todos los
examinados a totas las preguntas (matriz de datos). En
función de la prueba puede ser más o menos
complicado conseguir toda esta información (manualmente,
automáticamente en pruebas online, a través de
lectora óptica, etc...). Existe además una condición fundamental;
las respuestas han de ser lo más “primarias”
o en “bruto”
posible. Si se trata de una prueba de alternativa múltiple
(“tipo test”) los datos requeridos por la auditoria
son las letras o números de las opciones de respuesta
escogidas y marcadas por cada examinado (AABDADCCA...). No importa si
la respuesta es correcta o incorrecta (010010010...), solo el dato
original en bruto. Uno de los principales obstáculos de las
auditorías cuantitativas es precisamente acceder a este tipo
de datos ya que por lo general los profesionales valoran más
la información ya transformada que su original en bruto.
En la auditoria cuantitativa se ponen a prueba muchos componentes del
test. Uno es la clave o
plantilla de corrección que sirve para corregir
y puntuar a los examinados. Dado que se trata de una auditoria esta
clave también se pone en cuarentena hasta que el
análisis confirme su adecuación. Por ello los
datos que se analizan no han de haber pasado por ninguna
transformación (corrección de AABDADCCA a
010010010...), ya que de hacerla se está aceptando de
antemano la validez de la plantilla que se pretende validar. En
auditorias de pruebas de alternativa múltiple es muy
frecuente que los análisis adviertan sobre problemas en la
clave de corrección. Puede suceder que en varios
ítems parezca existir más de una alternativa
correcta (sentido oculto no previsto,...) o que no se confirme la
correcta. Las repercusiones de estas advertencias son graves y lo
primero es confirmarlas revisando el contenido de las preguntas
afectadas (auditoria cualitativa) junto al experto
(diseñador, autor...) en el tema evaluado.
Cuando estas advertencias se confirman hay que modificar la clave de
corrección o anular directamente las preguntas implicadas.
Esto afecta a las calificaciones de los examinados dado que una parte
de sus respuestas ya no se emplearán. Aquí se
evidencia el valor preventivo de las auditorias ya que no es lo mismo
detectar disfunciones antes que después de publicar los
resultados. En auditorias reactivas estos resultados suelen reforzar
las sospechas y dudas de los afectados (“mal
redactadas”, “poco claras”,
“ambiguas”,
“extrañas”,
“enrevesadas”…), aumentando el
descrédito hacia el proceso de evaluación. Si las
repercusiones de la evaluación son importantes o tienen
alguna implicación legal el escenario para los autores y
usuarios puede complicarse mucho.
Por contra, en auditorias preventivas los cambios en la clave antes de
exponer resultados minimizan los conflictos potenciales ya que sus
efectos secundarios se consideran antes de exponer las puntuaciones a
los examinados.
El análisis de la clave es importante pero sólo
afecta a un tipo de test. Por lo general el grueso de una auditoria
cuantitativa pretende verificar si cada pregunta de la prueba funciona correctamente como
pieza evaluadora del conjunto. Se trata de una inspección
ítem a ítem que engloba también las respuestas en blanco
y las dobles marcas, si las hay. En la auditoria se analiza tanto lo
que los examinados han respondido como lo que no. Por ello es
importante utilizar datos en bruto y que la respuesta en blanco se
distinga y codifique diferente de las otras. Como ejemplo, es usual que
haya test con preguntas en que la respuesta que realmente sirve para
evaluar mejor a los examinados es la omisión. Dicho de otro
modo, por error de diseño o redacción, el hecho
de omitir esas respuestas es indicador de un mayor nivel en el
contenido evaluado. Los examinados que omiten estas preguntas son los
más preparados o con mayor nivel en el rasgo medido. Esto
ocurre porque suelen ser quienes detectan algún problema de
redacción o de significado que les induce a dejar en blanco
la pregunta mientras que el resto de examinados responde obteniendo,
algunos, una puntuación.
El caso de las pruebas en que se penalizan los errores es
paradigmático y precisamente este es otro elemento tratado
en una auditoria cuantitativa; la conjetura
o respuestas por adivinación y los efectos colaterales de la
penalización
de los errores. Ambos son temas polémicos puesto que el
hecho de restar o penalizar los errores se ha convertido en una
práctica extendida pero a la vez poco fundamentada.
Según que procedimiento se aplique el autor y usuario del
test asume una serie de condiciones sobre la conducta de los
examinados, y sobre el diseño del test, que rara vez se
cumplen en el mundo real pero que siempre producen sesgos en las
puntuaciones de los examinados. Este desajuste suscita de nuevo
animadversión y sospechas sobre el proceso de
evaluación (penalizaciones, puntuaciones corregidas a la
baja…).
En el caso de encuestas o cuestionarios de respuesta graduada (sin
acierto ni error) este análisis se hace sobre las respuestas aquiescentes y la
tendencia a omitir.
En ambos casos un condicionante importante suele ser si se admite o no
el anonimato al responder la prueba.
Además de los análisis descritos, una auditoria
cuantitativa también comprueba el nivel de precisión
de los resultados del test o cuestionario. Se trata de hallar el
intervalo de imprecisión de cualquier resultado de un
examinado, así cuanto más precisa sea una prueba
menor será este intervalo y al revés. Este
análisis genera incomodidad ya que en test poco rigurosos
reporta niveles de imprecisión muy superiores a los deseados
por los autores y usuarios. Además, aquí se da un
fenómeno peculiar en el uso de test puesto que existe un
olvido generalizado sobre que los resultados de una prueba nunca son datos exactos,
de que siempre hay un intervalo de error, de imprecisión,
que hay que considerar al evaluar a los examinados.
Por ejemplo, un cuestionario que mide nivel de ansiedad con resultados
expresados en percentiles puede parecer una herramienta adecuada para
situar a los examinados. Seguramente su impresión de
utilidad cambiará si se comprueba que tiene un intervalo de
imprecisión de ± 15, es decir de 30 sobre 100.
Este mismo ejemplo aplicado a una prueba de aptitud con una
puntuación de corte (apto/no apto) puede llevar a dudar de
quienes realmente superan o no ese nivel ya que existen 30 puntos de
incertidumbre en cada puntuación de examinado.
Desgraciadamente este ejemplo no
es un caso alejado de pruebas que se aplican actualmente.
Otras comprobaciones en la auditoria cuantitativa son la
adecuación de los baremos
y la validez
de las puntuaciones. Muchas pruebas emplean baremos desfasados en
tiempo/espacio o muy centrados en un perfil concreto de examinado. En
ambos casos su aplicación introduce sesgos en las
puntuaciones de los examinados que se sumaran a los provocados cuando
hay pocas evidencias de validez. Este último punto, la
validez, es el más complejo del proceso de
auditoría puesto que pone a prueba la esencia misma del
instrumento, su utilidad.
A modo de conclusión, la auditoria de un test es el proceso
de revisión de las cualidades de un instrumento a
partir de evidencias tanto cualitativas como cuantitativas de su
funcionamiento. Una auditoría no es una
calificación del test en un estándar de calidad
en base a sus prestaciones ni tampoco un análisis
psicométrico en el sentido estricto. La auditoría
tiene un enfoque integral donde se abordan la mayoría de
aspectos que constituyen la prueba. Esta labor no sigue un
patrón rígido ya que varía
según las características de cada test. Sin
embargo, todas las auditorías si comparten el mismo objetivo
común, que su resultado ayude a los profesionales a conocer
mejor los límites de sus herramientas de medición
y en consecuencia a mejorar las evaluaciones que se deriven.
Jordi Renom Pinsach
Dept. Metodologia de les Ciències del Comportament.
Facultat Psicologia, Universitat de Barcelona
|
|
|
|
|
|