La auditoría de un test o examen consiste en el proceso metodológico por el cual se verifican sus cualidades como instrumento de evaluación. Se trata de hacer el “test del test” de modo que el profesional-usuario tome consciencia de los límites técnicos de las herramientas de medición que utiliza.

La proliferación de todo tipo de test en ámbitos muy variados hace cada vez más necesario un control de calidad que garantice su utilidad. En ocasiones se trata de tests adaptados de un original de otro entorno (idioma, cultura...) siguiendo un proceso poco riguroso. En otros casos de exámenes o cuestionarios creados y administrados por primera, y única vez, sin garantías probadas previas de buen funcionamiento. Un apartado especial son las pruebas ofrecidas en la Red, a menudo sin ninguna base metodológica, ni dato técnico, ni aval que informe de sus cualidades métricas.

Por el contrario, sorprende el crédito y confianza que muchos usuarios de test otorgan a estos instrumentos. Aceptan que puntúan con precisión, que sirven para todo tipo de examinados, que están actualizados, que sus baremos encajan con el perfil de sus clientes, pacientes, candidatos, etc. La realidad es que en muchos casos se están evaluando personas con pruebas poco fiables, de validez dudosa, baremos obsoletos y preguntas (ítems) defectuosas.
Esta problemática no es nueva pero sí se ha intensificado especialmente por la creciente cantidad y opacidad de muchos instrumentos distribuidos online. Las nuevas tecnologías ofrecen muchas facilidades para la creación y aplicación de test pero es menos habitual que estas prestaciones se aprovechen también para garantizar las cualidades técnicas del instrumento. De nuevo aquí se está evaluando a personas, a distancia y sin garantías, obviando además el potencial de la Red ya que en un proceso de auditoria esta puede ser tanto un problema añadido como un aliado.

Afortunadamente este panorama no es generalizado, existen directrices internacionales de buenas prácticas, recientemente una nueva ISO, y también organizaciones que promueven la calidad de la evaluación psicológica y educativa. Todo esto sin embargo es insuficiente para garantizar la calidad de muchas evaluaciones que ignoran estas directrices ya sea por desconocimiento de los autores de los instrumentos o por el de los profesionales que los emplean o por ambas causas.

En este punto entra la auditoria de tests, como servicio preventivo requerido tanto por el profesional-usuario como por una organización interesada en conocer las garantías de sus instrumentos de evaluación. En otras ocasiones es una auditoria reactiva solicitada por una persona o colectivo que dudan y se ven perjudicados por el proceso de evaluación que se les ha aplicado. En el primer caso la auditoria responde a un interés preventivo por verificar la calidad de los instrumentos antes de tomar decisiones sobre los examinados. En el segundo suele haber una sospecha, no compartida por los profesionales o autores del test, sobre el mal funcionamiento del instrumento. Esta última situación es muy frecuente en exámenes, tests y cuestionarios construidos para una ocasión concreta y con repercusiones significativas para el futuro de los examinados. Al no haberse expuesto antes públicamente muchas carecen de ensayos piloto y el riesgo de que produzcan resultados sesgados es elevado. Todo ello provoca reacciones negativas contra los instrumentos y quienes los emplean deteriorando su credibilidad y de la profesión.

Un factor que ayuda a explicar esta problemática es la gran transversalidad de la medición en psicología y educación. Además, no siempre quienes utilizan ni diseñan estos instrumentos son profesionales del sector y sólo una parte de las herramientas pasan por un control riguroso en su elaboración y verificación. No hay que olvidar que la mayoría de directrices existentes son propuestas y estándares de buenas prácticas, no normas de obligado cumplimiento.

Un proceso de auditoria sigue dos líneas de actuación: cualitativa y cuantitativa. En la primera se revisan los aspectos formales y de diseño de la prueba. Se trata de ver si la redacción de los ítems y la edición de la prueba muestran desajustes respecto a las recomendaciones de buenas prácticas. Muchas disfunciones se deben a problemas en este primer nivel y es importante considerar el “escenario” en que se aplica la prueba auditada (conocer las condiciones en que se administra habitualmente, las repercusiones de sus resultados, aspectos legales si los hay, costes, personal implicado en todo el proceso de evaluación, etc.).

En muchas ocasiones esta primera auditoria revela ya suficiente información como para no abordar la cuantitativa. Son casos graves, debidos a diseñadores que desconocen los efectos secundarios de cualquier error de redacción, de diseño, o de edición de una prueba. Como ejemplo, se dan casos en que la redacción ambigua en tres preguntas de un test o examen conlleva desplazar un 20% de examinados del apto al no apto, o al revés, según si se toman en cuenta las respuestas a estas preguntas en la puntuación del test. En otras palabras, el supuesto acierto o error a unas pocas preguntas que no representan tener más o menos conocimiento sobre el tema evaluado puede llevar a sesgos importantes en la evaluación y en las decisiones que se deriven sobre los examinados.

En cuanto a la auditoria cuantitativa es de carácter numérico, se trata de analizar las respuestas de una muestra de examinados que ha respondido al test. Para este análisis es necesario disponer de software especializado y de todas las respuestas de todos los examinados a totas las preguntas (matriz de datos). En función de la prueba puede ser más o menos complicado conseguir toda esta información (manualmente, automáticamente en pruebas online, a través de lectora óptica, etc...). Existe además una condición fundamental; las respuestas han de ser lo más “primarias” o en “bruto” posible. Si se trata de una prueba de alternativa múltiple (“tipo test”) los datos requeridos por la auditoria son las letras o números de las opciones de respuesta escogidas y marcadas por cada examinado (AABDADCCA...). No importa si la respuesta es correcta o incorrecta (010010010...), solo el dato original en bruto. Uno de los principales obstáculos de las auditorías cuantitativas es precisamente acceder a este tipo de datos ya que por lo general los profesionales valoran más la información ya transformada que su original en bruto.

En la auditoria cuantitativa se ponen a prueba muchos componentes del test. Uno es la clave o plantilla de corrección que sirve para corregir y puntuar a los examinados. Dado que se trata de una auditoria esta clave también se pone en cuarentena hasta que el análisis confirme su adecuación. Por ello los datos que se analizan no han de haber pasado por ninguna transformación (corrección de AABDADCCA a 010010010...), ya que de hacerla se está aceptando de antemano la validez de la plantilla que se pretende validar. En auditorias de pruebas de alternativa múltiple es muy frecuente que los análisis adviertan sobre problemas en la clave de corrección. Puede suceder que en varios ítems parezca existir más de una alternativa correcta (sentido oculto no previsto,...) o que no se confirme la correcta. Las repercusiones de estas advertencias son graves y lo primero es confirmarlas revisando el contenido de las preguntas afectadas (auditoria cualitativa) junto al experto (diseñador, autor...) en el tema evaluado.
 
Cuando estas advertencias se confirman hay que modificar la clave de corrección o anular directamente las preguntas implicadas. Esto afecta a las calificaciones de los examinados dado que una parte de sus respuestas ya no se emplearán. Aquí se evidencia el valor preventivo de las auditorias ya que no es lo mismo detectar disfunciones antes que después de publicar los resultados. En auditorias reactivas estos resultados suelen reforzar las sospechas y dudas de los afectados (“mal redactadas”, “poco claras”, “ambiguas”, “extrañas”, “enrevesadas”…), aumentando el descrédito hacia el proceso de evaluación. Si las repercusiones de la evaluación son importantes o tienen alguna implicación legal el escenario para los autores y usuarios puede complicarse mucho.
Por contra, en auditorias preventivas los cambios en la clave antes de exponer resultados minimizan los conflictos potenciales ya que sus efectos secundarios se consideran antes de exponer las puntuaciones a los examinados.  

El análisis de la clave es importante pero sólo afecta a un tipo de test. Por lo general el grueso de una auditoria cuantitativa pretende verificar si cada pregunta de la prueba funciona correctamente como pieza evaluadora del conjunto. Se trata de una inspección ítem a ítem que engloba también las respuestas en blanco y las dobles marcas, si las hay. En la auditoria se analiza tanto lo que los examinados han respondido como lo que no. Por ello es importante utilizar datos en bruto y que la respuesta en blanco se distinga y codifique diferente de las otras. Como ejemplo, es usual que haya test con preguntas en que la respuesta que realmente sirve para evaluar mejor a los examinados es la omisión. Dicho de otro modo, por error de diseño o redacción, el hecho de omitir esas respuestas es indicador de un mayor nivel en el contenido evaluado. Los examinados que omiten estas preguntas son los más preparados o con mayor nivel en el rasgo medido. Esto ocurre porque suelen ser quienes detectan algún problema de redacción o de significado que les induce a dejar en blanco la pregunta mientras que el resto de examinados responde obteniendo, algunos, una puntuación.

El caso de las pruebas en que se penalizan los errores es paradigmático y precisamente este es otro elemento tratado en una auditoria cuantitativa; la conjetura o respuestas por adivinación y los efectos colaterales de la penalización de los errores. Ambos son temas polémicos puesto que el hecho de restar o penalizar los errores se ha convertido en una práctica extendida pero a la vez poco fundamentada. Según que procedimiento se aplique el autor y usuario del test asume una serie de condiciones sobre la conducta de los examinados, y sobre el diseño del test, que rara vez se cumplen en el mundo real pero que siempre producen sesgos en las puntuaciones de los examinados. Este desajuste suscita de nuevo animadversión y sospechas sobre el proceso de evaluación (penalizaciones, puntuaciones corregidas a la baja…).

En el caso de encuestas o cuestionarios de respuesta graduada (sin acierto ni error) este análisis se hace sobre las respuestas aquiescentes y la tendencia a omitir. En ambos casos un condicionante importante suele ser si se admite o no el anonimato al responder la prueba.

Además de los análisis descritos, una auditoria cuantitativa también comprueba el nivel de precisión de los resultados del test o cuestionario. Se trata de hallar el intervalo de imprecisión de cualquier resultado de un examinado, así cuanto más precisa sea una prueba menor será este intervalo y al revés. Este análisis genera incomodidad ya que en test poco rigurosos reporta niveles de imprecisión muy superiores a los deseados por los autores y usuarios. Además, aquí se da un fenómeno peculiar en el uso de test puesto que existe un olvido generalizado sobre que los resultados de una prueba nunca son datos exactos, de que siempre hay un intervalo de error, de imprecisión, que hay que considerar al evaluar a los examinados.

Por ejemplo, un cuestionario que mide nivel de ansiedad con resultados expresados en percentiles puede parecer una herramienta adecuada para situar a los examinados. Seguramente su impresión de utilidad cambiará si se comprueba que tiene un intervalo de imprecisión de ± 15, es decir de 30 sobre 100. Este mismo ejemplo aplicado a una prueba de aptitud con una puntuación de corte (apto/no apto) puede llevar a dudar de quienes realmente superan o no ese nivel ya que existen 30 puntos de incertidumbre en cada puntuación de examinado. Desgraciadamente este ejemplo no es un caso alejado de pruebas que se aplican actualmente.

Otras comprobaciones en la auditoria cuantitativa son la adecuación de los baremos y la validez de las puntuaciones. Muchas pruebas emplean baremos desfasados en tiempo/espacio o muy centrados en un perfil concreto de examinado. En ambos casos su aplicación introduce sesgos en las puntuaciones de los examinados que se sumaran a los provocados cuando hay pocas evidencias de validez. Este último punto, la validez, es el más complejo del proceso de auditoría puesto que pone a prueba la esencia misma del instrumento, su utilidad.

A modo de conclusión, la auditoria de un test es el proceso de revisión de las  cualidades de un instrumento a partir de evidencias tanto cualitativas como cuantitativas de su funcionamiento. Una auditoría no es una calificación del test en un estándar de calidad en base a sus prestaciones ni tampoco un análisis psicométrico en el sentido estricto. La auditoría tiene un enfoque integral donde se abordan la mayoría de aspectos que constituyen la prueba. Esta labor no sigue un patrón rígido ya que varía según las características de cada test. Sin embargo, todas las auditorías si comparten el mismo objetivo común, que su resultado ayude a los profesionales a conocer mejor los límites de sus herramientas de medición y en consecuencia a mejorar las evaluaciones que se deriven.

Jordi Renom Pinsach
Dept. Metodologia de les Ciències del Comportament.
Facultat Psicologia, Universitat de Barcelona