Revoluación: diciembre 2018

domingo, 30 de diciembre de 2018

Cuestionarios cognitivos (I): Fundamentación y características

Ya anuncié que durante el 2019 dedicaré las entradas a este instrumento de evaluación, a diversos aspectos como enfoques para su diseño o mejora, utilización más allá de la calificación, tipos de preguntas que se pueden realizar, alineación con el currículo...
En esta primera parte, más teórica, presentaré este instrumento y apuntaré a algunos de los aspectos más técnicos que pululan por ahí, sin pretender caer en algo que resulte demasiado pesado.
Y por supuesto: ¡Feliz Año 2019! No intentéis evaluar nada en el transcurso de la noche y siguientes días.

¿Qué es un cuestionario cognitivo?

Es un instrumento de evaluación que plantea preguntas (de respuesta cerrada o abierta) y que se refiere a aspectos del dominio cognitivo (conocimientos) de una determinada área, asignatura, materia o competencia. Los centrados en los aspectos de conocimiento de una determinada competencia suelen tener un contexto al cual se refieren estas preguntas, llamado frecuentemente estímulo.

Fuente: Agencia Andaluza de Evaluación Educativa - Competencia Lingüística

Visto así, los "exámenes" que se realizan en clase tienen este aspecto, de hecho no son muy diferentes al modelo de ejemplo. Y como se ha dicho, a pesar de su extensivo uso (abuso) en la evaluación del aprendizaje, son muy útiles para evaluar conocimientos.

Suelen tener el formato de prueba de lápiz y papel, pero cada vez más se está extendiendo el uso a formato digital por las grandes prestaciones que da al proceso de evaluación: control del tiempo, del proceso (intentos, errores...), evaluación de grupo (p.ej.: resolución de problemas conjunto) y también por su flexibilidad a la hora de distribuir el orden de las preguntas y el número a resolver de ellas en función de las respuestas previas (p. ej.: Tests Adaptativos Informatizados (TAI)).

Para diseñar cuestionarios cognitivos digitales

Aquí tienes una serie de enlaces con propuestas desde lo más simple a lo más complejo, algunas con posibilidad de generar diferentes tipos de ítems (incluso interactivos) o simples preguntas de opción múltiple. Sin duda hay muchas más plataformas...

Formularios de Google Docs
Moodle (Cuestionarios)
Hotpotatoes
QuizBean
QuizMeOnline
GoConqr
Gnowledge
Quizlet
QuestBase
Tao Testing

Los cuestionarios cognitivos diseñados para las evaluaciones externas, de tipo estandarizado, reúnen una serie de características que aumentan considerablemente su validez y fiabilidad. Aspectos que pueden adoptarse en el diseño de los que hagamos en clase, o que se podrían considerar a la hora de revisar los "controles" que escogemos de las editoriales.

De todos estos aspectos: tipos de preguntas (cerradas o abiertas) y cuando utilizarlas, del sistema de puntuación, del establecimiento de puntos de corte (aprobado/suspenso; o distintos niveles), del feedback que proporcionan cuantitativo y cualitativo, de aspectos a revisar para su mejora desde el análisis de resultados, de si incluir estímulos o no... Se hablará en sucesivas entradas.

Un poco de teoría: Tests de Referencia Criterial (TRC)

Este tipo de cuestionarios cognitivos nacen como contraposición a los tests referidos a la norma (TRN), donde la puntuación de una persona se interpreta de acuerdo a su posición en una curva (la normal) de distribución de puntuaciones perteneciente a una población de referencia. Un ejemplo son los clásicos test estandarizados utilizados en la evaluación psicopedagógica (p.ej.: WISC).

De modo distinto, en los TRC la puntuación de una persona se interpreta respecto al dominio de aprendizaje que se evalúa, independientemente de la distribución de puntuaciones. Un ejemplo muy claro son los tests teóricos para obtener el permiso de conducir.

En su construcción por lo tanto, las preguntas o ítems se basan en una competencia específica que se describe en componentes y descriptores (objetivos, indicadores...) y que constituyen el universo de medida: el dominio, que ha de estructurarse y especificarse como una de las primeras tareas de diseño. Ejemplos de cómo se especifica una determinada competencia los podéis encontrar en los marcos de la Evaluación General de Diagnóstico (o más recientemente Evaluación Individualizada) de España:

- Marco de la Evaluación Individualizada de 3º de EP

- Marco de la Evaluación Individualizada de Final de EP

U otros organismos internacionales como la IEA, con un enfoque más curricular (TIMSS 2019 o PIRLS 2016) o la OCDE, en la evaluación de diversas competencias en el marco de PISA, por ejemplo: Marco de la Competencia Global 2018

En estas plataformas de dos editoriales puedes acceder también a casi todos los cuestionarios realizados desde 2006 hasta este año en diversas competencias:

- Anaya

- Santillana

Diferencia con los exámenes escritos

El cómo se construyen los diferencia (no en su apariencia) de los clásicos exámenes de clase, cuya construcción no está basada en objetivos sino en temas. Por ejemplo, del Tema 3: Los ecosistemas, se van extrayendo preguntas en función de la importancia que se otorgue a cada uno de los aspectos de este tema. Este enfoque impreciso en muchas ocasiones, no puede considerarse un enfoque referido al criterio, ni su interpretación puede darse muchas veces en términos de diferente calidad en el aprendizaje. Ni tampoco el criterio por el cual se decide si se aprueba o suspende el examen, que suele estar fijado en una puntuación de 5 sobre 10 (España) sin importar el nivel de competencia en el dominio para establecer este punto de corte. Además, un análisis más profundo de cualquiera de estas pruebas revelará que casi siempre se centran en un aspecto del dominio cognitivo: recordar o comprender hechos, conceptos o procedimientos, salvo algunas excepciones. Y la puntuación se interpreta como la cantidad de aspectos que se han recordado o resuelto.

Independientemente de si ese es nuestro propósito de la evaluación del aprendizaje: comprobar qué grado de recuerdo o comprensión sobre diferentes hechos, conceptos o procedimientos tenga nuestro alumnado, o se si quiere ir más allá, en un TRC se ha de pasar por un análisis del dominio de aprendizaje. El dominio de aprendizaje en el currículo vigente (para cada asignatura) está plasmado en los referentes de la evaluación: criterios de evaluación (en el currículo español), estándares, metas de logro... (en otros contextos) y en los contenidos. Y no todos ellos serán susceptibles de ser referentes para una evaluación que utilice como instrumento el cuestionario cognitivo. Una vez realizado el análisis y planificación, se pasaría a generar las preguntas o ítems, vinculándolas siempre a los criterios de evaluación o sus especificaciones.

Su planteamiento, muy extendido en las evaluaciones externas, se ha propuesto para pruebas de clase. Y su tradición se remonta a los años 60, con figuras dentro de la evaluación educativa como Robert Glaser, Ronald Hambleton, Thomas Haladyna, Ronald Berk, James Popham... por citar a algunos.

Para saber más:

- Chatterji, M. (2003). Designing and Using Tools for Educational Assessment. USA: Pearson Education Inc.

- Jornet, J. y Suárez, J. (1995). Evaluación referida al criterio, en García Hoz, V. (Cord). Tratado de Educación personalizada.Vol. Problemas y métodos de investigación en Educación Personalizada. Barcelona: Rialp.
- Jornet, J., Suárez, J., González Such, J. y Belloch, C. (1995). Estrategias de elaboración de pruebas criteriales en Educación Superior. UNED.

- Shrock, S. y Coscarelli, W. (2000). Criterior-Referenced Test Development. Silver Spring, MD: ISPI.
- Westgaard, O. (1999). Test that Work. San Franscisco, CA: Jossey-Bass/Pfeiffer.

domingo, 16 de diciembre de 2018

La invariabilidad de la variable: la calificación escolar

Lo prometido es deuda, aunque más tarde de lo previsto. Ahora que estamos en pleno proceso de evaluación (entendida como algo serio y formal: las Juntas de Evaluación)...ya sabemos que la evaluación es continua y formativa...Os presento aquí un humilde estudio sobre las calificaciones escolares a lo largo de un curso con alumnado de 3º de la ESO de un instituto cualquiera de nuestra geografía (en este caso de mi tierra).

Si Heráclito hubiese sido profesor de instituto, su doctrina del cambio, la ley que lo rige (logos), se hubiese ido al garete. El río, siendo el mismo, no cambia; quizá el bañista sí lo haga, pero tampoco lo sabemos. Todo queda, nada pasa; la vida no es un río.

Podéis descargaros el estudio aquí.

Os pongo aquí algunas conclusiones a las que he llegado, me encantaría que sacaseis las vuestras, y me encantaría que sirviera de reflexión. Os advierto que soy un científico de primera y he llegado a determinar exactamente qué es lo que les pasa a los alumnos y alumnas.

- Las chicas obtienen mejores calificaciones que los chicos en todas las asignaturas, a excepción de Ed. Física, aunque la diferencia no es estadísticamente significativa, como en Matemáticas y Física y Química.

- Los nacidos en el primer semestre del año obtienen mejores calificaciones que sus compañeros nacidos en el segundo semestre en todas las asignaturas, aunque estas diferencias no son estadísticamente significativas.

- Los repetidores obtienen peores calificaciones que sus compañeros no repetidores en todas las asignaturas, aunque estas diferencias no sean siempre estadísticamente significativas. Si se amplía este grupo con los que no están en el curso que les tocaría por edad (“no idóneos”) estas diferencias se incrementan respecto a los que sí están en el curso que les toca por edad, y además en todas las asignaturas las diferencias son estadísticamente significativas. Esto pone de relieve que repetir (sin entrar a analizar las causas) no supone una mejora si se compara con sus compañeros no repetidores.

- El rendimiento de los distintos grupos probablemente está influido por la composición de los repetidores o “no idóneos” (por eso el grupo B es mejor en rendimiento). Bien es cierto que grupos con las mismas o similares condiciones en alguna asignatura concreta (en este caso Matemáticas y Geografía e Historia) difieren en rendimiento, apuntando hacia otras variables referidas al profesorado.

- La variación a lo largo del curso en la media de calificaciones de las asignaturas no supera la horquilla de 0,5 puntos. No obstante se dan patrones diferenciados: el de ascenso progresivo, el patrón en V o el plano. El alumnado se comporta de manera diferente según las asignaturas, en unas cada vez aprenden más (progresivo), en otras se mantienen al nivel y en otras tienen altibajos, especialmente en el segundo trimestre, probablemente por la “resaca” vacacional de Navidades.

- Hay asignaturas que se sitúan en rangos de puntuación diferentes a lo largo del curso. El alumnado encuentra más fáciles asignaturas como Educación Física, Música, Educación Plástica y Visual o incluso Biología y Geología (rango 6-7). Algo más complicadas: Física y Química, Geografía e Historia, Valenciano o Inglés (rango 5-6), y definitivamente hay disciplinas muy complicadas para ellos: Matemáticas y Castellano (rango 5 o <5).

- Esta última conclusión se refleja en la evolución de aprobados en las distintas asignaturas a lo largo del curso:

La mayor parte de asignaturas obtienen mayores porcentajes de aprobados en el tercer trimestre, respecto del primero, y en la mayoría de estas la evolución de aprobados es ascendente. Sólo dos asignaturas obtienen prácticamente el mismo número de aprobados al final (3r trimestre) que al principio (1r trimestre): Valenciano y Castellano.
El ámbito artístico-expresivo (Ed. Física, Ed. Plástica y Visual y Música), el ámbito científico (Biología y Geología, Física y Química) y el ámbito social (Geografía e Historia) alcanzan un porcentaje de aprobados que supera el 75% al finalizar el curso.
Todo el ámbito lingüístico (Primera Lengua Extranjera: Inglés, Valenciano y Castellano) y las Matemáticas se mueven en la horquilla del 60% al 70% de aprobados, salvo en este caso Castellano que supera cuanto apenas el 50%, corroborando lo complicada que resulta esta disciplina para alumnado de 14-15 años.

- El porcentaje de alumnado que promocionaría en cada trimestre también es un dato a considerar: en torno al 45% del alumnado promocionaría en el 1r y 2º trimestre, pero en el 3r trimestre los alumnos y alumnas se esfuerzan considerablemente y llegan a promocionar algo más del 60%. Además luego saben que tienen la extraordinaria para los que no se han esforzado lo suficiente.

- En definitiva, el alumnado es bastante predecible en cuanto a su comportamiento, la media de calificaciones de las asignaturas que obtenga un alumno o alumna en el primer trimestre no variará ostensiblemente en el tercer trimestre mucho, unas 2 décimas más.

- Como consecuencia de ello, el tamaño del efecto del “curso” es muy pequeño d=0,14. Si se hace por asignaturas, salvo una de ellas (Física y Química, d=0,58), el tamaño del efecto es nulo o muy pequeño, en ningún caso supera d=0,4 considerado como el valor que indica que un factor incide positivamente, en este caso en el aprendizaje. Y es que ya se sabe, el alumnado no quiere aprender.