domingo, 12 de noviembre de 2017

De(con)struyendo un mito (III): jugando con los números

Hace más de un siglo, una parejita ni de lejos conocida, Daniel Starch y Edward Elliot, como si de Sherlock y Watson se tratasen, se propusieron hacer un experimento con las calificaciones que los profesores ponían en inglés. Al final a ese experimento se le sumó otro similar, pero con las calificaciones en matemáticas.
Ambos fueron publicados en The School Review, uno en 1912, The reliability of the grading of high-school work in English, y otro en 1913, Reliability of grading work in Mathematics. Traducido, la fiabilidad de las calificaciones en los trabajos de inglés (y matemáticas) en el "insti".

Starch y Elliot partían de la base de que:

  • La fiabilidad en la estimación del cumplimiento y progreso del alumnado en sus estudios es de suma importancia.
  • Las calificaciones otorgadas a los trabajos de éstos son una medida tangible de sus logros.
  • Las calificaciones tienen consecuencias administrativas para los estudiantes (promoción, repetición, admisiones, becas, premios...).
  • Las calificaciones tienen consecuencias en la actitud que van conformando los estudiantes ante la escuela, la educación y la vida.
Pero veían "cositas raritas", como que un profesor se "cargaba" al 14% de la clase y otro a un 5%, por ejemplo. Así que su objetivo fue determinar el rango de variación y fiabilidad de las puntuaciones asignadas por los profesores a la respuesta en un examen.

De forma que escogieron dos exámenes en inglés de dos alumnos diferentes (A y B) y los dieron a valorar a, los por aquel entonces ¿Catedráticos? de Inglés (principal teachers of English) de 142 institutos. En 51 de estos institutos se aprobaba con un 70 (escala de 100 puntos) y en los otros 91 institutos con un 75. También hicieron la prueba con estudiantes que se formaban para ser profesores de inglés y con otro grupo de inspectores, directores y profesores que seguían un curso de medición educativa, con los mismos resultados que en el estudio principal, que aquí no se detallan.

Los primeros resultados mostraban que, en general, los profesores de inglés valoraron más el examen del alumno A (mediana 88.2 puntos) que el examen del alumno B (mediana de 80.2 puntos). Y ciertamente así los había valorado su profesor, en un caso el A obtuvo 80 puntos, y el B 75 puntos. Pero lo más inquietante es que en un instituto como el de este profesor, donde se aprobaba con 70 puntos, 22 de los 142 profesores hubiesen suspendido al alumno B. Y además, el profesor de los alumnos se demostraba que era más "duro" que al menos el 50% de los profesores participantes en el estudio.


También encontraron que el punto de corte donde se situaba el aprobado apenas influía, los dos tipos de institutos para el examen A sólo diferían en 1.1 puntos (sus medianas) y para el examen B 1.6 puntos.

Y como resultado principal, ¡el rango de variación en las puntuaciones tanto en un examen como en otro era de 35 a 40 puntos!

¿Qué pasó con el experimento de matemáticas?

Starch y Elliot replicaron el estudio con matemáticas (geometría en concreto), porque supuestamente era una ciencia más "exacta", donde había menos factores subjetivos y personales implicados. Supusieron que la calificación otorgada por los distintos profesores de la materia diferiría menos que en inglés. Pero para su sorpresa la variabilidad en las puntuaciones obtenidas aún fue mayor que en inglés.

El estudio de la Universidad de Lieja

Este estudio de Grisay, en el capítulo del libro referenciado al final de la entrada, se centra en demostrar la hipótesis de un par de inspectores de la zona francófona de Bélgica a raíz de los resultados de repetición que ofrecían diversas escuelas de su circunscripción. 
Los inspectores, a la vista de sus visitas, se preguntaron si los exámenes realizados en diversas escuelas no eran de desigual dificultad. Se elaboró una prueba externa en lengua materna que se administró a todos los alumnos del último curso de Primaria y se compararon con las notas que estos alumnos obtuvieron en su examen final de lengua.
- Las correlaciones de cada una de las clases entre una prueba y otra eran altas, indicando que la clasificación que hacen los profesores es muy comparable a la que hace una prueba externa estandarizada.
- Sin embargo, la correlación bajaba a 0,52 cuando se calcula en el conjunto de la población, lo que significa que las notas de una clase a otra las notas no tenían el mismo valor referencial respecto a lo que mide la prueba externa.

Se comprueba entonces que, los profesores adaptan, legítimamente, sus exámenes al nivel de su clase. Como consecuencia, a un nivel de competencia igual, los alumnos que tiene alguna dificultad tienen más posibilidades de repetir curso si están en una clase más bien buena que en el caso contrario. Y por otra parte, debido a esa desigual dificultad, los profesores tienden a sobrevalorar la heterogeneidad de las clases, digamos que tienden a dispersar más las puntuaciones, a diferenciar más a su alumnado entre sí, que lo que realmente hace una prueba externa.


En el gráfico se aprecia que, por ejemplo, una clase homogénea puede parecer heterogénea al docente, incluso si es una homogeneidad de rendimiento bajo (prueba externa) como en la Clase I. esto, además de consecuencias individuales, que ya se han apuntado, tiene consecuencias de intervención efectiva sobre grupos que realmente lo necesitan, ya que enmascara su competencia real. Enmascara la desigualdad. Y nuevamente, saliéndonos del tema y volviendo al argumento de esta entrada, hace dudar mucho de que con las calificaciones se esté valorando realmente la competencia del alumnado. No es para nada consistente con la descripción del nivel de logro que realmente tienen estos alumnos y que, una prueba externa desde un enfoque de TRI, por ejemplo, sí proporciona. Con esto no quiero decir que lo único válido es una prueba externa, sino que deberíamos adoptar, si usamos puntuaciones para valorar el aprendizaje, incluso si no las usamos, alguno de estos enfoques de descripción de niveles de logro.

Conclusiones

Sin duda alguna, estos estudios nos hacen cuestionar la fiabilidad de las calificaciones, su supuesta objetividad, y el uso tan pretendidamente científico que hacemos de ellas para tomar decisiones "administrativas" o "punitivas". Parece más bien que esto es un juego de números, incluso ayudado por tecnologías tan punteras como una hoja de cálculo.
Pero bien, independientemente de que esto de calificar lo tengamos que hacer por puro requerimiento administrativo o por tradición, también es cierto que hay profesores que aprovechan la evaluación para que sus alumnos y alumnas aprendan. El juego de la calificación no es ni de lejos educativo y mucho menos científico, además de incluir severas aberraciones estadísticas, como calcular una media aritmética con tres valores como valor que representa la tendencia central de éstos.
Alguien podrá contra-argumentar que esto es lo que motiva realmente a los estudiantes, que es en lo que confían las familias y que además es lo que demanda la administración. Pero si se trata de motivación quizá podamos probar con una motivación positiva y otros medios, técnicas y métodos; si se trata de las familias quizá podamos convencerles de que el aprendizaje y no un número es lo que está en juego y que dar información de cómo aprenden y cómo pueden mejorar en este proceso sea lo importante...y mientras tanto nos inventamos formas, o las demandamos, de alinear las escalas de puntuación con descripciones de logro en las distintas materias para cumplir con la administración.
Otros simplemente, en la línea de un movimiento también muy de moda, dirán que esto lo ha escrito un iluminado de éstos, ¿cómo se llaman? ¡Ah, sí! Un pedagogo, seguro que lo ha escrito un pedagogo.

Para saber más

- Starch, D. & Elliot, E. (1912). Reliability of the grading of high-school work in English. The School Review,  20 (7), 442-457. URL: https://www.jstor.org/stable/1076706?seq=1#page_scan_tab_contents
- Starch, D. & Elliot, E. (1913). Reliability of Grading Work in Mathematics. The School Review, 21 (4), 254-259. URL:https://www.jstor.org/stable/1076246?seq=1#page_scan_tab_contents

- Brimi, H. M. (2011). Reliability of Grading High School Work in English. Practical Assessment, Research & Evaluation, 16(17). URL: http://pareonline.net/getvn.asp?v=16&n=17 (réplica del estudio de Starch y Elliot).
- Grisay, A. (2003). Repetir curso o adecuar el currículo. En A. Marchesi y C. Hernández Gil (Coords.). El fracaso escolar. Una perspectiva internacional,  (pp. 101-128). Madrid: Alianza Ensayo.