Revoluación: 2017

domingo, 31 de diciembre de 2017

¿Preparados para la "chapa"? Estándares de aprendizaje evaluables

Mi última entrada del año...Realmente es una chapa, pero espero que dé algo más de sentido a muchas de las dudas que se han ido planteando, aún después de unos años de normativa, sobre los estándares de aprendizaje evaluables.
Así, una de las novedades de la LOMCE en el ámbito del diseño curricular, entre otras, fue la introducción de los estándares de aprendizaje evaluables (de aquí en adelante EAE). A partir de aquí se desplegó la normativa tanto estatal (reales decretos de currículo) como autonómica (decretos de currículo). Pero el hecho de fijarlos sólo al final de las etapas tuvo unas consecuencias, desde mi punto de vista, catastróficas...Además, ¿qué es un estándar de aprendizaje?, ¿en qué se diferencia de otros elementos del currículo con similar sintaxis: criterios de evaluación, objetivos?, ¿para qué los necesitamos?, ¿qué hay en otros países que los utilizan?...
A lo largo de esta entrada iré dando respuesta a estos interrogantes, y sirva ésta como aportación única este mes (por su longitud).

Un poco de normativa

En la LOMCE aparece como novedad del currículo el término Estándares de Aprendizaje Evaluables (EAE) y lo hace inicialmente de esta forma: Art. 6, e) Los estándares y resultados de aprendizaje evaluables. Corresponderá al Gobierno fijarlos tanto para las asignaturas troncales como para las específicas en la Ed. Primaria, ESO y Bachillerato. Sólo las autonomías pueden establecer dichos EAE en las asignaturas de libre configuración autonómica. ¿Qué fue de los resultados de aprendizaje evaluables? Ni se aclara, ni vuelve a aparecer más.
Es en los Reales Decretos de currículo: Real Decreto 126/2014 (Ed. Primaria) y Real Decreto 1105/2014 (ESO y Bachillerato), donde se define por primera vez el término:

Especificaciones de los criterios de evaluación que permiten definir los resultados de aprendizaje, y que concretan lo que el alumno debe saber, comprender y saber hacer en cada asignatura; deben ser observables, medibles y evaluables y permitir graduar el rendimiento o logro alcanzado. Su diseño debe contribuir y facilitar el diseño de pruebas estandarizadas y comparables.

Inicialmente ya sabemos qué son, pero...¿por qué se introduce el término resultados de aprendizaje?¿dónde están esos resultados de aprendizaje que definen los EAE?¿los criterios de evaluación son entonces resultados de aprendizaje? Es más, a los criterios de evaluación se les define como el "referente específico para evaluar el aprendizaje del alumnado", entonces, ¿qué papel juegan los EAE?, ¿instrumentos para el diseño de pruebas estandarizadas y comparables? Más adelante también incluye a los EAE, por extensión se supone, como referentes de la evaluación.

Son todas ellas preguntas que no han sido resueltas. Y a esto se le añade la gran pifia nacional, los EAE (también los criterios de evaluación) sólo se definen en sentido finalista, de etapa, haciéndolos coincidir con las pruebas individualizadas (salvo en 3º de Ed. Primaria donde no existen EAE y salvo en 3º de ESO, donde sí hay EAE pero no prueba). Y lógicamente, ¿cómo pueden ser unos estándares finalistas referentes para la programación didáctica de un maestro o maestra en 3º de Ed. Primaria o 5º, o 1º de la ESO? ¿Cómo han resuelto esto los decretos de currículo de cada Comunidad Autónoma? Pues cada una ha hecho lo que ha estimado oportuno. Resultado: 17 sistemas educativos altamente diferenciados, al menos respecto a qué, cuándo y cómo se debe alcanzar un determinado aprendizaje.

Soluciones autonómicas a los EAE finalistas

Como se ha dicho anteriormente todas las Comunidades Autónomas han tenido que dar solución al desarrollo de sus currículos respectivos ¿Cómo a partir de unos criterios de evaluación y sus EAE de final de etapa o de ciclo en ESO (1º a 3º) se ha construido ese currículo?¿qué elementos curriculares se han utilizado?¿qué papel han jugado los EAE?

(próximamente tabla comparativa)

¿Qué es en realidad un estándar?

En definitiva, un estándar describe lo que todo estudiante debe saber, saber hacer, saber ser y estar en las áreas curriculares o competencias a lo largo de su escolaridad y además tiene ciertas características que lo separan conceptualmente de lo que se consideraría un resultado de aprendizaje (que a su vez tiene otras connotaciones). Sobre los criterios de evaluación no nos pronunciamos, porque a mi modo de entender somos de los pocos países que llamamos criterios de evaluación a lo que en otros países llaman metas de logro, objetivos, estándares...En estos países (UK o USA, por ejemplo) un criterio de evaluación es la base sobre la que los docentes hacen una valoración del desempeño de su alumnado, hacen explícito cómo de bien se han alcanzado esos estándares o resultados de aprendizaje; y además, pueden articularse en diferentes niveles de logro cualitativos. Los resultados de aprendizaje o los estándares por sí mismos pueden o no implicar un nivel de logro, pero generalmente no lo implican. Es algo que se alcanza o no. Para determinar a qué nivel se alcanza están los criterios de evaluación que tienen sentido en los diferentes desempeños que se proponen para evidenciar un determinado aprendizaje.

Así, Montes, al respecto de los estándares, entre otras señala que:

a) se elaboran con el objetivo de que se apliquen prescriptivamente,

b) tienden a ser claros, directos y pragmáticos,

c) son susceptibles de ser evaluados respecto a su grado de cumplimiento,

d) no tienen alcance didáctico metodológico, dicen dónde debemos apuntar, pero no responden a “cómo hacer”,

e) son considerados con fines de acreditación o acceso a otras instancias,

f) se orientan a las disciplinas,

g) orientan y resaltan los énfasis de la enseñanza,

h) son susceptibles de ser observados (utililizados) en evaluaciones referidas al criterio,

i) son pocos en número, ya que por lo general apelan a aspectos esenciales. Aunque en algunos casos se pueden plantear estándares de excelencia o mínimos. Por ejemplo, se recomienda de diez a doce estándares por área, y se entiende que por nivel. En el caso del currículo nacional americano de matemáticas (Common Core Standards of Mathematics: http://www.corestandards.org/) para un dominio como Operaciones y pensamiento algebraico en grado 1 se presentan 21 (hay tres dominios más en matemáticas para este nivel), en grado 2 pasan a ser 25...Bastantes más de lo recomendado en este punto,

j) son fruto de consensos, acuerdos colectivos y producidos en espacios de trabajo especializados.

Clasificación

En el documento sobre estándares de aprendizaje del IPEBA (2011) se señala para alguno de los casos planteados una clasificación propuesta por Ravitch:

a) estándares de contenido: qué se debe enseñar y qué se debe aprender
b) estándares de desempeño: especifican niveles de logro en su dimensión horizontal (en un mismo nivel educativo, distintos niveles de realización o desempeño) no en todos los casos; y en su dimensión vertical (por cursos o ciclos).
c) estándares de oportunidad: establecen la cantidad y calidad de los docentes, materiales, personal de apoyo, infraestructura, etc. que se requieren para que los estudiantes alcancen los estándares prescritos de manera más óptima.
A estos estándares se podría añadir aquellos referidos al desarrollo profesional de los docentes, aunque bien se podrían integrar en el último tipo de estándares descritos.

Ejemplos

El caso chileno

En Chile se definen mapas de progreso (estándares que imitan a los Australianos) para cuatro áreas: lenguaje y comunicación, matemáticas, historia y ciencias naturales y para todos los niveles educativos.

Cada área organiza los estándares por dominios. Por ejemplo, para el caso de matemáticas: Números y operaciones; Álgebra, Geometría, Datos y Azar y Razonamiento Matemático (transversal). A su vez, cada dominio se subdivide en dimensiones más específicas. Todas ellas están descritas, aunque no reflejadas de forma específica en la estructura, sino integradas en el desarrollo del estándar.

En definitiva, un mapa de progreso identifica para un dominio (Número y operaciones), el desempeño a distintos niveles, lo que propiamente es el estándar. En el caso chileno del 1 al 7. Cada nivel se corresponde con el desempeño esperado al finalizar un ciclo de dos años (p.e.: Nivel 1, corresponde al segundo curso de la educación básica, primaria).

Por tanto, para el caso de Matemáticas, habiendo 5 dominios, a 7 estándares por dominio, existen un total de 35 estándares.

Ejemplo de estándar del área de Matemáticas: Números y operaciones, nivel 1.

Acompañando cada estándar se especifican una serie de actividades referidas que permiten identificar al docente si éste se está alcanzando (ejemplos de desempeño) y una tarea de ejemplo (ejemplo de trabajo de alumnos y alumnas). Se pueden descargar los mapas de progreso en: http://www.educarchile.cl/ech/pro/app/detalle? id=132702

El caso inglés

En el currículo inglés se definen estándares (attainment tatgets; tr. metas de logro) para cada dominio y a diferentes niveles de logro, correspondientes a cada uno de los cursos, más o menos: nivel 1, 5 años; nivel 2, 6 años; nivel 3, 7 años. (Key Stage 1; KS1). Después, en el KS2, de 8 a 11 años, se comienza con el N2 hasta el N5. En KS3, de 12 a 14 años, se comienza con el N3 y se finaliza con el N7 y finalmente en el KS4, de 14 a 16 años, comenzando por el N5...así hasta el N8, más un nivel llamado excepcional.

Se realizan pruebas para comprobar el cumplimiento de los estándares en diferentes momentos de la escolaridad en Matemáticas, Inglés y Ciencias:

- Al finalizar KS1 (7 años), se espera un mínimo N2.

- Al finalizar KS2 (11 años), se espera un N4.

- Al finalizar KS3 (14 años), se espera un N5 y N6

Cuando finalizan la KS4, tienen el examen nacional GCSE, que otorga el certificado de educación secundaria obligatoria.

Estos estándares o metas de logro no se entienden sin los programas de estudio, que consisten en especificaciones dirigidas a los docentes sobre diferentes áreas y en las que se indica, en diferentes dominios del área, qué tiene que enseñarse. Los estándares son el elemento constituyente del programa de estudio y van acompañados también de unas aclaraciones no prescriptivas (non- statutory).

Esta es la introducción a la que siguen la enumeración ingente de estándares por dominio en el área, y que se refiere a metas de logro. Sólo en el año 3 (correspondiente a 1º de EP) en matemáticas existen ya 33 estándares.

"By the end of each key stage, pupils are expected to know, apply and understand the matters, skills and processes specified in the relevant programme of study. Schools are not required by law to teach the example content in [square brackets] or the content indicated as being ‘non-statutory’."

Ejemplo de estándares del área de Matemáticas: Número y valor posicional, año 3, KS2.

Más información en: https://www.gov.uk/government/collections/national-curriculum

El caso americano

Ejemplo de estándares del área de Matemáticas. Dominio de operaciones y pensamiento algebraico para 1er año y 2º año en Representar y resolver problemas que implican adición y sustracción.

Grade 1

CCSS.MATH.CONTENT.1.OA.A.1 Use addition and subtraction within 20 to solve word problems involving situations of adding to, taking from, putting together, taking apart, and comparing, with unknowns in all positions, e.g., by using objects, drawings, and equations with a symbol for the unknown number to represent the problem.

CCSS.MATH.CONTENT.1.OA.A.2 Solve word problems that call for addition of three whole numbers whose sum is less than or equal to 20, e.g., by using objects, drawings, and equations with a symbol for the unknown number to represent the problem.

Grado 2

CCSS.MATH.CONTENT.2.OA.A.1 Use addition and subtraction within 100 to solve one- and two-step word problems involving situations of adding to, taking from, putting together, taking apart, and comparing, with unknowns in all positions, e.g., by using drawings and equations with a symbol for the unknown number to represent the problem.

Conclusiones en relación con el caso español

Vistos los ejemplos y soluciones implementados en distintos países sobre los estándares de aprendizaje se puede llegar a una serie de conclusiones en relación con el caso español.

La primera y principal, es que en todos los países las cuestión de definición de estándares pasa por un proceso amplio de consenso, donde profesionales y administración, especialmente, llegan a acuerdos sobre cómo entender el currículo y los niveles que han de demostrar los estudiantes al finalizar distintas etapas educativas o ciclos dentro de éstas. Esta es una de las cuestiones que el propio Ministerio de Educación habría de plantearse en un futuro de revisión de los mismos, contar con la participación no solo de las administraciones de las distintas comunidades autónomas, sino también con grupos profesionales de reconocido prestigio, para aquellos aspectos de contenido más técnicos.

Otras cuestiones pasan por aspectos más pedagógicos:

1. En los diferentes casos analizados se establecen niveles, no únicamente de carácter finalista como ocurre en el caso español (final de etapa). Así, unos niveles verticales, a lo largo de toda la etapa, hacen que la dirección sea bien entendida desde el inicio de la educación primaria permitiendo, por un lado, situar a cualquier alumno en un determinado nivel de la etapa, sea el que le corresponde o sea otro de carácter inferior o superior. Todo estándar está necesariamente vinculado a otros sucesivos en la etapa, lo que va a permitir mediante la evaluación establecer el nivel de logro y por tanto realizar los ajustes curriculares necesarios en el nivel de alumno. Asimismo, el establecimiento de estándares por cada nivel educativo orientará mejor las políticas de currículo de las comunidades autónomas, impidiendo que al menos haya la tremenda variación, no únicamente en cuanto a contenidos de los propios estándares, sino a las metodologías y soluciones que cada comunidad ha adoptado para completar el desarrollo de los estándares en cada nivel. Además, en el caso español, el hecho de no definir estándares para todos los niveles de la etapa ha dificultado el establecimiento del marco teórico de la evaluación de tercero de Educación Primaria: ¿a qué estándares nos tenemos que referir si no hay definidos para este nivel estándares? Las soluciones pueden ser de lo más arbitrario. Los estándares han de estar más vinculados a las evaluaciones durante y final de etapa, estableciendo una clara relación de los marcos de evaluación y permitiendo también establecer niveles horizontales de logro (dentro de un mismo nivel).

2. Otro de los aspectos técnicos es su redacción, en qué términos están redactados y cómo conviven con los distintos elementos del currículo.

En nuestro caso, se hace difícil observar su convivencia con los criterios de evaluación. Si un estándar sirve a los propósitos de la evaluación, no puede haber otro elemento que sirva para los mismos propósitos o al menos se debería explicar para qué tipos de evaluación se presentan unos y otros. Por otra parte, si los estándares de nuestro currículo son una concreción de los criterios de evaluación, como bien indica su definición en el RD, están a un nivel degradado que ya no corresponde a un estándar (elemento de referencia, de ahí la palabra estándar). Y si son esto, lo son siempre al menos. Es decir, si nacen de los criterios de evaluación como una concreción de éstos, se debería poder establecer siempre esta relación, cuestión que no queda del todo clara muchas veces.

Ejemplo de criterio de evaluación y EAE asociaciados de Ciencias Sociales (Final Ed. Primaria)

Se evidencia de este ejemplo que la concreción del criterio de evaluación es arbitraria. Hay estándares que bien podrían pertenecer a otro criterio de evaluación y no surgen de la especificación de éste...Desde luego "comprender" no es "interpretar", o lo puede ser todo dada su ambigüedad.

Por otra parte, su relación con las competencias clave es nula. No hay nada el currículo que puede dar pistas sobre este tipo de vinculación y cada comunidad autónoma ha hecho lo que ha estimado oportuno en la relación de cada EAE con una o varias competencias. Nuevamente, se ha dejado escapar la cuestión competencial relegándola a una descripción de qué se entiende por competencia, pero imposibilitando su evaluación a través de estándares.

Finalmente, respecto a su sintaxis, la mayor parte de ellos se parecen al currículo inglés, más que al americano. Esta fragmentación del estándar puede dar apariencia de pragmatismo, pero pierde fuerza respecto a la evaluación de un aprendizaje competencial, especialmente porque su estructura no sigue una redacción que responda a una sintaxis clara: proceso-contenido-contexto; casi siempre se obvia el contexto. Y además están casi exclusivamente elaborados para el desarrollo de cuestionarios cognitivos (pruebas escritas o por ordenador con preguntas cerradas en su mayor parte).

3. ¿Son estándares mínimos, básicos o de excelencia? Nada apunta a pensar ninguna de las tres cosas. Aunque si es un currículo básico lo que se indica en el RD, estos estándares lógicamente son básicos. No hay razón para pensar que algunos de ellos son imprescindibles, todos ellos lo son o deberían serlo. Cualquier solución en este sentido es una solución al margen de la normativa, arbitraria y osada.

Para saber más

- IPEBA (2011). Estándares de aprendizaje: ¿De qué estamos hablando?. Lima: Autor.

- Daugherty, R., Black, P., Ecclestone, K., James, M. and Newton, P. (2008) Alternative perspectives on learning outcomes: challenges for assessment, Curriculum Journal, 19 (4), 243 — 254.

- Kennedy, D. (2008). Everything you need to know about Learning Outcomes! Bologna Seminar on Development of a common understanding of Learning Outcomes and ECTS. Porto, Portugal, 19-20 June 2008.

- Moon, J. (2004). Linking levels, learning outcomes and assessment criteria. Bologna Seminar on ‘Using Learning Outcomes’ Edinburgh, United Kingdom, 1-2 July 2004. http://www.bologna-bergen2005.no/ (sección “Seminars”).

domingo, 12 de noviembre de 2017

De(con)struyendo un mito (III): jugando con los números

Hace más de un siglo, una parejita ni de lejos conocida, Daniel Starch y Edward Elliot, como si de Sherlock y Watson se tratasen, se propusieron hacer un experimento con las calificaciones que los profesores ponían en inglés. Al final a ese experimento se le sumó otro similar, pero con las calificaciones en matemáticas.
Ambos fueron publicados en The School Review, uno en 1912, The reliability of the grading of high-school work in English, y otro en 1913, Reliability of grading work in Mathematics. Traducido, la fiabilidad de las calificaciones en los trabajos de inglés (y matemáticas) en el "insti".

Starch y Elliot partían de la base de que:

La fiabilidad en la estimación del cumplimiento y progreso del alumnado en sus estudios es de suma importancia.
Las calificaciones otorgadas a los trabajos de éstos son una medida tangible de sus logros.
Las calificaciones tienen consecuencias administrativas para los estudiantes (promoción, repetición, admisiones, becas, premios...).
Las calificaciones tienen consecuencias en la actitud que van conformando los estudiantes ante la escuela, la educación y la vida.

Pero veían "cositas raritas", como que un profesor se "cargaba" al 14% de la clase y otro a un 5%, por ejemplo. Así que su objetivo fue determinar el rango de variación y fiabilidad de las puntuaciones asignadas por los profesores a la respuesta en un examen.

De forma que escogieron dos exámenes en inglés de dos alumnos diferentes (A y B) y los dieron a valorar a, los por aquel entonces ¿Catedráticos? de Inglés (principal teachers of English) de 142 institutos. En 51 de estos institutos se aprobaba con un 70 (escala de 100 puntos) y en los otros 91 institutos con un 75. También hicieron la prueba con estudiantes que se formaban para ser profesores de inglés y con otro grupo de inspectores, directores y profesores que seguían un curso de medición educativa, con los mismos resultados que en el estudio principal, que aquí no se detallan.

Los primeros resultados mostraban que, en general, los profesores de inglés valoraron más el examen del alumno A (mediana 88.2 puntos) que el examen del alumno B (mediana de 80.2 puntos). Y ciertamente así los había valorado su profesor, en un caso el A obtuvo 80 puntos, y el B 75 puntos. Pero lo más inquietante es que en un instituto como el de este profesor, donde se aprobaba con 70 puntos, 22 de los 142 profesores hubiesen suspendido al alumno B. Y además, el profesor de los alumnos se demostraba que era más "duro" que al menos el 50% de los profesores participantes en el estudio.

También encontraron que el punto de corte donde se situaba el aprobado apenas influía, los dos tipos de institutos para el examen A sólo diferían en 1.1 puntos (sus medianas) y para el examen B 1.6 puntos.

Y como resultado principal, ¡el rango de variación en las puntuaciones tanto en un examen como en otro era de 35 a 40 puntos!

¿Qué pasó con el experimento de matemáticas?

Starch y Elliot replicaron el estudio con matemáticas (geometría en concreto), porque supuestamente era una ciencia más "exacta", donde había menos factores subjetivos y personales implicados. Supusieron que la calificación otorgada por los distintos profesores de la materia diferiría menos que en inglés. Pero para su sorpresa la variabilidad en las puntuaciones obtenidas aún fue mayor que en inglés.

El estudio de la Universidad de Lieja

Este estudio de Grisay, en el capítulo del libro referenciado al final de la entrada, se centra en demostrar la hipótesis de un par de inspectores de la zona francófona de Bélgica a raíz de los resultados de repetición que ofrecían diversas escuelas de su circunscripción.

Los inspectores, a la vista de sus visitas, se preguntaron si los exámenes realizados en diversas escuelas no eran de desigual dificultad. Se elaboró una prueba externa en lengua materna que se administró a todos los alumnos del último curso de Primaria y se compararon con las notas que estos alumnos obtuvieron en su examen final de lengua.

- Las correlaciones de cada una de las clases entre una prueba y otra eran altas, indicando que la clasificación que hacen los profesores es muy comparable a la que hace una prueba externa estandarizada.

- Sin embargo, la correlación bajaba a 0,52 cuando se calcula en el conjunto de la población, lo que significa que las notas de una clase a otra las notas no tenían el mismo valor referencial respecto a lo que mide la prueba externa.

Se comprueba entonces que, los profesores adaptan, legítimamente, sus exámenes al nivel de su clase. Como consecuencia, a un nivel de competencia igual, los alumnos que tiene alguna dificultad tienen más posibilidades de repetir curso si están en una clase más bien buena que en el caso contrario. Y por otra parte, debido a esa desigual dificultad, los profesores tienden a sobrevalorar la heterogeneidad de las clases, digamos que tienden a dispersar más las puntuaciones, a diferenciar más a su alumnado entre sí, que lo que realmente hace una prueba externa.

En el gráfico se aprecia que, por ejemplo, una clase homogénea puede parecer heterogénea al docente, incluso si es una homogeneidad de rendimiento bajo (prueba externa) como en la Clase I. esto, además de consecuencias individuales, que ya se han apuntado, tiene consecuencias de intervención efectiva sobre grupos que realmente lo necesitan, ya que enmascara su competencia real. Enmascara la desigualdad. Y nuevamente, saliéndonos del tema y volviendo al argumento de esta entrada, hace dudar mucho de que con las calificaciones se esté valorando realmente la competencia del alumnado. No es para nada consistente con la descripción del nivel de logro que realmente tienen estos alumnos y que, una prueba externa desde un enfoque de TRI, por ejemplo, sí proporciona. Con esto no quiero decir que lo único válido es una prueba externa, sino que deberíamos adoptar, si usamos puntuaciones para valorar el aprendizaje, incluso si no las usamos, alguno de estos enfoques de descripción de niveles de logro.

Conclusiones

Sin duda alguna, estos estudios nos hacen cuestionar la fiabilidad de las calificaciones, su supuesta objetividad, y el uso tan pretendidamente científico que hacemos de ellas para tomar decisiones "administrativas" o "punitivas". Parece más bien que esto es un juego de números, incluso ayudado por tecnologías tan punteras como una hoja de cálculo.

Pero bien, independientemente de que esto de calificar lo tengamos que hacer por puro requerimiento administrativo o por tradición, también es cierto que hay profesores que aprovechan la evaluación para que sus alumnos y alumnas aprendan. El juego de la calificación no es ni de lejos educativo y mucho menos científico, además de incluir severas aberraciones estadísticas, como calcular una media aritmética con tres valores como valor que representa la tendencia central de éstos.

Alguien podrá contra-argumentar que esto es lo que motiva realmente a los estudiantes, que es en lo que confían las familias y que además es lo que demanda la administración. Pero si se trata de motivación quizá podamos probar con una motivación positiva y otros medios, técnicas y métodos; si se trata de las familias quizá podamos convencerles de que el aprendizaje y no un número es lo que está en juego y que dar información de cómo aprenden y cómo pueden mejorar en este proceso sea lo importante...y mientras tanto nos inventamos formas, o las demandamos, de alinear las escalas de puntuación con descripciones de logro en las distintas materias para cumplir con la administración.

Otros simplemente, en la línea de un movimiento también muy de moda, dirán que esto lo ha escrito un iluminado de éstos, ¿cómo se llaman? ¡Ah, sí! Un pedagogo, seguro que lo ha escrito un pedagogo.

Para saber más

- Starch, D. & Elliot, E. (1912). Reliability of the grading of high-school work in English. The School Review, 20 (7), 442-457. URL: https://www.jstor.org/stable/1076706?seq=1#page_scan_tab_contents

- Starch, D. & Elliot, E. (1913). Reliability of Grading Work in Mathematics. The School Review, 21 (4), 254-259. URL:https://www.jstor.org/stable/1076246?seq=1#page_scan_tab_contents

- Brimi, H. M. (2011). Reliability of Grading High School Work in English. Practical Assessment, Research & Evaluation, 16(17). URL: http://pareonline.net/getvn.asp?v=16&n=17 (réplica del estudio de Starch y Elliot).

- Grisay, A. (2003). Repetir curso o adecuar el currículo. En A. Marchesi y C. Hernández Gil (Coords.). El fracaso escolar. Una perspectiva internacional, (pp. 101-128). Madrid: Alianza Ensayo.

lunes, 16 de octubre de 2017

De(con)struyendo un mito (II): un viaje por el tiempo

Como dirían en "Muchachada Nui": - Hooooooy en Mundo Viejuno...¡LAS CALIFICACIONES!
Pues sí, es más viejo que la tosferina esto. Pero no es malo por ser antiguo. El recorrido documental por la historia de los boletines de calificaciones parte de 1954, algo más de sesenta años es nada. Desde luego si Finlandia presume de un sistema educativo con 60 años de consenso básico, nosotros podemos también hacerlo al respecto de las calificaciones.
Al final de la entrada plantearé algunas preguntas para la reflexión. Entramos en el campo de la medición, en este caso del aprendizaje, y la cosa "debería" ponerse algo más técnica. ¿Es así? Comencemos.

Curso 1954-55 y 58-59

Un sistema de calificaciones que nos sonará, el famoso sistema de 0 a 10. Algunos de nuestros padres/madres o abuelos/abuelas ya tenían el honor de ser objetivamente calificados. La única diferencia es que con un 2 se aprobaba. Aún no creían en eso de que un aprobado necesariamente tiene que estar a mitad de la escala. Esa regla matemática (científica) se descubrió más tarde. Aún siendo una generación que aprobaba con doses, tampoco nos han dejado una herencia tan nefasta, ¿no?

En la página derecha, además de la curiosidad que puede despertar ver las materias: su división en instrumentales, formativas y complementarias, o las famosas Formación del espíritu nacional o Formación para el hogar (sólo para chicas), aparece el uso de la media aritmética para obtener la calificación final de curso en cualquier asignatura. Obviamente con decimales, uno en este caso, con lo que la escala al final podía distinguir diferencias de 0,1 en la escala sobre la característica medida.

Incluso, diariamente se podía hacer esto de calcular la media del día. Esta práctica se ha abandonado hoy en día por las ratios. Este documento ya es de 1958.

Curso 1979-80: la movida madrileña

Ya estamos aquí, una segunda generación, la mía. Las cosas empezaban a ponerse más técnicas...¿o no? Cómo dolían esos *. Edito (dedicado a mi amiga Pili), también estaban los lacerantes MD (Muy Deficiente) y creo recordar que llevaban **.

Dos datos interesantes añadidos a la ciencia de la medición: 1) La comparación de la media del individuo en cuestión (en este caso yo) con la media de su grupo-clase. Algo así como una especie de uso de los Tests Referidos a la Norma; también por asignaturas. 2) La introducción de conceptos más "cool" y "progres" (movida madrileña) como la valoración de las ACTITUDES. Aunque generalmente si tenías un * en una asignatura era porque tu actitud era PASIVA. Jamás conocí a nadie con una actitud buena en una asignatura con su correspondiente *... Sobre la columna de "Apreciación global" sólo cabe comentar que era un gasto inútil de tinta.

Curso 1982-83: la explosión de Naranjito

Sí, ya éramos una nación pujante, progresista, con un mundial celebrado a nuestras espaldas protagonizado por nuestro querido Naranjito...Un partido de izquierdas, por aquel entonces, había ganado las elecciones después de años de dictadura y una transición democrática aún con los amiguetes del antiguo régimen por ahí pululando. Y... ¡Pues se acabó eso de las calificaciones! Era la hora de dar un giro a nuestra historia. Aquellos que habíamos comenzado nuestra escolarización con ese sistema decimonónico, seríamos más felices con los PAs (Progresa Adecuadamente) y NMs (Necesita Mejorar).

El sistema tenía algunas peculiaridades interesantes: por ejemplo especificar en destrezas las asignaturas instrumentales o la ed. física y la ed. plástica, a las que se podían poner etiquetas como "Destaca". La otra peculiaridad fue la de poner + o -, haciendo que la escala de calificaciones (cualitativa en este caso) diera algo más de sí. El resultado fue nefasto...No me acuerdo cuánto duró esto, pero nadie...ni profes, ni familias, ni alumnado, jamás nos aclaramos. Además eso de democratizar del 5 para arriba con un PA, no gustaba mucho. Por cierto, los controles y exámenes seguían como antes, valorados generalmente de 0 a 10.

Actualidad

Casi que no hace falta poner imágenes, todos y todas conocemos lo que hay hoy. A estas alturas ya os habréis dado cuenta que nuestro sistema es más duro que Chuck Norris, no lo mueve nadie...Y mira que han pasado leyes orgánicas. Hoy en día, con la publicación de la LOMCE, ya hasta en primaria se pone la calificación numérica (sin decimales). En la ESO son más precisas las escalas, llevan decimales.

Incluso esta moda está llegando a Ed. Infantil. Área de Conocimiento de sí mismo y autonomía: Muy Adecuado, un 8. Los dos puntos que le faltan para el 10, ¿qué diantres será?, ¿conocer su mano derecha, sonarse los mocos, ir solo al baño...?

Para la reflexión

Acabo con algunas preguntas para la reflexión que tienen que ver todas con el concepto de medida, de manera implícita. Ya se vio en la anterior entrada que evaluar no es calificar, ni en sentido más amplio, medir. No cabe aclararlo más. Pero dentro de la medición, ya que tratamos esto de la evaluación como una medida del aprendizaje, en resumidas cuentas, y sin ponernos técnicos, podemos pensar en varias cuestiones sencillas:

- ¿La mitad de la escala siempre representa haber alcanzado la mitad de las competencias que componen una determinada asignatura?

- ¿Es siempre este el umbral (el 5) en el que se puede considerar que un alumno alcanza o no alcanza unas determinadas competencias?

- ¿Como medida del aprendizaje que es, y siguiendo la definición de medida, que nivel de característica (aprendizaje) significa un 5, un 6, un 7?

- ¿Ese número, el 6, el 7, el 8, que ha obtenido un alumno/a, describe la misma cantidad de característica que el de otro alumno/a que ha obtenido lo mismo?

- Esta es más técnica: ¿es una buena medida la media aritmética con la forma de la distribución de calificaciones que tiene un alumno y sobre todo con el número de medidas que obtenemos de ese alumno/a?

- Respecto a su precisión, ¿realmente podemos describir la diferencia de aprendizaje de un alumno/a que ha obtenido un 7 de otro que ha obtenido un 6? Si entramos en los decimales, ¿una escala de medida es capaz de apreciar y por tanto de describir 100 niveles de aprendizaje?

Ya no os "torro" más...Ahí lo dejo...En la siguiente parte sobre las calificaciones (la tercera) describiré algunas investigaciones de principios de Siglo XX (Starch y Elliot) y alguna otra de la Universidad de Lieja, por citar algunas.

martes, 3 de octubre de 2017

De(con)struyendo un mito (I): calificar no es evaluar

Numerosos artículos de opinión se han centrado últimamente en la cuestión de las calificaciones, casi siempre para denostarlas, para proponer que evaluar es algo más que calificar, incluso cambiando una norma como en Cataluña, que permite utilizar otras escalas no numéricas.
En este blog no vamos a ser menos...Ya tocaba tratar uno de los temas más polémicos, porque en definitiva acaberemos poniendo una calificación y a utilizar números para evaluar el aprendizaje de nuestro alumnado.

Definiciones

Casi siempre que manejo definiciones lo hago en referencia a la producción científica. En concreto, buscando en tesauros las palabras clave (keywords) que se manejan en los artículos de investigación, y que suelen estar descritas con una definición y unas relaciones jerárquicas con otras palabras clave. Tal es el caso, en educación, del tesauro de ERIC.

Así, quisiera distinguir primero, conceptualmente, los términos: evaluación (del estudiante), medida, valoración del logro, puntuación y calificación. Todos están relacionados pero tienen sus matices.

La evaluación es el establecimiento de un juicio sobre personas, organizaciones o cosas en relación con unos objetivos, criterios o estándares. Y a esto se le añade que se constituye como un proceso que tiene como fin la toma de decisiones. Cuando se habla de evaluación del alumnado se trata de establecer esos juicios sobre su desempeño o conducta en relación con criterios establecidos.
Dicho de otro modo es un proceso que sirve para, dados unos criterios prescriptivos, o no, del currículo (resultados de aprendizaje, criterios de evaluación, objetivos, estándares de aprendizaje evaluables, metas de logro...) establecer un juicio del desempeño del estudiante en relación con éstos, y actuar en consecuencia (tomar decisiones al respecto).

Como herramienta para guiar este juicio habitualmente se entra en el campo de la medición o más bien, y voy adelantando, en una pseudo-medición. La medición es un proceso de obtención de descripciones numéricas de la medida en la que personas, organizaciones o cosas poseen unas características específicas. Si la medición es del logro, de un alumno/a o grupo de alumnos, se trata entonces de asignar valores (cuantitativos o cualitativos) de acuerdo a estándares o procedimientos especificados, describiendo con esa asignación la cantidad de característica (logro) que posee ese/a alumno/a o grupo de alumnos. Al proceso de asignación sistemática de valores a los resultados (usualmente numéricos) como evidencia del logro, generalmente en cuestionarios, se le llama puntuar (Am. Lat.: puntaje).
Finalmente nos queda calificar el desempeño, logro o conducta de ese individuo o grupo usando unas escalas y valores específicamente establecidos.

Red conceptual de la evaluación de los aprendizajes: elementos constitutivos

En el gráfico se representan dos subredes relacionadas: 1) La red de evaluación, propiamente dicha, y 2) la red de la medición. En cualquier caso, una es subsidiaria de la otra, se necesita valorar el logro, pero no es necesario para establecer ese juicio en relación con unos estándares o criterios llegar a puntuar, y mucho menos calificar.

a) Para juzgar el nivel de consecución de unos aprendizajes (logro) se necesita que haya una excelente alineación entre los criterios establecidos (donde se marcan esos aprendizajes), la prueba que pido al alumno (evidencia) y el instrumento que me lo facilita. Es lo que me permite volver a los criterios, para en relación con ellos, establecer el juicio sobre el nivel de consecución de los aprendizajes y consecuentemente tomar decisiones sobre el proceso de enseñanza/aprendizaje (de ambas partes, sí).
b) Si además, a ese logro se lo sitúa en unas escalas de medida cualitativas o cuantitativas, se entra de lleno en el campo de la medición. No exento de errores, como toda medición y no exento de fuentes que amenazan la validez de los resultados (y consecuentemente la fiabilidad). Si para algo es útil la medición en este contexto escolar, además de para cumplir con imperativos legales, es para establecer una alineación (casi)perfecta de la escala numérica con la característica que se está describiendo (el logro de unos aprendizajes). Al menos debería ser así.

Conclusión

Por tanto, el proceso iría de lo más concreto, superficial y no necesario, calificar, a lo más amplio, profundo y necesario, evaluar. Lo lamentable es que los sistemas educativos han dado la vuelta al sentido lógico y paradójicamente educativo, de evaluar; imponiendo desde hace ya muchos años unas prácticas que están insertas en nuestro ADN, no sólo profesional, sino también personal. Se trata de un "meme" que se hereda generación tras generación. Cualquier cambio va a suponer una confrontación con nosotros mismos, con nuestro colegas de profesión, con el alumnado y con sus familias. Pero no escribo esto para dar una opinión solamente, sino también para aportar al discurso razones suficientes y necesarias que superen los argumentos inmovilistas, más allá de la manía personal de cada uno. Después la acción educativa podrá ser la que sea (impuesta o voluntariamente aceptada).

En la segunda parte de esta entrada, sólo demostraré documentalmente que esta práctica obsesiva de calificar y puntuar ha sufrido muy pocas variaciones desde hace por lo menos 60 años, y sospecho que más. Supongo que desde que se adoptaron los principios de la psicometría incipiente en aquellos primeros años del Siglo XX. Como podemos intuir, el aprendizaje es un constructo latente, algo que no se puede observar directamente (como la altura o el peso) y el nivel de inferencia es alto. Es en este campo de medición del rasgo latente, el que proviene de la psicometría, donde se han hecho avances extraordinarios, pero que distan mucho de lo que realmente se practica en el aula. También sobre las consecuencias que tienen las "mediciones de aula" se dedicará un espacio...(To Be Continued).

sábado, 23 de septiembre de 2017

Tres pasos para promover el aprendizaje desde su evaluación

Si piensas que la evaluación del aprendizaje es algo más que poner notas o plantear un intrincado compendio de actividades ponderadas o de construirse una flamante hoja de cálculo que es capaz de detectar hasta diezmilésimas de variación en el aprendizaje entre dos estudiantes...entonces...esta entrada es PARA TI.

La evaluación de los aprendizajes consiste básicamente en recopilar evidencias sobre lo que nuestros alumnos y alumnas saben y pueden hacer. Todo ello con el fin de:

Identificar sus fortalezas y debilidades,
hacer un seguimiento de su progreso en el aprendizaje y,
planificar y dar las clases.

En definitiva, la evaluación de los aprendizajes debe ser una herramienta para promover un verdadero aprendizaje en el alumnado. Y a estas alturas, ya intuimos que es mucho más que medir o calificar el aprendizaje. De hecho, puede darse perfectamente una evaluación sin necesidad de medir o calificar. El siguiente post se dedicará a clarificar estos términos: evaluación, calificación y medición.

Por el momento:
¿cómo puedo promover el aprendizaje desde su evaluación? Con tres sencillos pasos: 1) Diseño y planificación de la evaluación, 2) Implementación de las pruebas, 3) Evaluar la evaluación
¿tengo que ser un experto/a en evaluación? No, ni mucho menos. Además, no existen los expertos en evaluación, es una leyenda urbana. Pero sí es cierto que, si quieres construir tus propios instrumentos, tendrás que leer algo más. O si quieres plantear tareas auténticas tendrás que abordar otras metodologías, actividades...introducir otras estrategias. En definitiva, salir de la zona de confort

Veamos los pasos de forma más detallada:

Paso 1: diseño-planificación de la evaluación

Para mí, es el paso más importante. Bien diseñada y planificada, la evaluación será más válida y fiable. Sin excepción. En alguna otra entrada se ha hablado del "backward design"de Wiggins o McTighe (Cuatro organizadores para hacer más válida nuestra evaluación ) y en general del tema de la validez. En definitiva se trata de pensar, antes de ponerse a hacer, en una serie de cuestiones:

Los tres aspectos han de mantener una coherencia interna.

Paso 2: realización de la prueba

La clave de todo es hacer de la evaluación un proceso al menos transparente, si además es participativo, mucho mejor. Los alumnos se van a beneficiar cuando:

a) Entiendan las metas de aprendizaje.

b) Sepan que clase de evaluación va a utilizarse para valorar el logro de esas metas.

c) Comprendan qué criterios se usarán para evaluar su trabajo y cómo debe ser una respuesta ideal.

Según el documento del Educational Testing Service, citado al final de la entrada:

Antes de la prueba

En una evaluación de desempeño (performance assessment)

Desarrollar guías de valoración que definan qué constituye una respuesta aceptable y sus niveles.
Compartir las guías con los alumnos antes de realizar la evaluación.
Discutir las guías con los alumnos para asegurarnos que comprenden la clase de tarea esperada y sus niveles de desempeño.
Considerar cambios que puedan sugerir los estudiantes.

Después de la prueba

Realizar una evaluación tras la prueba con los estudiantes para corregir errores, temas que han aparecido en la evaluación y ayudarlos a obtener una mayor comprensión de la materia.
Discutir sobre diferentes formas de respuesta a la tarea y las fortalezas y debilidades derivadas de cada una de ellas.
Proporcionar a los estudiantes la oportunidad de revisar sus respuestas.
Dar mucho feedback, específico y a tiempo. El feedback es una estrategia que tiene un amplio impacto en la mejora del rendimiento (véase los estudios de Hattie, por ejemplo). Sobre:

Sus fortalezas y debilidades.
Qué han hecho correctamente y qué no.
Cómo pueden hacerlo de otra forma la siguiente vez para mejorar su desempeño.

Recuerda: Una puntuación aislada no proporciona a los estudiantes suficiente información sobre su desempeño, por muchos decimales que lleve.

Paso 3: evaluar la evaluación y los resultados

A la hora de mejorar una evaluación de clase es importante revisar una serie de cuestiones. Puedes revisarlas tú y pedirle a un colega que también lo haga. Puedes incluso pedir a alguien que conteste a las preguntas o que realice un determinado desempeño. En general:

1) Sé justo: una evaluación debería sólo medir el conocimiento y destrezas relacionadas con los resultados o metas de aprendizaje.
2) Permite que los alumnos brillen: da al alumnado la oportunidad de demostrar su mejor desempeño, se implicarán más si la prueba es accesible a todos/as y les permitirá demostrar qué saben o pueden hacer.
3) No asumas que los alumnos/as entienden las instrucciones: revisa las preguntas, instrucciones, demandas... También revisa cuestiones de redacción, sesgos de lenguaje o lenguaje potencialmente ofensivo.
4) Ten los límites de tiempo en mente: la cantidad de tiempo que se da para una evaluación es significativa y puede afectar a los resultados. Consecuentemente son difíciles de interpretar.

Los resultados también nos dicen cómo ha ido

Reconoce que las pruebas pueden tener defectos

¿Fallaron todos los alumnos en la misma pregunta o conjunto de ellas?
¿Los alumnos más competentes lo han hecho bien?
¿Sientes que lo han hecho bien pero han fallado a la hora de dar las respuestas que esperabas?
¿Estaba la tarea bien definida y claramente redactada?

Identifica las fortalezas y debilidades de cada alumno/a

Examina patrones de respuesta: dificultades generalizadas en un tema concreto, grupo de alumnos que fallan en preguntas de un determinado proceso (para esto tengo que tener bien definido el dominio:Paso 1) o contenido o destreza.

Para saber más

- Educational Testing Service (2003). Linking Classroom Assessment with Student Learning. Autor. URL: https://www.ets.org/Media/Tests/TOEFL_Institutional_Testing_Program/ELLM2002.pdf
- McMillan, James H. (2000). Fundamental assessment principles for teachers and school administrators. Practical Assessment, Research & Evaluation, 7(8). Available online: http://PAREonline.net/getvn.asp?v=7&n=8.