Construir una rúbrica usando inteligencia artificial

Una rúbrica es una herramienta que sirve para transparentar y comunicar criterios y procesos de evaluación. Construir una buena rúbrica no es sencillo. No es fácil poner en palabras adecuadas y significativas todo lo que tenemos en cuenta cuando valoramos un trabajo y resulta bastante tedioso escribir los descriptores. Por eso habitualmente no se logra una buena rúbrica en el primer intento. El chat GPT puede servir de ayuda y facilitar el trabajo. Pero no lo va a hacer bien por sí solo, necesita que formulemos las orientaciones y preguntas adecuadas.

DIBUJO CON FORMA DE CEREBRO e ilustración de AI

A fines de abril estuve en la Feria Internacional del Libro en la ciudad de Buenos Aires, como invitado para dar una conferencia sobre qué hacer con la inteligencia artificial a la hora de evaluar aprendizajes. La constatación que muchos docentes están haciendo es que los estudiantes han comenzado a recurrir a la IA para que haga ciertas tareas por ellos. A veces es relativamente sencillo identificar un texto construido por la IA, otras no tanto. En todo caso, la irrupción de la IA plantea una serie de desafíos y problemas sobre los que es necesario pensar. No creo que la IA vaya a revolucionar la enseñanza, como algunos anuncian. Pero sí creo que va a permanecer con nosotros y, por lo tanto, necesitamos pensar qué hacer con ella.

La conferencia en la Feria del Libro no fue registrada en video, pero el martes 30 de abril tuvimos una interesante conversación sobre el tema con Mariana Ferrarelli, en el canal de YouTube de Grupo Magro, en la que abordamos los mismos temas. El video está disponible en este enlace.

Pero antes de poner por escrito mis reflexiones sobre la IA quiero empezar con un posteo dedicado a la experiencia de construir una rúbrica usando Inteligencia Artificial. Esto me permite abordar uno de los temas que tengo pendiente en agenda desde hace tiempo, la construcción de rúbricas.

Una rúbrica es una herramienta que sirve para transparentar criterios y procesos de evaluación. Cuando valoramos y calificamos trabajos de estudiantes solemos seguir alguno de los siguientes dos caminos. Uno consiste en asignar puntos a distintas preguntas o partes de una tarea, para luego sumar todos los puntos y traducir el resultado final a un valor en la escala de calificaciones vigente. El otro camino, que muchos docentes denominan “conceptual”, consiste en analizar cualitativamente distintos aspectos del trabajo del estudiante para conformar un concepto valorativo acerca del mismo y luego ubicarlo en una de las calificaciones. Este abordaje suele estar acompañado de una comparación entre los trabajos de distintos estudiantes para ver cuáles son mejores y cuáles peores.

Muchas veces estos dos caminos se combinan. Para asignar un puntaje a una respuesta o a una tarea necesitamos cierto grado de valoración subjetiva, salvo en casos en que simplemente se califican las respuestas como correctas o incorrectas, o solamente se contabiliza la cantidad de elementos o errores en una respuesta. Por otra parte, muchas veces, al usar una rúbrica, al final se asignan puntos a cada una de las dimensiones y luego se suman esos puntos para llegar a una calificación global.

Como expliqué en otros posteos, yo creo que finalmente toda calificación es cualitativa, fruto de una valoración con cierto grado de subjetividad [dejo aquí el enlace], pero que ello no significa que sea arbitraria si está fundamentada. La calificación no es en esencia una variable cuantitativa sino cualitativa y ordinal [dejo aquí otro enlace].

Una rúbrica permite ordenar y explicitar estos procesos de valoración, con el fin de encuadrar la subjetividad, asegurarse de usar los mismos criterios para valorar todos los trabajos y hacer que todo el proceso sea más claro y comunicable. Es una matriz de doble entrada que tiene tres elementos centrales: i) dimensiones o criterios; ii) niveles o categorías; iii) indicadores o descriptores.

Las dimensiones responden a la pregunta acerca de cuáles son los principales aspectos del trabajo que vamos a considerar para valorarlo. No hay una cantidad preestablecida de dimensiones, pero por razones prácticas conviene que sean algo así como entre 4 y 8. El ejemplo que sigue es parte de una rúbrica para valorar producciones escritas. Se pueden observar cuatro dimensiones o aspectos a valorar en los trabajos (la rúbrica completa incluye algunas más) y tres niveles para cada dimensión.

Una tabla doble entrada con criterios y niveles. — Rúbrica para la evaluación de producciones escritas

Los niveles son categorías ordenadas para valorar la calidad del trabajo en cada una de las dimensiones. En general se utilizan cuatro como, por ejemplo, insuficiente, aceptable, muy bueno y destacado. En este ejemplo se usan tres niveles identificados con números (Nivel 1, Nivel 2 y Nivel 3).

Los descriptores son, valga la redundancia, descripciones de las características de los trabajos que permiten decidir en qué nivel ubicar cada trabajo concreto, en cada una de las dimensiones. En el ejemplo dado los descriptores son los textos incluidos en cada una de las celdas.

Construir una buena rúbrica no es sencillo. No es fácil poner en palabras adecuadas y significativas todo lo que tenemos en cuenta cuando valoramos un trabajo y resulta bastante tedioso escribir los descriptores. Por eso habitualmente no se logra una buena rúbrica en el primer intento. Por lo general es necesario un trabajo recurrente de formulación, revisión, corrección de detalles, uso práctico, nueva revisión y ajustes, y así hasta lograr algo que funcione para mi tarea docente y, si es el caso, que puedan comprender los estudiantes.

Hay tres errores típicos en que uno incurre cuando comienza con sus primeras rúbricas: i) limitarse a cuantificar elementos o frecuencias; ii) limitarse a una diferenciación de los niveles por adjetivos; y, iii) matematizar el resultado final. Explico brevemente cada uno de estos problemas.

i) Muchas veces los niveles se diferencian únicamente por la cantidad de elementos o la frecuencia de ciertos aspectos. Por ejemplo, en el nivel insuficiente se dice que el trabajo no incluye ningún concepto clave, en el nivel siguiente que incluye un concepto clave, en el nivel siguiente dos o tres conceptos, y en el nivel destacado se indica que incluye cuatro o más conceptos clave. Esta es una manera pobre de diferenciar los niveles, porque no me dice nada acerca de la calidad o pertinencia con que se usan los conceptos. Se queda en una mirada superficial sobre lo más visible, la cantidad de conceptos, pero se pierde la mirada sobre la calidad. Otra forma de este error consiste en usar adverbios que indican frecuencia: nunca, ocasionalmente, a veces, frecuentemente, siempre. Cuando los niveles se diferencian únicamente por estos adverbios, la rúbrica suele resultar pobre. Esto ocurre con la primera versión de la rúbrica generada por Chat GPT que presento más abajo.

ii) Un error parecido consiste en utilizar adjetivos como única diferencia entre los niveles. en la figura que sigue incluyo un ejemplo tomado de una rúbrica para evaluar “posters” en un evento. Tomo una de las dimensiones, la relativa a la presentación del Poster. Las negritas son mías. Como se puede apreciar, lo que diferencia los distintos niveles son adjetivos (excelente, muy bien, aceptable), pero no se describen diferencias observables.

Un cuadro con texto — Ejemplo de rúbrica con error de tipo ii.

Cuando los niveles se expresan de esta manera no se logra explicitar los criterios, cuyo significado sigue siendo opaco y muy librado a la subjetividad.

Sobre este punto Scriven afirma: “una rúbrica es una definición que conecta un término evaluativo con una clara descripción no evaluativa de lo que está siendo evaluado”. El “término evaluativo” es el nivel de desempeño. La “descripción no evaluativa” es el descriptor. La magia de una buena rúbrica es articular lo visible y descriptivo con lo cualitativo y valorativo.

iii) El tercer error común en las primera rúbricas es “matematizar” el resultado final a la hora de pasar de la rúbrica a la escala de calificaciones. Con matematizar me refiero a asignar puntos a los distintos niveles, sumar los puntos obtenidos por cada estudiante y establecer una relación directa entre esos puntajes y la escala de calificaciones. Para ilustrar este problema voy a utilizar como ejemplo una rúbrica que compartió conmigo una colega de la Facultad de Medicina. Era una rúbrica para evaluar la práctica médica, que tenía ocho dimensiones: 1) Disposición para el trabajo; 2) Vínculos; 3) Conocimientos; 4) Registros clínicos; 5) Habilidades para la entrevista con el paciente; 6) Habilidades para el examen físico; 7) Razonamiento clínico y 8) Abordaje familiar y comunitario. La rúbrica tenía 3 niveles: No logrado, En desarrollo, Logrado, a los que se asignaban los puntajes 1, 2 y 3. Luego se sumaban estos puntos y se establecía una correlación con la escala de calificaciones, de la siguiente manera:

De 8 a 14 puntos, Insuficiente: el rendimiento no supera el criterio mínimo establecido y se requiere profundizar en aprendizajes sustantivos.
De 15 a 18 puntos, Aceptable: el rendimiento demuestra un aprendizaje suficiente con algunas carencias.
De 19 a 24 puntos, Muy bueno: aprendizaje logrado de forma satisfactoria, cumple con los objetivos de aprendizaje en su totalidad.

El problema que yo observaba es que si un estudiante tiene Logrado en las dimensiones 1) Disposición; 2) Vínculos y 5) Habilidades para la entrevista; y todas las demás las tiene como “En desarrollo”, llega a los 19 puntos. Es decir que logra una calificación de Muy Bueno, en el nivel más alto de la escala, a pesar que tiene carencias dimensiones clave como los conocimientos, los registros clínicos y el razonamiento. No creo que se pueda decir de alguien en esa situación que “cumple con los objetivos de aprendizaje en su totalidad”, como se afirmaba en la tabla de calificaciones. En sentido estricto esto último solo se podría decir de alguien que tenga 24 puntos, es decir, que ha “Logrado” todas las dimensiones.

Mi sugerencia fue revisar el modo en que se construyó la valoración global de la rúbrica. Es necesario pensar con mucho cuidado el modo en que se pasa de la rúbrica a la escala de calificaciones y no confiar ese aspecto clave de la evaluación a una aritmética simple. Más bien soy partidario de pensar en un sistema de reglas, como ilustraré un poco más adelante al relatar la experiencia con GPT.

Y ahora sí, comparto el proceso de trabajo utilizando inteligencia artificial como asistente poco calificado.

Tal como explicamos con Mariana Ferrarelli en nuestro intercambio, la clave para utilizar bien el GPT es formularle buenas consignas, iterar y pedirle que revise y reformule lo que va generando. Siempre sus primeras producciones tienen errores o son demasiado simplistas. Se parece a un estudiante secundario que improvisa bastante bien con las palabras sin entender demasiado de que habla, o a un asistente de investigación poco calificado pero despierto, que no logra un buen producto en la primera vez, pero sí con orientación adecuada.

Elegí una cuestión genérica como la participación en clase. Mi demanda a GPT fue ¿Podrías darme una rúbrica para evaluar la participación en discusiones y actividades en clase? -si uno necesita una rúbrica específica para una tarea concreta la solicitud tendría una lógica un poco diferente-.

La primera propuesta de GPT fue una rúbrica con cuatro dimensiones -Contribución a la discusión, Escucha activa y respeto hacia los demás, Participación en actividades y tareas, Aportes a la construcción del conocimiento- y cuatro niveles -Excelente, Bueno, Aceptable, Insuficiente-. Incluyó un sistema de puntos para cada nivel (de 1 a 4) y una puntuación global al final, como para construir una escala de calificaciones. Esto fue algo que yo no había solicitado y que en principio no tiene mayor sentido para esta rúbrica, porque no pensaba utilizarla para calificar, pero GPT asoció evaluación con calificación. Esta fue su primera propuesta.

Un cuadro de doble entrada con texto escrito — Primera versión de la rúbrica de GPT

La propuesta de dimensiones me parece interesante -por cierto, cada uno podría pedirle que utilice las dimensiones específicas que le interesen-. La opción por cuatro niveles también, pero debo anotar que los descriptores me resultaron pobres. A partir de allí inicié un proceso de demandas a GPT para que fuese afinando la rúbrica. A través del enlace que comparto a continuación se puede acceder al proceso completo de iteraciones, que incluye tanto los olvidos y omisiones por parte del GPT, como sus mejoras progresivas.

A lo largo del proceso le hice a GPT las siguientes siete preguntas y demandas. Las respuestas de pueden ver en el archivo PDF anterior:

¿Pero qué quiere decir participar activamente?
¿Podrías incorporar estas características a la rúbrica?
Está muy bien, pero tengo una objeción hacia la rúbrica. La objeción es que se apoya excesivamente en palabras que indican en frecuencias. Por ejemplo, todas, la mayoría, algunas, ocasionalmente, poco. ¿Podrías hacer una rúbrica que sea más descriptiva e incluya ejemplos de los tipos de actuación que se espera observar en los estudiantes?
Excelente! Me gusta mucho. Pero esta vez no tiene formato de rúbrica, es decir, no hay niveles. ¿Podrías organizar la rúbrica en niveles que incluyan las descripciones?
¿Podrías ahora desarrollar el nivel 3, indicando cómo serían las descripciones de participación adecuada con expectativas "algo menos exigentes"?
¿Podrías hacer lo mismo con los niveles 2 y 1?
¿Podrías ahora unir los cuatro niveles en una sola tabla?

En la parte final tuve que reiterar los pedidos porque GPT siempre dejaba algo sin hacer -como un estudiante de secundaria, parecía que intentaba “zafar” con cierta pereza y la tarea a medias-. Finalmente logré que llegase a una rúbrica interesante, que comparto a continuación.

Un cuadro de doble entrada con texto. — La versión final de la rúbrica de GPT

A partir de ese momento desarrollé un segundo proceso de trabajo en torno a la escala de puntuaciones. Si bien no me interesaba usar la rúbrica para calificar, sí me interesaba probar cómo respondía GPT a los cuestionamientos acerca del sistema de puntos. Y lo hizo bien!

Mi primera pregunta fue dirigida a indagar sobre la tabla resultante de la suma de puntos. Como expliqué más arriba, tendemos a hacerlas en forma aritmética, sin considerar sus implicancias en términos de la valoración del desempeño. La pregunta inicial fue: ¿Podrías explicarme por qué propones la tabla de puntuaciones como la hiciste?

En el archivo con el proceso de trabajo completo pueden ver las respuestas que fue dando GPT. Mis preguntas e intervenciones fueron:

Pero, ¿por qué un alumno con 13 puntos es bueno y no excelente?
Sigo teniendo este problema. Un alumno que tiene nivel 1 en dos dimensiones y nivel 2 en las otras dos, tendría un total de 6 puntos, ¿De acuerdo?
Pero este alumno tendría una calificación de ACEPTABLE, según tu tabla de puntuación. A mi no me parece apropiado. Yo no definiría como Aceptable a un alumno que solo logró el nivel 2 en dos de las dimensiones. ¿Qué opinas?
¿Me podrías proponer un ajuste a la tabla de puntuaciones? En este punto GPT se limita a pasar el piso del nivel Aceptable de 6 a 7 puntos?
¿Podrías proponer una tabla de valoración con estas cuatro categorías -excelente, bueno, aceptable, insuficiente- que no esté basada en sumar puntos, sino en regla lógicas? Por ejemplo, alguien es Aceptable cuando tiene dos dimensiones en nivel 2, solo una en nivel 1 y al menos 1 en nivel 3.

Esta última es para mi la cuestión clave, salir de la matematización de los niveles para pasar a un sistema de reglas con sentido. Y el resultado fue sorprendentemente bueno. Esta es la tabla de reglas lógicas para calificar que formuló GPT.

Obviamente estas reglas se podrían afinar de acuerdo a los criterios que uno deseen priorizar. No hice el ejercicio de indicarle que alguna de las dimensiones era más importante que las otras. Pero la tabla que generó es una muy buena base para terminar de construir una escala de calificación basada en el conjunto de la rúbrica sin caer en la simplificación de matematizarla.

Para el próximo posteo me propongo hacer una discusión más general sobre el uso de la Inteligencia Artificial en las clases.

VER PUBLICACIONES VER NOTICIAS Y RECURSOS

Volver al Inicio