Inteligencia artificial y aprendizaje: ¿qué hacemos con la evaluación?

El problema de la IA en términos de evaluación de aprendizajes se puede plantear desde tres perspectivas diferentes: i) la autoría de los trabajos en evaluaciones con fines de certificación; ii) el papel de las evaluaciones como parte del proceso de aprendizaje; iii) el contenido de las consignas de evaluación. Mi intención en este post es profundizar la tercera perspectiva analizando los tipos de producciones que genera la IA y sus similitudes con las que produce un estudiante medio que se las arregla para sobrevivir en el sistema educativo.

Ilustración de una joven con auriculares y símbolos alrededor

Hace algo más de dos años la Inteligencia Artificial irrumpió en el escenario con mucha fuerza -y con mucha propaganda, tanto de quienes hacen dinero con ella como de quienes se entusiasman rápidamente con las modas-. Como toda nueva tecnología, la IA trae consigo una gran cantidad de oportunidades, pero también conlleva riesgos. Es todavía muy pronto para saber qué grado de integración tendrá en el sistema educativo. Muchas tecnologías, como la televisión educativa o la enseñanza asistida por computadora, en su momento prometieron revoluciones que nunca ocurrieron. Otras, como la escritura, se incorporaron en forma definitiva a la práctica educativa.

En lo inmediato uno de los principales problemas que la IA plantea a los educadores está vinculado con la evaluación, ya que puede realizar una enorme variedad de trabajos que habitualmente pedimos a nuestros alumnos. Muchos estudiantes, tanto en la educación terciaria como secundaria, han comenzado a utilizar la IA para que realice tareas por ellos. ¿Qué podemos hacer al respecto? ¿Cómo haremos para saber si un estudiante trabajó? ¿Tendremos que dedicarnos a tareas detectivescas para descubrir si un trabajo fue hecho por el alumno o por la IA?

En realidad no se trata de un problema nuevo sino tan viejo como los exámenes: la copia, fraude o plagio utilizando medios inapropiados para resolver las tareas es algo que siempre existió.

Cuando comencé a trabajar como profesor, hace ya varias décadas, no existían los teléfonos celulares ni las computadoras personales. El problema era la copia. Las evaluaciones solían consistir en responder preguntas, resolver ejercicios o generar textos escritos tipo ensayo (en asignaturas como Literatura, Filosofía o Historia). Los alumnos recurrían a apuntes escondidos (textos, fórmulas, propiedades) para ayudarse en sus respuestas. En Uruguay se los denominaba “trencito”, en Argentina y Colombia “machete”, en Chile “torpedo”, en México “acordeón” y en España “chuleta”. Otra forma de copia era simplemente mirar el trabajo de un compañero que estuviese sentado cerca.

Ante estas situaciones los docentes teníamos dos posibilidades de respuesta.

Una era la vigilancia. Las mesas debían estar despejadas, no se podía tener cuadernos ni materiales a la vista, el docente observaba a los estudiantes en forma amenazadora para detectar el uso del trencito mientras trabajaban -que solía estar escondido en la manga o entre las piernas-. Se proponían tareas diferentes a los alumnos sentados en filas de asientos contiguas, para que no pudiesen mirar lo que hacían los demás.

La otra vía de respuesta era modificar las consignas. Reemplazamos las tareas que podían hacerse copiando por otras que requiriesen elaboración o reflexión personal por parte de los alumnos y que pudiesen ser realizadas con “cuaderno abierto”. Los ejercicios de aplicación de fórmulas se reemplazaban por problemas más complejos que implicasen desarrollar una estrategia de resolución. En muchos casos los exámenes fueron sustituidos por trabajos integradores, proyectos o tesinas.

El problema es que la IA puede hacer muchísimas cosas y de manera muy similar a lo que hacemos las personas. Puede escribir informes, poesía, responder preguntas, resolver ejercicios matemáticos, crear ilustraciones y videos, y componer música, entre otras muchas. Para los lectores que no han experimentado cómo funciona la IA dejo algunos ejemplos y enlaces.

En suno.com se puede acceder a una herramienta gratuita de composición musical. En el portal de ingreso hay ejemplos de producciones musicales generadas por IA. Registrándose se puede utilizar la herramienta en forma gratuita -hasta 10 canciones por día-. A partir de instrucciones sencillas tales como "crea una canción pop sobre el cuidado de la naturaleza”, en poco más de un minuto la IA genera dos canciones con la misma letra y título, cada una con sus voces y melodía, así como una imagen de portada. A partir de allí uno puede elegir la que le gusta más, agregar versos a la letra, modificar el título. También se puede pedir una composición totalmente instrumental, o darle los versos a la IA y pedirle que genere la melodía. Dejo aquí un ejemplo:

No digo que sea una producción de calidad pero el resultado parece razonable. Creo que podría valer como producción de un estudiante de secundaria ante una tarea solicitada por el docente. Tal vez también como inspiración inicial en un proceso de composición musical.

La IA también puede escribir libros completos. La siguiente noticia es un ejemplo potente de lo que es capaz de hacer: Amazon tuvo que limitar la cantidad de libros que un autor puede autopublicar cada día. Esta empresa tiene un servicio que permite que cualquier persona pueda subir el texto de un libro, diagramarlo en línea y publicarlo para la venta en formato electrónico a través de la plataforma. El problema es que comenzaron a inundarse de libros escritos mediante IA. De allí que tuvieron que limitar la cantidad de libros que una misma persona puede publicar en un día . El que ese límite sea de 3 por día indica la velocidad con que la IA puede generar los textos. No me he tomado el trabajo de leer alguno de esos libros. Imagino que deben ser de baja calidad, pero que para un lector poco atento tal vez pueden pasar por originales.

Una sala con robots escribiendo en ordenadores

Un último ejemplo fue generado en el marco de un Taller sobre evaluación de aprendizajes con docentes de la Universidad Tecnológica de Uruguay. Un colega, profesor de Matemática, había solicitado a sus estudiantes la realización de un trabajo sobre funciones exponenciales, logarítmicas y radicales, entre otras. Los estudiantes debían explicar cada función, indicar su rango y dominio, explicar cómo se calculan, representarlas gráficamente y dar dos ejemplos de cada una. La tarea debía ser realizada en equipos a lo largo de una semana y tenía una finalidad tanto formativa como de certificación. En el marco del Taller le dimos la consigna al Chat GPT y generó el trabajo que sigue (comparto solo un extracto por razones de espacio).

El problema de la IA en términos de evaluación de aprendizajes se puede plantear desde tres perspectivas diferentes.

1. la perspectiva de la autoría de los trabajos en evaluaciones con fines de certificación;

2. la perspectiva del papel de las evaluaciones como parte del proceso de aprendizaje;

3. la perspectiva del contenido de las consignas de evaluación.

Mi intención en este post es profundizar la tercera perspectiva analizando los tipos de textos que produce la IA.

El primer aspecto no es nuevo y se resuelve estableciendo mecanismos para garantizar que el estudiante sea quien hace el trabajo y que utilice los recursos que el docente defina como válidos. Requiere básicamente la realización presencial de la evaluación, o la realización en línea con mecanismos de control de las condiciones de realización -a qué recursos tiene acceso el estudiante mientras trabaja frente a la pantalla-. También en el pasado era necesario verificar la autoría de un proyecto o tesis por parte del estudiante, a través de una presentación oral o de una entrevista en torno a su trabajo. En todo caso, es un problema que requiere, o bien una solución tecnológica de vigilancia, o bien una instancia de conversación individual.

El segundo aspecto del problema es más complejo. El uso inadecuado de la IA para realizar tareas que tienen una finalidad formativa, atenta contra al aprendizaje. Al no hacer el intento de escribir un texto, explicar las funciones o componer una canción por sí mismo, el estudiante pierde la oportunidad de aprender. Este aspecto del problema nos remite a un desafío crucial de la labor educativa: la motivación de los estudiantes para aprender lo que intentamos enseñarles.

Durante la pandemia muchos maestros planteaban el problema de que las mamás y papás hacían la tarea por los niños en sus casas y los niños no aprendían. Al respecto mi devolución era, primero, pensar por qué el niño no quiere hacer la tarea. Porque no le interesa, porque no le resulta atractiva, porque no conecta con su persona. Nada nuevo bajo el sol. Cuando están en el aula sucede lo mismo, muchos alumnos se desconectan, pero hacen ‘como que están trabajando’. Mi segunda devolución era: si la familia hace la tarea por el niño es porque se ha desvirtuado el sentido de la educación. La familia está preocupada por la calificación del niño, no por su aprendizaje. Estos no eran problemas de la pandemia, sino educativos. La pandemia simplemente los puso de manifiesto.

Con la IA ocurre algo parecido. Pone de manifiesto problemas de nuestras propuestas educativas. El uso inapropiado de la IA en tareas que tiene carácter formativo -no en las de certificación- reflejan el desinterés del estudiante por lo que le estamos proponiendo que aprenda. Es un problema viejo agudizado por un nuevo recurso tecnológico. La única solución para esto es trabajar la motivación interna de los estudiantes, proponer tareas que quieran resolver y, en todo caso, discutir con ellos cómo utilizar la IA como herramienta de apoyo. La cuestión es cambiar el sentido del "juego": pasar de ‘hago tareas para aprobar’ a ‘hago tareas porque me quiero resolverlas y me interesa aprender’.

El tercer aspecto del problema, el contenido de las consignas, implica preguntarse qué es lo que realmente estamos evaluando a través de las tareas que proponemos a los estudiantes. ¿Qué se requiere para resolverlas? Si la IA la puede hacer, tal vez la tarea no valga mucho la pena como demostración de aprendizaje. La situación es similar a la que teníamos hace unas décadas con la copia. Si la pregunta podía ser respondida con un trencito, tal vez no valiese la pena como pregunta para evaluar aprendizaje. Depende de qué esperamos que sean capaces de hacer los estudiantes: recordar o comprender, repetir o pensar.

(Entre paréntesis, soy consciente de que para reflexionar es necesario apropiarse de conceptos e ideas y recordarlas. No pretendo hacer un planteo dicotómico. El problema se produce cuando las preguntas solamente requieren recordar y repetir).

Cuando apareció la IA una de las primeras pruebas que hice para ver de qué se trataba fue formularle esta pregunta: ¿Qué diferencias y semejanzas hay entre Platon y Aristoteles? Una pregunta pobre pero plausible en un curso de Filosofía en la educación media. La respuesta que obtuve fue propia de un estudiante medio de secundaria que se las arregla para sobrevivir aunque no comprenda mucho, combinando frases y conceptos de manera más o menos aceptable aunque no entienda del todo de que está hablando.

El texto resultante es un conjunto de afirmaciones correctas pero insustanciales. El resumen o conclusión es de una enorme banalidad. No está mal, pero no dice nada.

La Inteligencia Artificial no piensa y no comprende. Adivina. No hay magia en sus producciones, hay un algoritmo matemático probabilístico. Es un gran copiador y adivinador de cómo combinar las palabras. En ese sentido se parece a un alumno de secundaria.Y, como un estudiante de secundaria, cuando no sabe, inventa!:

(Nota: el INEED es el Instituto Nacional de Evaluación Educativa).

Obviamente, la IA tiene dos ventajas sobre los estudiantes y sobre los humanos en general: la cantidad inmensa de información que puede procesar y la velocidad a la que puede combinar frases y palabras. Pero no piensa!

El problema de fondo es el carácter impersonal de muchos de los textos que escriben nuestros estudiantes. Como docente en cursos de posgrado y maestría me suele resultar tedioso leer textos de estudiantes que se limitan a citar y parafrasear autores, que no esbozan una reflexión original y que no dicen nada personal. Los estudiantes transcriben autores e ideas sin lograr construir un hilo conductor ni comunicar un pensamiento. Se acostumbran a enunciar las ideas de otros antes que a pensar por sí mismos. Su preocupación está más centrada en demostrar que “saben”, que en comprender y reflexionar a partir de los textos.

En el trabajo de un grupo de colegas del Instituto de Formación Docente de San Ramón, con quienes tuve la valiosa oportunidad de colaborar, se enfatiza la construcción de sentido en el aprendizaje.

Hablamos de sentido cuando lo pedagógico “toca” de un modo imprevisible algo que es importante para el que aprende y le aporta cierta luz para ver algo nuevo, o algo viejo con otra perspectiva. El aprendizaje tiene sentido cuando las palabras del educando son “palabras propias”, es decir, no son “declamadoras”, no son cliché.

Cuando el pensamiento se separa de los problemas se transforma en cliché, en palabra muerta, palabra que, como dice Freire, (Freire, 1970/2005, p. 66), es pura sonoridad, palabra que resuena y no dice nada. Un cliché es una palabra sin sentido, una palabra muerta que fue separada de los problemas y, por eso mismo, del sentido (López, M. 2008, p. 69).

Algo tiene sentido para quien aprende cuando hay un movimiento interior que le permite conectar aquello que le están enseñando con sus propias ideas, experiencias y emociones.

Los textos que produce la IA son similares a los estudiantiles, por impersonales. Hablan pero no dicen. La IA puede producir textos gramaticalmente correctos, pero que no tienen significado profundo. Van dos ejemplos adicionales de textos producidos por la IA sobre ética en la profesión docente y sobre la tradición pedagógica en Uruguay.

El problema, en buena medida, se origina en las consignas de evaluación que proponemos. La respuesta a la consigna sobre Platón y Aristóteles no tiene reflexión, en buena medida porque la pregunta no es buena. La cuestión clave no es tanto que la IA pueda responderla, sino si la pregunta vale la pena como demostración de aprendizaje de la Filosofía.

Con o sin Inteligencia Artificial, necesitamos volver a pensar en nuestras consignas de evaluación y en los tipos de textos que pedimos a los estudiantes. Así como hace mucho tiempo pasamos de las preguntas "de reproducción" a los trabajos “de elaboración”, ahora deberíamos preguntarnos acerca del carácter personal o impersonal de los textos que pedimos a los estudiantes. Necesitamos pensar en consignas que requieran apropiación y escritura personal, que impidan evadirse de la autoría, que requieran decir una palabra propia, en el sentido de Freire, que impliquen conectar con el conocimiento acumulado por la humanidad desde la propia experiencia interior.

Vivimos en una cultura en la que el sentido se pierde. Leemos todo el tiempo en los dispositivos electrónicos, pero es difícil encontrar textos valiosos, que digan algo del autor. Las noticias y buena parte de la información que circula por Whatsapp y las redes sociales, los sitios web y los blogs, rebosan de contenido chatarra, ahora generado por Inteligencia Artificial. La llamada “creación de contenidos” suele ser más bien una recopilación y combinación de otros textos, lo que tradicionalmente llamamos “refritos”. La educación debería ser un ámbito para propiciar la producción personal -y para aprender a identificar el contenido chatarra-.

Alan Turing fue el precursor de la Inteligencia Artificial. En los años 50 del siglo pasado propuso un test para decidir si una máquina podía ser considerada inteligente. La prueba consistía en analizar conversaciones escritas entre un humano y una máquina. Esta sería considerada inteligente si un observador externo no podía distinguir acertadamente entre las respuestas del humano y las de la máquina. Es decir, una máquina puede ser considerada como inteligente si es capaz de dar respuestas similares a las de un ser humano.

Podríamos pensar en una especie de Test de Turing a la inversa: una tarea de evaluación no tiene mucho valor como prueba de aprendizaje si la IA la puede responder por sí sola, sin intervención humana. Una tarea de evaluación tiene valor cuando la intervención personal del estudiante es indispensable para realizarla. Inteligencia artificial y aprendizaje pueden ir de la mano cuando las consignas de trabajo son apropiadas. En mi próximo posteo me enfocaré en los usos razonables de la IA en el aula y en la evaluación.

Un joven trabajando frente a un conjunto de controles y ordenadores

VER PUBLICACIONES VER NOTICIAS Y RECURSOS

Volver al Inicio