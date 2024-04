Los estudiantes que se presenten a sus exámenes STAAR esta semana serán parte de un nuevo método de evaluación de las escuelas de Texas: sus respuestas escritas en los exámenes estandarizados del Estado serán calificadas automáticamente por computadoras.

La Agencia de Educación de Texas está implementando un “motor de calificación automatizado” para preguntas abiertas en la Evaluación de Preparación Académica del Estado de Texas para lectura, escritura, ciencias y estudios sociales. La tecnología, que utiliza procesamiento de lenguaje natural, un componente básico de los chatbots de inteligencia artificial como GPT-4, le ahorrará a la agencia estatal entre 15 y 20 millones de dólares por año que de otro modo habría gastado en contratar anotadores humanos a través de un contratista externo.

El cambio se produce después de que la prueba STAAR, que mide la comprensión de los estudiantes del plan de estudios básico exigido por el Estado, fuera rediseñada en 2023. La prueba ahora incluye menos preguntas de opción múltiple y más preguntas abiertas, conocidas como elementos de respuesta construida. Después del rediseño, hay de seis a siete veces más ítems de respuesta construidos.

“Queríamos mantener tantas respuestas abiertas construidas como fuera posible, pero requieren una cantidad increíble de tiempo para calificarlas”, dijo José Ríos, director de evaluación estudiantil de la Agencia de Educación de Texas.

En 2023, Ríos dijo que TEA contrató alrededor de 6 mil anotadores temporales, pero este año necesitará menos de 2 mil.

Para desarrollar el sistema de puntuación, la TEA recopiló 3 mil respuestas que pasaron por dos rondas de puntuación humana. A partir de esta muestra de campo, el motor de puntuación automatizado aprende las características de las respuestas y está programado para asignar las mismas puntuaciones que habría dado un humano.

Esta primavera, a medida que los estudiantes completen sus exámenes, la computadora calificará primero todas las respuestas construidas. Luego, una cuarta parte de las respuestas serán repuntadas por humanos.

Cuando la computadora tiene “baja confianza” en la puntuación que asignó, esas respuestas se reasignarán automáticamente a un humano. Lo mismo sucederá cuando el ordenador encuentre un tipo de respuesta que su programación no reconoce, como por ejemplo el uso de mucha jerga o palabras en un idioma distinto al inglés.

‘Procesos muy sólidos’

“Siempre hemos tenido procesos de control de calidad muy sólidos con humanos”, dijo Chris Rozunick, director de la división de desarrollo de evaluaciones de la Agencia de Educación de Texas. Con un sistema informático, el control de calidad es similar.

Todos los días, Rozunick y otros administradores de pruebas revisarán un resumen de los resultados para verificar que coincidan con lo esperado. Además de las puntuaciones de “baja confianza” y las respuestas que no encajan en la programación de la computadora, también se entregará automáticamente una muestra aleatoria de respuestas a los humanos para que verifiquen el trabajo de la computadora.

Los funcionarios de la TEA se han resistido a la sugerencia de que el motor de puntuación sea inteligencia artificial. Puede utilizar tecnología similar a los chatbots como GPT-4 o Gemini de Google, pero la agencia ha enfatizado que el proceso contará con la supervisión sistemática de humanos. No “aprenderá” de una respuesta a la siguiente, sino que siempre se remitirá a su programación original establecida por el Estado.

“Estamos muy lejos de cualquier cosa que sea autónoma o que pueda pensar por sí sola”, afirmó Rozunick.

Pero el plan aún ha generado preocupación entre educadores y padres en un mundo todavía cansado de la influencia del aprendizaje automático, la automatización y la inteligencia artificial.

Algunos educadores de todo el estado dijeron que les tomó por sorpresa la decisión de la TEA de utilizar tecnología automatizada, también conocida como puntuación híbrida, para calificar las respuestas.

“Debería haber algún consenso sobre si esto es algo bueno o no bueno, algo justo o no justo”, dijo Kevin Brown, director ejecutivo de la Asociación de Administradores Escolares de Texas y ex superintendente de Alamo Heights ISD.

Los representantes de TEA mencionaron por primera vez el interés en la puntuación automatizada en un testimonio ante el Comité de Educación Pública de la Cámara de Representantes de Texas en agosto de 2022. En el otoño de 2023, la agencia anunció el cambio a la puntuación híbrida en una conferencia y durante la capacitación de los coordinadores de exámenes antes de publicar los detalles del proceso en diciembre.

Los resultados de las pruebas STAAR son una parte clave del sistema de rendición de cuentas que utiliza la TEA para calificar los distritos escolares y los campus individuales en una escala de la A a la F. Los estudiantes toman el examen todos los años desde tercer grado hasta la escuela secundaria. Cuando los campus dentro de un distrito tienen un desempeño deficiente en la prueba, la ley estatal permite que intervenga el comisionado de educación de Texas.

¿Qué pasa si hay desempeño deficiente?

El comisionado puede nombrar un curador para supervisar los campus y distritos escolares. La ley estatal también permite al comisionado suspender y reemplazar las juntas escolares electas con una junta directiva designada. Si un campus recibe calificaciones reprobatorias durante cinco años seguidos, el comisionado debe nombrar una junta directiva o cerrar esa escuela.

Dado que hay tanto en juego para los campus y los distritos, existe una sensación de inquietud acerca de la capacidad de una computadora para calificar respuestas tan bien como lo puede hacer un ser humano.

“Siempre existe la sensación de que todo les sucede a los estudiantes, a las escuelas y a los maestros, y no para ellos ni con ellos”, dijo Carrie Griffith, especialista en políticas de la Asociación de Maestros del Estado de Texas.

Griffith, ex maestra del Distrito Escolar Independiente de Austin, agregó que incluso si el motor de puntuación automatizado funciona según lo previsto, “no es algo en lo que los padres o los maestros vayan a confiar”.

Los superintendentes también están inseguros.

“La automatización es tan buena como lo que está programado”, dijo Lori Rapp, superintendente de Lewisville ISD. Los distritos escolares no han recibido una visión suficientemente detallada de cómo funciona la programación, dijo Rapp.

El sistema de puntuación híbrido ya se utilizó de forma limitada en diciembre de 2023. La mayoría de los estudiantes que toman el examen STAAR en diciembre lo vuelven a tomar después de una puntuación baja. Ese no es el caso de Lewisville ISD, donde los estudiantes de secundaria con un horario modificado realizaron pruebas por primera vez en diciembre, y Rapp dijo que su distrito vio un “aumento drástico” de ceros en las respuestas construidas.

“En este momento, no podemos determinar si hay algún problema con la pregunta del examen o si se trata del nuevo sistema de puntuación automatizado”, dijo Rapp.

En general, el Estado experimentó un aumento de ceros en las respuestas construidas en diciembre de 2023, pero la TEA dijo que hay otros factores en juego. En diciembre de 2022, la única forma de obtener un cero era no dar ninguna respuesta. Con el rediseño de STAAR en 2023, los estudiantes pueden recibir un cero por las respuestas que puedan responder a la pregunta pero que carezcan de una estructura o evidencia coherente.

Puntuaciones diferentes

La TEA también dijo que los estudiantes que vuelvan a tomar el examen se desempeñarán a un nivel diferente al de los estudiantes que tomen el examen por primera vez. “La diferencia de población está impulsando la diferencia en las puntuaciones en lugar de la introducción de una puntuación híbrida”, dijo un portavoz de la TEA en un correo electrónico.

Por 50 dólares, los estudiantes y sus padres pueden solicitar una nueva puntuación si creen que la computadora o el humano se equivocaron. La tarifa no se aplica si la nueva puntuación es superior a la puntuación inicial. Para los grados 3 a 8, no hay consecuencias en las calificaciones o el progreso académico de un estudiante si recibe una puntuación baja. Para los estudiantes de secundaria, recibir una puntuación mínima en el examen STAAR es una forma común de cumplir con uno de los requisitos estatales de graduación, pero no es la única.

Incluso con capas de control de calidad, el superintendente de Round Rock ISD, Hafedh Azaiez, dijo que le preocupa que una computadora pueda “perder ciertas cosas que un ser humano tal vez no pueda pasar por alto”, y que el margen de error afectará a los estudiantes que, según Azaiez, están “tratando de hacer lo mejor que pueda”.

Los resultados de las pruebas afectarán “la forma en que se ven a sí mismos como estudiantes”, dijo Brown, y pueden ser “humillantes” para los estudiantes que reciben puntuaciones bajas. Con los calificadores humanos, dijo Brown, “los estudiantes fueron recompensados por tener su propia voz y originalidad en sus escritos”, y le preocupa que las computadoras no sean tan buenas para recompensar la originalidad.

Julie Salinas, directora de valoración, investigación y evaluación de Brownsville ISD, dijo que le preocupa si la puntuación híbrida está “permitiendo a los estudiantes la flexibilidad de responder” de una manera que puedan demostrar su “plena capacidad y proceso de pensamiento a través de la escritura expresiva”.

Brownsville ISD es abrumadoramente hispano. Los estudiantes que tomen una evaluación completamente en español tendrán sus exámenes calificados por un humano. Si el motor de puntuación automatizado funciona según lo previsto, las respuestas que incluyan algunas palabras en español o términos coloquiales e informales serán marcadas por la computadora y asignadas a un humano para que se pueda evaluar de manera justa la escritura más creativa.

El sistema está diseñado para “no penalizar a los estudiantes que responden de manera diferente, que en realidad están dando respuestas únicas”, dijo Rozuick.

Ahora que la computadora califica como parte de STAAR, Salinas está enfocada en adaptarse. El distrito está incorporando herramientas con puntuación automatizada en la forma en que los maestros preparan a los estudiantes para el examen STAAR para asegurarse de que se sientan cómodos.

“Nuestro distrito está a bordo y al tanto de las cosas que debemos hacer para garantizar que nuestros estudiantes tengan éxito”, dijo.