El pasado 14 de septiembre, disfrutamos del 2º Hackatón de lenguaje claro. Nos encontramos un grupo de algo más que frikis, capitaneados por Rubén de la Fuente, uno de los expertos del Experto en Procesamiento de Lenguaje Natural de Cálamo & Cran. La mayoría de los asistentes fueron precisamente antiguos alumnos con muchas ganas de practicar y trastear. Pero hubo mucho tiempo para el debate y la reflexión, porque un proyecto sin reflexión previa no conduce a nada.
Jugando con la volumetría: cómo medir la complejidad de los textos
Uno de los retos más interesantes del hackatón fue el análisis de la complejidad de los textos mediante técnicas de volumetría. Con herramientas como textstat, los equipos pudieron medir el número de palabras, frases y párrafos, así como la estructura y longitud de las oraciones. ¿El objetivo? Tener un método definido y común para saber cómo evaluar la claridad del texto de las webs de las administraciones públicas.
Usamos índices como el de Flesch-Kincaid y Gunning Fog, métricas que permiten entender el nivel de dificultad de un texto y hacer ajustes necesarios para garantizar una lectura fluida y accesible.
Prompting: hablando de tú a tú con la máquina
El prompting, o la creación de instrucciones para guiar a los modelos de lenguaje, fue una de las estrellas del evento. Pero aquí dimos un paso más allá: ¿qué sabe la IA de generación de prompts? ¿Cómo se puede organizar un megaprompt que trabaje para ti? La ingeniería de prompts no es solo una cuestión de probar suerte: requiere de precisión y experimentación para encontrar la sucesión de instrucciones perfectas que haga que el modelo de lenguaje genere la versión clarificada de un texto. Fue impresionante ver cómo, con las indicaciones adecuadas, los modelos nos ofrecieron resúmenes claros y accesibles de documentos que, de otra manera, habrían seguido permaneciendo en el lado oscuro de la Administración.
Finetuning: cómo afinar una orquesta lingüística
Un aspecto clave fue el ajuste fino o finetuning de los modelos de lenguaje. Aunque las IA con las que probamos son muy potentes, no siempre están entrenadas para priorizar la claridad. Durante el hackatón, trabajamos con librerías como lit-GPT y Transformers para optimizar estos modelos, hasta que convertirlos en fundamentalistas del lenguaje claro.
Un baúl lleno de trucos
Rubén nos dio la llave de su tesoro: un arsenal de herramientas de código abierto. No habíamos visto nada más espectacular desde que abrieron el Arca perdida. Estas son algunas de esas joyas:
- textstat: Para medir la legibilidad y simplicidad de los textos.
- lit-GPT: Un framework ligero para trabajar con grandes modelos de lenguaje.
- Transformers: Utilizado para prompting y finetuning de modelos avanzados.
- deepeval: Para evaluar la calidad y claridad de los textos generados por IA.
Un pequeño salto para mí, un gran paso para el lenguaje claro
El segundo Hackatón de lenguaje claro nos demostró que tenemos recursos de sobra, iniciativa, buenas ideas y cabezas pensantes como para poner en marcha proyectos de IA al servicio del lenguaje claro y accesible. Y todo un orgullo al ver que esas hormigas han salido de Cálamo & Cran se convierten a su vez en joyas que no tardarán en rifarse cualquier multinacional que busque a lingüistas computacionales de primera.
Seguimos testeando las webs de la Administración, desde las grandes hasta las pequeñas, que en más de una ocasión son un muro infranqueable. Pero seguimos probando, experimentando para tener una imagen real de la información que nos ofrecen a los ciudadanos, y cómo podría mejorarse aplicando lenguaje claro.
¡Nos vemos en el próximo hackatón!