En marzo de 2023 la RAE y el Defensor del Pueblo acordaron fomentar el lenguaje claro y accesible en la Administración. Propusieron auditar todas las webs del Estado. Pero auditar, ¿con qué criterios? ¿Cuál es la cantidad de webs y su masa de texto?
Para contestar a esta pregunta nos reunimos varios alumnos y formadores del Experto en Procesamiento del Lenguaje Natural en el primer hackathon de lenguaje claro de Cálamo & Cran, con muchas ganas y ordenadores en ristre. Mucho trabajo en equipo y la oportunidad de poner en práctica todo lo aprendido con un caso absolutamente real.
Como preparación previa, creamos un repositorio de GitHub, una plataforma de desarrollo colaborativo en la nube en el que incluimos material que podría resultar útil, como el Manual de estilo de lenguaje claro del Gobierno de Aragón, la Guía de lenguaje claro para la Generalitat Valenciana elaborada por Cálamo & Cran, muestras de textos administrativos y muestras de código en python. Este mismo repositorio nos sirvió también para guardar el resultado del trabajo realizado durante la jornada.
Empezamos la sesión con un ejercicio de lluvia de ideas, dividido en dos pasos. En el primero, intentamos capturar en notas de Miro –un espacio de trabajo online– las diferentes opciones que se nos ocurrían para abordar el tema. En el segundo, agrupamos las ideas por similitud, elegimos las que nos parecían más prometedoras y nos organizamos en grupos para trabajar sobre ellas.
Las áreas sobre las que trabajamos fueron:
- Cuantificación del volumen de textos de la Administración española: ¿Cuántas webs existen bajo el término «Administración», entre ministerios, ayuntamientos y otras entidades?
- Medición de la accesibilidad (y localizabilidad, es decir, la facilidad para encontrar la información) de las webs de la administración, particularmente aquellos aspectos que se refieren a la claridad del lenguaje.
- Empleo de grandes modelos de lenguaje para la reescritura de textos. Por una cuestión de disponibilidad, trabajamos con GPT 3.5 para un prototipado rápido.
A continuación, presentamos los resultados de cada grupo de trabajo.
Cuantificación del volumen de textos
Nos parecía fundamental tener una idea, aunque fuera aproximada, de la cantidad y de la longitud de los textos que nos podemos encontrar en las webs de la Administración.
Para abordar esta tarea preparamos un código que, dada una dirección URL, extraía los enlaces a los que apuntaba y el texto que contenían las páginas de dichos enlaces, y los guardaba en una tabla. A continuación, se aplicaban a estos textos estadísticas de lecturabilidad, según la fórmula de Fernández Huerta.
Probamos el programa con webs de varias comunidades, como Madrid o Aragón. Los resultados no fueron óptimos. Pudimos apreciar, por ejemplo, que se introducían saltos de línea innecesarios al limpiar las etiquetas html y esto distorsionaba las estadísticas. A pesar de esto, esta línea nos pareció bastante prometedora y planeamos seguir investigándola, con los ajustes necesarios.
Distribución de la lecturabilidad por archivo en la web www.aragon.es
Análisis de accesibilidad
La accesibilidad y localizabilidad es una parte fundamental del lenguaje claro. Este grupo de trabajo contó con la limitación de que, en el momento, solo pudimos identificar plugins de navegador que permitían analizar las webs manualmente, de una en una. Un punto pendiente es encontrar la manera de hacer estas comprobaciones de manera automática, aprovechando librerías como .
No obstante, con esta labor manual pudimos apreciar que había diferencias notables en cuanto a accesibilidad en las webs que analizamos.
Grandes modelos de lenguaje para reescritura de textos
Este grupo de trabajo creó un GPT personalizado al que se cargó el Manual de estilo de lenguaje claro de Aragón y el de la Generalitat Valenciana, como documentos de referencia, y se experimentó con el prompt del sistema para que el modelo reescribiera textos administrativos. Los resultados fueron muy prometedores y animan a seguir investigando en esta línea para intentar incorporar en la medida de lo posible modelos open-source, cuando resulten una alternativa viable a los comerciales.
Conclusiones
Auditar las webs del Estado va a requerir mucho trabajo previo que siga la línea propuesta en este primer hackathon. Sabemos que van a hacer falta muchos más profesionales, tan solo para hacerse una idea de la magnitud de este reto.
Desde Cálamo & Cran estamos aportando un modelo que se sostiene gracias los profesionales en PLN que ya hemos formado. Para cuando las administraciones empiecen a desarrollar sus planes de lenguaje claro, ya habremos formado a cientos de profesionales preparados para ayudarles a afrontarlo.
Por eso, tenemos la certeza de esta fue una primera toma de contacto muy esperanzadora. Al igual que Roma no se hizo en un día, este proyecto requerirá más hackathones.
Estad atentos, no os vayáis a perder el próximo.