Mesa sobre entrenamiento de IA en español y procesamiento del lenguaje natural.

CURSOS DE VERANO DE LA UNIVERSIDAD INTERNACIONAL MENÉNDEZ PELAYO

«Entrenamiento de IA en español y procesamiento del lenguaje natural»

8 de Julio de 2022

La Real Academia Española (RAE) organizó las jornadas sobre el español y la inteligencia artificial, enmarcadas en los cursos de verano de la Universidad Internacional Menéndez Pelayo (UIMP). La Academia, que ha ideado y lidera el proyecto LEIA (Lengua Española e Inteligencia Artificial), reunió a expertos y estudiosos en la materia con el fin de conocer cuál es el estado de nuestro idioma en la IA.  

Durante el primer día, tras la inauguración, tuvo lugar la conversación «Entrenamiento de IA en español y procesamiento del lenguaje natural», con Marta Guerrero, coordinadora del Instituto de Ingeniería del Conocimiento; Alfonso Ureña López, catedrático de Informática y presidente de la Sociedad Española para el Procesamiento del Lenguaje Natural, y Mercedes Sánchez, responsable técnica del CORPES (Corpus del Español del Siglo XXI) de la RAE.

Guerrero trabaja con el procesamiento del lenguaje natural desde el Instituto de Ingeniería del Conocimiento, en equipos multidisciplinares formados por lingüistas, matemáticos e informáticos. «Realizamos proyectos que tienen aplicación real en el mercado. Trabajamos en inteligencias artificiales con corpus anotados y entrenamos modelos a partir de ese procesamiento del lenguaje natural», explicó. RigoBERTa es un ejemplo de modelo de lenguaje español, el mayor corpus y de más calidad del Instituto, entrenado para la comprensión general de nuestro idioma, que se adapta a diferentes dominios del lenguaje para mejorar las aplicaciones del procesamiento del lenguaje natural (PLN) en ámbitos específicos.

Por su parte, Alfonso Ureña señaló que «la mayor parte de la información que se transmite y que manejamos no está estructurada. Hay grandes avances en la informática a través de bases datos, pero trabajar con el lenguaje humano es complicado». La tarea es crear sistemas que sean capaces de comprender, pero con la complejidad de que los ordenadores no son cerebros. Por eso son necesarios los «recursos lingüísticos de calidad, teniendo en cuenta que nuestra principal deficiencia es que tenemos recursos menores que en inglés».

«El lenguaje es y debe estar en el centro de nuestros esfuerzos para desarrollar la inteligencia artificial, y viceversa. De hecho, actualmente, la tecnología del lenguaje (TL) es posiblemente el campo más innovador de la IA con un impacto económico de crecimiento acelerado. Desarrollar la TL para el español es clave: el español es la segunda lengua con más hablantes nativos en el mundo y la tercera por número de hablantes, posición que se mantiene en los rankings de lenguas más usadas en las redes sociales. Debemos posicionar al español en el lugar que le corresponde también como lengua de intercambio económico», señaló Ureña.

Mercedes Sánchez, por su parte, explicó que la RAE lleva 300 años trabajando en corpus, ya que el mismo Diccionario de autoridades utilizó de base obras literarias. Son un «conjunto formado por miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, transcripciones de conversaciones, etc.) y cientos o miles de millones de formas. Son empleados para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico».

La responsable técnica del CORPES explicó que «la construcción de un corpus supone la integración de textos de acuerdo con un diseño determinado. Cada corpus, por tanto, tiene la configuración general que se corresponde a los objetivos con los que se construye. Un corpus de referencia, un corpus general, está diseñado para que pueda ser utilizado en una gran variedad de investigaciones sobre los más diversos fenómenos lingüísticos. El Corpus del Español del Siglo XXI (CORPES XXI) es un corpus de referenciaSus recursos siempre son anotados y detallados; son de calidad»

Sánchez considera que los corpus masivos «tienen la ventaja de que pueden recoger con relativa facilidad, son menos costosos y pueden alcanzar cifras de miles de millones de formas, etc. La desventaja principal frente a los corpus construidos mediante la selección específica, es decir, frente a un corpus de referencia, reside en la deficiente codificación (solo se puede añadir o reinterpretar aquello que ya está en el propio documento o en el servidor en el que reside) y la limitación en cuanto a los tipos de texto que se pueden descargar».

Uno de los principales obstáculos son los sesgos. Marta Guerrero insistió en que «todos tenemos sesgos y nos ayudan a decidir día a día. Muchos de ellos tienen que ver con el momento en el que se han escrito, usamos datos del pasado para hacer una proyección hacia el futuro y muchos de sus rasgos puede ser que no encajen».

Todos los ponentes insistieron en la necesidad de tener recursos lingüísticos de calidad para aprovechar la revolución que ya está en marcha. 

Galería de fotos

Entrenamiento de IA en español y procesamiento del lenguaje natural
cerrar

Buscador general de la RAE