Nueva interfaz y más funcionalidades: así es el nuevo CORPES 1.0

13 de Junio de 2023

Con respecto a la versión anterior, incorpora más de 15 millones de formas.

El Corpus del Español del Siglo XXI (CORPES XXI) ha publicado su renovada versión 1.0, que incluye una nueva interfaz mucho más intuitiva, e incorpora nuevas funcionalidades y utilidades, en especial las relacionadas con los tipos de resultados.

El sistema de búsquedas del CORPES permite la consulta por palabras ortográficas y por elementos gramaticales. Es posible crear subcorpus virtuales y seleccionar entre varios tipos de resultados: concordancias, estadísticas y, en esta nueva versión, obtener varios tipos de inventario de los resultados, con los datos correspondientes a su frecuencia absoluta y normalizada, por categoría gramatical, por lema, por forma, etc. Los inventarios pueden descargarse, lo que facilita su tratamiento en la investigación lingüística posterior.

Con respecto a los resultados estadísticos, en el CORPES 1.0 se incorporan gráficos más sugestivos, en los que resulta posible la geolocalización de formas o de elementos gramaticales en todos los países en los que se habla español.

NUEVA VERSIÓN, CON TEXTOS PRODUCIDOS HASTA 2023

A principios de este mes de junio se lanzó esta versión 1.0, con más de 365 000 documentos que suman alrededor de 395 millones de formas ortográficas procedentes de textos escritos y de transcripciones orales.

Con respecto a la versión anterior supone un incremento superior a 15 millones de formas; más de cuatro millones y medio de ellas proceden del parámetro oral; algunos archivos ofrecen el sonido alineado correspondiente a la transcripción; en otros, es posible la descarga del archivo de audio, además de la visualización del vídeo.

Por lo que respecta al bloque de Ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del CORPES sobrepasan los 105 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología...) sobrepasan los 284 millones. Los textos procedentes de libros suponen más de 186 millones de formas; las publicaciones periódicas están representadas con unos 195 millones. Algo más de ocho millones proceden de blogs, entrevistas digitales, redes sociales y miscelánea. Cronológicamente se incorporan unas 600 000 formas ya correspondientes a 2023; unos siete millones de 2022, y doce para 2021; aumenta también el número de textos producidos entre 2016 y 2020, con algo más de 72 millones de formas en esta versión. Por lustros, el mayor peso recae en el segmento 2006-2010, que sobrepasa los 108 millones de formas. Unos 102 millones corresponden a formas producidas entre 2001 y 2005; y de 2011 a 2015 se superan los 86 millones de formas. El equilibro previsto entre España y América (30 %-70 %) se mantiene: las formas producidas en textos correspondientes a España suponen algo más del 30 % y los de América alcanzan los 256 millones de formas.

HISTORIA DEL CORPES

En el XIII Congreso de la Asociación de Academias de la Lengua Española (ASALE), celebrado en Medellín en 2007, las academias acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES). Según el diseño aprobado, el CORPES debería constar de un conjunto de 25 millones de formas para cada uno de los años de 2001 en adelante, procedentes de textos de los más diversos tipos, y producidos en todos los países de habla hispana. Todos los textos deberían estar codificados (con indicaciones de autor, país, año, tipo, etc.) y todas las formas incluidas deberían recibir anotación morfosintáctica y lematización.

Hace diez años se presentó en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de 2013) la primera versión del CORPES. En diciembre de 2013 se publicó una versión provisional, la 0.6, que tenía ya algo más de 158 millones de formas.

Casi diez años después, el 28 de marzo de 2023, en el IX Congreso de la Lengua Española, celebrado en Cádiz, se presentó la versión 1.0 del CORPES con una interfaz totalmente renovada y con funcionalidades nuevas que facilitan la consulta y recuperación de datos lingüísticos.

UNA HERRAMIENTA ESENCIAL

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que el CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto lo más extenso y ordenado posible de textos. Los corpus son empleados habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.